Subproxecto da UPF-UPV
Obxectivos propios
- A explotación do corpus de economía en lingua catalá.
- A constitución do corpus de economía para o éuscaro.
- A adaptación de ferramentas de procesamento existentes para o éuscaro.
- A localización e avaliación de ontoloxías e thesaurus existentes en economía para poderen ser reutilizados.
- A paralelización de corpus de tradución das parellas inglés-castelán, catalán-inglés e castelán-catalán.
- A construción dunha ontoloxía e/ou a importación de datos de ontoloxías existentes.
- O deseño e a construción dunha base de datos terminolóxica multilingüe.
- O ingreso de datos terminolóxicos (formais, semánticos e fraseolóxicos) resultado da explotación dos corpus do castelán, do catalán e do éuscaro.
Paquetes de traballo
Primeira anualidade
PT11.- Desenvolvemento do corpus de economía para o éuscaro. Localización de textos en formato electrónico, selección de textos e partición de mostras. Procesamento dos textos. Incorporación ó corpus técnico do IULA accesible mediante BWANANET.
- Resultado previsto: recurso lingüístico acabado e accesible.
- Localización: Constitución do corpus de economía en éuscaro na UPV (San Sebastián); e marcaxe estándar estrutural e procesamento lingüístico no IULA-UPF (Barcelona).
- Coordinación: Dra. Zabala.
- Participantes: Dr. Odriozola, Dra. Bach, Dra. Elorduy.
- Colaboradores: un bolseiro de colaboración.
- Asesoría externa: profesores de economía da UPV. Mobilidade prevista: dúas reunións (unha preparatoria do proxecto en Barcelona, unha de seguimento do subproxecto en San Sebastián).
PT12.- Explotación do corpus de economía en castelán e en catalán. Extracción de información do corpus procesado sobre unidades léxicas, frecuencias, concordancias, etc. mediante BWANANET. Paralelización con ALINEA da parte do corpus que conteña textos traducidos.
- Resultado previsto: Informes e representación de datos lingüísticos.
- Localización: IULA-UPF (Barcelona). Inclúe a estadía de investigación posdoutoral da Dra. Vangehuchten no IULA.
- Coordinación: Dra. Vangehuchten.
- Participantes: Dra. Mercè Lorente Dr. Lluís de Yzaguirre, Sr. Tebé.
- Colaboradores: Sra. Joan, Sr. Quiroz.
PT13.- Licenza de dicionarios computacionais e de analizadores morfolóxicos xa existentes para o éuscaro. Adaptación das ferramentas licenciadas á cadea de traballo. Adaptación dos sistemas de etiquetado morfolóxico.
- Resultado previsto: Ferramentas licenciadas, adaptadas e dispoñibles.
- Localización: UPV (San Sebastián) e UPF (Barcelona).
- Coordinación: Dr. Odriozola.
- Participantes do PT3: Dra. Bach, Dr. Lluís de Yzaguirre, Dra. Zabala, Dra. Elorduy.
- Asesoría externa: Grupo IXA da UPV.
PT14.- Localización de thesaurus documentais, ontoloxías, xerarquías léxicas existentes e reutilizables con información sobre economía. Avaliación de contidos e de posibilidades de importación. Localización de glosarios de economía en formato electrónico.
- Resultado previsto: Informe.
- Localización: IULA-UPF (Barcelona).
- Coordinación: Dra. Mercè Lorente.
- Participantes do PT: Dra. Vangehuchten, Sr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan.
- Asesoría externa: Grupo DigiDoc do IULA, dirixido por el Dr. Lluís Codina; investigadores do proxecto TEXTERM-2 (BFF2003-02111) especialistas en ontoloxías.
PT15.- Deseño e constitución de recursos. Importación de dicionarios de economía ó sistema MERCEDES. Deseño da ontoloxía e da base de datos terminolóxica asociada mediante Ontoterm. Deseño da páxina web do proxecto. Protocolos de transferencia entre xestores de bases de datos.
- Resultado previsto: Protocolos de traballo para a constitución da ontoloxía e da base de datos terminolóxica.
- Localización: IULA-UPF (Barcelona).
- Coordinación: Dra. Lorente.
- Participantes do PT2: Dr. Lluís de Yzaguirre, Sr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan, Sr. Quiroz.
- Asesoría externa: Investigadores do proxecto TEXTERM (BFF2000-0841)
con experiencia no deseño e a constitución do Banco de Coñecementos
do Xenoma Humano.
Segunda anualidade
PT21.- Enriquecemento de recursos léxicos. Base de datos de predicados (verbos, adxectivos e nominalizacións) da economía con información semántica e fraseolóxica para incorporar a dicionarios de procesamento do castelán, catalán e éuscaro. Incorporación de datos, por importación e ad hoc, na base de datos terminolóxica multilingüe.
- Resultado previsto: Recursos lingüísticos acabados.
- Localización distribuída: IULA-UPF (Barcelona), UPV, Universidade de Amberes.
- Coordinación: Dra. Zabala.
- Participantes do PT2: Dra. Lorente, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Sr. Tebé.
- Colaboradores: Sra. Joan, Sr. Quiroz, un bolseiro de colaboración.
- Asesoría externa: Grupo de investigación con experiencia en enriquecemento de léxicos con datos semánticos: proxecto CLIPS do Istituto di Lingüística Computazionale de Pisa, dirixido pola Dra. Nicoletta Calzolari e coordinado pola Dra. Nilda Ruimy.
PT22.- Construción da ontoloxía. Revisión das importacións de ontoloxías reutilizables á ontoloxía de base. Incorporación de sistemas de conceptos a partir dos datos resultantes do PT12.
- Resultado previsto: Recursos lingüísticos acabados.
- Localización distribuída: IULA-UPF (Barcelona), UPV, Universidade de Amberes.
- Coordinación: Dra. Lorente. Participantes do PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Sr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan, un bolseiro de colaboración.
- Asesoría externa: Dr. Antonio Moreno da Universidad de Málaga, creador do xestor Ontoterm. Investigadores do proxecto TEXTERM (BFF2000-0841) con experiencia no deseño e a constitución do Banco de Coñecementos de Xenoma Humano.
Terceira anualidade
PT31.- Deseño de estratexias lingüísticas para as consultas de RI. Tipoloxía de consultas de interacción entre a base de datos terminolóxica e a ontoloxía. Estratexias baseadas en fraseoloxía específica ou concordancias do corpus. Establecemento dun corpus de consultas de proba.
- Resultado previsto: Recursos lingüísticos acabados.
- Localización distribuída: IULA-UPF (Barcelona), UPV, Universidade de Amberes.
- Coordinación: Dra. Lorente. Participantes do PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Sr. Tebé.
- Colaboradores: Sra. Joan, un bolseiro de colaboración.
- Asesoría externa: Grupo de investigación en RI do profesor Ricardo Baeza Yates (Universidad de Chile), grupo do proxecto TURSI da Universitat Politècnica de València, dirixido pola Dra. Encarna Segarra.
PT32.- Probas de reelaboración de consultas co sistema deseñado polo subproxecto da USC. Análise e avaliación de resultados.
- Resultado previsto: Informe de avaliación.
- Localización distribuída: IULA-UPF (Barcelona), UPV, Universidade de Amberes.
- Coordinación: Dra. Lorente.
- Participantes do PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Sr. Tebé.
- Colaboradores: Sra. Arano, un bolseiro de colaboración.
- Outras colaboracións: Universidad Politécnica de Madrid, doutorandos do grupo dirixido pola Dra. Guadalupe Aguado.
- Asesoría externa: Grupo de investigación en RI do profesor Ricardo Baeza Yates (Universidad de Chile), grupo do proxecto TURSI da Universitat Politècnica de València, dirixido pola Dra. Encarna Segarra.
PT33.- Implementación de todos os recursos e do sistema de reelaboración de consultas no portal web do proxecto.
- Resultado previsto: Portal do Banco de coñecementos sobre economía e do sistema de reelaboración de consultas accesible.
- Localización: IULA-UPF
- Coordinación: Dra. Lorente.
- Participantes do PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Sr. Tebé.
- Colaboradores: Sra. Joan, Sra. Arano, un bolseiro de colaboración
- Asesoría externa: Grupo IULATERM, dirixido pola Dra. M. Teresa Cabré; grupo DigiDoc do IULA, dirixido polo Dr. Lluís Codina; grupo da Dra. Guadalupe Aguado da Universidad Politécnica de Madrid.
Subproyecto da USC
Obxectivos propios
- A constitución do corpus de economía para o galego.
- A adaptación de ferramentas de procesamento existentes para o galego.
- O ingreso de datos terminolóxicos (formais, semánticos e fraseolóxicos) resultado da explotación dos corpus do castelán e do galego.
- Creación de protocolos de importación de ontoloxías e thesaurus existentes para o enriquecemento automático da ontoloxía de economía.
Paquetes de traballo
Primeira anualidade
PT11.- Localización e adaptación de ferramentas de procesamento para o galego. Dicionario, analizador morfolóxico e desambiguador. Adaptación dos sistemas de etiquetado morfolóxico.
- Resultado previsto: ferramentas adaptadas e funcionais.
- Coordinación: Dra. María Sol López.
- Participantes: Eduardo Moscoso, M.ª Paula Santalla, Susana Sotelo, Guillermo Rojo.
- Participantes non membros do equipo: Eva Domínguez, Fco. Mario Barcala.
- Asesoría externa: investigadores do Centro de Investigación en Humanidades Ramón Piñeiro, grupo Colo da Universidade da Coruña.
PT12.- Desenvolvemento do corpus de economía para o galego. Localización de textos en formato electrónico, selección de textos e partición de mostras. Marcaxe estrutural dos textos mediante SXML. Procesamento lingüístico dos textos.
- Resultado previsto: recurso lingüístico acabado e accesible.
- Coordinación: Dra. María Sol López.
- Participantes: Eduardo Moscoso, Guillermo Rojo (localización e deseño do corpus), M.ª Paula Santalla, Susana Sotelo (marcaxe estrutural e procesamento lingüístico).
- Participantes non membros do equipo: Eva Domínguez.
- Asesoría externa: investigadores do Centro de Investigación en Humanidades Ramón Piñeiro.
Segunda anualidade
PT21.- Análise de posibilidades de importación de ontoloxías existentes en economía. Deseño de protocolos para a súa importación. Probas de importación.
- Resultado previsto: Informe. Protocolos de importación. Avaliación.
- Coordinación: Dra. María Paula Santalla.
- Participantes: Susana Sotelo, Guillermo Rojo.
- Participantes non membros del equipo: Fco. Mario Barcala.
- Colaboradores: M.ª Sol López, Eduardo Moscoso
- Asesoría: IULA-UPF, investigadores do proxecto TEXTERM (BFF2000-0841).
PT22.- Explotación dos córpora (galego e castelán) para o enriquecemento da base de datos terminolóxica e da ontoloxía.
- Resultado previsto: Informes e representación de datos lingüísticos.
- Coordinación: Guillermo Rojo.
- Participantes: M.ª Paula Santalla, Susana Sotelo, María Sol López, Eduardo Moscoso.
- Participantes non membros do equipo: Eva Domínguez.
- Asesoría: IULA-UPF.
Terceira anualidade
PT31.- Deseño dun sistema de reelaboración de consultas, que transforme unha consulta simple nunha lingua nunha consulta complexa e combinada multilingüe a partir da extracción de datos da BD terminolóxica e da ontoloxía. Saída da consulta reelaborada cara a diversos motores de busca e metabuscadores.
- Resultado previsto: sistema de reelaboración de consultas (versión beta).
- Coordinación: Dra. María Paula Santalla.
- Participantes: Susana Sotelo.
- Participantes non membros do equipo: Fco Mario Barcala, Eva Domínguez.
- Colaboradores: Guillermo Rojo, María Sol López, Eduardo Moscoso.
- Asesoría externa: grupo Cole da Universidade da Coruña.
PT32.- Fase de probas. Análise e avaliación de resultados. Participación para completar o portal web, co acceso ó banco de coñecemento sobre economía, composto por corpus textual, BD terminolóxica e ontoloxía e coa implementación do sistema de reelaboración de consultas.
- Resultado previsto: Informes, portal web, sistema de reelaboración de consultas depurado.
- Coordinador: Guillermo Rojo.
- Participantes: M.ª Paula Santalla, Susana Sotelo, M.ª Sol López, Eduardo Moscoso.
- Participantes non membros do equipo: Fco Mario Barcala, Eva Domínguez.
- Asesoría externa: grupo Cole da Universidade da Coruña.