Subproyecto de la UPF-UPV
Objetivos propios
- La explotación del corpus de economía en lengua catalana.
- La constitución del corpus de economía para el euskera.
- La adaptación de herramientas de procesamiento existentes para el euskera.
- La localización y evaluación de ontologías y tesauros existentes en economía para poder ser reutilizados.
- La paralelización de corpus de traducción de las parejas inglés-castellano, catalán-inglés y castellano-catalán.
- La construcción de una ontología y/o la importación de datos de ontologías existentes.
- El diseño y la construcción de una base de datos terminológica multilingüe.
- El ingreso de datos terminológicos (formales, semánticos y fraseológicos) resultado de la explotación de los corpus del castellano, del catalán y del euskera.
Paquetes de trabajo
Primera anualidad
PT11.- Desarrollo del corpus de economía para el euskera. Localización de textos en formato electrónico, selección de textos y partición de muestras. Procesamiento de los textos. Incorporación al corpus técnico del IULA accesible mediante BWANANET.
- Resultado previsto: recurso lingüístico acabado y accesible.
- Ubicación: Constitución del corpus de economía en euskera en la UPV (San Sebastián); y marcaje estándar estructural y procesamiento lingüístico en el IULA-UPF (Barcelona).
- Coordinación: Dra. Zabala.
- Participantes: Dr. Odriozola, Dra. Bach., Dra. Elorduy.
- Colaboradores: un becario de colaboración.
- Asesoría externa: profesores de economía de la UPV. Movilidad prevista: dos reuniones (una preparatoria del proyecto en Barcelona, una de seguimiento del subproyecto en San Sebastián).
PT12. – Explotación del corpus de economía en castellano y en catalán. Extracción de información del corpus procesado sobre unidades léxicas, frecuencias, concordancias, etc. mediante BWANANET. Paralelización con ALINEA de la parte del corpus que contenga textos traducidos.
- Resultado previsto: Informes y representación de datos lingüísticos.
- Ubicación: IULA-UPF (Barcelona). Incluye la estancia de investigación postdoctoral de la Dra. Vangehuchten en el IULA.
- Coordinación: Dra. Vangehuchten.
- Participantes: Dra. Mercè Lorente Dr. Lluís de Yzaguirre, Dr. Tebé.
- Colaboradores: Sra. Joan, Sr. Quiroz.
PT13.- Licencia de diccionarios computacionales y de analizadores morfológicos ya existentes para el euskera. Adaptación de las herramientas licenciadas a la cadena de trabajo. Adaptación de los sistemas de etiquetado morfológico.
- Resultado previsto: Herramientas licenciadas, adaptadas y disponibles.
- Ubicación: UPV (San Sebastián) y UPF (Barcelona).
- Coordinación: Dr. Odriozola.
- Participantes del PT3: Dra. Bach, Dr. Lluís de Yzaguirre, Dra. Zabala, Dra. Elorduy.
- Asesoría externa: Grupo IXA de la UPV.
PT14.- Localización de tesauros documentales, ontologías, jerarquías léxicas existentes y reutilizables con información sobre economía. Evaluación de contenidos y de posibilidades de importación. Localización de glosarios de economía en formato electrónico.
- Resultado previsto: Informe.
- Ubicación: IULA-UPF (Barcelona).
- Coordinación: Dra. Mercè Lorente.
- Participantes del PT: Dra. Vangehuchten, Dr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan.
- Asesoría externa: Grupo DigiDoc del IULA, dirigido por el Dr. Lluís Codina; investigadores del proyecto TEXTERM-2 (BFF2003-02111) especialistas en ontologías.
PT15.- Diseño y constitución de recursos. Importación de diccionarios de economía al sistema MERCEDES. Diseño de la ontología y de la base de datos terminológica asociada mediante Ontoterm. Diseño de la página web del proyecto. Protocolos de transferencia entre gestores de bases de datos.
- Resultado previsto: Protocolos de trabajo para la constitución de la ontología y de la base de datos terminológica.
- Ubicación: IULA-UPF (Barcelona).
- Coordinación: Dra. Lorente.
- Participantes del PT2: Dr. Lluís de Yzaguirre, Dr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan, Sr. Quiroz.
- Asesoría externa: Investigadores del proyecto TEXTERM (BFF2000-0841) con experiencia en el diseño y la constitución del Banco de Conocimientos de Genoma Humano.
Segunda anualidad
PT21.- Enriquecimiento de recursos léxicos. Base de datos de predicados (verbos, adjetivos y nominalizaciones) de la economía con información semántica y fraseológica para incorporar a diccionarios de procesamiento del castellano, catalán y euskera. Incorporación de datos, por importación y ad hoc, en la base de datos terminológica multilingüe.
- Resultado previsto: Recursos lingüísticos acabados.
- Ubicación distribuida: IULA-UPF (Barcelona), UPV, Universidad de Amberes.
- Coordinación: Dra. Zabala.
- Participantes del PT2: Dra. Lorente, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Dr. Tebé.
- Colaboradores: Sra. Joan, Sr. Quiroz, un becario de colaboración.
- Asesoría externa: Grupo de investigación con experiencia en enriquecimiento de léxicos con datos semánticos: proyecto CLIPS del Istituto di Lingüística Computazionale de Pisa, dirigido por la Dra. Nicoletta Calzolari y coordinado por la Dra. Nilda Ruimy.
PT22.- Construcción de la ontología. Revisión de las importaciones de ontologías reutilizables a la ontología de base. Incorporación de sistemas de conceptos a partir de los datos resultantes del PT12.
- Resultado previsto: Recursos lingüísticos acabados.
- Ubicación distribuida: IULA-UPF (Barcelona), UPV, Universidad de Amberes.
- Coordinación: Dra. Lorente.
- Participantes del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Dr. Tebé.
- Colaboradores: Sra. Arano, Sra. Joan, un becario de colaboración.
- Asesoría externa: Dr. Antonio Moreno de la Universidad de Málaga, creador del gestor Ontoterm. Investigadores del proyecto TEXTERM (BFF2000-0841) con experiencia en el diseño y la constitución del Banco de Conocimientos de Genoma Humano.
Tercera anualidad
PT31.- Diseño de estrategias lingüísticas para las consultas de RI. Tipología de consultas de interacción entre la base de datos terminológica y la ontología. Estrategias basadas en fraseología específica o concordancias del corpus. Establecimiento de un corpus de consultas de prueba.
- Resultado previsto: Recursos lingüísticos acabados.
- Ubicación distribuida: IULA-UPF (Barcelona), UPV, Universidad de Amberes.
- Coordinación: Dra. Lorente.
- Participantes del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Colaboradores: Sra. Joan, un becario de colaboración.
- Asesoría externa: Grupo de investigación en RI del profesor Ricardo Baeza Yates (Universidad de Chile), grupo del proyecto TURSI de la Universitat Politècnica de València, dirigido por la Dra. Encarna Segarra.
PT32.- Pruebas de reelaboración de consultas con el sistema diseñado por el subproyecto de la USC. Análisis y evaluación de resultados.
- Resultado previsto: Informe de evaluación.
- Ubicación distribuida: IULA-UPF (Barcelona), UPV, Universidad de Amberes.
- Coordinación: Dra. Lorente.
- Participantes del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Colaboradores: Sra. Arano, un becario de colaboración.
- Otras colaboraciones: Universidad Politécnica de Madrid, doctorandos del grupo dirigido por la Dra. Guadalupe Aguado.
- Asesoría externa: Grupo de investigación en RI del profesor Ricardo Baeza Yates (Universidad de Chile), grupo del proyecto TURSI de la Universitat Politècnica de València, dirigido por la Dra. Encarna Segarra.
PT33.- Implementación de todos los recursos y del sistema de reelaboración de consultas en el portal web del proyecto.
- Resultado previsto: Portal del Banco de conocimientos sobre economía y del sistema de reelaboración de consultas accesible.
- Ubicación: IULA-UPF
- Coordinación: Dra. Lorente.
- Participantes del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Colaboradores: Sra. Joan, Sra. Arano, un becario de colaboración
- Asesoría externa: Grupo IULATERM, dirigido por la Dra. M. Teresa Cabré; grupo DigiDoc del IULA, dirigido por el Dr. Lluís Codina; grupo de la Dra. Guadalupe Aguado de la Universidad Politécnica de Madrid.
Subproyecto de la USC
Objetivos propios
- La constitución del corpus de economía para el gallego.
- La adaptación de herramientas de procesamiento existentes para el gallego.
- El ingreso de datos terminológicos (formales, semánticos y fraseológicos) resultado de la explotación de los corpus del castellano y del gallego.
- Creación de protocolos de importación de ontologías y tesauros existentes para el enriquecimiento automático de la ontología de economía.
Paquetes de trabajo
Primera anualidad
PT11.- Localización y adaptación de herramientas de procesamiento para el gallego. Diccionario, analizador morfológico y desambiguador. Adaptación de los sistemas de etiquetado morfológico.
- Resultado previsto: herramientas adaptadas y funcionales.
- Coordinación: Dra. María Sol López.
- Participantes: Eduardo Miguel Moscoso, M.ª Paula Santalla, Susana Sotelo, Guillermo Rojo.
- Participantes no miembros del equipo: Eva Domínguez, Fco. Mario Barcala
- Asesoría externa: investigadores del Centro de investigación en Humanidades Ramón Piñeiro, grupo Colo de la Universidad de Coruña.
PT12.- Desarrollo del corpus de economía para el gallego. Localización de textos en formato electrónico, selección de textos y partición de muestras. Marcaje estructural de los textos mediante SGML. Procesamiento lingüístico de los textos.
- Resultado previsto: recurso lingüístico acabado y accesible.
- Coordinación: Dra. María Sol López.
- Participantes: Eduardo Miguel Moscoso, Guillermo Rojo (localización y diseño del corpus), M.ª Paula Santalla, Susana Sotelo (marcaje estructural y procesamiento lingüístico).
- Participantes no miembros del equipo: Eva Domínguez.
- Asesoría externa: investigadores del Centro de investigación en Humanidades Ramón Piñeiro.
Segunda anualidad
PT21.- Análisis de posibilidades de importación de ontologías existentes en economía. Diseño de protocolos para su importación. Pruebas de importación.
- Resultado previsto: Informe. Protocolos de importación. Evaluación.
- Coordinación: Dra. María Paula Santalla.
- Participantes: Susana Sotelo, Guillermo Rojo.
- Participantes no miembros del equipo: Fco. Mario Barcala.
- Colaboradores: M.ª Sol López, Eduardo Miguel Moscoso
- Asesoría: IULA-UPF, investigadores del proyecto TEXTERM (BFF2000-0841).
PT22.- Explotación de los corpus (gallego y español) para el enriquecimiento de la base de datos terminológica y de la ontología.
- Resultado previsto: Informes y representación de datos lingüísticos.
- Coordinación: Guillermo Rojo.
- Participantes: M.ª Paula Santalla, Susana Sotelo, María Sol López, Eduardo Miguel Moscoso.
- Participantes no miembros del equipo: Eva Domínguez.
- Asesoría: IULA-UPF.
Tercera anualidad
PT31.- Diseño de un sistema de reelaboración de consultas, que transforme una consulta simple en una lengua en una consulta compleja y combinada multilingüe a partir de la extracción de datos de la BD terminológica y de la ontología. Salida de la consulta reelaborada hacia diversos motores de búsqueda y metabuscadores.
- Resultado previsto: sistema de reelaboración de consultas (versión beta).
- Coordinación: Dra. María Paula Santalla.
- Participantes: Susana Sotelo.
- Participantes no miembros del equipo: Fco Mario Barcala, Eva Domínguez.
- Colaboradores: Guillermo Rojo, María Sol López, Eduardo Miguel Moscoso.
- Asesoría externa: grupo Cole de la Universidad de Coruña.
PT32.- Fase de pruebas. Análisis y evaluación de resultados. Participación en la compleción del portal web, con el acceso al banco de conocimiento sobre economía, compuesto por corpus textual, BD terminológica y ontología y con la implementación del sistema de reelaboración de consultas.
- Resultado previsto: Informes, portal web, sistema de reelaboración de consultas depurado.
- Coordinador: Guillermo Rojo.
- Participantes: M.ª Paula Santalla, Susana Sotelo, M.ª Sol López, Eduardo Miguel Moscoso.
- Participantes no miembros del equipo: Fco Mario Barcala, Eva Domínguez.
- Asesoría externa: grupo Cole de la Universidad de Coruña.