Introducción y antecedentes
El uso de ontologías o jerarquías léxicas, que ofrecen representación de información semántica de unidades léxicas (clases semánticas y relaciones léxicas), se presenta como una estrategia robusta en Recuperación de Información (expansión de consultas, sistemas de búsqueda de respuesta, minería de datos), en Gestión del Conocimiento (indización de documentos), Traducción Automática (representación léxica de interlingua) y en Extracción Automática de Terminología (relevancia temática de los candidatos).
Consideramos pertinente abordar el enriquecimiento de un modelo de ontología, EuroWordNet (convertida por su amplio uso en lingüística computacional casi en un estándar), en ámbitos especializados, por el interés y oportunidad de desarrollo de nuevas aplicaciones en estos ámbitos especializados. Y proponemos hacerlo desde la extracción automática de terminología, en sendas adaptaciones de temática y de lengua de la herramienta YATE (Vivaldi 2001), porque disponer de un extractor de terminología eficiente y de amplio alcance nos ayudará en la constitución y actualización de recursos terminológicos básicos también para el resto de campos indicados (RI, TA, GC).
Además, los resultados de la investigación básica sobre unidades terminológicas en contexto de proyectos anteriores vinculados (TEXTERM2 y RICOTERM2) nos muestran que la información semántica y la combinatoria léxica son las más pertinentes para la extracción automática en ciertos ámbitos especializados, sobre todo en los discursos de humanidades y ciencias sociales, por cuanto no presentan singularidades de carácter morfológico ni sintáctico, al estar más cerca del discurso no especializado o común. Por otro lado, abordar la adaptación de una herramienta como YATE a una lengua tipológicamente distinta, como el vasco, nos obliga a priorizar la estrategia semántica por encima de otras estrategias lingüísticas del extractor, sobre todo por el consenso existente de conocimientos especializados entre lenguas distintas (y en derecho un marco jurídico compartido). Estos elementos nos sirven de hipótesis de partida para justificar la necesaria ampliación de un recurso como EWN hacia ámbitos especializados.
En proyectos anteriores, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), y TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada ( BFF2003-02111 ), se ha comprobado empíricamente la adecuación de la propuesta teórica por la que se pueden describir y explicar las unidades con valor terminológico como unidades del léxico de una lengua natural y basar su especificidad en la selección de características semánticas que se activan en el uso discursivo. En los textos pueden encontrarse pistas lingüísticas de los usos especializados. El conocimiento especializado de un texto puede formularse en términos de una red de nudos de conocimiento (representados por unidades léxicas de carácter terminológico o combinaciones sintácticas en las que aparece por lo menos una de estas unidades). Las pistas de las unidades que se usan con carácter especializado pueden ser de distinta naturaleza: uso de unidades morfológicas y léxicas específicas, frecuencia de uso de unidades morfológicas y léxicas con relación a su uso en discurso no especializado, combinaciones sintácticas específicas, cambio de valor sintácticos de algunas piezas léxicas. Son las condiciones pragmáticas las que activan la selección de unas u otras características de las unidades léxicas. Las unidades léxicas con valor terminológico pues son activaciones de posibles características contenidas en un lexicón. Estos resultados han sido publicados en distintos artículos y capítulos de libro del grupo IULATERM.
En la vertiente aplicada de la investigación, los diversos desarrollos de la herramienta YATE (Vivaldi 2001) son fruto de los proyectos anteriores del grupo y de algunas tesis doctorales vinculadas a estos proyectos :
En TEXTERM (2000-2003) se diseñó la herramienta, que combina información morfológica (formantes grecolatinos), sintáctica (patrones estructurales) y semántica (etiquetas procedentes de EuroWordnet) con estrategias estadísticas, y se construyó la primera versión para el castellano y la medicina (tesis doctoral J. Vivaldi 2002) y las adaptaciones para medicina (catalán) y genoma humano (catalán y castellano).
Bajo el paraguas de TEXTERM2 (2003-2006) se ha realizado una primera adaptación para el derecho y en catalán (tesis doctoral O. Domènech 2006) y en RICOTERM-2 (2004-2007) se han realizado las adaptaciones para la economía en catalán y en castellano (tesis doctoral en curso A. Joan) y se ha publicado un manual de adaptación de YATE a lengua y dominio especializado (Joan, Lorente, Domènech, Estopà y Vivaldi 2006 en prensa).
La adaptación de YATE a lengua y dominio mediante el enriquecimiento de EuroWordNet se concentra en la revisión manual de los synsets de EWN para la identificación de relaciones léxicas propias de ámbitos especializados para el establecimiento de las llamadas Fronteras de Dominio (FD) en el código de YATE. Las limitaciones de EWN en temáticas especializadas obliga en muchas ocasiones a introducir nuevos synsets para poder establecer las FD correspondientes en YATE. La evaluación constante de la herramienta, después de la introducción de nuevas FD, permite introducir nuevas mejoras paulatinamente hasta alcanzar los resultados deseables de cobertura y precisión.
Objetivos generales
Estos antecedentes inmediatos nos han dado la experiencia suficiente (y una metodología de trabajo eficiente) para poder abordar en un período de tres años las siguientes tareas:
- La compleción de la adaptación a derecho en catalán
- Las nuevas adaptaciones para el catalán en informática y medio ambiente
- Las nuevas adaptaciones para el castellano en derecho, informática y medio ambiente
- La compleción de recursos textuales de temática especializada para el vasco
- Análisis de etiquetas de procesamiento y establecimiento de protocolos para el intercambio de formatos, para que YATE pueda operar con el corpus textual procesado del vasco
- El establecimiento de diccionarios de equivalentes castellano-catalán-vasco para los distintos ámbitos temáticos y de expresiones identificadoras de relaciones conceptuales
- El enriquecimiento de EWN con datos del vasco sobre ámbitos de economía, medicina, derecho, informática y medio ambiente (para futuras adaptaciones de YATE)
- Evaluación de resultados de la aplicación de YATE a textos especializados y lenguas diversas
- Diseño e implementación de una nueva plataforma de acceso a la herramienta YATE, con aplicativos complementarios diversos sobre detección de relaciones conceptuales
El detalle de estas tareas se puede simplificar en los siguientes objetivos precisos :
- Herramienta de extracción automática de terminología YATE desarrollada para cubrir la extracción en 6 ámbitos temáticos y 3 lenguas (situación privilegiada en el estado del arte)
- Metodología de trabajo evaluada para la adaptación del extractor a nuevos ámbitos y nuevas lenguas. Evaluación contrastada de los resultados del extractor (control de calidad).
- Enriquecimiento de EuroWordNet en 6 ámbitos temáticos especializados y para 3 lenguas (impacto en otros proyectos)
- Accesibilidad a los recursos y herramientas creados y/o adaptados.
Objetivos de cada subproyecto y mecanismos de coordinación
Subproyecto 1 (UPF):
- La compleción de la adaptación de YATE a derecho en catalán. Ampliación de EWN. Evaluación de resultados.
- Las nuevas adaptaciones de YATE para el catalán en informática y mediambiente. Ampliación de EWN. Evaluación de resultados.
- Las nuevas adaptaciones para el castellano en derecho, informática y mediambiente. Ampliación de EWN. Evaluación de resultados.
- Análisis contrastivo de las etiquetas de procesamiento usadas para catalán-castellano y para el euskera (tarea compartida).
- Establecimiento de protocolos para el intercambio de formatos, a partir del análisis contrastivo de los etiquetarios usados.
- Listado de expresiones para la detección de relaciones conceptuales en catalán.
- Diseño e implementación de una nueva plataforma de acceso a la herramienta YATE, con aplicativos complementarios diversos sobre detección de relaciones conceptuales.
Subproyecto 2 (EHU):
- La compleción de recursos textuales de temática especializada para el vasco : corpora textuales de referencia en medicina, derecho, informática y medioambiente, mediante convenios de colaboración con instituciones y empresas.
- Procesamiento lingüístico de una muestra significativa de estos corpora (lematización , análisis morfológico y desambiguación).
- Análisis contrastivo de las etiquetas de procesamiento usadas para catalán-castellano y para el euskera (tarea compartida).
- El establecimiento de equivalentes vascos para los synsets incorporados en castellano y catalán en EWN (diccionario multilingüe).
- El enriquecimiento de EWN con datos del vasco sobre ámbitos de economía, medicina, derecho, informática y mediambiente (a partir del diccionario anterior).
- El establecimiento de equivalentes en euskera y en castellano a partir del listado de expresiones de relaciones conceptuales en catalán.
- Diseño y desarrollo de la página web del proyecto. Portal de recursos y herramientas utilizados en el proyecto.
Mecanismos de coordinación:
- Firma de un convenio para la cesión bilateral de recursos con finalidades de investigación.
- Reuniones conjuntas de los IP de cada subproyecto para la planificación de tareas, el intercambio de recursos, el seguimiento del calendario de trabajo y la difusión de resultados (plataforma de acceso, web del proyecto, publicación final, planificación de asistencia a congresos). Contactos con otros grupos de investigación del ámbito.
- Reuniones conjuntas de los técnólogos de ambos subproyectos sobre contraste de etiquetarios e intercambio de formatos.
- Reuniones conjuntas de los lingüistas de ambos subproyectos para la resolución conjunta de incidencias en la ampliación de EWN y en la construcción.