Introducción y antecedentes

La Recuperación de Información (a partir de ahora RI) abarca diversas tecnologías que, aunque coincidentes en el objetivo general de obtener información filtrada a través de herramientas informáticas, persiguen objetivos bien diversos: búsqueda de documentos relevantes temáticamente en la Web, generación de resúmenes, minería de textos, enriquecimiento automático de diccionarios computacionales, extracción automática de terminología, motores de búsqueda para bases de datos documentales, etc.

La combinación de técnicas distintas se ha demostrado un planteamiento muy productivo en todas las tecnologías orientadas a la RI. Dentro de las técnicas utilizadas, junto con las estadísticas y las de machine learning, destacan las basadas en estrategias lingüísticas. No obstante, la interacción de recursos lingüísticos y de herramientas de análisis lingüístico se ha practicado básicamente en algunas de las técnicas de RI. Concretamente la cadena de procesamiento del lenguaje natural (PLN), en la secuencia de lematización, etiquetado morfológico, análisis sintáctico y desambiguación, puede dar buenos resultados en sistemas de RI que actúan sobre conjuntos de datos previamente delimitados (textos, bases de datos documentales, corpus textuales, bancos de conocimiento), como la generación de resúmenes, el enriquecimiento automático de diccionarios computacionales o la extracción automática de terminología. Una vez delimitada la fuente documental que se usará para la RI, el etiquetado estructural (SGML o XML) de los textos y los etiquetados con información morfológica y, en los últimos años y para algunas lenguas, con información sintáctica de las unidades léxicas y de las estructuras sintagmáticas de esa fuente documental permiten la aplicación de estrategias de RI que ofrecen un output de mayor precisión. Por otro lado, en la RI sobre corpus textuales y bases de datos documentales delimitadas el nivel de ruido ya suele ser muy reducido porqué se trata de fuentes seleccionadas temáticamente y con criterios documentales. Así, la cadena de PLN se va expandiendo en proyectos de extracción de terminología, de generación de resúmenes y de adquisición automática del léxico, desde el análisis sintáctico hacia los etiquetados semánticos y pragmáticos, que permitan una RI sobre fuentes delimitadas mucho más relevante de la que actualmente disponemos.

En cambio en la RI orientada a fuentes ilimitadas, como Internet, el procesamiento lingüístico extensivo parece inabordable. No podemos procesar lingüísticamente todas las páginas publicadas en la red, ni siquiera podemos hacerlo con los amplios resultados que se originan en una búsqueda. Por otro lado, además de un proceso inabordable no parece que sea pertinente si aquello que se busca son informaciones generales sobre un tema o un conjunto de documentos que nos ilustren sobre ese tema. En este tipo de RI, ni los analizadores morfológicos, ni los sintácticos, ni los diccionarios computacionales de procesamiento pueden aplicarse directamente de manera extensiva. El conocimiento lingüístico se ha utilizado en sistemas de RI en Internet fundamentalmente en la indización de documentos y en la expansión de consultas. Es relevante para un proyecto como este la investigación que se viene desarrollando en la indización, y últimamente en metadatos y Web semántica, en relación al desarrollo de jerarquías léxicas (ej. Wordnet), de ontologías conceptuales (ej. Mykrokosmos), de taxonomías documentales (ej. Delphy), como sistemas de control documental y para indizar documentos a partir de acepciones de significado y no de denominaciones ambiguas. Las herramientas de procesamiento del lenguaje natural se han usado también en la expansión de consultas, fundamentalmente para la conversión de un término de consulta en un conjunto de términos asociados morfológicamente.

El problema radica en el hecho que cuando un usuario busca información en la red sobre un tema suele realizar consultas simples, y únicamente en casos excepcionales, las hace complejas o combinadas. Los resultados de estas búsquedas, aunque han llegado a grados de precisión muy altos mediante los motores de búsqueda basados en estrategias matemáticas y la expansión de consultas de carácter lingüístico, no consiguen alcanzar el nivel de pertinencia que desearían los usuarios. Por ejemplo, un usuario que desee información sobre la evolución de determinados valores en las principales bolsas mundiales en los últimos 5 años, aunque realice una consulta bastante compleja (valores concretos, evolución de los valores, bolsa de valores, ciudades de las bolsas más importantes, etc.) lo máximo que conseguirá será una lista de documentos donde probablemente, pero no con seguridad, encontrará la información que busca de manera parcial. El único contraejemplo sería que existiera un sitio Web dedicado exclusivamente a este tipo de estudios sobre las bolsas y que estuviera suficientemente bien indexado para que el buscador la situara entre los primeros resultados de la búsqueda.

En esta línea, últimamente la investigación de RI para fuentes ilimitadas se ha orientado hacia la llamada Web semántica, que puede mejorar ostensiblemente la indexación de los sitios y de las páginas Web a partir de sus contenidos, mediante los denominados metadatos. Esta es una vía de futuro que sitúa la solución en la fuente misma de la información y no en las herramientas de búsqueda. De hecho es un procedimiento similar al que, desde hace muchos años, se viene realizando en bases de datos documentales (contexto entero o con índices de revistas), en los que las fuentes y sus contenidos están previamente indexados mediante tesauros, palabras clave, vocabularios de control, indicadores automáticos, etc.

Nuestra propuesta de proyecto engarza con las dos tradiciones que hemos expuesto en RI: Primero, se prevé el desarrollo de recursos lingüísticos, como se ha hecho para la RI sobre corpus delimitados; y, en segundo lugar, se pone énfasis en los aspectos semánticos fundamentales para la RI relevante. El desarrollo de recursos tiene dos finalidades en este proyecto:

Por un lado, nos proponemos reutilizar o desarrollar recursos textuales (un corpus de economía multilingüe) para extraer información específica sobre unidades terminológicas, sobre relaciones entre estas unidades, fraseología específica, combinatoria léxica, que nos iluminen sobre significados y sobre usos de estas estructuras. El resultado será un corpus de economía en inglés, castellano, catalán, gallego y euskera, marcado estructuralmente con formatos estándares y procesado lingüísticamente. Estos recursos lingüísticos tienen la finalidad de poder extraer información real y pertinente sobre formas, significados y relaciones lingüísticas relevantes en el discurso de la economía, para poder diseñar y construir otros recursos lingüísticos más específicos y orientados a la RI.
A continuación, con la información extraída, básica también para la descripción y la explicación de cómo es el discurso especializado, en concreto en economía dentro de las ciencias sociales, se construirán otros recursos lingüísticos, usuales en técnicas de RI, como una ontología de conceptos y una base de datos terminológica multilingüe vinculada a la ontología. El énfasis de la semántica se da precisamente en este tipo de recursos, ya que son fundamentales para una RI relevante la definición de significados específicos de unidades léxicas y de combinaciones léxicas y el establecimiento de relaciones semánticas múltiples entre unidades y combinatorias. El resultado será una ontología de la economía (preferiblemente de una rama de la economía a determinar) y una base de datos vinculada donde se ubicará información gramatical, contextos ilustrativos, definiciones, equivalentes en todas las lenguas de trabajo, variantes y sinónimos en cada una de las lenguas y fraseología relacionada.

Sobre estos recursos, desarrollados durante las dos primeras anualidades del proyecto, se fundamenta el diseño de un Reelaborador de Consultas para Buscadores de Internet (RECBI). La idea de este sistema es reutilizar la información validada de la ontología y de la base de datos terminológica para transformar una consulta simple de un usuario tipo en una consulta compleja para ser lanzada a un buscador de Internet y que el resultado mejore en precisión. Basamos esta idea en trabajos sobre las necesidades de los usuarios de Internet y evaluación de sistemas de RI desde el punto de vista de los usuarios, realizados por documentalistas especializados en RI, y también en la expansión de consultas entre términos semánticamente relacionados.

Uno de los aspectos cruciales en este proyecto es la idea de la reutilización de recursos en todas las direcciones. Teniendo en cuenta que los recursos que nos proponemos desarrollar son la base para la aplicación de un sistema de reelaboración de consultas y no una finalidad en ellos mismos, se prevé localizar, adaptar y reutilizar aquellos recursos existentes que puedan ser incorporados al proyecto. Así en la constitución de los corpus textuales iniciales tomamos en consideración que algunos de estos recursos son ya existentes para el castellano y el catalán (Corpus técnico del IULA-UPF), y tan solo nos proponemos desarrollar recursos similares para el gallego y el euskera. Además para constituir estos corpus de economía se pretende reutilizar, en la medida de lo posible, algunas muestras de otros corpus textuales de carácter general ya existentes para estas lenguas (corpus de prensa, corpus lexicográficos, textos digitalizados, etc.). El grupo ya dispone de herramientas para el procesamiento de los corpus para el castellano y el catalán y se prevé licenciar herramientas existentes para el euskera (diccionario, analizador morfológico y desambiguador de base lingüística) y licenciar herramientas existentes para el gallego o bien adaptar al gallego herramientas desarrolladas ya para el catalán y el castellano. El grupo dispone también de un extractor automático de terminología, con tecnología independiente de lenguas, que, si es necesario para facilitar el enriquecimiento de la ontología y de la base de datos terminológica, puede ser adaptada a cada una de las lenguas del proyecto y específicamente para el ámbito discursivo de la economía. En otra dirección, los recursos resultantes de este proyecto (corpus de economía en las cuatro lenguas del Estado, una ontología y una base de datos terminológicos) podrán ser utilizados en estudios lingüísticos para cada una de las lenguas del proyecto o bien para estudios transversales sobre el discurso especializado de la economía y la terminología propia de este ámbito. Otras utilizaciones de estos recursos resultantes pueden ser la actualización de diccionarios o el seguimiento de la neología.

Aunque se trate de un proyecto eminentemente aplicado, hay aspectos innegables de investigación básica en lingüística (análisis del discurso, semántica de predicados, sintaxis del léxico, semántica léxica, neología). Uno de estos aspectos, tal vez el más relevante, en este proyecto es el análisis de aspectos semánticos y pragmáticos de las unidades léxicas que presentan valor especializado en el discurso de la economía. Las razones hay que buscarlas en la misma configuración de la terminología propia de las ciencias humanas y sociales. Algunos ámbitos científicos, como la biología, la medicina, la química o la geología, presentan una terminología nominal muy específica, con abundancia en formas derivadas y compuestas, específicas y de uso frecuente o exclusivo en estos ámbitos, que permite ser detectada automáticamente con cierta facilidad (ejemplos: carbonitrurizar, adenosina trifosfato, mononucleosis). A diferencia de estos ámbitos, la terminología de las ciencias humanas y sociales no suele presentar características formales distintivas, sino que se basa en el cambio semántico de palabras de uso común (ejemplos de la economía: bolsa, dinero, valor, tasa, incremento), al lado de algunos casos propios del ámbito que también suelen usarse en la comunicación no marcada temáticamente (inflación, devaluación, costes, beneficio). Con este tipo de material terminológico, la tarea de detectar e identificar unidades terminológicas se hace más difícil, porqué no tiene resortes de carácter formal (filtros morfológicos), y esta dificultad se traslada también a las herramientas informáticas como las dedicadas a la extracción automática de terminología o a la adquisición automática de léxico. Trabajar en terminología de las ciencias humanas y sociales, además de plantearse como un reto interesante para las aplicaciones, nos abre toda una vía de estudio de las conexiones entre discurso común y discurso especializado, de la polisemia de las unidades léxicas, de las metáforas usadas en la creación del léxico, de la variación interna y externa del léxico, de la fraseología o combinatoria léxica como elemento detector de unidades con valor terminológico, etc.

En síntesis, consideramos que tanto el estado actual de la tecnología en ingeniería lingüística y en sistemas de RI como el estado actual de las investigaciones básicas y aplicadas en RI, en terminología y en representación semántica (bases de datos léxicas, ontologías, jerarquías léxicas, tesauros) nos sitúa en un punto propicio para hacer un avance integrador, que haga posible mejorar la eficacia de los motores de búsqueda en Internet. La reutilización de recursos lingüísticos existentes y el desarrollo de recursos complementarios nos permitirá asegurar, con pocos costes, el diseño de estrategias lingüísticas eficaces para la RI y poner a disposición pública un conjunto de recursos multilingües para el ámbito de la economía, a través de un sitio Web desde el que se pueda acceder a todos los recursos desarrollados en el proyecto (corpus textuales, ontología, base de datos terminológica multilingüe y sistema RECBI para consultas a Internet), a la manera de los portales especializados.

Objetivos generales

Diseño de un sistema de reelaboración de consultas para buscadores de Internet multilingüe (RECBI), con información semántica y formal extraída de una ontología y de una base de datos terminológica.
Construcción de una ontología para el ámbito de la economía, con información semántica y pragmática derivada de la consulta de corpus textuales reales, y vinculada a la BDT.
Constitución de una base de datos terminológica multilingüe en inglés, castellano, catalán, euskera y gallego sobre economía, con definiciones, información gramatical, fraseología asociada, variantes y remisiones, vinculada a la ontología.
Constitución de corpus textuales de economía en gallego y en euskera, similares a los existentes para el catalán, el castellano y el inglés en el Corpus Técnico del IULA-UPF. Corpus marcados estructuralmente con estándares y procesados lingüísticamente, para extraer la información relevante para la construcción de la ontología y de la BDT multilingüe.
Adaptación de herramientas de procesamiento existentes para el gallego y el euskera para procesar los corpus textuales.
Adaptación del extractor automático de terminología YATE al ámbito de la economía y a las lenguas del proyecto.
Investigación básica sobre descripción de la terminología y del discurso de especialidad en economía e investigación básica de carácter teórico sobre el discurso de las ciencias sociales y los aspectos semánticos asociados.

Los 7 objetivos generales que acabamos de exponer se resumen en tres grandes bloques:

Desarrollo de recursos y de herramientas. Adaptación y reutilización de recursos existentes.
Trabajo en el ámbito de la RI, con el diseño de un sistema de reelaboración de consultas, basado en la idea de expansión de consultas con información semántica y formal extraída de recursos específicos para la economía.
Avances en la descripción y en la teoría de la terminología dentro de una perspectiva lingüística.

Objetivos compartidos entre los dos proyectos

La explotación del corpus de economía en lengua castellana.
El diseño de estrategias lingüísticas de reelaboración de consultas basadas en la interacción de los recursos lingüísticos constituidos.
Diseño del sistema de reelaboración de consultas.
La constitución de un sitio web multilingüe que incluya información sobre el proyecto, que permita el acceso público a los recursos constituidos (banco de conocimientos sobre economía) y que ubique el sistema de reelaboración de consultas para que los usuarios puedan enviar desde allí sus consultas a cualquier motor de búsqueda de Internet.

Se prevén diversos mecanismos de coordinación que aseguren la viabilidad del proyecto coordinado y la calidad de los resultados:

Protocolos de trabajo para la constitución de recursos.
Sesiones de formación de los investigadores y colaboradores participantes
Reuniones generales entre los dos subproyectos en Barcelona y en Santiago
Reuniones específicas dentro del subproyecto UPF-UPV en Barcelona y en San Sebastián.
Estancia de investigación de la Dra. Lieve Vangehuchten en Barcelona. Seminario de investigación sobre el discurso económico en español.
Implementación progresiva de los materiales y de los resultados de los subproyectos en un formato común en la ontología, en la base de datos, en el sitio Web del proyecto.
Establecimiento de asesoría externa para cada uno de los objetivos generales, mediante el contacto con grupos nacionales y extranjeros afines y que sobre todo aseguren el refuerzo de la multidisciplinariedad con el aporte tecnológico y documental.