Introdución e antecedentes
A Recuperación de Información (a partir de agora RI) abarca diversas tecnoloxías que, aínda que coinciden no obxectivo xeral de obter información filtrada a través de ferramentas informáticas, perseguen obxectivos ben diversos: busca de documentos relevantes tematicamente na web, xeración de resumos, minaría de textos, enriquecemento automático de dicionarios computacionais, extracción automática de terminoloxía, motores de busca para bases de datos documentais, etc.
A combinación de técnicas distintas resultou ser unha metodoloxía moi produtiva en todas as tecnoloxías orientadas á RI. Dentro das técnicas utilizadas, xunto coas estatísticas e as de machine learning, destacan as baseadas en estratexias lingüísticas. Non obstante, a interacción de recursos lingüísticos e de ferramentas de análise lingüística aplicouse basicamente nalgunhas das técnicas de RI. Concretamente, a cadea de procesamento da linguaxe natural (PLN) na secuencia de lematización, etiquetaxe morfolóxica, análise sintáctica e desambiguación pode dar bos resultados en sistemas de RI que actúan sobre conxuntos de datos previamente delimitados (textos, bases de datos documentais, corpus textuais, bancos de coñecemento), como a xeración de resumos, o enriquecemento automático de dicionarios computacionais ou a extracción automática de terminoloxía. Unha vez delimitada a fonte documental que se usará para a RI, a etiquetaxe estrutural (SGML ou XML) dos textos e as etiquetaxes con información morfolóxica e, nos últimos anos e para algunhas linguas, con información sintáctica das unidades léxicas e das estruturas sintagmáticas desa fonte documental permiten a aplicación de estratexias de RI que ofrecen un output de maior precisión. Por outro lado, na RI sobre corpus textuais e bases de datos documentais delimitadas, o nivel de ruído xa adoita ser moi reducido porque se trata de fontes seleccionadas tematicamente e con criterios documentais. Así, a cadea de PLN vaise expandindo en proxectos de extracción de terminoloxía, de xeración de resumos e de adquisición automática do léxico, dende a análise sintáctica ata as etiquetaxes semánticas e pragmáticas, que permitan unha RI sobre fontes delimitadas moito máis relevante cá actualmente dispoñible.
En cambio, na RI orientada a fontes ilimitadas, como Internet, o procesamento lingüístico extensivo parece inabordable. Non podemos procesar lingüisticamente todas as páxinas publicadas en Internet, nin sequera podemos facelo cos amplos resultados que se orixinan nunha busca. Por outro lado, ademais dun proceso inabordable non parece que sexa pertinente se aquilo que se busca son informacións xerais sobre un tema ou un conxunto de documentos que nos ilustren sobre ese tema. Neste tipo de RI, nin os analizadores morfolóxicos, nin os sintácticos, nin os dicionarios computacionais de procesamento poden aplicarse directamente de xeito extensivo. O coñecemento lingüístico utilizouse en sistemas de RI en Internet fundamentalmente na indexación de documentos e na expansión de consultas. É relevante para un proxecto como este a investigación que se vén desenvolvendo na indexación, e ultimamente en metadatos e web semántica, en relación co desenvolvemento de xerarquías léxicas (p. ex. Wordnet), de ontoloxías conceptuais (p. ex. Mykrokosmos) e de taxonomías documentais (p. ex. Delphy) como sistemas de control documental e para indexar documentos a partir de acepcións de significado e non de denominacións ambiguas. As ferramentas de procesamento da linguaxe natural usáronse tamén na expansión de consultas, fundamentalmente para a conversión dun termo de consulta nun conxunto de termos asociados morfoloxicamente.
O problema radica no feito de que cando un usuario busca información na rede sobre un tema adoita realizar consultas simples e, unicamente en casos excepcionais, fainas complexas ou combinadas. Os resultados destas buscas, aínda que chegaron a graos de precisión moi altos mediante os motores de busca baseados en estratexias matemáticas e a expansión de consultas de carácter lingüístico, non conseguen alcanzar o nivel de pertinencia que desexarían os usuarios. Por exemplo, un usuario que desexe información sobre a evolución de determinados valores nas principais bolsas mundiais nos últimos cinco anos, aínda que realice unha consulta bastante complexa (valores concretos, evolución dos valores, bolsa de valores, cidades das bolsas máis importantes, etc.), o máximo que conseguirá será unha lista de documentos onde probablemente, pero non con seguridade, atopará a información que busca de xeito parcial. O único contraexemplo sería que existise un sitio web dedicado exclusivamente a este tipo de estudos sobre as bolsas e que estivese suficientemente ben indexado para que o buscador o situase entre os primeiros resultados da busca.
Nesta liña, ultimamente a investigación de RI para fontes ilimitadas orientouse cara á chamada web semántica, que pode mellorar ostensiblemente a indexación dos sitios e das páxinas web a partir dos seus contidos, mediante os denominados metadatos. Esta é unha vía de futuro que sitúa a solución na fonte mesma da información e non nas ferramentas de busca. De feito é un procedemento similar ao que, dende hai moitos anos, se vén realizando en bases de datos documentais (contexto enteiro ou con índices de revistas), nas que as fontes e os seus contidos están previamente indexados mediante thesaurus, palabras clave, vocabularios de control, indicadores automáticos, etc.
A nosa proposta de proxecto engarza coas dúas tradicións que expuxemos en RI: Primeiramente, prevese o desenvolvemento de recursos lingüísticos, como se fixo para a RI sobre corpus delimitados; e, en segundo lugar, ponse énfase nos aspectos semánticos fundamentais para a RI relevante. O desenvolvemento de recursos ten dúas finalidades neste proxecto.
- Por un lado, propoñémonos reutilizar ou desenvolver recursos textuais (un corpus de economía multilingüe) para extraer información específica sobre unidades terminolóxicas, sobre relacións entre estas unidades, fraseoloxía específica e combinatoria léxica, que nos iluminen sobre os significados e sobre os usos destas estruturas. O resultado será un corpus de economía en inglés, castelán, catalán, galego e éuscaro marcado estruturalmente con formatos estándares e procesado lingüisticamente. Estes recursos lingüísticos teñen a finalidade de permitir a extracción de información real e pertinente sobre formas, significados e relacións lingüísticas relevantes no discurso da Economía para poder deseñar e construír outros recursos lingüísticos máis específicos e orientados á RI.
- A continuación, coa información extraída, básica tamén para a descrición e a explicación de como é o discurso especializado, en concreto na Economía dentro das Ciencias Sociais, construiranse outros recursos lingüísticos, usuais en técnicas de RI, como unha ontoloxía de conceptos e unha base de datos terminolóxica multilingüe vinculada á ontoloxía. A énfase da semántica incide precisamente neste tipo de recursos, xa que son fundamentais para unha RI relevante a definición de significados específicos de unidades e combinacións léxicas e o establecemento de relacións semánticas múltiples entre unidades e combinatorias. O resultado será unha ontoloxía da Economía (preferiblemente dunha rama da economía pendente de determinar) e unha base de datos vinculada onde se atopará a información gramatical, contextos ilustrativos, definicións, equivalentes en todas as linguas de traballo, variantes e sinónimos en cada unha das linguas e fraseoloxía relacionada.
Nestes recursos, desenvolvidos durante as dúas primeiras anualidades do proxecto, fundaméntase o deseño dun Reelaborador de Consultas para Buscadores de Internet (RECBI). A idea deste sistema é reutilizar a información validada da ontoloxía e da base de datos terminolóxica para transformar unha consulta simple dun usuario tipo nunha consulta complexa que se lance a un buscador de Internet e que o resultado mellore en precisión. Baseamos esta idea en traballos sobre as necesidades dos usuarios de Internet e avaliación de sistemas de RI dende o punto de vista dos usuarios, realizados por documentalistas especializados en RI, e tamén na expansión de consultas entre termos semanticamente relacionados.
Un dos aspectos cruciais neste proxecto é a idea da reutilización de recursos en todas as direccións. Tendo en conta que os recursos que nos propoñemos desenvolver son a base para a aplicación dun sistema de reelaboración de consultas e non unha finalidade en por si, prevese localizar, adaptar e reutilizar aqueles recursos existentes que poidan ser incorporados ao proxecto. Así, na constitución dos corpus textuais iniciais, tomamos en consideración que algúns destes recursos xa existen para o castelán e o catalán (Corpus técnico do IULA-UPF, https://www.iula.upf.edu), polo que tan só nos propoñemos desenvolver recursos similares para o galego e o éuscaro. Ademais, para constituír estes corpus de Economía preténdese reutilizar, na medida do posible, algunhas mostras doutros corpus textuais de carácter xeral xa existentes para estas linguas (corpus de prensa, corpus lexicográficos, textos dixitalizados, etc.). O grupo xa dispón de ferramentas para o procesamento dos corpus para o castelán e o catalán e prevese obter licenzas para ferramentas existentes para o éuscaro (dicionario, analizador morfolóxico e desambiguador de base lingüística) e conseguir ferramentas existentes para o galego ou ben adaptar ao galego ferramentas desenvolvidas xa para o catalán e o castelán. O grupo dispón tamén dun extractor automático de terminoloxía, cunha tecnoloxía non supeditada ás linguas, que, se é necesario para facilitar o enriquecemento da ontoloxía e da base de datos terminolóxica, pode ser adaptado a cada unha das linguas do proxecto e especificamente para o ámbito discursivo da Economía. Noutra dirección, os recursos resultantes deste proxecto (corpus de Economía nas catro linguas do Estado, unha ontoloxía e unha base de datos terminolóxicos) poderán ser utilizados en estudos lingüísticos para cada unha das linguas do proxecto ou ben para estudos transversais sobre o discurso especializado da Economía e a terminoloxía propia deste ámbito. Outras utilizacións destes recursos resultantes poden ser a actualización de dicionarios ou o seguimento da neoloxía.
Aínda que se trate dun proxecto eminentemente práctico, hai aspectos innegables de investigación básica en lingüística (análise do discurso, semántica de predicados, sintaxe do léxico, semántica léxica, neoloxía). Un destes aspectos, talvez o máis relevante neste proxecto, é a análise de aspectos semánticos e pragmáticos das unidades léxicas que presentan valor especializado no discurso da Economía. As razóns hai que buscalas na mesma configuración da terminoloxía propia das Ciencias Humanas e Sociais. Algúns ámbitos científicos, como a Bioloxía, a Medicina, a Química ou a Xeoloxía, presentan unha terminoloxía nominal moi específica, con abundancia de formas derivadas e compostas, específicas e de uso frecuente ou exclusivo nestes ámbitos, que permite ser detectada automaticamente con certa facilidade (p. ex. carbonitrurar, trifosfato de adenosina, mononucleose). En contraste con estes ámbitos, a terminoloxía das Ciencias Humanas e Sociais non adoita presentar características formais distintivas, senón que se basea no cambio semántico de palabras de uso común (exemplos da Economía: bolsa, diñeiro, valor, taxa, incremento) ao lado dalgúns casos propios do ámbito que tamén adoitan usarse na comunicación non marcada tematicamente (inflación, depreciación, custos, beneficio). Con este tipo de material terminolóxico, a tarefa de detectar e identificar unidades terminolóxicas faise máis difícil, porque non ten resortes de carácter formal (filtros morfolóxicos), e esta dificultade trasládase tamén ás ferramentas informáticas, como as dedicadas á extracción automática de terminoloxía ou á adquisición automática de léxico. Traballar na terminoloxía das Ciencias Humanas e Sociais, ademais de constituír un reto interesante para as aplicacións, ábrenos toda unha vía de estudo das conexións entre o discurso común e o discurso especializado, da polisemia das unidades léxicas, das metáforas usadas na creación do léxico, da variación interna e externa do léxico, da fraseoloxía ou combinatoria léxica como elemento detector de unidades con valor terminolóxico, etc.
En síntese, consideramos que tanto o estado actual da tecnoloxía en enxeñaría lingüística e en sistemas de RI como o estado actual das investigacións básicas e aplicadas en RI, en terminoloxía e en representación semántica (bases de datos léxicas, ontoloxías, xerarquías léxicas, thesaurus) nos sitúa nun punto propicio para facer un avance integrador, que faga posible mellorar a eficacia dos motores de busca en Internet. A reutilización de recursos lingüísticos existentes e o desenvolvemento de recursos complementarios permitiranos asegurar, con poucos custos, o deseño de estratexias lingüísticas eficaces para a RI e poñer a disposición pública un conxunto de recursos multilingües para o ámbito da Economía, a través dun sitio web dende o que se poida acceder a todos os recursos desenvolvidos no proxecto (corpus textuais, ontoloxía, base de datos terminolóxica multilingüe e sistema RECBI para consultas en liña), de igual forma ca os portais especializados.
Obxectivos xerais
- Deseño dun sistema de reelaboración de consultas para buscadores de Internet multilingüe (RECBI), con información semántica e formal extraída dunha ontoloxía e dunha base de datos terminolóxica.
- Construción dunha ontoloxía para o ámbito da Economía, con información semántica e pragmática derivada da consulta de corpus textuais reais e vinculada á BDT.
- Constitución dunha base de datos terminolóxica multilingüe en inglés, castelán, catalán, éuscaro e galego sobre economía, con definicións, información gramatical, fraseoloxía asociada, variantes e remisións, vinculada á ontoloxía.
- Constitución de corpus textuais de Economía en galego e en éuscaro, similares aos existentes para o catalán, o castelán e o inglés no Corpus Técnico do IULA-UPF. Corpus marcados estruturalmente con estándares e procesados lingüisticamente para extraer a información relevante para a construción da ontoloxía e da BDT multilingüe.
- Adaptación de ferramentas de procesamento existentes para o galego e o éuscaro para procesar os corpus textuais.
- Adaptación do extractor automático de terminoloxía YATE ao ámbito da Economía e ás linguas do proxecto.
- Investigación básica sobre a descrición da terminoloxía e do discurso de especialidade en Economía e investigación básica de carácter teórico sobre o discurso das Ciencias Sociais e os aspectos semánticos asociados.
Os sete obxectivos xerais que acabamos de expoñer resúmense en tres grandes bloques:
- Desenvolvemento de recursos e de ferramentas. Adaptación e reutilización de recursos existentes.
- Traballo no ámbito da RI, co deseño dun sistema de reelaboración de consultas, baseado na idea de expansión de consultas con información semántica e formal extraída de recursos específicos para a Economía.
- Avances na descrición e na teoría da terminoloxía dentro dunha perspectiva lingüística.
Obxectivos compartidos entre os dous proxectos
- Explotación do corpus de Economía en lingua castelá.
- Deseño de estratexias lingüísticas de reelaboración de consultas baseadas na interacción dos recursos lingüísticos constituídos.
- Deseño do sistema de reelaboración de consultas.
- Constitución dun sitio web multilingüe que inclúa información sobre o proxecto, que permita o acceso público aos recursos desenvolvidos (banco de coñecementos sobre Economía) e que albergue o sistema de reelaboración de consultas para que os usuarios poidan enviar dende alí as súas consultas a calquera motor de busca de Internet.
Prevese o desenvolvemento de diversos mecanismos de coordinación que aseguren a viabilidade do proxecto e a calidade dos resultados:
- Protocolos de traballo para a constitución de recursos.
- Sesións de formación dos investigadores e colaboradores participantes.
- Reunións xerais entre os dous subproxectos en Barcelona e en Santiago.
- Reunións específicas dentro do subproxecto UPF-UPV en Barcelona e en San Sebastián.
- Estadía de investigación da Dra. Lieve Vangehuchten en Barcelona. Seminario de investigación sobre o discurso económico en español.
- Implementación progresiva dos materiais e dos resultados dos subproxectos nun formato común na ontoloxía, na base de datos e no sitio web do proxecto.
- Establecemento de asesoría externa para cada un dos obxectivos xerais, mediante o contacto con grupos nacionais e internacionais afíns e que sobre todo aseguren o reforzo da multidisciplinariedade coa achega tecnolóxica e documental.