A combinación de técnicas distintas resultou ser unha metodoloxía moi produtiva en todas as tecnoloxías orientadas á Recuperación de Información (RI). Dentro das técnicas utilizadas, xunto coas estatísticas e as de machine learning, destacan as baseadas en estratexias lingüísticas. O procesamento da linguaxe natural (PLN) na secuencia de lematización, etiquetaxe morfolóxica, análise sintáctica e desambiguación pode dar bos resultados en sistemas de RI que actúan sobre conxuntos de datos previamente delimitados (textos, bases de datos documentais, corpus textuais, bancos de coñecemento), como a xeración de resumos, o enriquecemento automático de dicionarios computacionais ou a extracción automática de terminoloxía. En cambio, na RI orientada a fontes ilimitadas, como Internet, o procesamento lingüístico extensivo parece inabordable, e por iso precísase desenvolver outro tipo de estratexias lingüísticas (ontoloxías conceptuais, thesaurus de indexación, xerarquías léxicas, listas de concordancias) que, combinadas coas de carácter matemático, permitan mellorar a eficacia dos motores de busca existentes.
Neste proxecto de investigación propoñémonos desenvolver descricións eficientes do discurso e da terminoloxía da Economía en castelán, catalán, galego, éuscaro e inglés co obxectivo de crear recursos lingüísticos multilingües que poidan ser aproveitados por diversas técnicas de RI e, en especial, polos motores de busca en Internet. O equipo de investigación xa dispón dun corpus textual procesado lingüisticamente en tres linguas (castelán, catalán e inglés) e prevese desenvolver neste proxecto os corpus textuais complementarios do galego e do éuscaro, cuxa explotación permitirá deseñar estratexias xeneralizables para a RI. A explotación destes corpus permitirá desenvolver outras aplicacións, fundamentalmente de carácter semántico e fraseolóxico, que poderán aproveitarse na RI: o enriquecemento dos dicionarios de procesamento con información semántica e fraseolóxica, o desenvolvemento dunha ontoloxía para o ámbito económico vinculada a unha base de datos terminolóxica multilingüe ou a adaptación dun extractor automático de terminoloxía para o ámbito económico. Ademais destes recursos, que poderán ser tamén utilizados en técnicas de extracción de información, os resultados esperados deste proxecto para a RI baséanse no deseño dun sistema automático de reelaboración de consultas multilingüe como input para os motores de busca existentes. Este sistema de reelaboración de consultas usará a información da ontoloxía e da base de datos terminolóxica para transformar unha consulta simple e ambigua nunha consulta complexa que mellore a precisión da resposta dentro do ámbito da Economía.