English | Español | Euskara | Galego

La combinació de tècniques distintes s'ha demostrat un plantejament molt productiu en totes les tecnologies orientades a la Recuperació d'Informació (RI). Dins de les tècniques utilitzades, juntament amb les estadístiques i les de machine learning, destaquen les basades en estratègies lingüístiques. El processament del llenguatge natural (PLN) en la seqüència de lematització, etiquetatge morfològic, anàlisi sintàctica i desambiguació, poden donar bons resultats en sistemes de RI que actuen sobre conjunts de dades prèviament delimitats (textos, bases de dades documentals, corpus textuals, bancs de coneixement), com la generació de resum, l'enriquiment automàtic de diccionaris computacionals o l'extracció automàtica de terminologia. En canvi en la RI orientada a fonts il·limitades, com la web, el processament lingüístic extensiu sembla inabordable, i per tant es necessita desenvolupar altres tipus d'estratègies lingüístiques (ontologies conceptuals, tesaures d'indexació, jerarquies lèxiques, llistats de concordança), que combinades amb les de caràcter matemàtic permetin millorar l'eficàcia dels motors de cerca existents.

En aquest projecte de recerca ens proposem desenvolupar descripcions eficients del discurs i de la terminologia de l'economia, en castellà, català, gallec, euskera i anglès, amb l'objectiu aplicat de crear recursos lingüístics multilingües, que puguin ésser aprofitats per diverses tècniques de RI, i en especial pels motors de cerca a Internet. L'equip de recerca ja disposa d'un corpus textual processat lingüísticament per a tres llengües (castellà, català i anglès), i es preveu desenvolupar en aquest projecte els corpus textuals complementaris del gallec i de l'euskera, l'explotació dels quals permetrà desenvolupar estratègies generalitzables per a la RI. L'explotació d'aquests corpus permetrà desenvolupar altres aplicacions, fonamentalment de caràcter semàntic i fraseològic, que poden aprofitar-se en la RI: enriquiment dels diccionaris de processament amb informació semàntica i fraseològica, desenvolupament d'una ontologia per a l'àmbit econòmic vinculada a una base de dades terminològica multilingüe o l'adaptació d'un extractor automàtic de terminologia per a l'àmbit econòmic. A més d'aquests recursos, que podran ser també utilitzats en tècniques d'extracció d'informació, els resultats esperats d'aquest projecte per a la RI es basen en el disseny d'un sistema automàtic de reelaboració de consultes multilingüe com a input per als motos de cerca existents. Aquest sistema de reelaboració de consultes usarà la informació de l'ontologia i de la base de dades terminològica per transformar una consulta simple, i ambigua, en una consulta complexa que millori la rellevància de la resposta dins de l'àmbit de l'economia.

 

Data d'actualització: 26-03-2007