Introducció i antecedents
La Recuperació d'Informació (a partir d'ara RI) abasta diverses tecnologies que, tot i ser coincidents en l'objectiu general d'obtenir informació filtrada a través d'eines informàtiques, persegueixen objectius ben diversos: cerca de documents rellevants temàticament al web, generació de resums, mineria de textos, enriquiment automàtic de diccionaris computacionals, extracció automàtica de terminologia, motors de cerca per a bases de dades documentals, etc.
La combinació de tècniques diverses ha demostrar ser un plantejament molt productiu en totes les tecnologies orientades a la RI. Entre les tècniques utilitzades, juntament amb les estadístiques i les de machine learning , destaquen les basades en estratègies lingüístiques. Tot i això, la interacció de recursos lingüístics i d'eines d'anàlisi lingüístic s'ha practicat bàsicament en algunes de les tècniques de RI. Concretament, la cadena de processament del llenguatge natural (PLN), en la seqüència de lematització, d'etiquetat morfològic, anàlisi sintàctica i desambiguació, pot donar bons resultats en sistemes de RI actuen sobre conjunts de dades prèviament delimitades (textos, bases de dades documentals, corpus textuals, bancs de coneixement), com la generació de resums, l'enriquiment automàtic de diccionaris computacionals o l'extracció automàtica de terminologia. Una vegada delimitada la font documental que s'usarà per a la RI, l'etiquetat estructural (SGML o XML) dels textos i els etiquetats amb informació morfològica i, en els últims anys i per a algunes llengües, amb informació sintàctica de les unitats lèxiques i de les estructures sintagmàtiques d'aquella font documental permeten l'aplicació d'estratègies de RI que ofereixen un output de major precisió. D'altra banda, en la RI sobre corpus textuals i bases de dades documentals delimitades el nivell de soroll ja sol ser molt reduït perquè es tracta de fonts seleccionades temàticament i amb criteris documentals. Així, la cadena de PLN s'expandeix progressivament en projectes d'extracció terminològica, de generació de resums i d'adquisició automàtica del lèxic, des de l'anàlisi sintàctica fins als etiquetats semàntics i pragmàtics, que permetin una RI sobre fonts delimitades molt més rellevant que l'actual.
En canvi, en la RI orientada a fonts il·limitades, com Internet, el processament lingüístic extensiu sembla inabordable. No podem processar lingüísticament totes les pàgines publicades a la xarxa, ni tan sols podem fer-ho amb els amplis resultats que s'originen en una cerca. Per altra banda, a més d'un procés inabordable no sembla que sigui pertinent si allò que es busca són informacions generals sobre un tema o un conjunt de documents que ens il·lustrin sobre el tema. En aquest tipus de RI, ni els analitzadors morfològics, ni els sintàctics, ni els diccionaris computacionals de processament poden aplicar-se directament de manera extensiva. El coneixement lingüístic s'ha utilitzat en sistemes de RI a Internet fonamentalment en la indexació de documents i en l'expansió de consultes. És rellevant per a un projecte com aquest la investigació que s'està desenvolupant en indexació, i últimament en metadades i Web semàntica, en relació amb el desenvolupament de jerarquies lèxiques (ex. Wordnet), d'ontologies conceptuals (ex. Mykrokosmos), de taxonomies documentals (ex. Delphy), com a sistemes de control documental i per indexar documents a partir d'accepcions de significat i no de denominacions ambigües. Les eines de processament del llenguatge natural s'han usat també en l'expansió de consultes, fonamentalment per a la conversió d'un terme de consulta en un conjunt de termes associats morfològicament.
El problema radica en el fet que quan un usuari busca informació a la xarxa sobre un tema sol realitzar consultes simples, i únicament en casos excepcionals les fa complexes o combinades. Els resultats d'aquestes cerques, encara que han arribat a graus de precisió molt alts mitjançant els motors de cerca basats en estratègies matemàtiques i l'expansió de consultes de caràcter lingüístic, no aconsegueixen assolir el nivell de pertinença que desitjarien els usuaris. Per exemple, un usuari que desitgi informació sobre l'evolució de determinats valors en les principals borses mundials en els últims 5 anys, encara que realitzi una consulta bastant complexa (valors concrets, evolució dels valors, borsa de valors, ciutats de les borses més importants, etc.), el màxim que aconseguirà serà una llista documents on probablement, però no amb seguretat, trobarà la informació que busca de manera parcial. L'únic contraexemple seria que existís un lloc web dedicat exclusivament a aquest tipus d'estudis sobre les borses i que estigués suficientment ben indexat perquè el cercador el situés entre els primers resultats de la cerca.
En aquest línia, últimament la investigació de RI per a fons il·limitades s'ha orientat cap a l'anomenada Web semàntica, que pot millor ostensiblement la indexació dels llocs i de les pàgines web a partir dels continguts, mitjançant les denominades metadades. Aquesta és una via de futur que situa la solució en la mateixa font de la informació i no en les eines de cerca. De fet és un procés similar del que, des de fa molts anys, s'està realitzant en bases de dades documentals (context sencer o índexs de revistes), en els quals les fonts i llurs continguts estan prèviament indexats mitjançant tesaures, paraules clau, vocabularis de control, indicadors automàtics, etc.
La nostra proposta de projecte enfila les dues tradicions que hem exposat en RI: Primer, es preveu el desenvolupament de recursos lingüístics, com s'ha fet per a la RI sobre corpus delimitats; y, en segon lloc, es posa èmfasi en els aspectes semàntics fonamentals per a la RI rellevant. El desenvolupament de recursos té dues finalitats en aquest projecte:
- D'una banda, ens proposem reutilitzar o desenvolupar recursos textuals (un corpus d'economia multilingüe) per extreure informació específica sobre unitats terminològiques, sobre relacions entre aquestes unitats, fraseologia específica, combinatòria lèxica, que ens il·luminin sobre significats i sobre usos d'aquestes estructures. El resultat serà un corpus d'economia en anglès, castellà, català, gallec i euskera, marcat estructuralment amb formats estàndards i processat lingüísticament. Aquests recursos lingüístics tenen la finalitat de poder extreure informació real i pertinent sobre formes, significats i relacions lingüístiques rellevants en el discurs de l'economia, per poder dissenyar i construir recursos lingüístics més específics i orientats a la RI.
- A continuació, amb la informació extreta, bàsica també per a la descripció i l'explicació de com és el discurs especialitzat, en concret en economia en les ciències socials, es construiran altres recursos lingüístics, usuals en tècniques de RI, com una ontologia de conceptes i una base de dades terminològica multilingüe vinculada a l'ontologia. L'èmfasi de la semàntica es dóna precisament en aquest tipus de recursos, ja que són fonamentals per a una RI rellevant la definició de significats específics d'unitats lèxiques i combinacions lèxiques i l'establiment de relacions semàntiques múltiples entre unitats i combinatòries. El resultat serà una ontologia de l'economia (preferiblement d'una branca de l'economia a determinar) i una base de dades vinculada on s'ubicarà informació gramatical, contextos il·lustratius, definicions, equivalents en totes les llengües de treball, variants i sinònims en cadascuna de les llengües i fraseologia relacionada.
Sobre aquests recursos, desenvolupats durant les dues primeres anualitats del projecte, es fonamenta el disseny d'un Reelaborador de Consultes per a Cercadors d'Internet (RECBI). La idea d'aquest sistema és reutilitzar la informació validada de l'ontologia i de la base de dades terminològica per transformar una consulta simple d'un usuari tipus en una consulta complexa per a ser llançada a un cercador d'Internet i que el resultat millori en precisió. Basem aquesta idea en treballs sobre les necessitats dels usuaris d'Internet i avaluació de sistemes de RI des del punt de vista dels usuaris, realitzats per documentalistes especialitzats en RI, i també en l'expansió de consultes entre termes semànticament relacionats.
Un dels aspectes crucials en aquests projectes és la idea de la reutilització de recursos en totes les direccions. Tenint en compte que els recursos que ens proposem desenvolupar són la base per a l'aplicació d'un sistema de reelaboració de consultes i no una finalitat en ells mateixos, es preveu localitzar adaptar i reutilitzar els recursos existents que puguin ser incorporats al projecte. Així en la constitució dels corpus textuals inicials prenem en consideració que alguns d'aquests recursos ja existeixen per al castellà i català (Corpus tècnic de l'IULA-UPF), i només ens proposem desenvolupar recursos similars per al gallec i l'euskera. A més per construir aquests corpus d'economia es pretén reutilitzar, en la mesura del possible, algunes mostres d'altres corpus textuals de caràcter general ja existents per a aquestes llengües (corpus de premsa, corpus lexicogràfics, textos digitalitzats, etc.). El grup ja disposa d'eines per al processament dels corpus per al castellà i el català i preveu llicenciar eines existents per a l'euskera (diccionari, analitzador morfològic i desambiguador de base lingüística) i llicenciar eines existents per al gallec o bé adaptar al gallec eines desenvolupades ja per al català i el castellà. El grup disposa també d'un extractor automàtic de terminologia, amb tecnologia independent de llengües, que, si és necessari per facilitar l'enriquiment de l'ontologia i de la base de dades terminològica, pot adaptar-se a cadascuna de les llengües del projecte i específicament per a l'àmbit discursiu de l'economia. En una altra direcció, els recursos resultants d'aquest projecte (corpus d'economia en les quatre llengües de l'Estat, una ontologia i una base de dades terminològiques) podran ser utilitzats en estudis lingüístics per a cadascuna de les llengües del projecte o bé per a estudis transversals sobre el discurs especialitzat de l'economia i la terminologia pròpia de l'àmbit. Altres utilitzacions d'aquests recursos resultants poden ser l'actualització de diccionaris o el seguiment de la neologia.
Encara que es tracti d'un projecte eminentment aplicat, hi ha aspectes innegables de la investigació bàsica en lingüística (anàlisi del discurs, semàntica de predicats, sintaxi del lèxic, semàntica lèxica, neologia). Un dels aspectes, tal vegada el més rellevant, en aquest projecte és l'anàlisi d'aspectes semàntics i pragmàtics de les unitats lèxiques que presenten valor especialitzat en el discurs de l'economia. Cal buscar-ne les raons en la mateixa configuració de la terminologia pròpia de les ciències humanes i socials. Alguns dels àmbits científics, com la biologia, la medicina, la química o la geologia, presenten una terminologia nominal molt específica, amb abundància de formes derivades i compostes, específiques i d'ús freqüent o exclusiu en aquests àmbits, que permet ser detectada automàticament amb certa facilitat (exemples: carbonitrurizar, adenosina trifosfato, mononucleosis). A diferència d'aquests àmbits, la terminologia de les ciències humanes i socials no solen presentar característiques formals distintives, sinó que es basa en el canvi semàntic de paraules d'ús comú (exemples de l'economia: bolsa, dinero, valor, tasa, incremento), al costat d'alguns casos propis de l'àmbit que també solen utilitzar-se en la comunicació no marcada temàticament (inflación, devaluación, costes, beneficio). Amb aquest tipus de material terminològic, la tasca de detectar i identificar unitats terminològiques es fa més difícil, perquè no té ressorts de caràcter formal (filtres morfològics), i aquesta dificultat es trasllada també a les eines informàtiques com les dedicades a l'extracció automàtica de terminologia o a l'adquisició automàtica de lèxic. Treballar en terminologia de les ciències humanes i socials, a més de plantejar-se com un repte interessant per a les aplicacions, ens obra tota una via d'estudi de les connexions entre discurs comú i discurs especialitzat, de la polisèmia de les unitats lèxiques, de les metàfores usades en la creació del lèxic, de la variació interna i externa del lèxic, de la fraseologia o combinatòria lèxica com a element detector d'unitats amb valor terminològic, etc.
En síntesi, considerem que tant l'estat actual de la tecnologia en enginyeria lingüística i en sistemes de RI com l'estat actual de les investigacions bàsiques i aplicades en RI, en terminologia i en representació semàntica (bases de dades lèxiques, ontologies, jerarquies lèxiques, tesaures) ens situen en un punt propici per fer un avenç integrador, que faci possible millorar l'eficàcia dels motors de cerca a Internet. La reutilització de recursos lingüístics existents i el desenvolupament de recursos complementaris ens permetrà assegurar, amb pocs costos, el disseny d'estratègies lingüístiques eficaces per a la RI i posar a disposició pública un conjunt de recursos multilingües per a l'àmbit de l'economia, a través d'un lloc web des del qual es pugui accedir a tots els recursos desenvolupats en el projecte (corpus textuals, ontologia, base de dades terminològica multilingüe i sistema RECBI per a consultes a Internet), a la manera dels portals especialitzats.
Objectius generals
- Disseny d'un sistema de reelaboració de consultes per a cercadors d'Internet multilingüe (RECBI), amb informació semàntica i formal extreta d'una ontologia i d'una base de dades terminològica.
- Construcció d'una ontologia per a l'àmbit de l'economia, amb informació semàntica i pragmàtica derivada de la consulta de corpus textuals reals, i vinculada a la BDT.
- Constitució d'una base de dades terminològica multilingüe en anglès, castellà, català, euskera i gallec sobre economia, amb definicions, informació gramatical, fraseologia associada, variants i remissions, vinculada a l'ontologia.
- Constitució de corpus textuals d'economia en gallec i en euskera, similars als existents per al català, el castellà i l'anglès en el Corpus Tècnic de l'IULA-UPF. Corpus marcats estructuralment amb estàndards i processats lingüísticament, per extreure la informació rellevant per a la construcció de l'ontologia i de la BDT multilingüe.
- Adaptació d'eines de processament existents per al gallec i l'euskera per processar els corpus textuals.
- Adaptació de l'extractor automàtic de terminologia YATE a l'àmbit de l'economia i a les llengües del projecte.
- Investigació bàsica sobre descripció de la terminologia i del discurs d'especialitat en economia i investigació bàsica de caràcter teòric sobre el discurs de les ciències socials i els aspectes semàntics associats.
Els 7 objectius generals que acabem d'exposar es resumeixen en tres grans blocs:
- Desenvolupament de recursos i d'eines. Adaptació i reutilització de recursos existents.
- Treball en l'àmbito de la RI, amb el disseny d'un sistema de reelaboració de consultes, basat en la idea d'expansió de consultes amb informació semàntica y formal extreta de recursos específics per a l'economia.
- Avenços en la descripció i en la teoria de la terminologia dins d'una perspectiva lingüística.
Objectius compartits entre els dos projectes
- L'explotació del corpus d'economia en llengua castellana.
- El disseny d'estratègies lingüístiques de reelaboració de consultes basades en la interacció dels recursos lingüístics constituïts.
- Disseny del sistema de reelaboració de consultes.
- La constitució d'un lloc web multilingüe que inclogui informació sobre el projecte, que permeti l'accés públic als recursos constituïts (banc de coneixements sobre economia) i que ubiqui el sistema de reelaboració de consultes perquè els usuaris puguin enviar des d'allà les seves consultes a qualsevol motor de cerca d'Internet.
Es preveuen diversos mecanismes de coordinació per assegurar la viabilitat del projecte coordinat i la qualitat dels resultats:
- Protocols de treball per a la constitució de recursos.
- Sessions de formació dels investigadors i col·laboradors participants
- Reunions generals entre els dos subprojectes a Barcelona i a Santiago
- Reunions específiques dins del subprojecte UPF-UPV a Barcelona i a San Sebastián.
- Estada d'investigació de la Dra. Lieve Vangehuchten a Barcelona. Seminari d'investigació sobre el discurs econòmic en espanyol.
- Implementació progressiva dels materials i dels resultats dels subprojectes en un format comú en l'ontologia, en la base de dades, en el lloc Web del projecte.
- Establiment d'assessoria externa per a cadascun dels objectius generals, mitjançant el contacte amb grups nacionals i estrangers afins i que sobretot assegurin el reforç de la multidisciplinarietat amb l'aportació tecnològica i documental.