Introducció i antecedents
L'ús d'ontologies o jerarquies lèxiques, que ofereixen representació d'informació semàntica d'unitats lèxiques (classes semàntiques i relacions lèxiques), es presenta com una estratègia robusta en Recuperació d'Informació (expansió de consultes, sistemes de cerca de resposta, mineria de dades), en Gestió del Coneixement (indexació de documents), Traducció Automàtica (representació lèxica d'interlingua) i en Extracció Automàtica de Terminologia (rellevança temàtica dels candidats).
Considerem pertinent abordar l'enriquiment d'un model d'ontologia, EuroWordNet (convertida pel seu ampli ús en lingüística computacional quasi en un estàndard), en àmbits especialitzats, per l'interès i oportunitat de desenvolupament de noves aplicacions en aquests àmbits especialitzats. I proposem fer-ho des de l'extracció automàtica de terminologia, tant en les adaptacions de temàtica com de llengua de l'eina YATE (Vivaldi 2001), perquè disposar d'un extractor de terminologia eficient i d'ampli abast ens ajudarà en la constitució i actualització de recursos terminològics bàsics també per a la resta de camps indicats (RI, TA, GC).
A més, els resultats de la investigació bàsica sobre unitats terminològiques en context de projectes anteriors vinculats (TEXTERM2 i RICOTERM2) ens mostren que la informació semàntica i la combinatòria lèxica són les més pertinents per a l'extracció automàtica en certs àmbits especialitzats, sobretot en els discursos d'humanitats i ciències socials, per tal com no presenten singularitats de caràcter morfològic ni sintàctic, ja que són més a prop del discurs no especialitzat o comú. D'altra banda, abordar l'adaptació d'una eina com YATE a una llengua tipològicament diferent, como el basc, ens obliga a prioritzar l'estratègia semàntica per damunt d'altres estratègies lingüístiques de l'extractor, sobretot pel consens existent de coneixements especialitzats entre llengües diferents (i en dret un marc jurídic compartit). Aquests elements ens serveixen d'hipòtesi de partida per justificar la necessària ampliació d'un recurs com EWN cap a àmbits especialitzats.
En projectes anteriors, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), i TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada (FF2003-02111), s'ha comprovat empíricament l'adequació de la proposta teòrica per la qual es poden descriure i explicar les unitats amb valor terminològic com unitats del lèxic d'una llengua natural i basar-ne l'especificitat en la selecció de característiques semàntiques que s'activen en l'ús discursiu. En els textos es poden trobar pistes lingüístiques dels usos especialitzats. El coneixement especialitzat d'un text es pot formular en termes d'una xarxa de nusos de coneixement (representats per unitats lèxiques de caràcter terminològic o combinacions sintàctiques en les quals apareix com a mínim una d'aquestes unitats). Les pistes de les unitats que s'usen amb caràcter especialitzat poden ser de naturalesa diferent: ús d'unitats morfològiques i lèxiques específiques, freqüència d'ús d'unitats morfològiques i lèxiques amb relació al seu ús en discurs no especialitzat, combinacions sintàctiques específiques, canvis de valor sintàctics d'algunes peces lèxiques. Són les condicions pragmàtiques les que activen la selecció d'unes o altres característiques de les unitats lèxiques. Les unitats lèxiques amb valor terminològic, doncs, són activacions de possibles característiques contingudes en un lexicó. Aquests resultats han estat publicats en diferents articles i capítols de llibre del grup IULATERM.
En el vessant aplicat de la investigació, els desenvolupaments diversos de l'eina YATE (Vivaldi 2001) són fruit dels projectes anteriors del grup i d'algunes tesis doctorals vinculades a aquests projectes:
A TEXTERM (2000-2003) es va dissenyar l'eina, que combina informació morfològica (formants grecollatins), sintàctica (patrons estructurals) i semàntica (etiquetes procedents d'EuroWordnet) amb estratègies estadístiques, i es va construir la primera versió per al castellà i la medicina (tesi doctoral J. Vivaldi 2002) i les adaptacions per a medicina (català) i genoma humà (català i castellà).
Sota el paraigua de TEXTERM2 (2003-2006) s'ha realitzat una primera adaptació per al dret i en català (tesi doctoral O. Domènech 2006) i a RICOTERM-2 (2004-2007) s'han realitzat les adaptacions per a l'economia en català i en castellà (tesi doctoral en curs A. Joan) i s'ha publicat un manual d'adaptació de YATE a llengua i domini especialitzat (Joan, Lorente, Domènech, Estopà i Vivaldi 2006 en premsa).
L'adaptació de YATE a llengua i domini mitjançant l'enriquiment d'EuroWordNet es concentra en la revisió manual dels synsets d'EWN per a la identificació de relacions lèxiques pròpies d'àmbits especialitzats per a l'establiment de les anomenades Fronteres de Domini (FD) en el codi de YATE. Les limitacions d'EWN en temàtiques especialitzades obliga en moltes ocasions a introduir nous synsets per poder establir les FD corresponents a YATE. L'avaluació constant de l'eina, després de la introducció de noves FD, permet introduir noves millores paulatinament fins arribar als resultats desitjables de cobertura i precisió.
Objectius generals
Aquests antecedents immediats ens han ofert experiència suficient (i una metodologia de treball suficient) per poder abordar en un període de tres anys les següents tasques:
- La compleció de l'adaptació a dret en català
- Les noves adaptacions per al català en informàtica i medi ambient
- Les noves adaptacions per al castellà en dret, informàtica i medi ambient
- La compleció de recursos textuals de temàtica especialitzada per al basc
- Anàlisi d'etiquetes de processament i establiment de protocols per a l'intercanvi de formats, perquè YATE pugui operar amb el corpus textual processat del basc
- L'establiment de diccionaris d'equivalents castellà-català-basc per als diferents àmbits temàtics i d'expressions identificadores de relacions conceptuals
- L'enriquiment d'EWN amb dades del basc sobre àmbits d'economia, medicina, dret, informàtica i medi ambient (per a futures adaptacions de YATE)
- Avaluació de resultats de l'aplicació de YATE a textos especialitzats i llengües diverses
- Disseny i implementació d'una nova plataforma d'accés a l'eina YATE, amb aplicatius complementaris diversos sobre detecció de relacions conceptuals
El detall d'aquestes tasques es pot simplificar en els objectius precisos següents:
- Eina d'extracció automàtica de terminologia YATE desenvolupada per cobrir l'extracció en 6 àmbits temàtics i 3 llengües (situació privilegiada en l'estat de la qüestió).
- Metodologia de treball avaluada per a l'adaptació de l'extractor a nous àmbits i noves llengües. Avaluació contrastada dels resultats de l'extractor (control de qualitat).
- Enriquiment d'EuroWordNet en 6 àmbits temàtics especialitzats i per a 3 llengües (impacte en altres projectes).
- Accessibilitat als recursos i eines creats i/o adaptats.
Objectius de cada subprojecte i mecanismes de coordinació
Subprojecte 1 (UPF):
- La compleció de l'adaptació de YATE a dret en català. Ampliació d'EWN. Avaluació de resultats.
- Les noves adaptacions de YATE per al català en informàtica i medi ambient. Ampliació d'EWN. Avaluació de resultats.
- Les noves adaptacions per al castellà en dret, informàtica i medi ambient. Ampliació d'EWN. Avaluació de resultats.
- Anàlisi contrastiu de les etiquetes de processament usades per a català-castellà i per a l'euskera (tasca compartida).
- Establiment de protocols per a l'intercanvi de formats, a partir de l'anàlisi contrastiu dels etiquetaris usats.
- Llistat d'expressions per a la detecció de relacions conceptuals en català.
- Disseny i implementació d'una nova plataforma d'accés a l'eina YATE, amb aplicatius complementaris diversos sobre detecció de relacions conceptuals.
Subprojecte 2 (EHU):
- La compleció de recursos textuals de temàtica especialitzada per al basc : corpus textuals de referència en medicina, dret, informàtica i medi ambient, mitjançant convenis de col·laboració amb institucions i empreses.
- Processament lingüístic d'una mostra significativa d'aquests corpus (lematització, anàlisi morfològica i desambiguació).
- Anàlisi contrastiva de les etiquetes de processament usades per a català-castellà i per a l'euskera (tasca compartida).
- L'establiment d'equivalents bascos per als synsets incorporats en castellà i català a EWN (diccionari multilingüe).
- L'enriquiment d'EWN amb dades del basc sobre àmbits d'economia, medicina, dret, informàtica i medi ambient (a partir del diccionari anterior).
- L'establiment d'equivalents en euskera i en castellà a partir del llistat d'expressions de relacions conceptuals en català.
- Disseny i desenvolupament de la pàgina web del projecte. Portal de recursos i eines utilitzats en el projecte.
Mecanismes de coordinació:
- Signatura d'un conveni per a la cessió bilateral de recursos amb finalitats d'investigació.
- Reunions conjuntes dels IP de cada subprojecte per a la planificació de tasques, l'intercanvi de recursos, el seguiment del calendari de treball i la difusió de resultats (plataforma d'accés, web del projecte, publicació final, planificació d'assistència a congressos). Contactes amb altres grups d'investigació de l'àmbit.
- Reunions conjuntes dels tecnòlegs d'ambdós subprojectes sobre contrast d'etiquetaris i intercanvi de formats.
- Reunions conjuntes dels lingüistes d'ambdós subprojectes per a la resolució conjunta d'incidències en l'ampliació i en la construcció d'EWN.