Subprojecte de la UPF-UPV
Objectius propis
- L'explotació del corpus d'economia en llengua catalana.
- La constitució del corpus d'economia per a l'euskera.
- L'adaptació d'eines de processament existents per a l'euskera.
- La localització i avaluació d'ontologies i tesaures existents en economia per poder ser reutilitzats.
- La paral·lelització de corpus de traducció de les parelles anglès-castellà, català-anglès i castellà-català.
- La construcció d'una ontologia i/o la importació de dades d'ontologies existents.
- El disseny y la construcció d'una base de dades terminològica multilingüe.
- L'ingrés de dades terminològiques (formals, semàntiques i fraseològiques) resultat de l'explotació dels corpus del castellà, del català i de l'euskera.
Paquets de treball
Primera anualitat
PT11.- Desenvolupament del corpus d'economia per a l'euskera. Localització de textos en format electrònic, selecció de textos i partició de mostres. Processament dels textos. Incorporació al corpus tècnic de l'IULA accessible mitjançant BWANANET.
- Resultat previst: recurs lingüístic acabat i accessible.
- Ubicació: Constitució del corpus d'economia en euskera a la UPV (San Sebastián); i marcatge estàndard estructural i processament lingüístic a l'IULA-UPF (Barcelona).
- Coordinació: Dra. Zabala.
- Participants: Dr. Odriozola, Dra. Bach, Dra. Elorduy.
- Col·laboradors: un becari de col·laboració.
- Assessoria externa: professors d'economia de la UPV. Mobilitat prevista: dues reunions (una preparatòria del projecte a Barcelona, una de seguiment del subprojecte a San Sebastián).
PT12. – Explotació del corpus d'economia en castellà i en català. Extracció d'informació del corpus processat sobre unitats lèxiques, freqüències, concordances, etc. mitjançant BWANANET. Paral·lelització amb ALINEA de la part del corpus que contingui textos traduïts.
- Resultat previst: Informes i representació de dades lingüístiques.
- Ubicació: IULA-UPF (Barcelona). Inclou l'estada d'investigació postdoctoral de la Dra. Vangehuchten a l'IULA.
- Coordinació: Dra. Vangehuchten.
- Participants: Dra. Mercè Lorente, Dr. Lluís de Yzaguirre, Dr. Tebé.
- Col·laboradors: Sra. Joan, Sr. Quiroz.
PT13.- Llicència de diccionaris computacionals i d'analitzadors morfològics ja existents per a l'euskera. Adaptació de les eines llicenciades a la cadena de treball. Adaptació dels sistemes d'etiquetat morfològic.
- Resultat previst: Eines llicenciades, adaptades i disponibles.
- Ubicació: UPV (San Sebastián) i UPF (Barcelona).
- Coordinació: Dr. Odriozola.
- Participants del PT3: Dra. Bach, Dr. Lluís de Yzaguirre, Dra. Zabala, Dra. Elorduy.
- Assessoria externa: Grup IXA de la UPV.
PT14.- Localització de tesaures documentals, ontologies, jerarquies lèxiques existents i reutilitzables amb informació sobre economia. Avaluació de continguts i de possibilitats d'importació. Localització de glossaris d'economia en format electrònic.
- Resultat previst: Informe.
- Ubicació: IULA-UPF (Barcelona).
- Coordinació: Dra. Mercè Lorente.
- Participants del PT: Dra. Vangehuchten, Dr. Tebé.
- Col·laboradores: Sra. Arano, Sra. Joan.
- Assessoria externa: Grup DigiDoc de l'IULA, dirigit pel Dr. Lluís Codina; investigadors del projecte TEXTERM-2 (BFF2003-02111) especialistes en ontologies.
PT15.- Disseny i constitució de recursos. Importació de diccionaris d'economia al sistema MERCEDES. Disseny de l'ontologia i de la base de dades terminològica associada mitjançant Ontoterm. Disseny de la pàgina web del projecte. Protocols de transferència entre gestors de bases de dades.
- Resultat previst: Protocols de treball per a la constitució de l'ontologia i de la base de dades terminològica.
- Ubicació: IULA-UPF (Barcelona).
- Coordinació: Dra. Lorente.
- Participants del PT2: Dr. Lluís de Yzaguirre, Dr. Tebé.
- Col·laboradors: Sra. Arano, Sra. Joan, Sr. Quiroz.
- Assessoria externa: Investigadors del projecte TEXTERM (BFF2000-0841) amb experiència en el disseny i la constitució del Banc de Coneixement de Genoma Humà.
Segona anualitat
PT21.- Enriquiment de recursos lèxics. Base de dades de predicats (verbs, adjectius i nominalitzacions) de l'economia amb informació semàntica i fraseològica per incorporar a diccionaris de processament del castellà, català i euskera. Incorporació de dades, per importació i ad hoc, en la base de dades terminològica multilingüe.
- Resultat previst: Recursos lingüístics acabats.
- Ubicació distribuïda: IULA-UPF (Barcelona), UPV, Universitat d'Anvers.
- Coordinació: Dra. Zabala.
- Participants del PT2: Dra. Lorente, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Dr. Tebé.
- Col·laboradors: Sra. Joan, Sr. Quiroz, un becari de col·laboració.
- Assessoria externa: Grup d'investigació amb experiència en enriquiment de lèxics amb dades semàntiques: projecte CLIPS de l'Istituto di Lingüística Computazionale de Pisa, dirigit per la Dra. Nicoletta Calzolari i coordinat per la Dra. Nilda Ruimy.
PT22.- Construcció de l'ontologia. Revisió de les importacions d'ontologies reutilitzables a l'ontologia de base. Incorporació de sistemes de conceptes a partir de les dades resultants del PT12.
- Resultat previst: Recursos lingüístics acabats.
- Ubicació distribuïda: IULA-UPF (Barcelona), UPV, Universitat d'Anvers.
- Coordinació: Dra. Lorente.
- Participants del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dra. Bach, Dr. Tebé.
- Col·laboradors: Sra. Arano, Sra. Joan, un becari de col·laboració.
- Assessoria externa: Dr. Antonio Moreno de la Universidad de Málaga, creador del gestor Ontoterm. Investigadors del projecte TEXTERM (BFF2000-0841) amb experiència en el disseny i la constitució del Banc de Coneixement de Genoma Humà.
Tercera anualitat
PT31.- Disseny d'estratègies lingüístiques per a les consultes de RI. Tipologia de consultes d'interacció entre la base de dades terminològica i l'ontologia. Estratègies basades en fraseologia específica o concordances del corpus. Establiment d'un corpus de consultes de prova.
- Resultat previst: Recursos lingüístics acabats.
- Ubicació distribuïda: IULA-UPF (Barcelona), UPV, Universitat d'Anvers.
- Coordinació: Dra. Lorente.
- Participants del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Col·laboradors: Sra. Joan, un becari de col·laboració.
- Assessoria externa: Grup d'investigació en RI del professor Ricardo Baeza Yates (Universidad de Chile), grup del projecte TURSI de la Universitat Politècnica de València, dirigit per la Dra. Encarna Segarra.
PT32.- Proves de reelaboració de consultes amb el sistema dissenyat pel subprojecte de la USC. Anàlisi i avaluació de resultats.
- Resultat previst: Informe d'avaluació.
- Ubicació distribuïda: IULA-UPF (Barcelona), UPV, Universitat d'Anvers.
- Coordinació: Dra. Lorente.
- Participants del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Col·laboradors: Sra. Arano, un becari de col·laboració.
- Altres col·laboracions: Universidad Politécnica de Madrid, doctorands del grupo dirigit per la Dra. Guadalupe Aguado.
- Assessoria externa: Grup d'investigació en RI del professor Ricardo Baeza Yates (Universidad de Chile), grup del projecte TURSI de la Universitat Politècnica de València, dirigit per la Dra. Encarna Segarra.
PT33.- Implementació de tots els recursos i del sistema de reelaboració de consultes en el portal web del projecte.
- Resultat previst: Portal del Banc de coneixement sobre economia i del sistema de reelaboració de consultes accessible.
- Ubicació: IULA-UPF
- Coordinació: Dra. Lorente.
- Participants del PT2: Dra. Zabala, Dra. Vangehuchten, Dr. Odriozola, Dra. Elorduy, Dr. Lluís de Yzaguirre, Dra. Bach, Dr. Tebé.
- Col·laboradors: Sra. Joan, Sra. Arano, un becari de col·laboració
- Assessoria externa: Grup IULATERM, dirigit per la Dra. M. Teresa Cabré; grup DigiDoc de l'IULA, dirigit pel Dr. Lluís Codina; grup de la Dra. Guadalupe Aguado de la Universidad Politécnica de Madrid.
Subprojecte de la USC
Objectius propis
- La constitució del corpus d'economia per al gallec.
- L'adaptació d'eines de processament existents per al gallec.
- L'ingrés de dades terminològiques (formals, semàntiques i fraseològiques) resultat de l'explotació dels corpus del castellà i del gallec.
- Creació de protocols d'importació d'ontologies i tesaures existents per a l'enriquiment automàtic de l'ontologia d'economia.
Paquets de treball
Primera anualitat
PT11.- Localització i adaptació d'eines de processament per al gallec. Diccionari, analitzador morfològic i desambiguador. Adaptació dels sistemes d'etiquetat morfològic.
- Resultat previst: eines adaptades i funcionals.
- Coordinació: Dra. María Sol López.
- Participants: Eduardo Miguel Moscoso, M.ª Paula Santalla, Susana Sotelo, Guillermo Rojo.
- Participants no membres de l'equip: Eva Domínguez, Fco. Mario Barcala
- Assessoria externa: investigadors del Centro de investigación en Humanidades Ramón Piñeiro, grup Colo de la Universidad de Coruña.
PT12.- Desenvolupament del corpus d'economia per al gallec. Localització de textos en format electrònic, selecció de textos i partició de mostres. Marcatge estructural dels textos mitjançant SGML. Processament lingüístic dels textos.
- Resultat previst: recurs lingüístic acabat i accessible.
- Coordinació: Dra. María Sol López.
- Participants: Eduardo Miguel Moscoso, Guillermo Rojo (localització i disseny del corpus), M.ª Paula Santalla, Susana Sotelo (marcatge estructural i processament lingüístic).
- Participants no membres de l'equip: Eva Domínguez.
- Assessoria externa: investigadors del Centro de investigación en Humanidades Ramón Piñeiro.
Segona anualitat
PT21.- Anàlisi de possibilitats d'importació d'ontologies existents en economia. Disseny de protocols per a la importació. Proves d'importació.
- Resultat previst: Informe. Protocols d'importació. Avaluació.
- Coordinació: Dra. María Paula Santalla.
- Participants: Susana Sotelo, Guillermo Rojo.
- Participants no membres de l'equip: Fco. Mario Barcala.
- Col·laboradors: M.ª Sol López, Eduardo Miguel Moscoso.
- Assessoria: IULA-UPF, investigadors del projecte TEXTERM (BFF2000-0841).
PT22.- Explotació dels corpus (gallec i castellà) per a l'enriquiment de la base de dades terminològica i de l'ontologia.
- Resultat previst: Informes i representació de dades lingüístiques.
- Coordinació: Guillermo Rojo.
- Participants: M.ª Paula Santalla, Susana Sotelo, María Sol López, Eduardo Miguel Moscoso.
- Participants no membres de l'equip: Eva Domínguez.
- Assessoria: IULA-UPF.
Tercera anualitat
PT31.- Disseny d'un sistema de reelaboració de consultes, que transformi una consulta simple en una llengua en una consulta complexa i combinada multilingüe a partir de l'extracció de dades de la BD terminològica i de l'ontologia. Sortida de la consulta reelaborada cap a diversos motors de cerca i metacercadors.
- Resultat previst: sistema de reelaboració de consultes (versió beta).
- Coordinació: Dra. María Paula Santalla.
- Participants: Susana Sotelo.
- Participants no membres de l'equip: Fco Mario Barcala, Eva Domínguez.
- Col·laboradors: Guillermo Rojo, María Sol López, Eduardo Miguel Moscoso.
- Assessoria externa: grup Cole de la Universidad de Coruña.
PT32.- Fase de proves. Anàlisi i avaluació de resultats. Participació en la compleció del portal web, amb l'accés al banc de coneixement sobre economia, compost per corpus textual, BD terminològica i ontologia i amb la implementació del sistema de reelaboració de consultes.
- Resultat previst: Informes, portal web, sistema de reelaboració de consultes depurat.
- Coordinador: Guillermo Rojo.
- Participants: M.ª Paula Santalla, Susana Sotelo, M.ª Sol López, Eduardo Miguel Moscoso.
- Participants no membres de l'equip: Fco Mario Barcala, Eva Domínguez.
- Assessoria externa: grup Cole de la Universidad de Coruña.