|
Sarrera eta aurrekariak
Ontologiak, hau da, unitate lexikoen informazio semantikoaren errepresentazioa (klase semantikoak eta harreman lexikoak) eskaintzen duten hierarkia lexikoak erabiltzea estrategia boteretsua gertatzen da Informazioaren Erauzketan (kontsulten hedapena, erantzun-bilaketarako sistemak, datuen meatzaritza), Jakintzaren Kudeaketan (dokumentuen indexazioa), Itzulpen Automatikoan (interlinguaren adierazpen lexikoa) eta Terminologiaren Erauzketa Automatikoan (hautagaien pertinentzia tematikoa).
Egoki deritzogu EuroWordNet ontologia-eredua eremu espezializatuetan aberasteari (eredu horrek duen erabilera zabala dela eta, ia estandar bihurtu baita hizkuntzalaritza konputazionalean). Izan ere, aberaste horrek posible egin dezake alor espezializatu hauetan aplikazio berriak garatzea. Gure asmoa da terminologiaren erauzte automatikotik abiatzea aberaste-lan horretan, YATE (Vivaldi 2001) tresnaren alor tematikoaren eta hizkuntzaren araberako egokitzapena eginez. Izan ere, terminologia-erauzle eraginkorra eta estaldura handikoa izateak lagunduko digu oinarrizko baliabide terminologikoak eraikitzen eta gaurkotzen, baita aipaturiko eremuetarako (IE, IA, JK).
Gainera, lehenago bideratutako proiektuetan (TEXTERM2 eta RICOTERM2) unitate terminologikoen gainean egindako oinarrizko ikerketen emaitzek agerian uzten digute informazio semantikoa eta konbinatoria lexikoa direla estrategia emankorrenak zenbait alor espezializatutako erauzketa automatikoan, bereziki giza eta gizarte-zientzietako diskurtsoetan, zeren eta alor hauetako unitate terminologikoek ez baitute berezitasunik maila sintaktiko eta morfologikoan: hurbilago daude diskurtso orokorretik. Bestalde, YATE bezalako tresna bat tipologikoki desberdina den euskara hizkuntzara moldatzeak beharrezkoa egiten digu estrategia semantikoei lehentasuna ematea erauzlearen beste estrategia linguistiko batzuen aldean, batez ere hizkuntza desberdinen artean ere jakintza espezializatuari dagokionez adostasun handia baitago (zuzenbidearen kasuan, gainera, marko juridikoa partekatzen dute hizkuntza horiek). Elementu hauek abiapuntuko hipotesi modura erabiliko ditugu EWN baliabidea eremu espezializatu batzuetara zabaltzeko.
Aurreko proiektuetan, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), y TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada ( BFF2003-02111 ), enpirikoki egiaztatu da proposamen teoriko berri bat: balio terminologikodun unitateak hizkuntza naturalaren lexikoaren unitate gisa deskribatu eta azal daitezke eta haien espezifikotasuna erabilera diskurtsiboan aktibatzen diren tasun semantikoen hautapenean oinarritu daiteke. Testuetan zantzu linguistikoak aurki daitezke hitz bati balio espezializatuarekin erabiltzen ari dela agerian uzten dutenak. Testuen jakintza espezializatua adabegi-sare bat bailitzan formula daiteke. Jakintza-adabegi horiek izaera terminologikodun unitate lexikoek errepresentatzen dituzte edo, bestela, unitate terminologiko bat behintzat daramaten konbinazio sintaktikoek. Hainbat eratakoak izan daitezke balio espezializatua daramaten unitateen zantzuak: unitate morfologiko eta lexiko jakin batzuen erabilera, unitate morfologiko eta lexikoen erabilera-maiztasun bereizgarria diskurtso ez-espezializatuan duten erabileraren aldean, konbinazio sintaktiko bereizgarriak, zenbait pieza lexikoren balio sintaktikoen aldaketak. Baldintza pragmatikoek aktibatzen dute unitate lexikoen ezaugarri jakin batzuen hautapena. Balio terminologikodun unitate lexikoak, beraz, lexikoi batek dituen tasun posibleetako batzuen aktibazioaren ondorio dira. Emaitza hauek IULATERM taldearen hainbat artikulutan eta liburu-ataletan argitaratu dira.
Ikerketaren alderdi aplikatuan, YATE (Vivaldi 2001) tresnaren garapenak taldearen aurreko proiektuen eta proiektu horiekin loturiko zenbait doktoretza-tesiren emaitza dira:
TEXTERM (2000-2003) proiektuan erauzlea diseinatu zen. Tresna honek hainbat motatako informazioak konbinatzen ditu: informazio morfologikoa (erro grekolatinoak), informazio sintaktikoa (egitura-patroiak), semantika (EuroWordNet ezagutza-base lexikalaren etiketak) eta estrategia estatistikoak. Lehenengo bertsioa gaztelaniarako eta medikuntzarako eraiki zen (Vivaldiren doktoretza-tesia 2000). Moldapenak aldiz, medikuntzarako (katalana) eta giza genomarako (katalana eta gaztelania) eraiki ziren.
TEXTERM2 (2003-2006) proiektuaren barruan lehen moldapena egin da katalanez zuzenbide arlorako (Domènech-en doktoretza-tesia 2006) eta RICOTERM2 (2004-2007) proiektuan ekonomiarako egokitzapenak landu dira, katalanez eta gaztelaniaz (A. Joan-en doktoretza-tesia bukatzear). Bestalde, YATE eremu espezializatuetara eta hizkuntzaren arabera egokitzeko esku-liburua argitaratu da (Joan, Lorente, Domènech, Estopà y Vivaldi 2006 argitara bidean).
EuroWordNet aberastuz, YATE hizkuntza eta eremu desberdinetara moldatzeko, EWN-en sinonimo-multzoak (synsets) eskuz berrikusten dira eremu espezializatuen berezko harreman lexikoak identifikatzeko asmoz, zehazkiago, YATEren kodean Domeinu Mugak (DM) finkatzeko asmoz. EWN ezagutza-base lexikalak tematika espezializatuan duen garapen mugatua dela eta, askotan behartzen gaitu sinonimo-multzo berriak sartzera, posible izateko YATEn Domeinu Muga berriak ezartzea. Tresna etengabe ebaluatzen da DM berriak sartu ondoren eta, horrela, hobekuntzak sartzen joan gaitezke estalduran eta doitasunean desiragarriak diren emaitzak lortu arte.
Helburu orokorrak
Hurbileko aurrekari hauek esperientzia nahikoa (eta lan-metodologia eraginkorra) eman digute, hiru urteko tartean ondoko zeregin hauei ekin ahal izateko:
- Zuzenbiderako eta katalanerako egokitzapena burutzea.
- Egokitzapen berriak egitea katalanerako informatikaren eta ingurumenaren alorretan.
- Egokitzapen berriak egitea gaztelaniarako zuzenbide, informatika eta ingurumenaren arloetan.
- Testu-baliabideak osatzea euskararako hainbat alor espezializatutan.
- Prozesamendu-etiketak aztertzea eta formatuen trukerako protokoloak finkatzea, YATEk prozesatutako euskararako testu-corpusekin lan egin ahal izateko.
- Gaztelania-katalan-euskara baliokidedunen hiztegiak osatzea hainbat eremu tematikotarako eta, bestetik, kontzeptu-harremanak identifikatzeko balio duten adierazpideak bilatzea.
- EWN aberastea euskarazko datuekin ekonomia, medikuntza, zuzenbidea eta ingurumenaren arloetarako (YATEren etorkizuneko egokitzapenei begira).
- YATE testu berezituetara eta hainbat hizkuntzatara aplikatutakoan lorturiko emaitzen ebaluazioa.
- YATE tresnarako sarrera-plataforma berri baten diseinu eta inplementazioa, kontzeptu-harremanen detekziorako aplikatibo osagarriak erabiliz.
Zeregin hauek ondoko helburu xeheetan laburbil daitezke:
- YATE terminologia-erauzketa automatikorako tresna, 6 eremu tematikotako eta 3 hizkuntzatako erauzketa estaltzeko garatua (tresna aitzindaria).
- Erauzlea eremu tematiko berrietara eta hizkuntza berrietara moldatzeko lan-metodologia ebaluatua. Erauzlearen emaitzen ebaluazio kontrastatua (kalitate-kontrola).
- EuroWordNet ezagutza-basea aberastea 6 eremu tematiko espezializatutarako eta 3 hizkuntzatarako (beste proiektu batzuen gaineko inpaktua).
- Sorturiko edota moldaturiko tresna eta baliabideetarako irisgarritasuna.
Azpiproiektu bakoitzaren helburuak eta koordinazio-mekanismoak
1 azpiproiektua (UPF):
- YATE zuzenbide alorrera katalanez egokitzen bukatzea. EWN ezagutza-basea zabaltzea. Emaitzen ebaluazioa.
- YATEren egokitzapen berriak katalanez, informatikarako eta ingurumenerako. EWN ezagutza-basearen zabaltzea. Emaitzen ebaluazioa.
- YATEren egokitzapen berriak gaztelaniaz, zuzenbiderako, informatikarako eta ingurumenerako. EWN ezagutza-basearen zabaltzea. Emaitzen ebaluazioa.
- Katalan-gaztelania hizkuntzetarako eta euskararako erabilitako etiketen azterketa kontrastiboa (partekatutako zeregina).
- Formatuen trukerako protokoloen ezarpena, erabilitako etiketen azterketa kontrastibotik abiatuta.
- Kontzeptu-harremanak katalanez detektatzeko adierazpideen zerrenda.
- YATE tresnara sartzeko plataforma berri baten diseinu eta inplementazioa, kontzeptu-harremanak detektatzeko aplikatibo osagarrien bitartez.
2 azpiproiektua (EHU):
- Tematika espezializatuko testu-baliabideak osatzea euskararako: erreferentziazko testu-corpusak medikuntzan, zuzenbidean, informatikan eta ingurumenean, erakundeekin eta enpresekin egindako hitzarmenen bitartez.
- Corpus hauetatik hartutako lagin adierazgarri baten prozesamendu linguistikoa (lematizazioa, analisi morfologikoa eta desanbiguazioa).
- Katalan-gaztelania hizkuntzetarako eta euskararako erabilitako prozesamendu-etiketen azterketa kontrastiboa (partekatutako zeregina).
- Gaztelaniaz eta katalanez EWN ezagutza-basean gehitutako sinonimo-multzoen euskal baliokideak finkatzea (hiztegi eleaniztuna).
- EWN aberastea euskarazko datuekin ekonomia, medikuntza, zuzenbide, informatika eta ingurumenaren arloetarako (aurreko hiztegitik abiatuta).
- Katalanezko kontzeptu-harremanetatik abiatuta, gaztelaniazko eta euskarazko baliokideak finkatzea.
- Proiektuaren web orriaren diseinu eta garapena. Proiektuan erabilitako baliabide eta tresnen ataria.
Koordinazio bideak:
- Ikerketari zuzendutako baliabideen lagapena elkarri egiteko hitzarmena sinatzea.
- Azpiproiektuen ikertzaile nagusien bilerak zereginen planifikaziorako, baliabideen trukerako, lan-egutegiaren jarraipenerako eta emaitzen hedapenerako (sarrera-plataforma, proiektuaren web orria, azken argitalpenak, kongresuetan parte hartzeko planifikazioa). Eremuko beste ikerketa-talde batzuekiko harremanak.
- Bi azpiproiektuen teknologoen arteko bilerak, etiketarioen erkaketa eta formatuen trukea helburu izango dutenak.
- Bi azpiproiektuetako hizkuntzalarien arteko bilerak EWN ezagutza-basea handitzean eta eraikitzean sorturiko arazoak elkarrekin konpontzeko.