Català | English |Español | Galego

Sarrera eta aurrekariak

Informazioaren Erauzketa (aurrerantzean IE) hainbat teknologiaz baliatzen da. Teknologia horiek bat datoz tresna informatikoen bidez iragazitako informazioa lortzeko helburu orokorrean, baina helburu zehatzak oso desberdinak izaten dira batean eta bestean: gai jakin bati hertsiki dagozkion dokumentuak Webean bilatzea, laburpenak sortzea, testu-meatzaritza, hiztegi konputazionalak era automatikoan aberastea, terminologia era automatikoan erauztea edota datu-base dokumentaletarako bilaketa-tresnak egitea, besteak beste.

IEari zuzendutako teknologia guztietan oso emankorra gertatu da askotariko tekniken konbinazioa. Erabili ohi diren tekniken artean, teknika estatistikoak eta ikasketa automatikoa deritzenak ez ezik, aipatu beharrekoak dira estrategia linguistikoetan oinarriturikoak. IErako zenbait teknikatan, batera erabili dira baliabide linguistikoak eta hizkuntza-azterketarako tresnak. Zehazkiago, hizkuntza naturalaren prozesamendu-kateak (H N PK), lematizazioaz , etiketatze morfologikoaz, analisi sintaktikoaz eta desanbiguazioaz osaturiko segidaren bitartez, oso emaitza onak eskain ditzake IErako sistemak aldez aurretik mugaturiko datu-multzoei (testuak, datu-base dokumentalak, testu- corpus ak, edo ezagutza-bankuak) ezartzen zaizkienean. Adibidez, emaitza onak ematen dituzte laburpenen sorrerarako, hiztegi konputazionalak aberasteko, edota terminologia-erauzketa automatikorako. Behin IErako iturri dokumentala mugatuz gero, doitasun handiko output ak lortzeko aukera eskaintzen dute testuen egitura mailako etiketatzeak (SGML edo XML), eta iturri dokumental horren morfologia mailako etiketatzeak; baita, azken urteotan eta zenbait hizkuntzatarako, unitate lexikoen eta sintagma-egituraren sintaxi-informazioaren etiketatzeak ere. Bestalde, aldez aurretik mugatutako testu- corpus etako edo datu-base dokumentaletako IEan, oso txikia izaten da zarata, gaiaren aldetik oso testu aukeratuak direlako, eta irizpide dokumental zorrotzak ezartzen direlako. Horrela, terminologia-erauzketarekin, laburpenen sorkuntzarekin, edo lexikoaren eskuratze automatikoarekin lotutako proiektuetan HNPko kateak analisi sintaktikotik etiketatze semantiko eta pragmatikora zabaltzen ari dira, aldez aurretik mugaturiko iturrietatik oraingoa baino askoz ere IE doituagoa lortzeko xedea ikusmiran izanik.

Internet bezalako iturri mugagabeei zuzendutako IEaren kasuan aldiz, ezinezkoa dirudi prozesamendu linguistiko estentsiboak . Izan ere, ezin prozesa ditzakegu linguistikoki sarean dauden orri guztiak, ezta bilaketa bakar batean lortzen diren emaitza zabalak ere. Gainera, ezinezko zeregina ez ezik, zentzurik gabekoa ere litzateke, baldin eta gure helburua gai bati buruzko informazio orokorra eskuratzea edo gai horri buruzko dokumentu multzo bat lortzea bada behintzat. Era honetako IEan, ezin dira zuzenean eta modu zabalean erabili ez analizatzaile morfologikoak, ez sintaktikoak, ez eta prozesamendurako hiztegi konputazionalak ere. Interneteko IErako ezagutza linguistikoa erabili da, batez ere, dokumentu-indexazioan eta kontsulten hedapenean. Gurea bezalako egitasmo batean oso lagungarriak gerta daitezke indexazioaren, metadatuen eta web semantikoaren esparruetan lortzen ari diren emaitzak, hierarkia lexikoen ( adib. Wordnet ), kontzeptu-ontologien ( adib. Mykrokosmos ), eta dokumentu-taxonomien ( adib . Delphy ) garapenari begira. Baliabide horiek erabilgarriak dira dokumentuen kontrol-sistemetarako eta dokumentuak indexatzeko, ez denominazio anbiguoetatik abiatuta, baizik eta esanguraren adieretatik abiatuta. Hizkuntza naturala prozesatzeko tresnak kontsulten hedapenean ere erabili dira, gehien bat kontsulta-termino batetik harreman morfologikoa duten terminoen multzoa eskuratzeko. Izatez erabiltzaileek sarean gai jakin bati buruzko informazioa bilatzen dutenean, kontsulta bakunak erabili ohi dituzte, eta oso gutxitan egiten dituzte kontsulta konplexuak edo konbinatuak. Honelako bilaketen emaitzek, oso doitasun maila altua lortu dute estrategia matematikoetan eta kontsulten hedapen linguistikoan oinarritutako bilaketa-tresnei esker baina, hala ere, bilaketen emaitzak ez dira inoiz erabiltzaileek nahi luketen bezain doiak. A dibidez, munduko burtsetan azken bost urtean balore jakin batzuek izan duten bilakaera ezagutu nahi duen erabiltzaileak dokumentu zerrenda bat lortuko du, gehienez ere, zatikako informazioa eskaintzen duten dokumentuak izango dira gainera, eta hori hala izango da kontsulta konplexu samarra eginda ere: balore jakin batzuk, baloreen bilakaera, baloreen burtsa, burtsa nagusiak dituzten hiriak e.a. Adibideari jarraiki, burtsei buruzko informazioa baizik izango ez luketen Web-orriak beharko genituzke behar horri erantzun ahal izateko. Bilaketa hori bakarrik izan liteke salbuespena burtsei buruzko halako azterketarako bereziki diseinaturiko web-gune bat balego eta gune hori nahikoa ondo indexaturik balego bilatzaileak bilaketaren lehen emaitzetan kokatzeko.

Ildo honetatik, iturri mugagabeetarako IEari buruzko azken ikerketak Web semantiko deritzonerantz zuzendu dira: badirudi baliabide horrek web-orri eta guneen indexazioa nabariki hobetu dezakeela metadatu deritzenen bitartez. Etorkizun handikoa izan daitekeen ikerketa-ildo honek informazioaren iturrian bertan kokatu nahi du konponbidea, eta ez bilaketa-tresnetan. Izan ere, antzeko prozedurak erabiltzen ari dira duela urte asko datu-base dokumentaletan (testuinguru osokoak edo aldizkarien aurkibidedunak): iturriak eta edukiak aldez aurretik indexatuta dituzte, thesaurus en , hitz gakoen, kontrol-hiztegien, adierazle automatikoen bitartez, besteak beste.

Gure egitasmoak uztartu egiten ditu aurretik aipaturiko IErako bi tradizioak: lehenik, baliabide linguistikoak garatuko ditugu corpus mugatuen gaineko IErako egin izan den bezala eta, ondoren, IE doirako beharrezkoak diren alderdi semantikoei erreparatuko diegu. Baliabideen garapenak bi helburu ditu egitasmo honetan.

Lehenengo bi urteetan garatuko ditugun baliabide hauetan oinarrituko da hain zuzen Interneteko Bilatzaileetarako Kontsultak Berreraikitzeko Sistema (IBKBS). Sistema honen bidez, ontologian eta datu-base terminologikoan onetsitako informazioa berriz erabiliko da, ereduzko erabiltzaile baten kontsulta bakuna kontsulta konplexu bihurtzeko eta, Interneteko bilatzaile batera bidalita, emaitzaren doitasuna hobetzeko. Izan ere, ideia hau oinarritu dugu, batetik, IEan espezializatutako dokumentalistek egindako Interneteko erabiltzaileen beharrei buruzko azterketetan eta erabiltzaileen ikuspegitik egindako IErako sistemen ebaluazioetan eta, bestetik, harreman semantikoa duten terminoen kontsulten hedapenean.

Egitasmo honen oinarrietako bat da era askotako baliabideak berrerabiltzea. Garatu nahi ditugun baliabideak kontsultak egiteko sistema baten aplikaziorako oinarria izango dira eta, beraz, baliabideak beraiek ez dira gure xedea. Hori dela eta, dagoeneko existitzen diren baliabideak aurkitu, moldatu eta berrerabili nahi dira, proiektuan txertatzeko . Izan ere, hasierako testu- corpus ak osatzeko orduan, kontuan hartu genituen gaztelania eta katalanerako zeuden baliabideak (IULA-UPFko corpus teknikoa , https://www.iula.upf.edu), eta galego eta euskararako antzeko baliabideak garatzea pentsatu genuen. Gainera, ekonomiako corpus horiek osatzeko, hizkuntza horietarako dauden beste testu- corpus orokor batzuetako (kazetaritza- corpus ak, corpus lexikografikoak, digitalizatutako testuak e.a.) zenbait lagin berrerabili nahi dira. Taldeak baditu gaztelania eta katalaneko corpus a prozesatzeko tresnak, eta oraingo helburua da euskararako garatuta dauden tresnak (hiztegia, analizatzaile morfologikoa, oinarri linguistikodun desanbiguatzailea) erabiltzeko baimenak lortzea. Galegoaren kasuan, bi aukera aurreikusten dira: prozesatzeko dauden tresnak berrerabiltzea edo, bestela, kalatan eta gaztelaniarako garatuta dauden tresnak galegorako moldatzea. Taldeak badu baita terminologia-erauzle automatiko bat ere, hizkuntza jakin baten menpekoa ez dena. Terminologia-erauzle hori, ontologia eta datu-base terminologikoa aberasteko beharrezkoa balitz, proiektuko hizkuntzaren baterako eta ekonomiaren diskurtsoaren eremurako molda liteke. Bestalde, proiektu honen ondorioz lortuko diren baliabideak (ekonomiako corpus a Estatuko lau hizkuntzetan, ontologia bat eta datu-base terminologiko bat) proiektuko hizkuntza bakoitzeko azterketa linguistikoetan erabili ahal izango dira edota ekonomiaren alorreko diskurtso berezituari eta berezko terminologiari buruzko zeharkako azterketetarako ere. Lortuko diren baliabide hauek hiztegiak eguneratzeko edota neologiaren jarraipena egiteko ere erabili ahal izango dira.

Egitasmo hau nagusiki aplikatua bada ere, hizkuntzalaritzako oinarrizko alderdiak ere lantzen ditu: diskurtsoaren analisia, predikatuen semantika, hiztegiaren semantika, neologia. Aztergaietako bat, agian garrantzitsuena, da ekonomiaren diskurtsoan balio berezitua azaltzen duten unitate lexikoen alderdi semantiko eta pragmatikoen azterketa. Aztergai hori funtsezkotzat hartzen dugu giza eta gizarte-zientzien terminologiaren berezko konfigurazioagatik. Biologia, medikuntza, kimika eta geologia bezalako zientzia-alorrek oso izen-terminologia bereizgarria azaltzen dute: berezko izen elkartu eta eratorri ugari erabiltzen dituzte, alor hauetan bakarrik erabiltzen direnak edota alor hauetan maiztasun handiz erabiltzen direnak behintzat. Ezaugarri horrek posible egiten du terminologia zientifiko hori automatikoki nahiko erraz detektatzea (adibidez, karbonitrurizatu, adenosina trifosfato, mononukleosi ) . Alor horietakoa ez bezala, giza eta gizarte-zientzietako terminologiak ez du azaltzen gehienetan ezaugarri formal bereizgarririk, askotan oinarritzen baita erabilera orokorreko hitzen semantika-aldaketan ( burtsa, diru, balore, tasa, emendio ,.) . Horien ondoan badira alorraren bereizgarriak diren zenbait termino, tematikoki markatu gabeko komunikazioan ere erabili ohi direnak ( inflazio , debaluazio, kostu, mozkin ). Tankera honetako terminologia aztergai izanda, zailago bilakatzen da unitate terminologikoak detektatzea eta identifikatzea, tartean ez baitugu euskarri morfologikorik (morfologia-iragazkiak). Zailtasuna tresna informatikoetara ere heltzen da, adibidez, terminologiaren erauzketa automatikorako eta hiztegiaren lorpen automatikorako tresnetara. Giza eta gizarte-zientzietako terminologian lan egitea erronka interesgarria da aplikazioetarako baina, gainera, diskurtso orokorraren eta diskurtso espezializatuaren arteko loturak aztertzeko bide emankorra irekitzen digu lan horrek: besteak beste, unitate lexikoen polisemia , hiztegi-sorkuntzarako erabilitako metaforak, hiztegiaren barne eta kanpo aldakortasuna, fraseologia edo konbinatoria lexikoa balio terminologikodun unitateak detektatzeko bide modura.

Laburbilduz, bai ingeniaritza linguistikoaren teknologiaren eta IErako sistemen, eta bai IEari, terminologiari eta errepresentazio semantikoari buruzko ikerkuntza oinarrizko eta aplikatuaren egungo egoerak (datu-base lexikoak, ontologiak, hierarkia lexikoak, thesaurus ak), posible egiten digute aurrerapen integratzailea egitea, Interneteko bilaketa-tresnen eraginkortasuna hobetze aldera. Eskura ditugun baliabide linguistikoak berrerabiliz eta baliabide osagarriak garatuz aukera izango dugu aurrekontu txikien bitartez IErako eraginkorrak diren estrategia linguistikoak garatzea. Horrela, Web-gune batean nahi duenaren eskura utziko ditugu ekonomiaren esparruko hainbat baliabide eleanitz. Web-gune horretatik, atari espezializatuetan ohikoa den bezala, proiektuan garatutako baliabide guztietara sartu ahal izango dira erabiltzaileak: testu- corpus ak, ontologia, datu-base terminologiko eleanitza eta Interneteko kontsultetarako RECBI sistema.

Helburu orokorrak

  1. Interneteko kontsultak berreraikitzeko sistema bat, hizkuntza anitzekoa (RECBI), eta ontologia batetik eta datu-base terminologiko batetik ateratako informazio semantikoduna.
  2. Ekonomiaren alorreko ontologia bat, testu errealez os a tutako corpus en kontsultatik lorturiko informazio semantikoz eta pragmatikoz hornitua eta datu-base terminologikoari lotua.
  3. Ekonomiari buruzko ingeles, gaztelania, katalan, euskara eta galegozko datu-base terminologikoa, definizioak, gramatika-zehaztapenak, fraseologia, eta aldakiak eta bidalketak izango dituena, eta ontologiari lotua egongo dena.
  4. Galegorako eta euskararako IULA-UPFn dauden ingeles, gaztelania eta katalanezko testu- corpus en antzekoak sortzea. Corpus horiek estrukturalki markatuko dira estandarren bidez eta linguistikoki prozesatuko dira, ontologia eta datu-base terminologiko eleanitza eraikitzeko beharrezkoa den informazioa erauzi ahal izateko.
  5. Galegorako eta euskararako dauden prozesamendu-tresnak testu- corpus ak prozesatzeko moldatzea.
  6. YATE terminologia-erauzle automatikoa ekonomiaren alorrerako eta proiektuko hizkuntzetarako moldatzea.
  7. Oinarrizko ikerkuntza, ekonomiako terminologiaren eta ekonomiako diskurtso berezituaren deskripzioaz, eta oinarrizko ikerkuntza teorikoa, gizarte-zientzien diskurtsoaz eta harekin lotutako alderdi semantikoez.

Azaldu berriak ditugun zazpi helburu orokorrak hiru bloke handitan laburbil daitezke:

  1. Baliabide eta tresnen garapena. Dauden baliabideen moldapena eta berrerabilpena.
  2. IEari buruzko lana, zehazkiago, kontsultak berreraikitzeko sistema baten diseinua, ekonomiaren berariazko baliabideetatik erauzitako informazio semantiko eta formala erabiltzen duen kontsulten hedapenean oinarritua.
  3. Terminologiaren deskripzioarekin eta teoriarekin zerikusia duten aurrerapenak ikuspegi linguistiko batetik.

Bi proiektuek dituzten helburu komunak

Hona hemen, bestalde, egitasmo koordinatu honen bideragarritasuna eta emaitzen kalitatea bermatuko dituzten jarduerak:

Eguneratze-data: 26-06-2007