Per conèixer les característiques dels textos d'economia hem utilitzat dos corpus: un bilingüe i un altre monolingüe.
El bilingüe es composa de dos textos: un d'economia general, i un altre de màrketing. Hem considerat aquests dos corpus com a especialitzats.
Cal tenir en compte que els dos textos són traduccions (el text original és en castellà).
El text d'economia té 177.799 mots:
GARCÍA DELGADO, J.L. [zuz.] [et al.]. Lecciones de economía española. Madrid: Civitas, 1995.
GARCÍA DELGADO, J.L. [zuz.] UZEI [trad.]. Espainiako ekonomiari buruzko ikasgaiak. Bilbo: EHU/UPV Argitalpen Zerbitzua, 1998.
El text de màrketing té 133.476 mots:
AGUIRRE GARCÍA, M.S. [coord]. Marketing en sectores específicos. Madrid: Pirámide, 2000
AGUIRRE GARCÍA, M.S. [coord]. Sektore espezifikoetako marketina. UZEI [trad.] (2003)
Aquests dos textos estan aliniats a nivell oracional. Els punts i els dos punts són els que marquen aquestes oracions.
El corpus monolingüe ha estat extret del periódico Euskaldunon Egunkaria . Hem agafat tots els articles relacionats amb l'economia durant el 2000. En total són 600.931 mots.
Hem lematitzat i analitzat morfològicament els corpus. Per a les anàlisis dels textos en euskera hems utilitzat l'analitzador EUSTAGGER (Aduriz et al ., 1994) desenvolupat en el grup IXA de la Universitat del País Basc (UPV/EHU) .
Per a la part en castellà hem utilitzat l'analitzador Freeling (Atserias et al. , 2006) desenvolupat pel grup TALP de la Universitat Politècnica de Catalunya (UPC).
Un dels objectius d'aquest projecte era extreure la terminologia pròpia de l'àmbit d'economia. Per això, hem utilitzat dos extractors de terminologia: ERAUZTERM per als textos monolingües i ELEXBO per als textos bilingües.