CORPEUS
Internet euskarazko corpus gisa

Sarrera
Aurrekariak eta arazoak
CorpEusen ezaugarriak
Zenbait muga
Bilatzaileen APIak
Argitaratutako artikuluak eta aurkezpenak

Sarrera

Gaur egun, hizkuntza guztiek behar dituzte corpusak. Corpusak formatu elektronikoan eta linguistikoki etiketatuta dauden testu-bildumak dira —linguistikoki etiketatuta egoteak esan nahi du hitz bakoitzari dagokion lema, kategoria... ematen zaizkiola— eta hizkuntzaren ikerketan eta hizkuntza-teknologien garapenean erabiltzen dira. Oso baliabide garrantzitsuak dira hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza bera arautzeko, itzulpenetan laguntzeko... Azken finean, hitzen erabilera errealen inguruko informazioa ematen digute corpusek: hitz bat beste bat baino gehiago erabili den, nola deklinatu edo idatzi ohi den, zein hitzekin konbinatzen den...

Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik, euskarazko corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.

Hor dago, ordea, Internet edo amarauna, testu-bilduma erraldoia, guztion eskura, euskarazko beste edozein corpusetan baino askoz testu gehiagorekin. Hori ere corpus bat da, nahiz eta linguistikoki etiketatu gabea den. Ondo legoke corpus gisa kontsultatu edo ustiatu ahal izatea. Hori da, hain justu, CorpEusek egiten duena.

Aurrekariak eta arazoak

Lehendik ere badaude horrelako zenbait tresna sarean (WebConc eta WebCorp, adibidez), baina horiek ere Interneteko beste tresna eta bilatzaileek euskararekin dituzten bi arazoak dituzte: batetik, forma zehatz bat soilik bilatu dezakete, eta ez hitz edo lema baten forma guztiak batera —esaterako, lur bilatzeko eskatu eta lur, lurra, lurrean, lurrarekin... aurkitzea interesatzen zaigu—; bestetik, euskarazkoak ez diren emaitzak ere eman ditzakete eta ematen dituzte, baldin eta hitz-forma bera bada beste hizkuntzaren batean (software, anorexia eta sulfuroso hitzen kasuan, adibidez).

Muga horiek gainditu ahal izateko sortu da CorpEus. Elhuyar Fundazioko I+G taldeak garatu du, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta, esan bezala, Internet euskarazko corpustzat erabiltzeko aukera ematen du. Izan ere, esan liteke Internet corpus erraldoi bat dela, euskaraz dagoen edozein corpus baino askoz ere handiagoa. Gainera, beti ari da eguneratzen eta edukia gehitzen; beraz, hitz berrienak ere kontsulta daitezke.

CorpEusen ezaugarriak

CorpEusek Interneteko bilatzaileen APIak erabiltzen ditu (Google edo Microsoft-enekin ibil daiteke) hitz bat zein orritan agertzen den jakiteko —APIak (Application Programming Interface) zerbitzu batek beste programa batetik erabiltzeko eskaintzen dituen funtzioak dira—. Gero, orri horietan dauden hitzaren agerpen guztiak erakusten ditu, bere testuinguruan. Agerpen-kopurua ere erakusten du.

Emaitzak hainbat faktoreren arabera ordenatu ditzake, eta emaitzen analisi linguistikoa ere erakusten du. Hainbat dokumentu-motarekin funtzionatzen du (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS). Gainera, bilaketa euskararen bi arazoak konponduta egiten du: lemaren arabera bilatzen du, eta euskarazko orriak soilik ematen ditu.

Bilaketa lematizatua

Forma zehatz bat eta forma horren lematik eratortzen diren aukera posible guztiak agertzeko, Euskal Herriko Unibertsitateko IXA Taldeak garatutako sorkuntza morfologikoko tresna erabiltzen da. Hala, forma guztiak eskatzen zaizkio APIari, OR eragilea erabilita. Esaterako, erabiltzaileak etxe hitzaz galdetzen badu, honela jarriko zaio bilatzaileari: etxe OR etxea OR etxeak OR etxeari OR...

Noski, bilatzaileek ez dituzte nahi beste aukera onartzen, eta, hortaz, ez dira deklinazio guztiak bidaltzen, baina bai emaitza esanguratsuak lortzeko adina.

Euskarazko emaitzak soilik

Arestian aipatu dugun bezala, ez dago euskarazko emaitzak soilik agertzen dituen bilatzailerik. Hori arazo bat da aurkitu nahi dugun hitza berdin esaten bada beste hizkuntza batzuetan. Horixe gertatzen da, hain justu, zenbait hitz teknikorekin —adibidez, anorexia, sulfuroso eta byte—, hitz labur batzuekin —katu eta esne, esate baterako— eta izen bereziekin —Fiji eta Newton, besteak beste—. Hain zuzen, hitz teknikoen bilaketak oso ohikoak eta erabilgarriak dira euskarazko corpusetan, terminologia ez baitago behar bezain normalizatuta euskaran.

Euskarazko emaitzak soilik eskuratzeko, CorpEusek iragazkiak erabiltzen ditu. Euskaraz gehien erabiltzen diren hitzak jarri dira iragazki gisa, guztiak AND batekin lotuta. Hitz erabilienak zein diren jakiteko, corpus bat erabili da.

Zoritxarrez, euskaraz gehien erabiltzen diren hitzak (eta, da, ez, ere) motzak dira, beste hizkuntza batzuetan maiz erabiltzen dira, eta, zenbaitetan, laburdura eta akronimoak izan daitezke. Beraz, ez dago hitz magikorik, alegia, euskarazko testuetan soilik agertuko den eta iragazki gisa erabil daitekeen hitzik. Euskarazko hitz erabiliena eta da. Baina ETA akronimo bat ere bada, eta komunikabideetan maiz erabiltzen da hizkuntza askotan. Beste hitz erabilienetako bat da aditza da; baina, errusieraz, bai esan nahi du.

Beraz, hitz horietako zenbat erabili behar dira iragazki gisa bilaketa euskarazko orrietan soilik egiteko? Zenbat eta hitz gehiago erabili, orduan eta zehatzagoa izango da bilaketa, eta, beraz, euskarazkoak ez diren emaitza gutxiago agertuko dira. Dena den, euskarazko zenbait emaitza ere ez ditu erakutsiko, hitz horietakoren bat edo batzuk ez direlako agertzen horietan. CorpEusek lau iragazki-hitz erabiltzen ditu, baina, emaitza gutxi agertzen diren kasuetan, berriz saiatzeko aukera ematen da, horrelako hitz gutxiago erabiliz.

Anbiguotasunen, hitz ezezagunen, aldaeren eta zuzenketen tratamendua

Esan denez, CorpEusek sorkuntza morfologikoa erabiltzen du bilaketa zabaltzeko. Hitz anbiguoen kasuan, analisi ohikoenaren araberako sorkuntza egiten da defektuz, baina beste analisiak aukeran ematen dira. Hitz ezezagun edo berrien kasuan ere, analisi posibleetatik ohikoena hartzen da sorkuntza egiteko, besteak ere aukeran emanez.

Horrez gain, CorpEusek IXA Taldearen EDBL datu-base lexikala erabiltzen du aldaeren eta estandarren tratamendurako. Hala, eskatutako hitzak aldaerak dituela detektatzen bada, bilaketa egiteaz gain, aldaerak proposatzen zaizkio erabiltzaileari, edo, eskatutakoa aldaera bada, forma estandarra. Hori horrela egiten da baita deklinabide-atzizkien aldaerekin ere.

Gainera, ezagutzen ez diren hitzen kasuan, erregela fonologikoen bidez hitz estandar batera iritsi daitekeen begiratzen du CorpEusek, eta hala bada hori ere proposatzen du.

Zenbait muga

CorpEus orain arteko corpusen osagarri izango da. Izan ere, abantailak ez ezik, zenbait desabantaila ere baditu. Batetik, arestian aipatu den bezala, Internet linguistikoki etiketatu gabea denez, nolabaiteko ziurgabetasuna izango du beti lema bat baino gehiago dituzten hitzekin. Pilotari hitza bilatzean, adibidez; izan ere, pilota hitzaren datiboa ez ezik, pilotan jokatzen duen pertsona ere bada pilotari. Beste desabantaila bat da orraztu gabea dela neurri handi batean —blogak, foroak, eduki pertsonala eta horrelakoak, batez ere—; abantaila gisa ikus badaiteke ere (ahozko hizkuntzatik hurbil dagoen eredua ematen delako), desabantaila ere bada, kalitatez txarragoa eta akastuna izan baitaiteke.

Bestetik, inoiz ezingo da ikusi dagoen guztia, bilatzaileek, normalean, mila orriko muga izaten dutelako; beraz, orri horietako emaitzak soilik erakuts daitezke. Eta, azkenik, bilatzaileekiko menpekotasuna du CorpEusek: alde batetik, haien emaitzen ordenaren menpekoak dira tresnaren emaitzak, eta, bestetik, APIetan egiten dituzten aldaketekiko eta APIei jartzen dizkieten mugekiko menpekotasuna ere badu CorpEusek.

Bilatzaileen APIak

CorpEus bilatzaile nagusien APIak erabiltzeko prestatuta dago (Google eta Bing), baina APIen baldintzak direla-eta, bakoitzak bere abantailak eta mugak ditu.

Jarraian ikus daitezke API bakoitzaren mugak eta ezaugarriak:

Google AJAX Search API:
- Eguneko deien mugarik ez
- Dei bakoitzean 8 emaitza
- 64. emaitzara arte
Microsoft Bing API
- Egunean 25000 dei doaneko bertsioan, mugarik ez ordainpekoan
- Dei bakoitzean 50 emaitza
- 250. emaitzara arte

CorpEusi eman nahi diogun erabileraren arabera, API bat bestea baino egokiagoa izan daiteke.

Orokorrean, Google-k estaldura hobeagoa du eta emaitza gehiago itzultzen ditu, beraz egokiagoa da webean agerpen gutxi dituzten hitzak bilatzeko. Gerta daiteke zenbait hitzek Bing-en emaitzarik ez itzultzea edo emaitza oso gutxi itzultzea, eta posible da Google-k kasu horietan emaitza gehiago ematea.

Aldiz, webean presentzia handia duten hitzen ahalik eta agerpen eta testuinguru gehien ikustea interesatzen bazaigu, Bing egokiagoa izan daiteke. Google erabilita lehenengo 64 emaitza-orrietako agerpenak soilik erakuts daitezke eta Bing erabilita, aldiz, lehenengo 250 emaitza-orrietakoak.

Argitaratutako artikuluak eta aurkezpenak

CorpEus toki hauetan aurkeztu edo agertu da:

IEB 07 - Informatikari Euskaldunen Bilkura (Donostia, Euskal Herria, 2007/05/10): CorpEus eta EusBila aurkeztu ziren
Elhuyar Zientzia eta Teknika aldizkaria (2007/07): CorpEusi buruzko artikulua agertu zen
- Artikulua
Norteko Ferrokarrilla irratsaioa (2007/06/20): CorpEusi buruzko elkarrizketa egin zuten
- Elkarrizketa
WAC3 - Web As Corpus workshop (Louvain-la-Neuve, Belgika, 2007/09/15-16): CorpEusi buruzko artikulua argitaratu zen eta hitzaldia eman zen
- Argitaratutako artikulua
- Aurkezpena

CORPEUS Internet euskarazko corpus gisa