Euskarazko corpus elebakarra
Euskarazko corpus elebakarra
Elhuyarren euskarazko web-corpusak 300.217.903 testu-hitz ditu, eta gaur egungo euskarazko corpusik handienetarikoa da. Web-corpus hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako teknologiak erabilita.
Biltze-prozesua eta osaera
Corpus elebakarra osatzen duten testuak bi metodo konbinatuz eskuratu dira:
Interneteko euskarazko ausazko webguneen ustiaketa automatikoa:
Web-corpus zati hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako teknologiak erabilita (CO3). Web-corpusa biltzeko tresnak ondoko gauzak egiten ditu:
Planteamendu honen bidez sorturiko corpus atalaren datuak ondoko taulan ikus daitezke:
Hitz-kopurua | Dokumentu-kopurua (web-orriak) | Domeinu-kopurua (domeinuak) |
---|---|---|
176.397.202 (% 57,7) | 245.539 (% 29,7) | 7.436 (% 99,8) |
Interneteko euskarazko iturri jakinen ustiaketa automatikoa:
Web-corpus zati hau modu automatikoan eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako beste proiektu batzuetan erabilitako interneteko euskal domeinu jakin batzuetako materialak erabilita. Domeinu hauek eskuz aukeratuak izan dira edukien egokitasuna kontuan hartuz.
Ondoko taulan corpus elebakar osoaren informazioa laburtzen da:
Domeinua | Hitz-kopurua | Dokumentu-kopurua (web-orriak) | Domeinu-kopurua (domeinuak) |
---|---|---|---|
Webetik bildua | 176.397.202 (% 57,7) | 245.539 (% 29,7) | 7.436 (% 99,8) |
Berria | 61.205.029 (% 20,02) | 195.622 (% 23,7) | 1 (% 0,01) |
Wikipedia | 34.620.690 (% 11,3) | 336.314 (% 40,7) | 1 (% 0,01) |
Klasikoak | 8.101.999 (% 2,6) | 92 (% 0,01) | 1 (% 0,01) |
Zientzia.eus | 7.441.295 (% 2,4) | 19.591 (% 2,37) | 1 (% 0,01) |
Susa | 5.624.439 (% 1,8) | 4.417 (% 0,5) | 1 (% 0,01) |
Argia | 5.290.956 (% 1,7) | 14.320 (% 1,7) | 1 (% 0,01) |
Consumer | 2.824.059 (% 0,9) | 2.710 (% 0,3) | 1 (% 0,01) |
Armiarma | 2.291.229 (% 0,7) | 5.919 (% 0,7) | 1 (% 0,01) |
Booktegi | 1.371.000 (% 0,4) | 78 (% 0,009) | 1 (% 0,01) |
ZTH | 496.328 (% 0,1) | 569 (% 0,06) | 1 (% 0,01) |
GUZTIRA | 305.664.226 (% 100) | 825.171 (% 100) | 7.446 (% 100) |
Etiketatzea
Webgune honetan kontsultagai jartzeko, testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko Ixa taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi hauek erabili dira
Euskara-gaztelania corpus elebiduna
Biltze-prozesua eta osaera
Atari honetan kontsultagai dagoen bigarren corpusa euskara-gaztelania corpus paraleloa da. Corpus hau automatikoki osatu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako PaCo2 tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu.
Corpus paraleloaren datuak ondoko taulan ikus daitezke:
Hitz-kopurua EU | Hitz-kopurua ES | Hitz-kopurua totala | Segmentu-kopurua | Domeinu-kopurua (webguneak) |
---|---|---|---|---|
15.118.929 | 19.328.826 | 34.447.755 | 1.108.743 | 340 |
Esaldi mailako parekatzea
Elkarren itzulpenak diren orriak identifikatzeko, gure tresnak ondoko heuristikoak konbinatzen ditu:
Elkarren itzulpenak diren web-orri bikoteak identifikatu ostean gure tresnak Hunalign tresna erabiltzen du esaldi-mailako parekatzeak egiteko. Parekatze okerrak ahalik eta doitasun handienarekin baztertzeko helburuarekin hemendik lorturiko parekatzeak automatikoki errebisatzen dira posprozesu batzuen bidez.
Etiketatzea
Webgune honetan kontsultagai jartzeko, euskarazko testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko Ixa taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira. Gaztelaniazko testu guztien kasuan Freeling tresna erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira.
Euskarazko hitzen konbinazio-patroien erauzketa: Konbitz tresna
Hizkuntza bateko hitzen ezaugarriak eta erabilera aztertzeko, azken hamarkadetan gero eta garrantzi handiagoa eman zaie hitzek osatzen dituzten konbinazioei. Hitz bat zein hitzekin batera agertu ohi den ikustean, hitzaren erabileraren eta esanahiaren informazio interesgarria jasotzen dugu. Gainera, konbinazio batzuek ezaugarri bereziak dituzte, ez baitira libre edo erregularrak. Horrelako konbinazio bereziei unitate fraseologiko deritze, fraseologia baita horiek aztertzen dituen hizkuntzalaritzaren adarra. Batzuetan, konbinazioaren esanahia da berezitasun horren arrazoia. Esaterako, esanahia ezin da osagaien ohiko esanahietatik ondorioztatu (adarra jo, ardi galdu, zulo beltz); horrelakoei lokuzio edo esapide idiomatiko esan ohi zaie. Beste kasu batzuetan, osagai batek adiera berezia hartzen du konbinazioan (ardo zuri, eguzki-haize, atentzioa eman, zarata atera) edo haren sinonimoekin osatutako konbinazioak ez dira ohikoak (meza entzun, eta ez *meza aditu), eta kolokazio direla esaten da. Beste kolokazio batzuetan, hitz batek sinonimo-multzo bateko hitz jakin batekin konbinatzen da, edo joera nabaria du sinonimoetako batekin agertzeko, eta besteekin askoz gutxiago erabiltzen da (XX). Bestetik, badira, adiera berekoak izan arren, hitz jakin batzuekin konbinatzen espezializatuta daudenak hala nola 'taldea' adierako aldra eta sarda hitzak, lehena txoriekin erabiltzen baita, eta bigarena arrainekin. Euskarazko beste konbinazio batzuek berezitasun morfosintaktikoa dute, hala nola lan egin, min hartu eta musu eman moduko aditz-elkarteek, ez baita ohikoa izena mugagabean erabiltzea (*ur edan, *liburu irakurri). Beste ikuspegi batetik begiratuta, konbinazio horietako batzuk hitz anitzeko terminoak dira, hau da, espezializazio-arlo bateko teknizismoak (haize-energia, energia eoliko, energia berriztagarri, energia askatu; erradiazio ionizatzaile, erradiazioa igorri). Azkenik, badira ohiko konbinazio direlakoak, aurrekoen mailako berezitasuna ez dutenak baina, maiztasun handia dutelako, hitzaren erabileraren inguruko datu interesgarriak ematen dizkigutenak. Horregatik, batzuek kolokazioen artean sailkatzen dituzte horrelakoak, nahiz eta, adiera hertsian, konbinazio libre direla esan daitekeen.
Elhuyarrek Konbitz tresna garatu du hitz-konbinazioak testuetatik automatikoki erauzteko eta neurri estatistikoen bidez ordenatzeko. Hitz baten konbinazioak erauzteko tresna baten helburuak dira, batetik, benetako konbinazioak lortzea, eta ez elkarren ondoan erlazio lexikal edo morfosintaktikorik gabe gertatzen diren agerkidetzak; eta, bestetik, konbinazioen ordenazio edo ranking horretan unitate fraseologikoak goiko posizioetan agertzea. Konbitzek teknika linguistikoak eta estatistikoak erabiltzen ditu horretarako. Erauzte-prozesuan, hitz baten testuinguruaren informazio morfosintaktikoa erabiltzen da eta, horri esker, hitz baten erabileraren informazioa konbinazio-patroietan antolatua kontsultatzeko aukera eskain dezakegu. Batetik konbinazioaren egitura morfosintaktikoaren arabera bereizten dira emaitzak. Konbitzek konbinazio-mota hauek erauzten ditu: izena+aditza, izena+izena, izena+izenondoa, izenlaguna+izena, adberbioa+aditza eta postposizioak. Bestetik, izen bat zein aditzekin erabili ohi den hobeto bistaratzean, izenak daraman kasuaren arabera bereizten dira konbinazioak (aditzaren subjektua edo objektua den, edo datiboan, instrumentalean edo beste kasu batean dagoen). Antzeko zerbait izen baten modifikatzaileekin: izenondoak, izenlagunak eta izen-elkarteak patroi bereizietan antolatzen dira. Konbitz tresnaren beste funtzionalitate bat da konbinazio baten agerpenak adibide izateko duten egokitasunaren arabera sailkatzea; horri esker, adibide egokiak automatikoki hautatzeko eta erabiltzaileari eskaintzeko aukera dugu.
Konbitzen emaitzak corpus etiketatua automatikoki prozesatuz lortzen dira eta, beraz, haien doitasuna ez da erabatekoa. Emaitza batzuk zuzenak ez izatea gerta daiteke, eta gehienak hizkuntzaren anbiguotasunaren ondorioz sortzen dira. Ixa taldearen Eustagger tresnak corpusaren etiketatze linguistikoan bezala, Konbitzek ere anbiguotasuna ebazteko prozesuak aplikatzen ditu konbinazioen erauzketan, eta horiek hobetzen ari gara etengabe, emaitzak gero eta hobeak izan daitezen.
Parekatze lexikal elebiduna egiteko metodoa
Prozesu honen helburua elkarren itzulpenak diren unitate lexikalak modu automatikoan identifikatu ahal izatea da. Horretarako oinarrian FastAlign tresna erabiltzen dugu. Horretarako, lehendabizi corpuseko token bakoitza linguistikoki etiketatu eta dagokion lema eta kategoriaren markatzen dugu. Informazio hau FastAlign-en bidez prozesatzen dugu parekatzeak metodo estatistikoen bidez modu automatikoan ateratzeko. Lorturiko emaitzak hainbat heuristikoren bidez orrazten ditugu emaitzen doitasuna hobetzeko helburuarekin:
Automatikoki lorturiko emaitzen doitasuna eta estaldura handitzeko bigarren pasada batean Elhuyar Hiztegiak eskaintzen dizkigun itzulpenak zuzenean corpusean bilatzen ditugu. Horrela automatikoki detektatu gabeko parekatzeak detektatzeaz gain dagoeneko detektatuak zeudenak balidatzeko gai gara.
Ondoko taulan parekatze lexikalen informazioa laburtzen da:
EU sarrera-kopurua | ES sarrera-kopurua | Parekatze-kopurua |
---|---|---|
122.303 | 116.950 | 286.937 |
Kontsulta-aukerak eta funtzionalitateak
Corpus elebakarra
Kontsulta arrunta
Kontsulta aurreratua
Konparazio-bilaketa
Corpus elebiduna
Nola itzuli da?
Kontsulta paraleloa
Konbinazio-patroiak
Patroi nagusiak
Patroi guztiak
Bilaketa gidatuak
Lortu nahi dugun emaitza garbi eduki arren emaitza horretara nola iritsi ez jakitea ohiko egoera izan daiteke corpusen erabileran esperientzia txikia duten erabiltzaileen kasuan. Hori dela eta bilaketa errazteko helburuarekin 'bilaketa gidatuak' atala sortu dugu. Atal honi esker corpus bilaketak modu gidatu eta sinpleagoan egiteko tresnak eskaintzen dira.
Ohiko bilaketak
Hainbat corpus kontsulta behin eta berriro errepikatzen dira, parametro gutxi batzuk aldatuz. Kontsulta hauek modu erraz eta ulergarriagoan exekutatzeko aukera ematen da atal honetan. Horretarako ohikoak izan daitezkeen 9 kontsulta ezberdin modu gidatuan exekutatzeko aukera eskaintzen da, bakoitzean beharrezkoak diren parametro minimoak bakarrik zehaztuz. Parametro hauek galdera/erantzun formula erabiliz zehazten dira.
Hona hemen eskaintzen diren ohiko kontsulten zerrenda:
Bilaketa-sortzailea
Kontsulta-aukera ezberdinak behar bezala ez ulertzeak edo daudela ere ez jakiteak muga handi bat suposatu dezake corpusa erabiltzerakoan. Muga hau gainditzeko atal honetan neurrirako kontsultak modu intuitiboagoan eraikitzeko aukera ematen da. Horretarako, galdera/erantzun sistema bat erabiltzen da non zein galdera mota egin nahi dugun zehaztuz interfazeak egin nahi dugun kontsultaren parametroak banaka-banaka eskatuko dizkigun. Gainera, parametro bakoitzeko argibide eta erabilera-aholkuak erakusten dira erabiltzaileak corpus-kontsultak nola egiten diren ulerterrazago egiteko. Hortaz, atal hau oso interesgarria da corpus-kontsulten inguruan gehiago ikasi nahi duten erabiltzaileentzat.
Neurrirako bilaketa bat sortzeko lehenengo urratsa bilaketa zein corpusetan egin nahi den aukeratzea da. Hona hemen aukerak:
Corpusa aukeratu ostean sistemak egiten dituen galderak erantzunez neurrirako kontsultak sortzea oso erraza da.
Beste corpus batzuetan bilatzeko interfazea
Corpus baten izaera bera osatzen duten testuen bidez definitzen da. Horrela, corpusak orokorrak eta espefizifikoagoak izan daitezke jasotzen duten informazioaren arabera. Bilatu nahi den informazioaren arabera, kasu askotan interesgarria izan daiteke ezaugarri ezberdinak dituzten corpusetako emaitzak konparatzea, izan ere bilatzen dugun emaitza alorraren arabera oso ezberdina izan daiteke.
Euskarari dagokionez esan beharra dago corpusgintzan baliabide gutxiago dituzten beste hizkuntza batzuek baino askoz aurreratuagoa dagoela. Horrela, sarean ezaugarri ezberdinak dituzten hainbat euskarazko corpus topatu ditzakegu.
Atal honen helburua Euskalbar tresnak hiztegiekin betetzen duen funtzioa corpusekin betetzea litzateke, hau da, bilaketa bakarra eginda hainbat corpusetako emaitzak eskuratu eta konparatu ahal izateko aukera ematea.
Bibliografia
Gurrutxaga, A., Alegria, I. & Artola, X. (2015). Idiomatikotasunaren karakterizazio automatikoa: izena+ aditza konbinazioak. In EKAIA Euskal Herriko Unibertsitateko Zientzi eta Teknologi Aldizkaria. Ale berezia: Euskal Tesien 10 pasarte, 47-68.