Informazioa eta laguntza

Euskarazko corpus elebakarra

Euskarazko corpus elebakarra

Elhuyarren euskarazko web-corpusak 300.217.903 testu-hitz ditu, eta gaur egungo euskarazko corpusik handienetarikoa da. Web-corpus hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako teknologiak erabilita.

Biltze-prozesua eta osaera

Corpus elebakarra osatzen duten testuak bi metodo konbinatuz eskuratu dira:

Interneteko euskarazko ausazko webguneen ustiaketa automatikoa:

Web-corpus zati hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako teknologiak erabilita (CO3). Web-corpusa biltzeko tresnak ondoko gauzak egiten ditu:

  • Interneteko euskarazko orriak lokalizatu
  • Orri ez-egokiak iragazi
  • Orri errepikatuak edo ia berdinak ezabatu
  • Orritik edukizkoak ez diren atalak kendu (izenburuak, menuak, nabigazio-aukerak, oin-oharrak), testu nagusia baino ez corpuseratzeko

Planteamendu honen bidez sorturiko corpus atalaren datuak ondoko taulan ikus daitezke:

Hitz-kopurua Dokumentu-kopurua (web-orriak) Domeinu-kopurua (domeinuak)
176.397.202 (% 57,7) 245.539 (% 29,7) 7.436 (% 99,8)

Interneteko euskarazko iturri jakinen ustiaketa automatikoa:

Web-corpus zati hau modu automatikoan eratu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako beste proiektu batzuetan erabilitako interneteko euskal domeinu jakin batzuetako materialak erabilita. Domeinu hauek eskuz aukeratuak izan dira edukien egokitasuna kontuan hartuz.

Ondoko taulan corpus elebakar osoaren informazioa laburtzen da:

Domeinua Hitz-kopurua Dokumentu-kopurua (web-orriak) Domeinu-kopurua (domeinuak)
Webetik bildua 176.397.202 (% 57,7) 245.539 (% 29,7) 7.436 (% 99,8)
Berria 61.205.029 (% 20,02) 195.622 (% 23,7) 1 (% 0,01)
Wikipedia 34.620.690 (% 11,3) 336.314 (% 40,7) 1 (% 0,01)
Klasikoak 8.101.999 (% 2,6) 92 (% 0,01) 1 (% 0,01)
Zientzia.eus 7.441.295 (% 2,4) 19.591 (% 2,37) 1 (% 0,01)
Susa 5.624.439 (% 1,8) 4.417 (% 0,5) 1 (% 0,01)
Argia 5.290.956 (% 1,7) 14.320 (% 1,7) 1 (% 0,01)
Consumer 2.824.059 (% 0,9) 2.710 (% 0,3) 1 (% 0,01)
Armiarma 2.291.229 (% 0,7) 5.919 (% 0,7) 1 (% 0,01)
Booktegi 1.371.000 (% 0,4) 78 (% 0,009) 1 (% 0,01)
ZTH 496.328 (% 0,1) 569 (% 0,06) 1 (% 0,01)
GUZTIRA 305.664.226 (% 100) 825.171 (% 100) 7.446 (% 100)

Etiketatzea

Webgune honetan kontsultagai jartzeko, testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko Ixa taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi hauek erabili dira

Euskara-gaztelania corpus elebiduna

Biltze-prozesua eta osaera

Atari honetan kontsultagai dagoen bigarren corpusa euskara-gaztelania corpus paraleloa da. Corpus hau automatikoki osatu da, Elhuyar Fundazioaren Hizkuntza-zerbitzuak unitateak garatutako PaCo2 tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu.

Corpus paraleloaren datuak ondoko taulan ikus daitezke:

Hitz-kopurua EU Hitz-kopurua ES Hitz-kopurua totala Segmentu-kopurua Domeinu-kopurua (webguneak)
15.118.929 19.328.826 34.447.755 1.108.743 340

Esaldi mailako parekatzea

Elkarren itzulpenak diren orriak identifikatzeko, gure tresnak ondoko heuristikoak konbinatzen ditu:

  • Dokumentu-luzeera iragazkia
  • Dokumentu-hizkuntza iragazkia
  • URL helbideen konparaketa
  • Esteka jarraipen prozesua
  • Hizkuntza arteko edukien analisia eta konparaketa

Elkarren itzulpenak diren web-orri bikoteak identifikatu ostean gure tresnak Hunalign tresna erabiltzen du esaldi-mailako parekatzeak egiteko. Parekatze okerrak ahalik eta doitasun handienarekin baztertzeko helburuarekin hemendik lorturiko parekatzeak automatikoki errebisatzen dira posprozesu batzuen bidez.

Etiketatzea

Webgune honetan kontsultagai jartzeko, euskarazko testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko Ixa taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira. Gaztelaniazko testu guztien kasuan Freeling tresna erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira.

Euskarazko hitzen konbinazio-patroien erauzketa: Konbitz tresna

Hizkuntza bateko hitzen ezaugarriak eta erabilera aztertzeko, azken hamarkadetan gero eta garrantzi handiagoa eman zaie hitzek osatzen dituzten konbinazioei. Hitz bat zein hitzekin batera agertu ohi den ikustean, hitzaren erabileraren eta esanahiaren informazio interesgarria jasotzen dugu. Gainera, konbinazio batzuek ezaugarri bereziak dituzte, ez baitira libre edo erregularrak. Horrelako konbinazio bereziei unitate fraseologiko deritze, fraseologia baita horiek aztertzen dituen hizkuntzalaritzaren adarra. Batzuetan, konbinazioaren esanahia da berezitasun horren arrazoia. Esaterako, esanahia ezin da osagaien ohiko esanahietatik ondorioztatu (adarra jo, ardi galdu, zulo beltz); horrelakoei lokuzio edo esapide idiomatiko esan ohi zaie. Beste kasu batzuetan, osagai batek adiera berezia hartzen du konbinazioan (ardo zuri, eguzki-haize, atentzioa eman, zarata atera) edo haren sinonimoekin osatutako konbinazioak ez dira ohikoak (meza entzun, eta ez *meza aditu), eta kolokazio direla esaten da. Beste kolokazio batzuetan, hitz batek sinonimo-multzo bateko hitz jakin batekin konbinatzen da, edo joera nabaria du sinonimoetako batekin agertzeko, eta besteekin askoz gutxiago erabiltzen da (XX). Bestetik, badira, adiera berekoak izan arren, hitz jakin batzuekin konbinatzen espezializatuta daudenak hala nola 'taldea' adierako aldra eta sarda hitzak, lehena txoriekin erabiltzen baita, eta bigarena arrainekin. Euskarazko beste konbinazio batzuek berezitasun morfosintaktikoa dute, hala nola lan egin, min hartu eta musu eman moduko aditz-elkarteek, ez baita ohikoa izena mugagabean erabiltzea (*ur edan, *liburu irakurri). Beste ikuspegi batetik begiratuta, konbinazio horietako batzuk hitz anitzeko terminoak dira, hau da, espezializazio-arlo bateko teknizismoak (haize-energia, energia eoliko, energia berriztagarri, energia askatu; erradiazio ionizatzaile, erradiazioa igorri). Azkenik, badira ohiko konbinazio direlakoak, aurrekoen mailako berezitasuna ez dutenak baina, maiztasun handia dutelako, hitzaren erabileraren inguruko datu interesgarriak ematen dizkigutenak. Horregatik, batzuek kolokazioen artean sailkatzen dituzte horrelakoak, nahiz eta, adiera hertsian, konbinazio libre direla esan daitekeen.

Elhuyarrek Konbitz tresna garatu du hitz-konbinazioak testuetatik automatikoki erauzteko eta neurri estatistikoen bidez ordenatzeko. Hitz baten konbinazioak erauzteko tresna baten helburuak dira, batetik, benetako konbinazioak lortzea, eta ez elkarren ondoan erlazio lexikal edo morfosintaktikorik gabe gertatzen diren agerkidetzak; eta, bestetik, konbinazioen ordenazio edo ranking horretan unitate fraseologikoak goiko posizioetan agertzea. Konbitzek teknika linguistikoak eta estatistikoak erabiltzen ditu horretarako. Erauzte-prozesuan, hitz baten testuinguruaren informazio morfosintaktikoa erabiltzen da eta, horri esker, hitz baten erabileraren informazioa konbinazio-patroietan antolatua kontsultatzeko aukera eskain dezakegu. Batetik konbinazioaren egitura morfosintaktikoaren arabera bereizten dira emaitzak. Konbitzek konbinazio-mota hauek erauzten ditu: izena+aditza, izena+izena, izena+izenondoa, izenlaguna+izena, adberbioa+aditza eta postposizioak. Bestetik, izen bat zein aditzekin erabili ohi den hobeto bistaratzean, izenak daraman kasuaren arabera bereizten dira konbinazioak (aditzaren subjektua edo objektua den, edo datiboan, instrumentalean edo beste kasu batean dagoen). Antzeko zerbait izen baten modifikatzaileekin: izenondoak, izenlagunak eta izen-elkarteak patroi bereizietan antolatzen dira. Konbitz tresnaren beste funtzionalitate bat da konbinazio baten agerpenak adibide izateko duten egokitasunaren arabera sailkatzea; horri esker, adibide egokiak automatikoki hautatzeko eta erabiltzaileari eskaintzeko aukera dugu.

Konbitzen emaitzak corpus etiketatua automatikoki prozesatuz lortzen dira eta, beraz, haien doitasuna ez da erabatekoa. Emaitza batzuk zuzenak ez izatea gerta daiteke, eta gehienak hizkuntzaren anbiguotasunaren ondorioz sortzen dira. Ixa taldearen Eustagger tresnak corpusaren etiketatze linguistikoan bezala, Konbitzek ere anbiguotasuna ebazteko prozesuak aplikatzen ditu konbinazioen erauzketan, eta horiek hobetzen ari gara etengabe, emaitzak gero eta hobeak izan daitezen.

Parekatze lexikal elebiduna egiteko metodoa

Prozesu honen helburua elkarren itzulpenak diren unitate lexikalak modu automatikoan identifikatu ahal izatea da. Horretarako oinarrian FastAlign tresna erabiltzen dugu. Horretarako, lehendabizi corpuseko token bakoitza linguistikoki etiketatu eta dagokion lema eta kategoriaren markatzen dugu. Informazio hau FastAlign-en bidez prozesatzen dugu parekatzeak metodo estatistikoen bidez modu automatikoan ateratzeko. Lorturiko emaitzak hainbat heuristikoren bidez orrazten ditugu emaitzen doitasuna hobetzeko helburuarekin:

  • Kategoria ezberdina duten parekatzeak baztertu
  • Elementu-kopuru ezberdina duten parekatzeak baztertu
  • Ikur arrarodun parekatzeak baztertu

Automatikoki lorturiko emaitzen doitasuna eta estaldura handitzeko bigarren pasada batean Elhuyar Hiztegiak eskaintzen dizkigun itzulpenak zuzenean corpusean bilatzen ditugu. Horrela automatikoki detektatu gabeko parekatzeak detektatzeaz gain dagoeneko detektatuak zeudenak balidatzeko gai gara.

Ondoko taulan parekatze lexikalen informazioa laburtzen da:

EU sarrera-kopurua ES sarrera-kopurua Parekatze-kopurua
122.303 116.950 286.937

Kontsulta-aukerak eta funtzionalitateak

Corpus elebakarra

Kontsulta arrunta

  1. Bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  2. Bilaketa-zatia: bilatzen dena bilaketa-kutxan idatzitakoaz hasi, bukatu edo bilaketa zehatza den zehazten da
  3. Bilaketa-kutxa: bilatzen den hitza zehazten da
  4. Kategoria gramatikala: bilaketaren kategoria gramatikala zehazten da
  5. Emaitzen ordena: emaitzak zeren arabera ordenatu nahi diren zehazten da
  6. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  7. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  8. Bilaketa-aurreratua: Interfaze honetako bilaketa-aukerak baino aurreratuagoak dituen interfazera eramaten du
  1. Emaitza-kopurua: egindako kontsultak itzulitako emaitza-kopurua
  2. Emaitza-atala: egindako kontsultak itzulitako agerpenak
  3. Agerpen bakoitza: egindako kontsultaren emaitza bakoitza erakusten da. Analisiaren ziurtasunaren arabera hiru koloreko eskema erabiltzen da:
    • Berdea: Analisi bakarra du eta zuzena da
    • Horia: Analisi bat baino gehiago du eta bilatutakoa zuzena da
    • Gorria: Analisi bat baino gehiago du eta bilatutakoa ez da zuzena
    Estekan klikatuz testuinguru zabalagoa erakusten da
  4. Ordenazio-irizpidearen metadatuak: emaitzak ordenazio-irizpidearen arabera taldekatzen dira. Lerro honetan talde bakoitzaren metainformazioa erakusten da
  5. Domeinuaren araberako kopuruak: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da maiztasunaren arabera ordenatua
  6. Domeinuaren araberako grafikoa: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da modu grafikoan
  7. Ezkutatze-botoia: emaitzen atal jakin bat ezkutatzen du

Kontsulta aurreratua

  1. Bilaketa-elementua: bilaketaren parte den elementu bakoitza zehazten da. Gehienez ere hiru elementuko bilaketak egitea ahalbidetzen da.
  2. Bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  3. Bilaketa-zatia: bilatzen dena bilaketa-kutxan idatzitakoaz hasi, bukatu edo bilaketa zehatza den zehazten da
  4. Bilaketa-kutxa: bilatzen den hitza zehazten da
  5. Kategoria gramatikala: bilaketaren kategoria gramatikala zehazten da
  6. Distantzia: uneko elementuak aurreko elementuarekiko eduki behar duen agerpen distantzia maximoa zehazten da. Gehienez ere 4 elementuko distantzia zehaztu daiteke
  7. Posizioa: uneko elementuak aurreko elementuarekiko eduki behar duen agerpen posizioa zehazten da
  8. Osagaietan ere bilatu: bilaketa hitz anitzeko elementuen osagaietan ere egin nahi den zehazten da
  9. Ziurretan bakarrik bilatu: bilaketa analisi zuzenetan bakarrik egitea ahalbidetzen da
  10. Aldaera ez-estandarretan ere bilatu: bilaleta aldaera ez-estandarretan ere egin nahi den zehazten da
  11. Emaitzen ordena: emaitzak zeren arabera ordenatu nahi diren zehazten da
  12. Emaitzen banaketa: emaitzak zeren arabera taldekatu eta grafikoki erakutsi nahi diren zehazten da
  13. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  14. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Emaitza-kopurua: egindako kontsultak itzulitako emaitza-kopurua
  2. Emaitza-atala: egindako kontsultak itzulitako agerpenak
  3. Agerpen bakoitza: egindako kontsultaren emaitza bakoitza erakusten da. Analisiaren ziurtasunaren arabera hiru koloreko eskema erabiltzen da:
    • Berdea: Analisi bakarra du eta zuzena da
    • Horia: Analisi bat baino gehiago du eta bilatutakoa zuzena da
    • Gorria: Analisi bat baino gehiago du eta bilatutakoa ez da zuzena
    Estekan klikatuz testuinguru zabalagoa erakusten da
  4. Ordenazio-irizpidearen metadatuak: emaitzak ordenazio-irizpidearen arabera taldekatzen dira. Lerro honetan talde bakoitzaren metainformazioa erakusten da
  5. Banaketaren araberako kopuruak: egindako bilaketaren emaitzak aukeraturiko propietatearen arabera duten banaketa erakusten da maiztasunaren arabera ordenatua
  6. Banaketaren araberako grafikoa: egindako bilaketaren emaitzak aukeraturiko propietatearen arabera duten banaketa erakusten da modu grafikoan
  7. Aldaera ez-estandarren informazioa: egindako bilaketaren emaitzetan topatzen diren aldaera ez-estandarrak erakusten dira
  8. Ezkutatze-botoia: emaitzen atal jakin bat ezkutatzen du

Konparazio-bilaketa

  1. 1. elementuaren bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  2. 1. elementuaren bilaketa-kutxa: bilatzen den 1. hitza zehazten da
  3. 2. elementuaren bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  4. 2. elementuaren bilaketa-kutxa: bilatzen den 2. hitza zehazten da
  5. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  6. Bilaketa-aurreratua: Interfaze honetako bilaketa-aukerak baino aurreratuagoak dituen interfazera eramaten du
  1. 1. elementuaren emaitza-kopuruak: bilaturiko 1. elementuaren emaitza erlatiboak eta absolutuak erakusten dira
  2. 2. elementuaren emaitza-kopuruak: bilaturiko 2. elementuaren emaitza erlatiboak eta absolutuak erakusten dira
  3. 1. elementuaren domeinuaren araberako kopuruak: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da maiztasunaren arabera ordenatua
  4. 2. elementuaren domeinuaren araberako kopuruak: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da maiztasunaren arabera ordenatua
  5. Emaitza-kopuruen grafikoa: egindako bilaketaren emaitzen banaketa grafikoa erakusten da
  6. 1. elementuaren domeinuaren araberako grafikoa: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da modu grafikoan
  7. 2. elementuaren domeinuaren araberako grafikoa: egindako bilaketaren emaitzak domeinuaren arabera duten banaketa erakusten da modu grafikoan

Corpus elebiduna

Nola itzuli da?

  1. Bilaketa-hizkuntza: bilaketa zein hizkuntzatan egin nahi den zehazten da
  2. Bilaketa: bilatu nahi den elementua zein den zehazten da
  3. Non bilatu: bilaketa-emaitzen kalitatea edo ziurtasuna zehazten da. Kasu honetan, hiru aukera ezberdin ahalbidetzen dira:
    1. Elhuyar hiztegian agertzen diren itzulpenak bakarrik erakutsi
    2. Elhuyar hiztegian agertzen ez diren itzulpenak bakarrik erakutsi
    3. Itzulpen guztiak erakutsi
  4. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  5. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Emaitza-itzulpenak: egin den bilaketaren itzulpen posibleak erakusten dira. Emaitza bakoitzeko ondoko informazioa ematen da:
    • Maiztasun absolutua
    • Maiztasun erlatiboa
    • Itzulpena Elhuyar hiztegian dagoen kasuetan hiztegirako esteka erakusten da
  2. Itzulpena beste egitura batzuetan: itzulpen-egitura atalera eramaten du
  3. : emaitza-itzulpenen banaketa grafikoki erakusten da
  4. Itzulpen-bakoitza: itzulpen bakoitzaren informazio-blokea erakusten da
  5. Itzulpen-adibideak: itzulpen bakoitzeko hiru adibide elebidunak erakusten dira
  6. Adibide gehiago: adibide gehiago erakusteko aukera ematen da
  7. Itzulpena beste egitura batzuetan: bilaturiko itzulpena beste zein egituretan erabiltzen den erakusten da, maiztasunaren arabera ordenatuta
  8. Ikusi gehiago: egitura gehiago erakusten dira

Kontsulta paraleloa

  1. Euskarazko 1. elementuaren bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  2. Euskarazko 1. elementuaren bilaketa-zatia: bilatzen 1. hitza bilaketa-kutxan idatzitakoaz hasi, bukatu edo bilaketa zehatza den zehazten da
  3. Euskarazko 1. elementuaren bilaketa-kutxa: bilatzen den 1. hitza zehazten da
  4. Euskarazko 1. elementuaren kategoria gramatikala: bilatzen den 1. hitzaren kategoria gramatikala zehazten da
  5. Euskarazko 2. elementuaren posizioa 1. elementuarekiko: uneko elementuak aurreko elementuarekiko eduki behar duen posizio erlatiboa zehazten da
  6. Gaztelaniazko 1. elementuaren bilaketa-mota: forma bat edo lema bat bilatu zehazten da
  7. Gaztelaniazko 1. elementuaren bilaketa-zatia: bilatzen 1. hitza bilaketa-kutxan idatzitakoaz hasi, bukatu edo bilaketa zehatza den zehazten da
  8. Gaztelaniazko 1. elementuaren bilaketa-kutxa: bilatzen den 1. hitza zehazten da
  9. Gaztelaniazko 1. elementuaren kategoria gramatikala: bilatzen den 1. hitzaren kategoria gramatikala zehazten da
  10. Gaztelaniazko 2. elementuaren posizioa 1. elementuarekiko: uneko elementuak aurreko elementuarekiko eduki behar duen posizio erlatiboa zehazten da
  11. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  12. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Emaitza-kopuruak: itzulitako emaitza kopurua eta domeinu-kopurua erakusten da
  2. Domeinu-multzoa: emaitzak multzokatzeko erabilten diren domeinuak erakusten dira, bakoitzeko adibide-kopuruarekin batera
  3. Itzulpen-adibide bakoitza: egindako bilalketa agertzen den testuinguru bakoitza erakusten euskaraz eta gaztelaniaz
  4. Agerpen bakoitza: egindako kontsultaren emaitza bakoitza erakusten da

Konbinazio-patroiak

Patroi nagusiak

  1. Bilaketa: bilatu nahi den elementua zein den zehazten da
  2. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  3. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Patroi esanguratsuenak: bilatu den elementua ageri den 5 patroi esanguratsuenak eta bakoitzeko adibide bat erakusten da
  2. Patroi guztiak ikusteko esteka: bilatu den elementua ageri den patroi guztiak ikusteko esteka
  3. Patroien hodeia:bilatu den elementua ageri den patroi guztiak hodei motako grafikoan eralusten dira

Patroi guztiak

  1. Patroiko 1. elementua: bilatu nahi den patroiko 1. elementua zein den zehazten da
  2. Patroiko 1. elementuaren kategoria gramatikala: bilatu nahi den patroiko 1. elementuaren kategoria gramatikala zehazten da
  3. Patroiko 2. elementua: bilatu nahi den patroiko 2. elementua zein den zehazten da
  4. Patroiko 2. elementuaren kategoria gramatikala: bilatu nahi den patroiko 2. elementuaren kategoria gramatikala zehazten da
  5. Patroi-mota: bilatu nahi den patroi-mota zehazten du
  6. Maiztasun minimoa: bilatu nahi den patroiaren maiztasun minimoa zehazten du
  7. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  8. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Emaitzaren kategoria gramatikala: egindako bilaketaren kategoria gramatikala zein den zehazten da
  2. Emaitza-patroiaren 2. elementuaren kategoria: egindako bilaketarekin patroia osatzen duten elementuen kategoria gramatikala
  3. Patroi-mota: emaitza-patroiak patroi-motaren arabera taldekatzen dira, bakoitzeko egitura-mota eta topaturiko patroi-kopurua zehazten delarik
  4. Ezkutatze-botoia: emaitzen atal jakin bat ezkutatzen du
  5. Patroiko azpi-elementua: patroiaren osakeran azpi-elementua den hitza zehazten da. Bestalde, patroiaren t-scorea ere bistaratzen da
  6. Patroi bakoitza: bilaketa irizpideak betetzen dituzten patroiak erakusten dira. Patroi bakoitzeko ondoko informazioa erakusten da:
    • Forma kanonikoa: patroiaren forma kanonikoa erakusten da
    • Hiztegiko informazioa: patroia Elhuyar hiztegian dagoen kasuetan hiztegirako esteka erakusten da
    • Testuinguruak ikusi: patroiaren testuinguruak bistaratzen ditu

Bilaketa gidatuak

Lortu nahi dugun emaitza garbi eduki arren emaitza horretara nola iritsi ez jakitea ohiko egoera izan daiteke corpusen erabileran esperientzia txikia duten erabiltzaileen kasuan. Hori dela eta bilaketa errazteko helburuarekin 'bilaketa gidatuak' atala sortu dugu. Atal honi esker corpus bilaketak modu gidatu eta sinpleagoan egiteko tresnak eskaintzen dira.

Ohiko bilaketak

Hainbat corpus kontsulta behin eta berriro errepikatzen dira, parametro gutxi batzuk aldatuz. Kontsulta hauek modu erraz eta ulergarriagoan exekutatzeko aukera ematen da atal honetan. Horretarako ohikoak izan daitezkeen 9 kontsulta ezberdin modu gidatuan exekutatzeko aukera eskaintzen da, bakoitzean beharrezkoak diren parametro minimoak bakarrik zehaztuz. Parametro hauek galdera/erantzun formula erabiliz zehazten dira.

Hona hemen eskaintzen diren ohiko kontsulten zerrenda:

  • Hitz baten agerpenak
  • Izen jakin batekin erabiltzen diren aditzak
  • Bi hitzen elkarren ondoko agerpenak
  • Aldaera ez-estandar baten agerpenak
  • Bi hitzen erabilera konparatu
  • Hitz bat nola itzuli den
  • Hitz baten eta haren itzulpenaren agerpenak
  • Hitz baten konbinazio-patroiak
  • Hitz bat euskarazko beste corpus batzuetan kontsultatu

Bilaketa-sortzailea

Kontsulta-aukera ezberdinak behar bezala ez ulertzeak edo daudela ere ez jakiteak muga handi bat suposatu dezake corpusa erabiltzerakoan. Muga hau gainditzeko atal honetan neurrirako kontsultak modu intuitiboagoan eraikitzeko aukera ematen da. Horretarako, galdera/erantzun sistema bat erabiltzen da non zein galdera mota egin nahi dugun zehaztuz interfazeak egin nahi dugun kontsultaren parametroak banaka-banaka eskatuko dizkigun. Gainera, parametro bakoitzeko argibide eta erabilera-aholkuak erakusten dira erabiltzaileak corpus-kontsultak nola egiten diren ulerterrazago egiteko. Hortaz, atal hau oso interesgarria da corpus-kontsulten inguruan gehiago ikasi nahi duten erabiltzaileentzat.

Neurrirako bilaketa bat sortzeko lehenengo urratsa bilaketa zein corpusetan egin nahi den aukeratzea da. Hona hemen aukerak:

  • Corpus elebakarrean (EU)
  • Corpus paralaleoan (EU-ES)
  • Sareko beste euskal corpus batzuetan (EU)

Corpusa aukeratu ostean sistemak egiten dituen galderak erantzunez neurrirako kontsultak sortzea oso erraza da.

Beste corpus batzuetan bilatzeko interfazea

Corpus baten izaera bera osatzen duten testuen bidez definitzen da. Horrela, corpusak orokorrak eta espefizifikoagoak izan daitezke jasotzen duten informazioaren arabera. Bilatu nahi den informazioaren arabera, kasu askotan interesgarria izan daiteke ezaugarri ezberdinak dituzten corpusetako emaitzak konparatzea, izan ere bilatzen dugun emaitza alorraren arabera oso ezberdina izan daiteke.

Euskarari dagokionez esan beharra dago corpusgintzan baliabide gutxiago dituzten beste hizkuntza batzuek baino askoz aurreratuagoa dagoela. Horrela, sarean ezaugarri ezberdinak dituzten hainbat euskarazko corpus topatu ditzakegu.

Atal honen helburua Euskalbar tresnak hiztegiekin betetzen duen funtzioa corpusekin betetzea litzateke, hau da, bilaketa bakarra eginda hainbat corpusetako emaitzak eskuratu eta konparatu ahal izateko aukera ematea.

  1. Bilaketa: bilatu nahi den elementua zein den zehazten da
  2. Corpusak: bilaketa zein corpusetan egin nahi den zehazten da
  3. Garbiketa-botoia: zehaztuak dauden iragazkiak hasieratzen ditu
  4. Bilaketa-botoia: Zehazturiko parametroen araberako bilaketa egiten du
  1. Emaitzen-laburpena: egindako bilaketak aukeraturiko corpusetan dituen agerpenen datuak taula honetan laburtzen dira
  2. Corpus bakoitzeko emaitza: aukeraturiko corpus bakoitzeko ondoko emaitzak eskaintzen dira.
    • Corpuseko informazioaren laburpena ikusteko esteka
    • Agerpen-kopurua
    • Agerpen-kopurua milioi hitzeko
    • Corpusaren tamaina hitzetan
  3. Jatorrizko corpuserako esteka: egindako bilaketaren emaitzak jatorrizko corpusetan ikusteko esteka
  4. Corpus bakoitzeko laburpena: auketaturiko corpus bakoitzeko egindako bilaketak itzulitako emaitzaren laburpena eskaintzen da
  5. Corpus bakoitzeko agerpen-kopurua: egindako bilaketak corpus bakoitzean duen agerpen-kopurua erakusten da
  6. Corpus bakoitzeko datuak: egindako bilaketak corpus bakoitzean duen informazioaren laburpen bat erakusten da. Corpus bakoitzak eskaintzen duen informaziao ezberdina denez hemen erakusten den informazioa ere ezberdina da corpus bakoitzeko

Bibliografia

Gurrutxaga, A., Alegria, I. & Artola, X. (2015). Idiomatikotasunaren karakterizazio automatikoa: izena+ aditza konbinazioak. In EKAIA Euskal Herriko Unibertsitateko Zientzi eta Teknologi Aldizkaria. Ale berezia: Euskal Tesien 10 pasarte, 47-68.