EU · EN

3. workshopa: Komunitate bizia, azpiegitura baliagarria (2024)

Koldo Mitxelenaren zitazio-graforantz

Koldo Mitxelena (1915-1987) Errenteriako euskalariaren lan idatziaren inguruan burutzen ari garen proiektua aurkezten dugu poster honekin. Koldo Mitxelenaren lanen argitalpen-metadatuak, alde batetik, eta lan horiek aipatzen dituzten idazlanen multzo baten metadatuak, bestalde, LOD formatu batean jaso ditugu, eta Mitxelenaren lanetara doazen zitazio-erlazioak gehitu, horrela Koldo Mitxelenaren zitazio-sarearen errepresentazio digitalerantz urrats batzuk emanez.

Koldo Mitxelenaren bibliografia oparoa aski sakabanatuta zegoela esan daiteke: 1664 argitalpen zenbatu dugu, hainbat aldizkaritan eta liburutan agertzen direnak, horien artean gehien-gehienak behin edo behin baino gehiagotan birrargitaratu izan direlarik. 2011. urtean Mitxelenaren Obras Completas (OOCC) agertu arte, 745 testu garrantzitsuenak bateratzen dituen bilduma, ez zegoen Mitxelenaren lana batera ikusteko iturririk. Gure ekimenez, OOCC-ko testuak bakoitzaren aurreko argitaraldiekin loturik geratzen dira (ikus bisualizazioa 1 irudian).1 Bestalde, 2011 baino lehenagokoek nahiz OOCC-ko argitalpenek ez dute makinak interpreta daitekeen identifikatzailerik (DOI, handle edo antzekorik). Horrek aipamenen identifikazio eta kudeaketa automatizatua zailagoa egiten du. Honi gehitu behar zaio aipamenen erredakzioan formatuen arau eta estilo aniztasuna, makinarentzako ulergaitzak direnak sarritan. Erregistroen identifikazioak eskuzko lan handia eskatzen du gaur egun. Datu-bolumen handiak lantzeko sistema automatikoa erabiltzeak etengabeko eguneratze eta zuzenketa beharko du.

Gure proiektuan, Koldo Mitxelenaren idazlanen argitaraldi bakoitzari identifikatzailea esleitu diogu lehenengo urrats gisa. Wikibase instantzia bat erabili dugu horretarako: Idazlan bakoitzaren argitalpen-metadatuak Wikibase-ko entitate bati lotu dizkiogu.2 Bigarrenik, lan haietako bat aipatzen duten artikuluak bildu eta datu-base berean errepresentatu ditugu modu berean, hau da, argitalpen-metadatuak dokumentua bera identifikatzen duen entitateari lotu dizkiogu. Hirugarrenik, zitazio-erlazioak errepresentatu ditugu, aipatzen duen artikuluaren metadatuei Koldo Mitxelenaren lanera doan erlazio bat gehituz. Bi iturrietako artikuluak hartu ditugu aintzat urrats honetan: ASJU aldizkaria eta UZTARO aldizkaria. Denera, 770 aipu-erlazio zehaztu dugu, 750 aipu-erlazio ASJU aldizkariko 175 artikulutik, eta 82 aipu-erlazio UZTARO aldizkariko 37 artikuluetatik.

Zitazio-erlazioak aipatutako argitalpenarekin lotu ditugu. Bestalde argitalpen bakoitza OOCC-ko itemei lotu diogunez, Mitxelenaren testu bakoitzak dituen aipu-erlazioak batzeko moduan gaude, 2 irudiak3 erakusten duen bezala. Horrela sortutako datu-multzoan zeharkako galdeketak posible ditugu orain, adibidez, Mitxelenaren lanen ibilbideak haien artean konparatzeko galdeketak, lan horiek aipatzen dituzten ikertzaileak eta aipatutakoaren nahiz aipatzen duen lanaren argitalpen datak aintzat hartuz.

Azkenik, Koldo Mitxelenaren lanen aipamena dituzten artikuluen metadatuak eta OOCC-ko lanen erreferentzien metadatuak Wikidatan gehitu ditugu, bi multzo hauen arteko zitazio-erlazioa barne (hau da, aipu guztiak OOCC-ko argitaraldietara “birbidalita”.4 Scholia, datuen kudeaketa bisualerako tresna, Wikidatako datuekin elikatzen da eta bibliometriako azterketa oinarrizkoak eskaintzen ditu. Horrela, gure egitasmoaren emaitza orokor batzuk erakuts ditzakegu.5

 

 

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
DLTB
Autorea: 
David Lindemann, Marije Bidaguren, Aitzol Astigarraga
Emaila: 
david.lindemann@ehu.eus

HarilkAI proiektuarenaurkezpena. Gizarte eta Komunikazio Zientzietan adimen artifizialaren erabileren prototipatzea

Poster honen bidez, Gizarte eta Komunikazio Zientzien Fakultatean martxan jarriko den HarilkAI ikerketa proiektuaren abiapuntua aurkeztuko dugu. Proiektuaren asmoa Adimen Artifizialaren eta Hizkuntza Eredu Handien esparruan garatzen ari diren tresna eta berrikuntzak gizarte eta komunikazio zientzietan irakaskuntza eta hezkuntzaren eremura eramatea da, fakultateko testuinguruan. Horretarako, adimen artifizialeko tresnak erabiltzeko azpiegitura sozio-tekniko bat sortuko da, tresna hauen erabilerak diren tentsio, gatazkak eta egokitzapenak modu esperimentalean sortu, hauen gaineko hausnarketa sustatu eta aukera berriak prototipatzeko. Azpiegitura horrekin hiru problematika jorratu nahi dira:

  • gizarte eta komunikazio zientzien praktika eta epistemologia, horretarako partaideei esperimentazioan oinarritutako eskuhartzeak egiteko eskatuko zaie hauek planteatzen dituen erronkak agerrarazi eta hauetara egokitzeko prototipo, protokolo, eta programak planteatzeko.
  • subiranotasun digitala, horretarako opensource filosofia eta praktikak izango ditu oinarri, bai ikerketa modu kolaboratiboan garatzeko zein unibertsitatean software pribatiboaren eta plataformen jabetzarekiko alternatibak jorratzeko.
  • euskara, hizkuntza eredu handien eztanda honetan, euskaratik eta euskaraz sortutako tresnak baliatzeko.

Ikerketalde, irakasle eta ikertzaile desberdinen eskura egon daitekeen laborategia sortzea da asmoa, modu experimental eta kolaboratiboan egokituko da haien beharretara. Zentzu horretan, garatuko den azpiegiturak hiru modutan engaiatu edo enrolatu egingo ditu partaideak.

Engaiamendu praktikoa, laborategi baten instalazioa izango du oinarri, azpiegitura partaideen eskura jarriz haien ikerketa eta irakaskuntza akademikoan lan egiteko. “Komunen laborategi” (Corsín Jiménez, 2021) gisa lan egiteko asmoa dauka, opensource filosofia eta hacker kulturako komunitate sarea osatuz (Amasté, 2018)

Engaiamendu etnografikoa, laborategiaren instalazio-prozesua bera eta bertatik eratorritako jardueren ikerketa delako. Era horretan, begirada etnografiko batetik eraikitako ikerketa da, ikerketa praktika eraginkorra izan da zientzia eta teknologiaren kutxa beltza zabaltzerako orduan (Latour, 1987). Ikuspegi etnografiko batetik, esperimentuaren emaitzetan arreta jarri ordez, esperimentazioa bera izango du interes esparrua (Ballestero eta Winthereik, 2021). Etnografia esperimentala burutuko da azpiegiturek, era horretan diseinatutako azpiegiturenoinarri politikoa eta kulturalak agerian jarriko dituzte egokitzapenek (affordance) agerian jarriko dira (Lupton, 2018, Ballestero & Winthereik, 2021).

Engaiamendu sozioteknikoa, dimentsio sozial eta teknikoak, teknologia gogor eta bigunek elkarrekin jardun eta elkar engaiatu egiten dizutelako, agentzia banatua (Bennett, 2011). Zientzia eta Teknologiaren Ikerketek dikotomia hauek gainditzeko proposatutako kontrobertsien kartografia (Venturini eta Munk, 2021) baliatuko da, laborategian ematen diren akats, zalantza etiko, zailtasun, tentsio, gatazka eta egokitzapenak aztertzeko. Era honetan, azpiegitura soziotekniko hau kontrobertsiak proboatzeko bitartekoa ere bada. Azpiegitura honi esker, eskainitako tresnek muga-objektu gisa jokatu ahalko dute, disziplina ezberdinak gurutzatu eta arlo desberdinetatik interesatzeko gaitasuna izango dute (Lupton, 2018).

Honetarako, proiektuak software eta hardwarea prestatu eta egokitu beharko ditu, eta espazio fisiko, sinboliko eta birtualak sortuko ditu tresna horien inguruan.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
INNOKLAB
Autorea: 
Asier Amezaga eta Eduardo Apodaka
Emaila: 
asier.amezaga@ehu.eus

Nola arakatu teknologiaren bidez eskuz idatzitako transkripzioen ezaugarriak, zailtasunak eta esku-hartzeak? Jarioa, lexikoa eta ortografiarako zenbait gako

Eskuz idatzitako testuen idazketa-prozesuan, Handspy sistemari (Monteiro & Leal, 2012) esker, aztertu dira idazte-denboran egiten diren pausak eta etenik gabe sortzen diren hitz-segmentuak. Analhitza tresnarekin (Otegi et al., 2017), berriz, testu horien informazio linguistikoa analizatu da. Bestalde, esku-hartzeak proposatzeko baliatu dira hizkuntza-teknologiaren garapenak ekarri dituen aukerak, bai testuak analizatzeko, bai corpusak sortzeko. Hori horrela, zenbait ikerketetan erakutsi da eskuz idazteko jarioan edota ortografian arazoak dituzten haurrek pausa ugari (Alamargot, Morin, eta Simard-Dupuis,  2020; Prunty eta Barnett, 2020)  eta besteek baino luzeagoak egiten dituztela (Prunty, Barnett, Wilmut eta Plumb, 2013), pausen artean hitz gutxiago idazten dutela (Connelly, Dockrell, Walter eta Critten, 2013) eta aniztasun lexikal gutxiagoko testuak sortzen dituztela (Dockrell, Connelly & Arfé, 2019). Gainera, eremu morfosintaktikoa hizkuntza-nahasteak edota gaitasun baxuak detektatzeko eta esku-hartzeko oso aberatsa dela frogatu da nazioartean. Lan honen helburua da eskuz gutxi eta geldiro idazten duten 7 urtetik 8 urtera bitarteko 5 ikasleren eskuzko testu produkzioa aztertzea 10 testutan. Euren gelako kideak konparatuz, letra-kopuru baxuena izan dute eskuzko transkripzioan (alfabetoa buruz minutu batez 4,6 letra irakurgarri/minutuko; erreferentziazko gelak 11,8 eta hitz batzuk kopiatzea minutu batez 11 letra irakurgarri/minutuko; erreferentziazko gelak 14,1). Testuak sortarazteko bi irudi erabili dira eta idazkailu digitalen bidez idatzi dute. Idatzi dituzten testuak HandSpy eta Analhitza bidez aztertu dira eta emaitzei dagokionez, ondokoa jakin da: a) Lemarik gabeko hitz-segmentu asko eta iraupen luzeko pausak egiten dituzten umeek zailtasun gehiago dute testuak idazteko orduan, b) pausen erdia aditzekin lotuta dago; c) izenak eta aditzak izan dira kategoria gramatikal erabilienak eta  d) akats ortografikorik ohikoenak hauek izan dira: batetik, letra errepikapenak eta, bestetik, zenbait letra ez idaztea; gainera, hitzen gainsegmentazioa morfemen aukeraketarekin lotua egon da. Azkenik, aurkikuntza horiek bidea ireki dute esku-hartze proposamenak egiteko, hots, hitzak zein esaldiak aurkezteko. Horrela, hitz-zerrendak eta esaldiak prestatu dira Txikipediako corpusaren bertsio bat erabiliz (ikus http://ixa2.si.ehu.eus/clarink): pausa luzeak, errepikatu diren letrak, falta diren letrak, gaizki segmentatu diren izen eta aditzak eta arazo morfosintaktikoa izan dituztenak  identifikatu dira ume bakoitzean.  

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
Hezkuntza, Filosofia eta Antropologia Fakultatea
Autorea: 
Irune Ibarra, Mikel Iruskieta, Jose Mari Arriola
Emaila: 
irune.ibarra@ehu.eus

Albisteen laburpen automatikoen kalitatearen ebaluazioa

Laburpen on batek jatorrizko testuaren ikuspegi orokorra eman behar du, testu osoa irakurri gabe horren nondik norakoak ulertu ahal izateko. Testuko informazio garrantzitsuena jaso behar du eta informazio hori era josian adierazi behar du. Lan honetan albisteetatik automatikoki sortutako laburpenen kalitatea ebaluatzeko metodologia garatu nahi izan dugu. Metodologia hori edozein hizkuntzatako laburpenak ebaluatzeko definitu badugu ere, euskararen adibidea baliatuko dugu berori aurkezteko. Era berean, egun erabilgarri dauden hizkuntza ereduek albisteen laburpen automatikoak sortzeko balio duten ere aztertu nahi dugu.

Euskarazko esperimenturako Berria egunkariko 15 albiste ausaz batu ditugu. Albisteak euskara batuan idatzita daude, albisteetatik batzuetan ekialdeko hizkera baliatu den arren. Gainera, hizkuntza ereduek albiste horiek aurretik ikusi ez izana ziurtatzeko, azken hilabeteetako albisteak hartu ditugu. Horietatik hamar metodologia fintzeko eta hiru ebaluatzaileak atazan trebatzeko baliatu ditugu eta gainontzeko bost albisteak gidalerroen baliozkotzerako erabili ditugu. Laburpenei dagokienez, albisteen leada eta automatikoki sortutako laburpenak bildu ditugu.

Laburpenak sortzeko, euskararako erabilgarri dauden hizkuntza eredurik ahaltsuenak hautatu ditugu: Claude, Command R+, GPT4o, Reka Core eta Llama 3.1 70B. Laburpenak sortzeko lau agindu desberdin definitu dugu, ezaugarri zehatzak dituzten laburpenak sortzeko. Zehazki, laburpen agindu hauek definitu ditugu:

  • Oinarrizko laburpena
  • Chain-of-thought analisiaren ondoriozko laburpena
  • 5W1H galderei erantzunez egindako laburpena
  • TLDR laburpena

Hala, albisteko 21 laburpen eskuratu dugu: leada eta eredu bakoitzak sortutako lau. Guztira 315 laburpeneko corpusa eratu dugu.

Laburpenen kalitatea neurtzeko bost irizpide definitu ditugu, beste lan batzuetan (Dang, 2005; Kryscinski et al., 2019; Fabbri et al., 2021) egindako proposamenei jarraiki:

  • Koherentzia: laburpeneko ideien arteko joskera
  • Konsistentzia: jatorrizko testuarekiko laburpenaren egiazkotasuna
  • Jariotasuna: hizkuntzaren zuzentasuna
  • Adierazgarritasuna: jatorrizko testuko ideia garrantzitsuenen proportzioa laburpenean

Gainera, beste irizpide bat ere aztertu dugu, kazeteritzan maiz erabiltzen den 5W1H printzipioan eta Bonet-Jover et al.-en lanean (2023) oinarrituta:

  • 5W1H: jatorrizko testuko ideia garrantzitsuenen presentzia

Bost irizpide horiek 1etik (guztiz desegokia/okerra) 5erako (guztiz egokia/zuzena) puntuazioaz baloratu ditugu.

Corpuseko 315 laburpenetako bakoitza 3 ebaluatzailek baloratu dute eta beren arteko adostasun maila aztertu da. Posterrean, emaitzen analisitik ateratako ondorio nagusiak aurkeztuko ditugu.

Nahiz eta lan honetan automatikoki sortutako laburpenen kalitatearen ebaluazioan zentratu, proposatutako ebaluazio-eskemak gizakiok sortutako laburpenak ebaluatzeko ere balio du.
 

Erreferentziak

Alba Bonet-Jover, Robiert Sepúlveda-Torres, Estela Saquete, eta Patricio Martínez-Barco. 2023. A semi-automatic annotation methodology that combines Summarization and Human-In-The-Loop to create disinformation detection resources. Knowledge-Based Systems, Vol. 275.

Hoa Trang Dang. 2005. Overview of DUC 2005. In The Document Understanding Conference, volume 2005, pages 1–12.

Alexander R. Fabbri, Wojciech Krýsciński, Bryan McCann, Caiming Xiong, Richard Socher, eta Dragomir Radev. 2021. SummEval: Re-evaluating summarization evaluation. Transactions of the Association for Computational Linguistics, 9:391–409.

Wojciech Kryscinski, Nitish Shirish Keskar, Bryan McCann, Caiming Xiong, eta Richard Socher. 2019. Neural text summarization: A critical evaluation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 540–551, Hong Kong, China. Association for Computational Linguistics

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea
Ikerkuntza taldea: 
HiTZ-Ixa
Autorea: 
Begoña Altuna, Jeremy Barnes, Alba Bonet-Jover, Naiara Pérez
Emaila: 
naiara.perez@ehu.eus

EUSKARAZKO LEHEN C1 EBALUATZAILE AUTOMATIKOA

Testuen ebaluazio automatikoa hizkuntzaren prozesamendu esparruan oso landua izan den
ataza multzo bat da. Ataza multzo honek hainbat azpimultzo barne hartzen ditu, horietako
bat hizkuntza maila automatikoki zehaztea Hizkuntzen Erreferentzia Marko Bateratuaren
(HEMB) izanik. Urteetan zehar teknika ezberdinak erabilita hurbilpen ezberdinak egin dira
hainbat datu multzo oinarri hartuta eta ebaluazio marko ezberdinak definitu dira urteetan
zehar (Geertzen et al., 2013. Yannakoudakis et al.,2011). Euskara ardatz hartuta ere
saiakerak egon dira, ezaugarriak eta ikasketa automatikoko teknika tradizionalak erabilita
(Arrieta et al.,2023), emaitza onak lortu zituzten testuen maila HEMBko mailetan
sailkatzean. Lan honetan euskarazko idazlanek C1 maila duten edo ez zehazten duen
ebaluatzaile automatiko bat garatu dugu. Guk dakigunez, ezaugarri hauek dituen sistema
bat garatzen lehenak izan gara. Sistema garatzeko HABEko C1 azterketetara aurkeztu
direnen idazlanak erabili ditugu, zuzentzaileek ezarritako nota kontuan hartuta. Ezaugarri
hauek dituzten 10.000 automatikoki transkribatutako testu eta eskuz transkribatutako 600
inguru eskuratu ditugu, IKERGAITU proiektua eta HABE-HiTZ arteko hitzarmen baten
bitartez. Gure sistema oinarri neuronala duten hizkuntza ereduetan oinarritu da eta garapen
prozesuan hainbat esperimentu egin dira hizkuntza ereduen aukeraketan. HE mota
ezberdinekin esperimentuak burutu ditugu konfigurazio egokiena zein den identifikatzeko:
elebakarra edo eleanitza eta kodetzailea edo deskodetzailea. Ataza konplexua da eta datu
kopurua ez da nahikoa modu egoki batean ebazteko, arazoari aurre egiteko hainbat teknika
erabili ditugu. Datu sintetikoen sorkuntza egin dugu Easy Data Augmentation (Wei et al.,
2019) teknika erabilita. Sailkapen egokiagoak sortzeko, Supervised Contrastive Learning
(Khosla et al., 2020) galera funtzioa erabili dugu entrenamenduan zehar. Azkenik,
entrenamenduko gaindoitzeak eta artefaktuen ikasketa ekiditeko ereduen erregularizazio
landu dugu. Metrika automatiko gisa, asmatze tasa erabili dugu, baina testuen nota
eskuragarri izanik, 3 tartetan banatu dugu ebaluazioa: nota baxuko testuetan, dudako
testuetan eta nota oneko testuetan. Metrika modu ezberdinetan kalkulatuta ereduaren
ahulguneak sakonago aztertzea ahalbideratu digu. Entrenatu ditugun sistemen eta
erabilitako tekniken portaera aztertzeko, metrika automatikoaz gain, bi analisi mota burutu
ditugu. Lehena, ereduen kalibrazioa aztertzea, testuen nota eta sistemak esleitutako
probabilitate arteko korrelazioa neurtzea ereduaren portaera aztertzeko nota ezberdinetako
testuen aurrean. Bigarrena, artefaktuen eragina neurtzea, testuak perturbatu ostean ereduek
testuaren egitura, kohesioa edota koherentzia ikasi duten edo hitz gakoak diren artefaktuak
ikasi dituzten edo ez aztertzeko. Metriken emaitzen arabera, Latxa (Etxaniz et al., 2024)
HEan oinarritutako ereduak izan dira egokienak eta hobekuntza esperimentuetatik
erregularizazioak du pisu gehien sistemaren errendimenduan, eredu onenak %79ko
asmatze tasa orokorra izanik. Asmatze tasa xeheagoak erabilita, nota baxuko eta altuko
testuak %70-90 artean ongi asmatzen dituztela ikusi dugu, baina, zailtasunak erakutsi
dituzte dudako kasuekin, testu hauetan asmatze tasa %50-60 artean kokatzen baita.
Analisien aldetik berriz, Latxa eta kodetzaile elebakarra izan dira kalibratuen dauden
ereduak, nota eta etiketen probabilitate artean 0.67ko Pearson Korrelazioa erakutsiz.
Artefaktuen analisian berriz, gutxien ikasi dituztenak Latxan oinarritutako ereduak izan dira.
Garatutako sistema egokienean oinarrituz, demo bat ere sortu genuen eta honako estekan
dago probatu nahi izanez gero: https://huggingface.co/spaces/HiTZ/C1_sailkapen_demoa.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea
Autorea: 
Ekhi Azurmedi, Xabier Arregi, Oier Lopez de Lacalle
Emaila: 
ekhi.azurmendi@ehu.eus

Leku-izenen balioa azterketa GIS bidezko geografikoan. Euskal Herriko toponimia

Lurralde baten toponimiak denboran zeharreko biztanleen ezagutzak jasotzen ditu, eta
horregatik, UNESCOk kultur ondare ukiezinaren baitan sartu du (Mácha, 2023). Leku izenen
azterketa hainbat ikuspuntutatik egin daiteke, diziplinarteko ezagutza-arloa baita. Alde batetik,
onomastikaren atala izanik, hizkuntzalaritzarekin harreman zuzena du. Beste aldetik,
geografiarekin erlazionatzen da, lurraldeari lotutako izenak baitira (Arroyo Illera, 2009). Azkenik,
toponimia historiarekin lotu behar da, iraganean sortutako izenek lekukotza gordetzen dutelako.
Tradizionalki, esan beharrik ez, kartografia toponimiaren euskarri grafiko naturala izan da (Jordan,
2009).
Lan honetan leku izenek lurraldea aztertzeko duten ahalmena erakutsiko da, informazio
geografikoko sistemei (GIS) esker. Erabilitako metodologia eta zenbait adibide aurkezteaz gain,
toponimoekin lan egiterakoan agertu diren zailtasunak azalduko dira. Hain zuzen ere, garatutako
proiektuaren helburutako bat izan da erronka hauei irtenbide automatizatua ematea.

Ikerketarako datu multzo nagusiak leku izenen bildumak dira, izendegi geografikoak (UNGEGN,
2006). Orokorrean, eskudun administrazioek eratutakoak izango dira, eta banaka edo modu
konbinatuan landu daitezke. Bildutako izen horiek beren ezaugarrien bitartez informazioa ematen
dute; izenaren esanahiak izendatutako lekua deskriba dezake, erreferentzia egiten zaion
entitatearen tipologia bere izaera geografikoarekin lotzen da, eta izenaren kokapenaren bitartez
testuingurua landu daiteke.
Erabilitako metodoek aztergaiaren inguruko terminologia identifikatzea eskatzen dute.
Berariazko hiztegi horretan bakandu daitezkeen lexemak erauzi beharko dira, eta lan eremuko
toponimia corpusean identifikatuko dira analisi geografikoa egiteko (Tort-Donada, 2022). 1.
Irudian prozedura infografia baten bitartez adierazten da. Bestalde, lan eremua Euskal Herria
denez, eleaniztasuna prozedura osoan presente dagoela azpimarratu behar da. Posterrean
azaldutako adibideetan azterketa aukera desberdinak erakusten dira, bai eskala aldetik, toki
eremuak zein eskualde zabalagoak lantzen direlako, bai gaiaren aldetik eta bai elementu
geografikoen sailkapenaren aldetik.

Proiektuak aurrera egin ahala, leku izenen tratamenduan zenbait zailtasun agerian gelditu dira,
eta GIS ingurunean, datu base kudeaketan, edo testuen lanketan, eta irtenbideak bilatzeko
garaian aurrean izan ditugun erronkek proiektua aberastu dute, eta emaitzak sendotzeko balio
izan dute:

a) Izendegi geografikoaren izaerak edo jatorriak datuen ezaugarriak baldintzatzen dituzte:
Kartografia iturritzat duten izendegi geografikoetan adibidez, jatorrizko mapa horien
eskalak, elementu geografikoek dentsitateak eta banaketa espazialak eragina dute.

b) Trabak izendegi geografiko bat baino gehiago konbinatzean: Datu baseetan entitate
geografikoen sailkapenak desberdinak direnean, interpretazio arazoak sortu daitezke
sailkapen bateratu bat lortzeko. Horrez gain, datu bikoizketak egon daitezke, baina grafia
aldaketak daudenean ez dira automatikoki topatuko. Gainera, izen errepikatuen
kokapena edo sailkapena ez du zertan zehazki berdina izan. Kasu horietan
erredundantziaren kudeaketa ez da sinplea.

c) Ikerketa gaiarekin lotutako lexemen identifikazioa: Tokiko aldaerak kontuan hartu behar
dira, eta sortu daitezkeen anbiguotasunak argitu edo, behinik behin, identifikatu. Beste
aldetik, leku izenen hizkuntza-normalizazio egoerari erreparatu behar zaio. Ildo berean,
nahitaez izango diren erroreen eragina ebaluatu behar da; alegia, okerreko identifikazioak
egon daitezke alde batetik, eta lexemak identifikatu gabe gelditzea eman daiteke
bestetik. Helburuen arabera “ komisio” eta “omisio” errore horiek larritasun desberdina
izango dute.

Bukatzeko, lortutako emaitzek erakusten dute toponimiak analisi geografikorako duen balioa eta,
azken finean, lurraldea ulertzeko baliagarria dela. Toponimiaren jakintza eremuaren
diziplinartekotasuna oso lotua dago behar teknologikoekin eta, proiektu honetan GIS tresna
oinarrizkoa izan arren, leku izenen datu baseak kudeatzeko eta arakatzeko oso kontuan izan behar
dira beste jakintza arloetako baliabide teknologikoak.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
Adierazpen Grafikoa eta Ingeniaritzako Proiektuen Departamentua
Autorea: 
Oihana Mitxelena-Hoyos
Emaila: 
oihana.mitxelena@ehu.eus

Euskarazko kulturgintzaren presentzia Euskal Herriko hedabide digitaletan: euskal kulturgileen identifikazioa NLP eta Adimen Artifizialeko eredu neuronalen bitartez

Euskarazko kulturgintzaren gaur egungo presentzia mediatikoa zer nolakoa den aztertu dugu azken
ikerketan, euskarazko kulturgileak zenbat agertzen diren eta nortzuk agertzen diren behatuz.
Nazioartean bezala (Newman eta al., 2024) gurean ere, bai hedabideen eskaintza (Euskal Hedabideen
Datutegia, d.g.) bai kontsumo ohitura (CIES, 2023; Eusko Jaurlaritza, 2023) digitala gailentzen dira,
horregatik Euskal Herriko 11 komunikabideren webguneetako «Kultura» ataletan argitaratutako
edukiak erabili dira ikerketa lanean —2023. urtean kaleratu ziren 24.246 eduki—.
Emaitzen analisiaren ondorio nagusia honakoa da: euskarazko hedabideek eta hedabide elebidunek
kultur paisaia ezberdinak eraikitzen dituzte ekoizpen hizkuntzaren arabera. Alde batetik, euskarazko
edukien bidez euskarazko kulturgile gehiago erakusten dituzte diziplina guztietan, eta, beraz, euskal
kulturaren trakzionatzaileago dira. Bestetik, erdarazko edukien audientzia osatzen duten irakurleen
artean euskara ulertzeko eta hitz egiteko gaitasuna duten asko ez dira euskarazko kulturgintzaren
berri jasotzera iristen, ez zaielako informazio hori horrenbeste eskaintzen; horrek, egungo herritarren
profil soziolinguistikoa kontuan hartuta, ez dio publiko potentzialari erantzuten.

Beste emaitza aipagarri bat 5.367 euskal kulturgileren datu-basea sortu dugula da. Horretarako,
lehendabizi kulturgileen izenak modu automatizatuan erauzi dituzte Orai adimen artifizaleko
zentroko ikerlariek. Prozesu hori hiru pausotan garatu da: lehenik, hamaika agerkaritako «kultura»
ataleko edukien HTMLtik izenburua eta gorputza soilik erauzteko boilerplate removal teknikak baliatu
dira eta bi urratseko prozesua egin da garbiketa-kalitate goena bermatzeko. Ondoren,
Meta-Llama-3-70B-Instruct hizkuntza-eredu neuronal handia erabiliz, artikulu bakoitzeko euskal
kulturgile hautagaiak identifikatu dira. Horretarako, LLMari euskal kulturgileak aurkitzeko instrukzioa
eman zaio prompt baten bidez. Bigarrenik, identifikatutako entitateen zarata garbitu da eta
kulturgileen izenak normalizatu eta bateratu dira dira string similarity-aren araberako multzokatzean
eta erregela ortotipografikoetan oinarrituta. Hirugarrenik, LLMak aurkitutako kulturgile hautagaiak
hainbat iturritako informazioarekin propio sortutako datu-base batekin alderatu dira; datu-base
horretan, jada existitzen ziren diziplinaka antolatutako 1.800 entitate ingururen informazioa esleitu
zaie datu-baseko entitate berdinei, kulturgileen egiaztapena eta identifikazio egokia bermatuta.
Prozesu automatizatuaren ondoren landu den eskuzko sailkapenari dagokionez, kodetze-gida bat
osatu zen bi aldagai irizpide zehatzen arabera sailkatzeko (kulturgilearen diziplina eta jarduten duten
hizkuntza). Datu-basea analisirako prest uzteko, beste hiru garbiketa egin dira: 1 frekuentziako
entitateak ezabatu dira, eskuzko sailkapena egitean detektatu den zarata ezabatu da, eta EuskalHerritik kanpoko kulturgileak kendu egin dira. Automatizatutako prozesuak eta eskuz egindako
kodetze-lana konbinatuta, Euskal Herriko 5.637 kulturgileren datu-basea osatu eta balioztatu da,
haien presentzia mediatikoa zer nolakoa den aztertzeko baliatu dena analisi estatistiko deskribatzaile
eta inferentziala eginda —aldagaien arteko harremana existitzen ote den ezagutzeko— eta
kulturgileen arteko loturak eta harremanak bistaratzeko Force Atlas 2 algoritmoa erabilita —euskal
kulturgintzaren sareak hizkuntzaka eta diziplinaka bistaratzeko—.

Lan honen bidez, gizarte zientzietan hizkuntza naturalaren prozesamenduko (NLP) teknikak eta
algoritmoak aplikatu dira gizarte eragileek planteatutako galdera bati erantzuteko, euskaratik eta
euskaraz adimen artifizialeko hizkuntza-eredu neuronal handiak (LLM) baliatuta egin dugu lan, eta
unibertsitatea eta ikerketa-zentroa elkarlanean jartzeaz bat, jendaurrean kontrastatu eta dibulgatu
dira bai ikerketa bai ateratako ondorioak. Halako proiektuek bultzada gehigarria izan dezaten,
diziplinarteko lankidetza ahalbidetzen duen sare bat beharrezkoa dugu.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
NOR
Autorea: 
Libe Mimenza, Ane Martinez, Naroa Burreso, Xabier Saralegi, Asier Garin
Emaila: 
ane.martinezj@ehu.eus

Egitura bihurkari eta elkarkari iragangaitzen erabilera corpus informaletan: ezagutu aditzaren kasua

Euskaraz, egitura bihurkari eta elkarkari kanonikoak egitura iragankorrak dira: predikatu iragankor bat dute –hala
nola ikusi– eta bere burua (1a) edo elkar (1b) bezalako anafora bihurkari eta elkarkariaren bidez sortzen dira,
hurrenez hurren (Rebuschi, 1988, 1992; Salaburu, 1986; Artiagoitia, 2003). Egitura horietan, *edun aditz
laguntzaile iragankorra hautatzen da.
(1)
a. Jonek bere burua ispiluan ikusi du. (Etxepare, 2003: 380)
b. Mirenek eta Anek elkar ikusi dute. (Bilbao, 2022: 344)

Alabaina, euskaraz badira bihurkari (2a) eta elkarkari (2b) iragangaitzak ere, hots, anaforarik gabeak eta izan aditz
laguntzaile iragangaitza hautatzen dutenak. Esaterako, ikusi aditzarekin anaforadun egiturak izan arren
kanonikoak euskaraz, aditz berbera egitura iragangaitzetan ager daiteke:
(2)
a. Jon ispiluan ikusi da. (Etxepare, 2003: 380)
b. Miren eta Ane ikusi dira. (Bilbao, 2022: 344)

Gainera, batzuetan egitura elkarkari iragangaitzak ageriko anafora elkarkariarekin ager daitezke (3). Egitura horiei
elkarkari misto deitu zaie (Bilbao, 2022):

(3)
Miren eta Ane elkar ikusi dira. (Bilbao, 2022: 350)

(2) eta (3)ko adibideak ez dira forma estandarrak euskaraz eta ez daude, beraz, euskara baturako jasoak
(Euskaltzaindia 1991). Hala ere, noizbehinka entzun eta irakur daitezke, bereziki erregistro informalean (Bilbao
eta beste, 2022, 2024; Bilbao, 2023).

Lan honen helburua da ezagutu aditzak egitura bihurkari eta elkarkari iragangaitzetan duten erabilera enpirikoki
aztertzea corpus azterketaren bidez. Corpusa 2019-2021 bitarteko euskarazko 2.466.369 txiok osatzen dute:
Basque Twitter Corpus extracted during Covid-19 pandemic (Fernández de Landa eta beste, 2024). Sare sozialek
hizkera informalaren lekukotasuna ematen dutenez, corpus hori aproposa da aztergai ditugun egitura ez-
estandarren erabilera aztertzeko. Dena den, lan honetan aurkeztutako bilaketak corpusaren lehenengo zatian soilik
egin dira, hots, itxialdia baino lehenagoko txioetan (2020/01/01–2020/03/14 bitartekoak). Corpusean bilaketak
egiteko eta adibideak erauzteko AntConc programa (Laurence, 2024) erabili dugu.
Emaitzei dagokienez, “ezagutu” bilaketak 2486 agerraldi izan ditu eta horietatik 35 izan dira egitura bihurkari edo
elkarkariak. Horietatik gehienak bihurkari eta elkarkari iragankorrak izan dira: zehazki, 31 elkarkari –(4)
esaterako– eta bi bihurkari –hala nola (5)– jaso ditugu.

(4) Donostian ere Mintzaneteko kideok elkar ezagutu dugu!
(5) Berak bere burue ezagutu aben behintzet eta horrekin konformetan naz.

Aldiz, 35 agerraldi horietatik bi ez dira egitura iragankorrak izan, elkarkari mistoak (6) baizik. Horietan, ezagutu
aditza egitura iragangaitz batean –laguntzaile iragangaitzarekin– agertzen da, elkar anafora elkarkaria agerian
dagoen arren:

(6)
a. Jolastuz eta ondo pasatuz hobeto ikasten delako, elkar ezagutu gaitezen.
b. Bikoteak elkar ezagutu dira jokoen bitartez.

Hortaz, arakatutako corpusean egitura bihurkari eta elkarkari kanonikoak, hots, anaforadun egitura iragankorrak
dira nagusi ezagutu aditzarekin. Corpus honetan ez da anaforarik gabeko bihurkari eta elkarkari iragangaitzik (2)
aurkitu, baina bai elkarkari mistoen bi agerraldi (6).
Hala, lan honek erakusten du corpus azterketa metodo erabilgarria dela egitura bihurkari eta elkarkari estandarrek
–(4) eta (5)– eta ez-estandarrek (6) duten erabilera enpirikoki erkatzeko. Bereziki, Twitter bezalako sare sozialetan
oinarritutako corpusek aukera ematen dute bihurkari eta elkarkari ez-estandarretan ager daitezkeen aditzen
erabilera behatzeko eta adibideak erauzteko. Aurrera begira, gure asmoa adierazpen erregularrekin bilaketa
sofistikatuagoak egitea eta aditz gehiago aztertu ahal izatea da. Horren ostean, aditz mota bakoitza zein motatako
egituretan agertzen den arakatu eta maiztasunaren berri emango genuke.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
Gogo Elebiduna
Autorea: 
Kristina Bilbao, Ane Berro, Beatriz Fernández, Mikel Iruskieta
Emaila: 
kristina.bilbao@ehu.eus

Hizkuntza aldaerak euskaraz: aurrekariak, sailkapena eta ebaluazio proposamena

Hizkuntza aldagarritasuna askotan saihestezina den fenomeno bat da. Esaldi bat forma edo
estruktura ezberdinekin esan daiteke, aldi berean esanahi semantiko berdina mantenduz. Hots, esaldi
bat hiztegi eta estruktura formal edo informalarekin adierazi daiteke, baita hizkuntza estandarrean edo
dialektalean ere. Hizkuntza aldakortasun honek zailtasunak sortzen ditu Hizkutza Prozesamenduaren
(HP) hainbat atazetan, hala nola Question-Answering (QA), Natural Language Inference (NLI) edo
dialogo sistemetan. Hala eta guztiz ere, hizkuntza aldaerei buruzko lanak urriak dira HParen arloan,
eta lan gehienak aldakortasun datuak erraz eskura daitezkeen hizkuntzetan zentratzen dira, ingelesa
eta arabiera, besteak beste (Joshi et al., 2024). Testuinguru honetan, ez dago euskararen aldaera
linguistikoak landu dituen lanik HPn, eta aldagarritasunaren inguruan dagoen lan urria teoria
linguistikoetan edo ezaugarrien karakterizazioan zentratu da. Ondorioz, gure helburu nagusienetako
bat hizkuntza aldagarritasuna duten lehen euskarazko datu multzoak sortzea da. Datu multzo horiek
euskararen aldakortasuna esplizituki kontuan hartzen duten lehen sistemak garatzeko oinarria izango
dira. Beraz, datu multzo horiek bildu eta HParen arloan aldagarritasuna maneiatzeko gai diren
baliabideak sortu baino lehen, zein aldaera mota aztertu nahi ditugun zehaztea eta hauen sailkapen
bat bermatzea beharrezkoa da. Hizkuntzalaritzan, hainbat aldaera sailkapen mota daude. Adibidez,
Garzia, J. (2018)k, dialektoak, erregistroak eta hitzezko komunikazioa hartzen ditu ardatz moduan,
bakoitzaren barruan hizkuntza estandarra edo dialektala, informala edo formala, edo idatzizkoa eta
ahozkoa bananduz. Sailkapen honetan, multzo eta aldaera moten arteko konbinazio posibleak oso
ugariak dira. Bestalde, Barrios et al. (2008) erregistroetan zentratu zen, erregistroak ardatz horizontal
batean kokatuz: alde batean etxekoa edo lagunarteko, erdialdean formal-neutroa eta ardatzaren
beste aldean formal-jasoa. Hau kontuan hartuta, konturatu gara hizkuntzalaritzan oinarrituta dagoen
definizio eta sailkapen bat behar dugula, aldi berean HParen arloan egingarriak diren atazak
planteatzen lagunduko diguna. Beraz, hasiera honetan ezarri dugun aldaeren sailkapen sinplifikatuan
hiru talde ezberdindu ditugu: hasteko, aldaera informala, tokian tokiko hizkerak eta hizkera batu
informala bat hartuko dituena; aldaera neutroa, eguneroko hizkera estandar neutroa izango
litzatekeena; eta azkenik, aldaera espezializatua, euskara batu teknikoa izango litzatekeena.
Sailkapen honetan oinarrituta, lehen pausoa HParen arloan hizkuntza aldaeren ebaluazioa egitea da.
Horretarako, esperimentu piloto bat proposatu dugu, XNLI-eu (Heredia et al., 2024) datu-multzoan
oinarrituta. Datu multzo honetan ebaluazio corpus bat dago, euskal hiztunek eskuz sortua. Datu
hauek hizkuntza neutroan daudela kontuan hartuta, gure helburua da hauen berridazketak lortzea,
esaldi hauek aldaera informalagora eraldatuz. Eraldaketa hau eskuz egingo da, hainbat euskal
hiztunen laguntzarekin. Honen bitartez, NLI atazan aldaerak gehitzeak duen eragina ebaluatzea da
gure helburu nagusia.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea
Autorea: 
Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri
Emaila: 
jaione.bengoetxea@ehu.eus

Euskarazko instrukzio-HEHen ebaluazioren hastapenak

ChatGPT eta bestelakoen antzera gizakion aginduak edo instrukzioak 1 jarraitzeko gai diren
hizkuntza-eredu handien (HEH) garapenak erronka handiak dakartza ebaluazioaren aldetik. Bench-
marketan oinarritutako ebaluazioek eraginkortasuna eskaintzen dute, baina ez dute instrukzio kon-
plexuen jarraipena behar bezain sakon aztertzeko aukerarik ematen. Eskuzko ebaluazioa, berriz,
malgua eta aberatsa izan arren, ezin da erraz erreproduzitu eta denbora gehiegi eskatzen du, hau
da, behar bestetan egitea ez da bideragarria. Horrek guztiak ebaluazio automatiko aurreratu eta
eskalagarrien premia azaleratu du [Dubois et al., 2023, Zheng et al., 2023, Zeng et al., 2024]. Alabai-
na, euskarazko ereduen instrukzioak jarraitzeko gaitasunaren ebaluazio automatikoa oraindik jorratu
gabeko eremua da. Hutsune hori betetzeko, gure ikerketak eskuzko ebaluazio-saiakera oso bat pro-
posatzen du kontzeptu-proba gisa. Honekin, aurrerago ebaluazio datu-multzo zabalago eta sendoago
bat sortzeko eta etorkizuneko automatizazio-lanak bideratzeko oinarriak ezarri nahi ditugu.
Hasteko, 100 instrukzio-erantzun pareko hasierako ebaluazio datu-multzoa sortu dugu eskuz, 16
kategoriatan banatuta. Kategoria ohikoenak dira galdera irekiak (16), berridazketak (11), infor-
mazio erauzketa (10), ideia-jasak (8) eta itzulpenak (8). Horrez gain, instrukzio bakoitza hainbat
dimentsioren arabera ere etiketatu dugu, ebaluaziorako interesgarriak izan daitezkeenak. Horien
artean daude toxikotasuna, subjektibotasuna, eta tokiko gaiak jorratzen diren ala ez. Multzo hori
osatzeko, instrukzio bakoitzerako 13 minutu inguru behar izan ditugu, guztira 18 orduko lana izanik.
Ondoren, ebaluazio-fasean, 4 hizkuntza-ereduren erantzunak jaso ditugu instrukzio bakoitzerako.
Kontzeptu-proba honetarako egungo eredu arrakastatsuenetako batzuk aukeratu ditugu: OpenAIren
GPT 4o 2 , Anthropicen Claude Sonnet 3.5 3 , Metaren Llama 3.1 Instruct 405B 4 [Dubey et al., 2024]
eta Cohereren Command R+ 5 . Horien erantzunen eskuzko ebaluazioan, bi metodo erabili ditugu
Ouyang et al. [2022] lanari jarraiki:

a) erantzun bakoitza independenteki baloratu dugu hainbat irizpideren arabera (adib., kalitate
orokorra, euskara maila, irizpide egiaztagarrien betetzea, eta toxikotasuna); eta
b) instrukzio bakoitzeko jasotako lau erantzun automatiko desberdinak erkatu eta onenetik txa-
rrenera sailkatzeko eskatu diegu ebaluatzaileei.

Zehazki, bost ebaluatzaile ari dira lanean, eta elementu bakoitzak hiru ebaluazio independente
jasoko ditu. Dokumentu hau idazterako garaian, bi ebaluatzailek amaitu dituzte esleitutako anotazio
lanak. Bi ebaluatzaile horien lanaren azterketak erakusten duenez, 240 eredu-erantzunen ebaluazio
independenteak 9 ordu eskatu dizkio ebaluatzaile bakoitzari batez beste, eta 60 sailkapenek 2 ordu eta
40 minutu. Adostasun-metrikek adostasun-maila egokia erakusten dute dimentsio gehienetan, nahiz
eta alderdi subjektiboetan aldakortasun apur bat nabari den. Gainera, sailkapen ataza ebaluazio
independenteak baloratzea baino zailagoa izan daitekeela iradokitzen dute emaitzek.

Kontzeptu-proba honetatik baliabide-beharrei eta denbora-kostuei buruz ikasitakoan oinarrituta,
666 instrukzio berri bildu ditugu etxean, eta 335 gehiago herritarren laguntzaz Informatikari Eus-
kaldunen Bilkuraren (IEB) XIII. edizioan. Ekimen horiek gure datu-sorta zabaldu eta aberastuko
dute, eta puntuazio-sistema automatikoen ebaluazio fidagarria bideratuko dute. Automatizaziorako
lehen urratsetan, Llama-3.1-Nemotron-70B-Reward [Wang et al., 2024b,a] ereduarekin esperimenta-
tu dugu, giza ebaluazioekin bat datozen puntuazioak sortzeko erreferentzia-puntu gisa. Eredu hori
ingelesezko datuekin soilik sortu dela kontuan izanik, emaitza itxaropentsuak lortu ditugula esan
genezake.
Posterrean, dokumentu honetan laburtutako metodologia, emaitza nagusiak, ateratako ondorioak
eta etorkizunerako ikasitakoak sakonago aurkeztuko ditugu.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea
Autorea: 
Naiara Pérez, Ainara Estarrona, Itziar Aduriz, Izaskun Aldezabal, María Jesús Aranzabe, Jaione Bengoetxea, Julen Etxaniz, Itziar Gonzalez-Dios, Oscar Sainz, Mikel Artetxe, Aitor Soroa, German Rigau, Eneko Agirre
Emaila: 
naiara.perez@ehu.eus

Pages