Euskarazko kulturgintzaren presentzia Euskal Herriko hedabide digitaletan: euskal kulturgileen identifikazioa NLP eta Adimen Artifizialeko eredu neuronalen bitartez
Euskarazko kulturgintzaren gaur egungo presentzia mediatikoa zer nolakoa den aztertu dugu azken
ikerketan, euskarazko kulturgileak zenbat agertzen diren eta nortzuk agertzen diren behatuz.
Nazioartean bezala (Newman eta al., 2024) gurean ere, bai hedabideen eskaintza (Euskal Hedabideen
Datutegia, d.g.) bai kontsumo ohitura (CIES, 2023; Eusko Jaurlaritza, 2023) digitala gailentzen dira,
horregatik Euskal Herriko 11 komunikabideren webguneetako «Kultura» ataletan argitaratutako
edukiak erabili dira ikerketa lanean —2023. urtean kaleratu ziren 24.246 eduki—.
Emaitzen analisiaren ondorio nagusia honakoa da: euskarazko hedabideek eta hedabide elebidunek
kultur paisaia ezberdinak eraikitzen dituzte ekoizpen hizkuntzaren arabera. Alde batetik, euskarazko
edukien bidez euskarazko kulturgile gehiago erakusten dituzte diziplina guztietan, eta, beraz, euskal
kulturaren trakzionatzaileago dira. Bestetik, erdarazko edukien audientzia osatzen duten irakurleen
artean euskara ulertzeko eta hitz egiteko gaitasuna duten asko ez dira euskarazko kulturgintzaren
berri jasotzera iristen, ez zaielako informazio hori horrenbeste eskaintzen; horrek, egungo herritarren
profil soziolinguistikoa kontuan hartuta, ez dio publiko potentzialari erantzuten.
Beste emaitza aipagarri bat 5.367 euskal kulturgileren datu-basea sortu dugula da. Horretarako,
lehendabizi kulturgileen izenak modu automatizatuan erauzi dituzte Orai adimen artifizaleko
zentroko ikerlariek. Prozesu hori hiru pausotan garatu da: lehenik, hamaika agerkaritako «kultura»
ataleko edukien HTMLtik izenburua eta gorputza soilik erauzteko boilerplate removal teknikak baliatu
dira eta bi urratseko prozesua egin da garbiketa-kalitate goena bermatzeko. Ondoren,
Meta-Llama-3-70B-Instruct hizkuntza-eredu neuronal handia erabiliz, artikulu bakoitzeko euskal
kulturgile hautagaiak identifikatu dira. Horretarako, LLMari euskal kulturgileak aurkitzeko instrukzioa
eman zaio prompt baten bidez. Bigarrenik, identifikatutako entitateen zarata garbitu da eta
kulturgileen izenak normalizatu eta bateratu dira dira string similarity-aren araberako multzokatzean
eta erregela ortotipografikoetan oinarrituta. Hirugarrenik, LLMak aurkitutako kulturgile hautagaiak
hainbat iturritako informazioarekin propio sortutako datu-base batekin alderatu dira; datu-base
horretan, jada existitzen ziren diziplinaka antolatutako 1.800 entitate ingururen informazioa esleitu
zaie datu-baseko entitate berdinei, kulturgileen egiaztapena eta identifikazio egokia bermatuta.
Prozesu automatizatuaren ondoren landu den eskuzko sailkapenari dagokionez, kodetze-gida bat
osatu zen bi aldagai irizpide zehatzen arabera sailkatzeko (kulturgilearen diziplina eta jarduten duten
hizkuntza). Datu-basea analisirako prest uzteko, beste hiru garbiketa egin dira: 1 frekuentziako
entitateak ezabatu dira, eskuzko sailkapena egitean detektatu den zarata ezabatu da, eta EuskalHerritik kanpoko kulturgileak kendu egin dira. Automatizatutako prozesuak eta eskuz egindako
kodetze-lana konbinatuta, Euskal Herriko 5.637 kulturgileren datu-basea osatu eta balioztatu da,
haien presentzia mediatikoa zer nolakoa den aztertzeko baliatu dena analisi estatistiko deskribatzaile
eta inferentziala eginda —aldagaien arteko harremana existitzen ote den ezagutzeko— eta
kulturgileen arteko loturak eta harremanak bistaratzeko Force Atlas 2 algoritmoa erabilita —euskal
kulturgintzaren sareak hizkuntzaka eta diziplinaka bistaratzeko—.
Lan honen bidez, gizarte zientzietan hizkuntza naturalaren prozesamenduko (NLP) teknikak eta
algoritmoak aplikatu dira gizarte eragileek planteatutako galdera bati erantzuteko, euskaratik eta
euskaraz adimen artifizialeko hizkuntza-eredu neuronal handiak (LLM) baliatuta egin dugu lan, eta
unibertsitatea eta ikerketa-zentroa elkarlanean jartzeaz bat, jendaurrean kontrastatu eta dibulgatu
dira bai ikerketa bai ateratako ondorioak. Halako proiektuek bultzada gehigarria izan dezaten,
diziplinarteko lankidetza ahalbidetzen duen sare bat beharrezkoa dugu.