BERnaT: Euskal Hizkuntzaren Aniztasuna Modelatzen
Adimen Artifizial zein Hizkuntzaren Prozemanduaren teknologiak humanitate eta gizarte
zientzia arloetan ikerkuntza egiteko geroz eta gehiago erabiltzen dira. Teknologia hauen
oinarrian hizkuntza eredu diskriminatibo eta sortzaileak ditugu, hizkuntza naturalaren
ulermen zein sorkuntza atazetarako behar-beharrezkoak direnak. Eredu hauen
garapenerako nahitaezkoa da tamaina eta kalitate altuko corpusak edukitzea (Kaplan et al.,
2020; Rae et al., 2022), honek hizkuntza ereduaren kalitatea baldintzatuko duelarik. Corpus
berriak sortzeko eta filtratzeko prozesuan autore batzuk zenbait hizkuntza barietate kanpoan
uztea erabaki dezakete, aldez aurretik ezarritako hizkuntza kalitate irizpideak betetzen ez
dituztelako edo, besterik gabe, garbiketa prozesuan ezabatuak izan direlako. Alabaina,
hizkuntza ereduen sorrera-prozesuan hizkuntza aniztasuna oso baliagarria izan daitekeela
uste dugu. Izan ere, hizkuntzaren aldaera ezberdinak mantenduta, hizkuntza aniztasuna
barneratzen duen ereduak sortu dira, dialekto (diatopikoa), erregistro (diafasikoa), talde
sozial (diastratikoa) edota garai (diakronikoa) desberdinak kontuan hartzen dituztenak.
Praktikan, frogatua dago esparru eta dibertsitate mugatu batekin entrenatutako ereduek
errepresentazio-alborapena izan ohi dutela, baita errendimenduan arazoak ere (Blodgett et
al., 2016; Gururangan et al., 2022). Hala ere, ikerketa hauek ingeles edo baliabide ugariko
hizkuntzetan burutu izan ohi dira. Hortaz, ikerkuntza hauek euskarara aplikatu nahi dira,
euskarazko ereduak sortzeko asmoarekin, baina euskarak dituen hizkuntza aldaera
ezberdinak barne hartzen dituen datuak ere erabiliz. Honen bitartez, hizkuntza eredu
sendoagoak sortzea da gure asmoa, eremu eta hizkuntza aldaera sorta zabalagoak
maneiatzeko gai izango direnak. Oinarri bezala, EusCrawl euskarazko kalitate altuko
corpusa eta ebaluazio emaitza altuenak dituen eredu diskriminatiboa baliatuta (Artetxe et al.,
2022), hizkuntza aniztasun maila ezberdinak barne hartzen dituzten euskarazko hainbat
eredu sortuko dira. Horretarako, lau datu-multzo erabiliko ditugu: (i) EusCrawl euskarazko
corpus estandar eta garbia; (ii) Latxa Corpusa (Etxaniz et al., 2024), momentu honetan
erabilgarri dagoen euskarazko corpus handiena; (iii) Lan honetarako berariaz sortutako
corpus espontaneoa, milaka euskal erabiltzaileen txioz osatutakoa; (iv) Aipatutako corpus
horiek guztiak barnebiltzen dituen datu-multzoa. Aipatutako corpusekin entrenatutako eredu
berri hauek, BasqueGLUE (Urbizu et al., 2022) euskarria erabilita ebaluatuko dira. Bereziki,
hizkuntza aldaera anitzagoa duten corpusekin entrenatutako ereduak, hizkuntza
espontaneoagoa edo aldaera handiagokoa duten atazak (VaxxStance (Agerri et al., 2021)
eta BEC2016eu (Urbizu et al., 2022)) burutzeko lagungarriak izan daitezkeen frogatu nahi
da. Beraz, azterketa honetan, datuak lortu eta garbitzeko garaian, hizkuntza aniztasunak
duen potentzialitatea neurtzea bilatuko da.