Hizkuntza aldaerak euskaraz: aurrekariak, sailkapena eta ebaluazio proposamena
Hizkuntza aldagarritasuna askotan saihestezina den fenomeno bat da. Esaldi bat forma edo
estruktura ezberdinekin esan daiteke, aldi berean esanahi semantiko berdina mantenduz. Hots, esaldi
bat hiztegi eta estruktura formal edo informalarekin adierazi daiteke, baita hizkuntza estandarrean edo
dialektalean ere. Hizkuntza aldakortasun honek zailtasunak sortzen ditu Hizkutza Prozesamenduaren
(HP) hainbat atazetan, hala nola Question-Answering (QA), Natural Language Inference (NLI) edo
dialogo sistemetan. Hala eta guztiz ere, hizkuntza aldaerei buruzko lanak urriak dira HParen arloan,
eta lan gehienak aldakortasun datuak erraz eskura daitezkeen hizkuntzetan zentratzen dira, ingelesa
eta arabiera, besteak beste (Joshi et al., 2024). Testuinguru honetan, ez dago euskararen aldaera
linguistikoak landu dituen lanik HPn, eta aldagarritasunaren inguruan dagoen lan urria teoria
linguistikoetan edo ezaugarrien karakterizazioan zentratu da. Ondorioz, gure helburu nagusienetako
bat hizkuntza aldagarritasuna duten lehen euskarazko datu multzoak sortzea da. Datu multzo horiek
euskararen aldakortasuna esplizituki kontuan hartzen duten lehen sistemak garatzeko oinarria izango
dira. Beraz, datu multzo horiek bildu eta HParen arloan aldagarritasuna maneiatzeko gai diren
baliabideak sortu baino lehen, zein aldaera mota aztertu nahi ditugun zehaztea eta hauen sailkapen
bat bermatzea beharrezkoa da. Hizkuntzalaritzan, hainbat aldaera sailkapen mota daude. Adibidez,
Garzia, J. (2018)k, dialektoak, erregistroak eta hitzezko komunikazioa hartzen ditu ardatz moduan,
bakoitzaren barruan hizkuntza estandarra edo dialektala, informala edo formala, edo idatzizkoa eta
ahozkoa bananduz. Sailkapen honetan, multzo eta aldaera moten arteko konbinazio posibleak oso
ugariak dira. Bestalde, Barrios et al. (2008) erregistroetan zentratu zen, erregistroak ardatz horizontal
batean kokatuz: alde batean etxekoa edo lagunarteko, erdialdean formal-neutroa eta ardatzaren
beste aldean formal-jasoa. Hau kontuan hartuta, konturatu gara hizkuntzalaritzan oinarrituta dagoen
definizio eta sailkapen bat behar dugula, aldi berean HParen arloan egingarriak diren atazak
planteatzen lagunduko diguna. Beraz, hasiera honetan ezarri dugun aldaeren sailkapen sinplifikatuan
hiru talde ezberdindu ditugu: hasteko, aldaera informala, tokian tokiko hizkerak eta hizkera batu
informala bat hartuko dituena; aldaera neutroa, eguneroko hizkera estandar neutroa izango
litzatekeena; eta azkenik, aldaera espezializatua, euskara batu teknikoa izango litzatekeena.
Sailkapen honetan oinarrituta, lehen pausoa HParen arloan hizkuntza aldaeren ebaluazioa egitea da.
Horretarako, esperimentu piloto bat proposatu dugu, XNLI-eu (Heredia et al., 2024) datu-multzoan
oinarrituta. Datu multzo honetan ebaluazio corpus bat dago, euskal hiztunek eskuz sortua. Datu
hauek hizkuntza neutroan daudela kontuan hartuta, gure helburua da hauen berridazketak lortzea,
esaldi hauek aldaera informalagora eraldatuz. Eraldaketa hau eskuz egingo da, hainbat euskal
hiztunen laguntzarekin. Honen bitartez, NLI atazan aldaerak gehitzeak duen eragina ebaluatzea da
gure helburu nagusia.