Euskarazko instrukzio-HEHen ebaluazioren hastapenak
ChatGPT eta bestelakoen antzera gizakion aginduak edo instrukzioak 1 jarraitzeko gai diren
hizkuntza-eredu handien (HEH) garapenak erronka handiak dakartza ebaluazioaren aldetik. Bench-
marketan oinarritutako ebaluazioek eraginkortasuna eskaintzen dute, baina ez dute instrukzio kon-
plexuen jarraipena behar bezain sakon aztertzeko aukerarik ematen. Eskuzko ebaluazioa, berriz,
malgua eta aberatsa izan arren, ezin da erraz erreproduzitu eta denbora gehiegi eskatzen du, hau
da, behar bestetan egitea ez da bideragarria. Horrek guztiak ebaluazio automatiko aurreratu eta
eskalagarrien premia azaleratu du [Dubois et al., 2023, Zheng et al., 2023, Zeng et al., 2024]. Alabai-
na, euskarazko ereduen instrukzioak jarraitzeko gaitasunaren ebaluazio automatikoa oraindik jorratu
gabeko eremua da. Hutsune hori betetzeko, gure ikerketak eskuzko ebaluazio-saiakera oso bat pro-
posatzen du kontzeptu-proba gisa. Honekin, aurrerago ebaluazio datu-multzo zabalago eta sendoago
bat sortzeko eta etorkizuneko automatizazio-lanak bideratzeko oinarriak ezarri nahi ditugu.
Hasteko, 100 instrukzio-erantzun pareko hasierako ebaluazio datu-multzoa sortu dugu eskuz, 16
kategoriatan banatuta. Kategoria ohikoenak dira galdera irekiak (16), berridazketak (11), infor-
mazio erauzketa (10), ideia-jasak (8) eta itzulpenak (8). Horrez gain, instrukzio bakoitza hainbat
dimentsioren arabera ere etiketatu dugu, ebaluaziorako interesgarriak izan daitezkeenak. Horien
artean daude toxikotasuna, subjektibotasuna, eta tokiko gaiak jorratzen diren ala ez. Multzo hori
osatzeko, instrukzio bakoitzerako 13 minutu inguru behar izan ditugu, guztira 18 orduko lana izanik.
Ondoren, ebaluazio-fasean, 4 hizkuntza-ereduren erantzunak jaso ditugu instrukzio bakoitzerako.
Kontzeptu-proba honetarako egungo eredu arrakastatsuenetako batzuk aukeratu ditugu: OpenAIren
GPT 4o 2 , Anthropicen Claude Sonnet 3.5 3 , Metaren Llama 3.1 Instruct 405B 4 [Dubey et al., 2024]
eta Cohereren Command R+ 5 . Horien erantzunen eskuzko ebaluazioan, bi metodo erabili ditugu
Ouyang et al. [2022] lanari jarraiki:
a) erantzun bakoitza independenteki baloratu dugu hainbat irizpideren arabera (adib., kalitate
orokorra, euskara maila, irizpide egiaztagarrien betetzea, eta toxikotasuna); eta
b) instrukzio bakoitzeko jasotako lau erantzun automatiko desberdinak erkatu eta onenetik txa-
rrenera sailkatzeko eskatu diegu ebaluatzaileei.
Zehazki, bost ebaluatzaile ari dira lanean, eta elementu bakoitzak hiru ebaluazio independente
jasoko ditu. Dokumentu hau idazterako garaian, bi ebaluatzailek amaitu dituzte esleitutako anotazio
lanak. Bi ebaluatzaile horien lanaren azterketak erakusten duenez, 240 eredu-erantzunen ebaluazio
independenteak 9 ordu eskatu dizkio ebaluatzaile bakoitzari batez beste, eta 60 sailkapenek 2 ordu eta
40 minutu. Adostasun-metrikek adostasun-maila egokia erakusten dute dimentsio gehienetan, nahiz
eta alderdi subjektiboetan aldakortasun apur bat nabari den. Gainera, sailkapen ataza ebaluazio
independenteak baloratzea baino zailagoa izan daitekeela iradokitzen dute emaitzek.
Kontzeptu-proba honetatik baliabide-beharrei eta denbora-kostuei buruz ikasitakoan oinarrituta,
666 instrukzio berri bildu ditugu etxean, eta 335 gehiago herritarren laguntzaz Informatikari Eus-
kaldunen Bilkuraren (IEB) XIII. edizioan. Ekimen horiek gure datu-sorta zabaldu eta aberastuko
dute, eta puntuazio-sistema automatikoen ebaluazio fidagarria bideratuko dute. Automatizaziorako
lehen urratsetan, Llama-3.1-Nemotron-70B-Reward [Wang et al., 2024b,a] ereduarekin esperimenta-
tu dugu, giza ebaluazioekin bat datozen puntuazioak sortzeko erreferentzia-puntu gisa. Eredu hori
ingelesezko datuekin soilik sortu dela kontuan izanik, emaitza itxaropentsuak lortu ditugula esan
genezake.
Posterrean, dokumentu honetan laburtutako metodologia, emaitza nagusiak, ateratako ondorioak
eta etorkizunerako ikasitakoak sakonago aurkeztuko ditugu.