Albisteen laburpen automatikoen kalitatearen ebaluazioa
Laburpen on batek jatorrizko testuaren ikuspegi orokorra eman behar du, testu osoa irakurri gabe horren nondik norakoak ulertu ahal izateko. Testuko informazio garrantzitsuena jaso behar du eta informazio hori era josian adierazi behar du. Lan honetan albisteetatik automatikoki sortutako laburpenen kalitatea ebaluatzeko metodologia garatu nahi izan dugu. Metodologia hori edozein hizkuntzatako laburpenak ebaluatzeko definitu badugu ere, euskararen adibidea baliatuko dugu berori aurkezteko. Era berean, egun erabilgarri dauden hizkuntza ereduek albisteen laburpen automatikoak sortzeko balio duten ere aztertu nahi dugu.
Euskarazko esperimenturako Berria egunkariko 15 albiste ausaz batu ditugu. Albisteak euskara batuan idatzita daude, albisteetatik batzuetan ekialdeko hizkera baliatu den arren. Gainera, hizkuntza ereduek albiste horiek aurretik ikusi ez izana ziurtatzeko, azken hilabeteetako albisteak hartu ditugu. Horietatik hamar metodologia fintzeko eta hiru ebaluatzaileak atazan trebatzeko baliatu ditugu eta gainontzeko bost albisteak gidalerroen baliozkotzerako erabili ditugu. Laburpenei dagokienez, albisteen leada eta automatikoki sortutako laburpenak bildu ditugu.
Laburpenak sortzeko, euskararako erabilgarri dauden hizkuntza eredurik ahaltsuenak hautatu ditugu: Claude, Command R+, GPT4o, Reka Core eta Llama 3.1 70B. Laburpenak sortzeko lau agindu desberdin definitu dugu, ezaugarri zehatzak dituzten laburpenak sortzeko. Zehazki, laburpen agindu hauek definitu ditugu:
- Oinarrizko laburpena
- Chain-of-thought analisiaren ondoriozko laburpena
- 5W1H galderei erantzunez egindako laburpena
- TLDR laburpena
Hala, albisteko 21 laburpen eskuratu dugu: leada eta eredu bakoitzak sortutako lau. Guztira 315 laburpeneko corpusa eratu dugu.
Laburpenen kalitatea neurtzeko bost irizpide definitu ditugu, beste lan batzuetan (Dang, 2005; Kryscinski et al., 2019; Fabbri et al., 2021) egindako proposamenei jarraiki:
- Koherentzia: laburpeneko ideien arteko joskera
- Konsistentzia: jatorrizko testuarekiko laburpenaren egiazkotasuna
- Jariotasuna: hizkuntzaren zuzentasuna
- Adierazgarritasuna: jatorrizko testuko ideia garrantzitsuenen proportzioa laburpenean
Gainera, beste irizpide bat ere aztertu dugu, kazeteritzan maiz erabiltzen den 5W1H printzipioan eta Bonet-Jover et al.-en lanean (2023) oinarrituta:
- 5W1H: jatorrizko testuko ideia garrantzitsuenen presentzia
Bost irizpide horiek 1etik (guztiz desegokia/okerra) 5erako (guztiz egokia/zuzena) puntuazioaz baloratu ditugu.
Corpuseko 315 laburpenetako bakoitza 3 ebaluatzailek baloratu dute eta beren arteko adostasun maila aztertu da. Posterrean, emaitzen analisitik ateratako ondorio nagusiak aurkeztuko ditugu.
Nahiz eta lan honetan automatikoki sortutako laburpenen kalitatearen ebaluazioan zentratu, proposatutako ebaluazio-eskemak gizakiok sortutako laburpenak ebaluatzeko ere balio du.
Erreferentziak
Alba Bonet-Jover, Robiert Sepúlveda-Torres, Estela Saquete, eta Patricio Martínez-Barco. 2023. A semi-automatic annotation methodology that combines Summarization and Human-In-The-Loop to create disinformation detection resources. Knowledge-Based Systems, Vol. 275.
Hoa Trang Dang. 2005. Overview of DUC 2005. In The Document Understanding Conference, volume 2005, pages 1–12.
Alexander R. Fabbri, Wojciech Krýsciński, Bryan McCann, Caiming Xiong, Richard Socher, eta Dragomir Radev. 2021. SummEval: Re-evaluating summarization evaluation. Transactions of the Association for Computational Linguistics, 9:391–409.
Wojciech Kryscinski, Nitish Shirish Keskar, Bryan McCann, Caiming Xiong, eta Richard Socher. 2019. Neural text summarization: A critical evaluation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 540–551, Hong Kong, China. Association for Computational Linguistics