Euskararako itzultzaile automatikoa: aurrerapausoak eta ikerlerro berriak
Esanak esan, ezin uka dezakegu euskara bezalako hizkuntza gutxituetarako itzulpen automatikoak (IA) hainbat onura ekar ditzakeela, besteak beste, euskara babesten eta sustatzen lagun dezakeelako. Esaterako, IA duinek euskarazko eduki digitala handitu dezake, eta horrek, era berean, gure komunitatearentzat informazioa euskaraz eskuragarri egotea ahalbidetuko luke, bestela izango ez genukeena, sarri. Halaber, lineako plataformetan, sare sozialetan eta komunikazio digitaleko askotariko kanaletan, euskaraz parte hartzea ahalbidetu dezake. Eta zergatik ez, hizkuntza ikasteko pizgarria ere suerta liteke teknologia hori, ikasketa-prozesuan kide bihurtuta. Aipatutako aukerek hizkuntza-aniztasuna sustatzen dute, IA hizkuntza-homogeneizazioari aurre egiteko lanabes bilakatua.
Alabaina, IAk dakarzkigun abaguneetatik onurak erdiestea ez da erraza, berez gertatuko den ondorioa. Izan ere, halaxe ohartarazi digute zenbait ikertzailek azken urteetan: IAk sortutako proposamenetako xede-hizkuntzen ezaugarriak ez omen datoz guztiz bat hizkuntza horiek pertsonek zuzenean erabiltzen dituztenean erakusten dituztenekin. Batetik, teknologiaren garapenean erabili diren testu generoak eta gaiak ez direnak itzultzeko erabiltzen dugu IA, bestela esanda, IAk ikasi ez dituen adierazpenez eta moldez jositako testuak itzultzeko (Sánchez-Gijón eta Piqué-Huerta, 2020). Bestalde, badakigu itzulitako testuek berariazko zenbait ezaugarri erakusten dituztela, hala nola, homogeneizazioa (Toury, 1995: 268) eta interferentzia (Toury, 1995: 278). Ezin aipatu gabe utzi, gainera, itzultzeko IA programak erabiltzerakoan ezaugarri horiek nabarmendu egin omen direla (Vanmassenhove, Shterionov eta Gwilliam, 2021). Arrazoiak arrazoi, badirudi IA-hizkuntzak bere ezaugarri propioak dituela, eta litekeena da ezaugarri horiek gure egunerokoan maiztasunez agertuz gero, euskaran eragina izatea eta pertsonen jardunean ere agertzea (Kranich, 2014; Kotze, 2020).
IA euskara sustatzeko eta normalizazio bidean lagun diezagun erabili nahi badugu, hobe dugu tentuz jokatzea teknologiarekin. Baliteke haren garapena bideratzeko bide-orria prestatzea zuhurra izatea. Horretan laguntzeko, hona hemen testu-baliabideei, tresnei eta pertsona-baliabideei dagokienez ezinbesteko izan litezkeen alderdi batzuk:
- IA sistemak, dela zehazki itzultzeko entrenatutakoak dela hizkuntza eredu masiboetan oinarritutakoak, testu-baliabideez hornitzen dira. Egun, lineako baliabideak ustiatzen ditugu gehienbat, batez ere publikoki atzigarri jarriko diren programak entrenatzeko. Gogoan izan behar dugu linean ez daudela testu-genero, erregistro eta gaia guztiak era orekatuan islatuta.
- IA sistemen kalitatea neurtzeko ezinbesteko tresnak dira metrika automatikoak. Arestian BLEU bezalako hurbilpenak erabiltzen ziren, doitasun lexikoan oinarritutakoak, hizkuntza-independenteak. Egun, baina, sare neuronalen bidez entrenatu daitezkeen ereduak gailentzen ari dira. COMET da metrika horietako bat, itzulpen-erreferentziekin eta haien balorazioekin entrenatutakoa. Arriskua metrika hori euskarazko daturik gabe entrenatu arren euskarazko IAren kalitatea antzemateko erabiltzean datza. Horrelakoak saihesteko eta euskararako metrika fidagarriak izateko, kalitatea zehaztuta duten itzulpenen corpusa osatzea beharrezkoa litzateke. Noski, corpus horrek bildu beharko lituzke IA erabili nahi dugun arlo, testu-genero eta erregistro anitzak.
- Zeresanik ez, ebaluazioa ez da zeregin automatikoa bakarrik. Horren atzetik datoz erabilera-ebaluazioak, mota askotarikoak, hainbat testuingurutan gerta litezkeenak. Momentua helduta horri samur ekiteko, interesgarria litzateke ebaluazio-ekintzetan parte hartzeko prest dauden pertsonen komunitate bat heztea. Asko dira profil egokiak eta beharrezkoak gainera, hizkuntza-adituak zein ez adituak: itzultzaileak, filologoak, gaitasun maila askotariko pertsonak eta ikasleak…
- Kalitate-ebaluazioez eta erabilera-ebaluazioez gain, IA sistemak bide ekoitzitako hizkuntza aztertzea ere garrantzitsua izango da hizkuntzaren garapenaz jabetzeko. Horretarako, derrigorrezkoak izango zaizkigu testu multzo zabalak analizatzeko tresna automatikoak, hizkuntza-maila desberdinetan lan egiteko gai direnak, hala nola, lexikoan, morfosintaktikoan, semantikoan eta pragmatikoan. Sortuak dira jada lan honetan lagunduko diguten zenbait prototipo, baina ikerketa sendorik egingo badugu, horien doitasuna, estaldura eta eraginkortasuna hobetzea ezinbestekoa izango da.
Erreferentzia bibliografikoak
Kotze, H. (2020). Translation, Contact Linguistics and Cognition. Routledge Abingdon.
Kranich, S. (2014). Translations as a locus of language contact. In Translation: A multidisciplinary approach, pages 96–115. Springer
Sánchez-Gijón, P., & Piqué Huerta, R. (2020). Conseqüències de la traducció automàtica neuronal sobre les llengües d'arribada. Tradumàtica, (18), 0001-10.
Toury, G. (1995). Descriptive Translation Studies: And Beyond. John Benjamins Publishing Company.
Vanmassenhove, E., Shterionov, D. and Gwilliam, M. (2021). Machine translationese: Effects of algorithmic bias on linguistic complexity in machine translation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 2203–2213, Online. Association for Computational Linguistics.