HiTZketan: Ahots-ahots itzulpen elebiduna ikasketa sakona erabiliz
HiTZketan proiektuan ahotsetik ahotserako (S2S) itzulpen-sistema bat garatu izan da
euskara eta gaztelaniarako. Sistema honetan erabiltzailea bi hizkuntzetako batean
mintzo da eta sistemak esatariak esandakoa beste hizkuntzara itzultzen du. Gero
itzulpena hizketan bihurtzen du ahots pertsonalizatua erabiliz, erabiltzailearen ahotsa
imitatuz hain zuzen ere.
Ahotsetik ahotserako itzulpen automatikoa hizkuntzen prozesamenduen ikerkuntza
arloaren erronketako bat da gaur egun. Ikerketa lerro batzuek eredu neuronal bakarra
erabiltzen dute prozesu osoa ebazteko: sarrerako seinaletik itzulitako emaitzara
(muturretik muturrerako ereduak edo end-to-end bezala ezagutzen direnak). Proiektu
honetan, aldiz, estrategia hiru teknologia ezberdin integratzea izan da, alegia, hizketaren
ezagutze automatikoa (ASR), itzulpen automatikoa (MT) eta testu ahots bihurketa
pertsonalizatua (p-TTS), pipeline edo hodi itxurako arkitektura bat erabiliz. Hodi-
arkitekturari esker, hiru arloetan eskuragarri dauden teknologia onenak integratu dira.
Hizketaren ezagutza arloan, proiektuan artearen egoerako neurona-sare sakonetan
oinarritutako sistemak garatu dira euskararako, hizkuntza honetarako argitaratu diren
emaitzarik onenetarikoak lortuz. Hiru eredu ezberdin argitaratu dira S2S sisteman:
Mozillaren DeepSpeech eredua, Nvidiaren Nemo Transducer eredua eta Whisper
eredua. Hirurak euskararako bereziki entrenatuak izan dira, unean eskuragarri genituen
datubase guztiak erabiliz (400 ordu inguru). Gaztelaniarako eredu publikoak erabili izan
dira.
Hizketaren ezagutza moduluek sortzen dituzten testuek ez dute puntuazio-ikurrik, ezta
letra larririk edo zenbaki edo akronimorik. Bai itzulpenerako baita gizakien
ulermenerako ere, komenigarria da testuen formatua “aberatsa” izatea, ohiko idazkien
antzekoa. Xede honekin proiektu honetan garatu dugu puntuazio eta kapitalizazio
modulu bat. Horretarako hurbilketa berri bat proposatu dugu, itzulpen automatikoan
inspiratutako sekuentziatik sekuentziarako eredu bat inplementatuz, ohikoagoak diren
klasifikazio ereduen ordez. Proposatutako sistemak ez du bakarrik puntuazioa eta
kapitalizazioa berrezartzen, baizik eta ikurrak eta akronimoak jarri, zenbakiak digituetara
itzuli eta ASR sistemak egindako akats batzuk zuzendu litzake baita.
Itzulpenaren arloan, proiektuan HiTZek garatutako euskara-gaztelera eta gaztelania-
euskara itzultzaile neuronalak erabili ditugu.Sintesiari dagokionez, proiektuak hizlariaren ahotsa imitatzen duen sintesi
pertsonalizatua eskatzen zuen, eta horrek esan nahi du hizlari objektiboaren oso lagin
gutxi daudela adibide gisa. Horri zero-adibide ikasketa (zero-shoting learning) deitzen
zaio, sistemak ahots berri bat ikasi behar baitu entrenamenduan ahots horren inolako
laginik ikusi gabe. Gure kasuan Your-TTS softwarea erabili izan dugu modulu honen
oinarri gisa.Your-TTS-k VITS ereduan oinarritzen da eta esatari anitzetarako eta hizkuntz
anitzetarako moldatuta dago. Irteerako ahotsa entrenatutako esatari baten edo zero-
adibide sintesia izan daiteke. Proiektuan hizkuntz anitzeko eredu publikoak euskararekin
eta gaztelaniarekin hedatu ziren Aholaben sintesi-korpusak erabiliz. Aholaben
hizkuntza-moduluak erabili ziren testuen aurreprozesaketa egiteko.
Sistema osoaren demostradore bat garatu izan da web bidez atzigarria dena.
Horretarako azpiegitura berria erosi eta martxan jarri da, GPU bat duen zerbitzari bat,
hain zuzen ere, adimen artifizialeko demostrazio-prototipoak exekutatzeko erabiliko
dena.
Proiektua HiTZ Zentroko bi ikerketa taldeen (Ixa eta Aholab) elkarlanari esker egin da,
eta bi taldeen espezializazio eremuen ezagutza eskatzen duen tresna bat sortzea zen
helburuetariko bat. Bai IXAk, NLPren arloan, bai Aholabek hizketaren prozesamenduan,
esperientzia eta baliabide asko dituzte.
Sortutako S2S itzulpen-sisteman taldeek artearen egoerako teknologiak euskararako
moldatu eta erabili dituzte: bai hizketaren ezagutza automatikoan, bai itzulpen
automatikoan eta baita hizketaren sintesi pertsonalizatuan. Proiektuaren emaitza
batzuk berrikuspen prozesuan dagoen paper batean bidali izan dira konferentzia batera.