EU · EN

3. workshopa: Komunitate bizia, azpiegitura baliagarria (2024)

HiTZketan: Ahots-ahots itzulpen elebiduna ikasketa sakona erabiliz

HiTZketan proiektuan ahotsetik ahotserako (S2S) itzulpen-sistema bat garatu izan da
euskara eta gaztelaniarako. Sistema honetan erabiltzailea bi hizkuntzetako batean
mintzo da eta sistemak esatariak esandakoa beste hizkuntzara itzultzen du. Gero
itzulpena hizketan bihurtzen du ahots pertsonalizatua erabiliz, erabiltzailearen ahotsa
imitatuz hain zuzen ere.
Ahotsetik ahotserako itzulpen automatikoa hizkuntzen prozesamenduen ikerkuntza
arloaren erronketako bat da gaur egun. Ikerketa lerro batzuek eredu neuronal bakarra
erabiltzen dute prozesu osoa ebazteko: sarrerako seinaletik itzulitako emaitzara
(muturretik muturrerako ereduak edo end-to-end bezala ezagutzen direnak). Proiektu
honetan, aldiz, estrategia hiru teknologia ezberdin integratzea izan da, alegia, hizketaren
ezagutze automatikoa (ASR), itzulpen automatikoa (MT) eta testu ahots bihurketa
pertsonalizatua (p-TTS), pipeline edo hodi itxurako arkitektura bat erabiliz. Hodi-
arkitekturari esker, hiru arloetan eskuragarri dauden teknologia onenak integratu dira.

Hizketaren ezagutza arloan, proiektuan artearen egoerako neurona-sare sakonetan
oinarritutako sistemak garatu dira euskararako, hizkuntza honetarako argitaratu diren
emaitzarik onenetarikoak lortuz. Hiru eredu ezberdin argitaratu dira S2S sisteman:
Mozillaren DeepSpeech eredua, Nvidiaren Nemo Transducer eredua eta Whisper
eredua. Hirurak euskararako bereziki entrenatuak izan dira, unean eskuragarri genituen
datubase guztiak erabiliz (400 ordu inguru). Gaztelaniarako eredu publikoak erabili izan
dira.
Hizketaren ezagutza moduluek sortzen dituzten testuek ez dute puntuazio-ikurrik, ezta
letra larririk edo zenbaki edo akronimorik. Bai itzulpenerako baita gizakien
ulermenerako ere, komenigarria da testuen formatua “aberatsa” izatea, ohiko idazkien
antzekoa. Xede honekin proiektu honetan garatu dugu puntuazio eta kapitalizazio
modulu bat. Horretarako hurbilketa berri bat proposatu dugu, itzulpen automatikoan
inspiratutako sekuentziatik sekuentziarako eredu bat inplementatuz, ohikoagoak diren
klasifikazio ereduen ordez. Proposatutako sistemak ez du bakarrik puntuazioa eta
kapitalizazioa berrezartzen, baizik eta ikurrak eta akronimoak jarri, zenbakiak digituetara
itzuli eta ASR sistemak egindako akats batzuk zuzendu litzake baita.

Itzulpenaren arloan, proiektuan HiTZek garatutako euskara-gaztelera eta gaztelania-
euskara itzultzaile neuronalak erabili ditugu.Sintesiari dagokionez, proiektuak hizlariaren ahotsa imitatzen duen sintesi
pertsonalizatua eskatzen zuen, eta horrek esan nahi du hizlari objektiboaren oso lagin
gutxi daudela adibide gisa. Horri zero-adibide ikasketa (zero-shoting learning) deitzen
zaio, sistemak ahots berri bat ikasi behar baitu entrenamenduan ahots horren inolako
laginik ikusi gabe. Gure kasuan Your-TTS softwarea erabili izan dugu modulu honen
oinarri gisa.Your-TTS-k VITS ereduan oinarritzen da eta esatari anitzetarako eta hizkuntz
anitzetarako moldatuta dago. Irteerako ahotsa entrenatutako esatari baten edo zero-
adibide sintesia izan daiteke. Proiektuan hizkuntz anitzeko eredu publikoak euskararekin
eta gaztelaniarekin hedatu ziren Aholaben sintesi-korpusak erabiliz. Aholaben
hizkuntza-moduluak erabili ziren testuen aurreprozesaketa egiteko.
Sistema osoaren demostradore bat garatu izan da web bidez atzigarria dena.
Horretarako azpiegitura berria erosi eta martxan jarri da, GPU bat duen zerbitzari bat,
hain zuzen ere, adimen artifizialeko demostrazio-prototipoak exekutatzeko erabiliko
dena.
Proiektua HiTZ Zentroko bi ikerketa taldeen (Ixa eta Aholab) elkarlanari esker egin da,
eta bi taldeen espezializazio eremuen ezagutza eskatzen duen tresna bat sortzea zen
helburuetariko bat. Bai IXAk, NLPren arloan, bai Aholabek hizketaren prozesamenduan,
esperientzia eta baliabide asko dituzte.

Sortutako S2S itzulpen-sisteman taldeek artearen egoerako teknologiak euskararako
moldatu eta erabili dituzte: bai hizketaren ezagutza automatikoan, bai itzulpen
automatikoan eta baita hizketaren sintesi pertsonalizatuan. Proiektuaren emaitza
batzuk berrikuspen prozesuan dagoen paper batean bidali izan dira konferentzia batera.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
HiTZ zentroa, Aholab taldea
Autorea: 
Ibon Saratxaga, Aitor Soroa, Eva Navas, Gorka Labaka, Xabier De Zuazo, Inmaculada Hernáez, Jon Sánchez, Eneko Agirre, Aitor Bellanco, Asier Herranz, Rodrigo Agerri, German Rigau
Emaila: 
aitor.bellanco@ehu.eus

Euskal Pizkundea

ERREPRESIOA
Frantziako Iraultzatik, euskaldunek zapalkuntzari aurre egin behar izan zioten, beren identitate bakarra ezabatzeko ahalegin basatiak eginez, batez ere frantziar eta espainiar estatuen esku. Errepresio hau ez zen soilik politikoa, genozidioa baizik. Euskara debekatu egin zen, tradizioak ezabatu, eta ahalegin guztiak egin ziren euskaldunak ahanzturan barneratzeko.

PIZKUNDEA
Hala ere, eraso gupidagabe horiek gorabehera, euskaldunek beren izpiritua gordetzeko borrokatu dute. Haien istorioa desafio, erresistentzia eta bizirauteko borondate hautsiezina da.
Zapalkuntza horren aurrean, 1841ean euskal mugimendu errenazentista (Eusko Pizkundea) sortu zen. Berpizte sozial eta kultural indartsu horrek mehatxatuta zeuden euskal hizkuntza, tradizioak eta identitatea babestea eta suspertzea zuen helburu. Itxaropenaren eta erresistentziaren itsasargi bihurtu zen, euskal herriaren arima bera zaintzeko erabaki kolektiboa piztuz. Mugimendu horren bidez, euskaldunak borrokatu ziren ez bakarrik bizirik irauteko, baizik eta aurrera egiteko, beren ondare aberatsak hurrengo belaunaldietan iraun zezan.

NOLA GERTATU ZEN PIZKUNDEA
Eremu politikoan, euskal nazionalismoa gorpuzten hasi zen, eta kulturalki, berriz, euskal tradizioen errebalorizazio handia gertatu zen. Berpizkunde horrekin batera, musika ere euskal nortasunaren bizi-adierazgarritzat hartzen zen. Berpizte kultural horren alde egiteko, José Manterola, Resurrección M. Azkue eta Aita Donostiak euskal kantutegi herrikoiak bildu zituzten. Haien ahaleginari esker, galtzeko zorian zegoen musika zehatz-mehatz berreskuratu, transkribatu eta kontserbatu zen.
Garai hartan musika-konposizio ugari sortu ziren. Euskaraz egindako lehen operak Jesus Guridik (Mirentxu, Amaya, El Caserío) eta Jose M. Usandizagak (Mendi-Mendiyan) konposatu zituzten, eta lorpen kultural garrantzitsua izan zen.
Mugimendu honen funtsezko gertakarietako bat Antton D 'Abbadieren "Euskal Lore Jokoak" (Euskal Lore Jokoak) sortzea izan zen. Lore Jokoak Euskal Errenazimenturako plataforma nagusi bihurtu ziren berehala, euskal hizkuntza, musika eta kultur harrotasuna ospatzeko gune bat eskainiz.
Errepresioaren aurka agertu zen, beraz, Euskal Herriaren espiritu sortzailea sustatuz eta mantenduz, bere identitate eta ondare sentimendua indartuz, kultura suspertzen eta erresistitzen ari zen garai batean.

HELBURUAK
• Euskal Pizkundearen prozesu historikoa arakatzen du, 1841etik 1936ra izandako sorrera eta garapena arakatuz, eta euskal musikari egindako ekarpenak aztertzen ditu.
• Euskal Pizkundeak aldi honetan musikarien sormen lanetan izan duen eragina aztertzea.
• Garai honetako funtsezko musika-aldiak, -adierazpenak eta -eragin handiko euskal musikariak identifikatzea, eta paisaia kulturalari egiten dizkioten ekarpenak eztabaidatzea.
• Musikak euskal kultura-nortasuna zaintzeko eta indartzeko duen zeregina ulertzea.
• Errepresioak eta bazterketak euskal musikaren hedapenean, garapenean eta bilakaeran duten eragina kritikoki ebaluatzea.

EUSKAL PIZKUNDEAREN EMAITZAK:
• Mugimenduak euskararen ikasketa filologiko eta gramatikalak bultzatu zituen, eta euskararen erabilera bultzatzeko eta sustatzeko ahaleginak asko zabaldu ziren.
• Euskal musikaren, literaturaren eta arte plastikoen balioa indartu zen, eta, ondorioz, garatu egin zen, euskal instrumentu tradizionalak jotzeko moduan aldaketak sartuz.
• Euskal nortasuna eta berpizte politikoa nabarmen indartu ziren aldi horretan.
 

ONDORIOA
Ikerketa honek euskal gizarte modernoaren sorrera ulertzeko ahalmena du. Euskal Pizkundea bezalako mugimendu historikoak eta horiek adierazpen kulturaletan duten eragina aztertzea, musika kasu, funtsezkoa da ulertzeko nola eboluzionatu duen euskal identitateak zoritxarrean. Dinamika horiek aztertuz, mundu osoko gizarteek beren ondare kulturala nola kontserbatzen, eraldatzen eta mantentzen duten jakingo dugu, erresistentzia kultural baketsua zein den erakutsiz.

 

Univertsitatea edo erakundea: 
University of Nevada Reno
Ikerkuntza taldea: 
Center for Basque Studies
Autorea: 
Beñat Olano
Emaila: 
bolanoduque@unr.edu

BERnaT: Euskal Hizkuntzaren Aniztasuna Modelatzen

Adimen Artifizial zein Hizkuntzaren Prozemanduaren teknologiak humanitate eta gizarte
zientzia arloetan ikerkuntza egiteko geroz eta gehiago erabiltzen dira. Teknologia hauen
oinarrian hizkuntza eredu diskriminatibo eta sortzaileak ditugu, hizkuntza naturalaren
ulermen zein sorkuntza atazetarako behar-beharrezkoak direnak. Eredu hauen
garapenerako nahitaezkoa da tamaina eta kalitate altuko corpusak edukitzea (Kaplan et al.,
2020; Rae et al., 2022), honek hizkuntza ereduaren kalitatea baldintzatuko duelarik. Corpus
berriak sortzeko eta filtratzeko prozesuan autore batzuk zenbait hizkuntza barietate kanpoan
uztea erabaki dezakete, aldez aurretik ezarritako hizkuntza kalitate irizpideak betetzen ez
dituztelako edo, besterik gabe, garbiketa prozesuan ezabatuak izan direlako. Alabaina,
hizkuntza ereduen sorrera-prozesuan hizkuntza aniztasuna oso baliagarria izan daitekeela
uste dugu. Izan ere, hizkuntzaren aldaera ezberdinak mantenduta, hizkuntza aniztasuna
barneratzen duen ereduak sortu dira, dialekto (diatopikoa), erregistro (diafasikoa), talde
sozial (diastratikoa) edota garai (diakronikoa) desberdinak kontuan hartzen dituztenak.
Praktikan, frogatua dago esparru eta dibertsitate mugatu batekin entrenatutako ereduek
errepresentazio-alborapena izan ohi dutela, baita errendimenduan arazoak ere (Blodgett et
al., 2016; Gururangan et al., 2022). Hala ere, ikerketa hauek ingeles edo baliabide ugariko
hizkuntzetan burutu izan ohi dira. Hortaz, ikerkuntza hauek euskarara aplikatu nahi dira,
euskarazko ereduak sortzeko asmoarekin, baina euskarak dituen hizkuntza aldaera
ezberdinak barne hartzen dituen datuak ere erabiliz. Honen bitartez, hizkuntza eredu
sendoagoak sortzea da gure asmoa, eremu eta hizkuntza aldaera sorta zabalagoak
maneiatzeko gai izango direnak. Oinarri bezala, EusCrawl euskarazko kalitate altuko
corpusa eta ebaluazio emaitza altuenak dituen eredu diskriminatiboa baliatuta (Artetxe et al.,
2022), hizkuntza aniztasun maila ezberdinak barne hartzen dituzten euskarazko hainbat
eredu sortuko dira. Horretarako, lau datu-multzo erabiliko ditugu: (i) EusCrawl euskarazko
corpus estandar eta garbia; (ii) Latxa Corpusa (Etxaniz et al., 2024), momentu honetan
erabilgarri dagoen euskarazko corpus handiena; (iii) Lan honetarako berariaz sortutako
corpus espontaneoa, milaka euskal erabiltzaileen txioz osatutakoa; (iv) Aipatutako corpus
horiek guztiak barnebiltzen dituen datu-multzoa. Aipatutako corpusekin entrenatutako eredu
berri hauek, BasqueGLUE (Urbizu et al., 2022) euskarria erabilita ebaluatuko dira. Bereziki,
hizkuntza aldaera anitzagoa duten corpusekin entrenatutako ereduak, hizkuntza
espontaneoagoa edo aldaera handiagokoa duten atazak (VaxxStance (Agerri et al., 2021)
eta BEC2016eu (Urbizu et al., 2022)) burutzeko lagungarriak izan daitezkeen frogatu nahi
da. Beraz, azterketa honetan, datuak lortu eta garbitzeko garaian, hizkuntza aniztasunak
duen potentzialitatea neurtzea bilatuko da.

Univertsitatea edo erakundea: 
EHU
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea
Autorea: 
Ekhi Azurmendi, Jaione Bengoetxea, Julen Etxaniz, Joseba Fernandez de Landa, Maite Heredia, Aitor Soroa, Mikel Zubillaga
Emaila: 
maite.heredia@ehu.eus

Pages