EU · EN

2. workshopa: azpiegitura eraikitzen (2023)

Euskara ParlaMint 4.0n: Europako parlamentuetako eztabaiden corpusa

Europako parlamentu ezberdinetan esaten dena eta esateko modua interesgarria izan daiteke hainbat arlotako ikergalderak erantzuteko. Ikergaldera horiek erantzuteko aurretiko lana astuna izan daiteke; izan ere, lehendabizi, Parlamentuan esandakoa transkribatu behar da (egun Parlamentuek lan hori egiten dute), ondoren nork zer eta noiz esan duen kodetu (metadatuak); gero, ehundaka testu aztertzeko tresna eleanitzak behar dira, eta, bukatzeko, egindako galderen erantzunen emaitzak erakusteko baliabideak behar dira. Lan guzti horiek egitea lan astuna eta teknikoa da ikerlarientzat eta baita ikerketa taldeentzat. Lan hori errazteko CLARIN-ERIC azpiegiturak Europako hainbat parlamentutako corpusa biltzeko, corpusak aztertzeko tresnak, datuak erakusteko baliabideak, tutorialak erabilera errazteko eta erabilera kasuak sortu ditu ParlaMint proiektuan. ParlaMint proiektuaren xedea Europako parlamentuetako eztabaiden corpusak osatzea da. Corpus horiek baldintza batzuk bete behar dituzte, hala nola, modu berean etiketatuta egon behar dute eta elkarren artean konparagarriak izan behar dute. ParlaMint 4.0 proiektuaren azken bertsioa da, eta 29 herrialde eta autonomia erkidego biltzen ditu. Bildutako eztabaidak 2015etik 2022aren erdialdera bitartekoak dira, eta corpusek 9 milioitik 126 milioira arteko hitz kopurua dute, eta corpus guztien batura 1,1 bilioi hitz ditu. Euskara, eta Eusko Legebiltzarreko eztabaidak, ParlaMint 4.0n sartu dira eta beste corpusen parekoa da, bai etiketatzeari, baita egituratzeari dagokionez ere. Europako estatuetako parlamentuetako corpusek ezaugarri berberak etiketatuta dituzte: eztabaida bakoitza zer egun eta legegintzaldikoa den; eztabaida ere zer motatakoa den, eta ekoitzi den testuaren egilea ere nor den. Euskarazko corpusaren kasuan, badago ezberdintasun bat Europako beste parlamentuetako corpusekin: Eusko Legebiltzarren euskara eta gaztelania erabil daitezkeenez, corpuseko paragrafo bakoitzaren hizkuntza zein den identifikatu dugu.ParlaMint proiektua, alde batetik, aurretik aipatu ditugun legebiltzarreko eztabaidetako testuek osatzen dute. Beste atala metadatuek osatzen dute. Bertan, parlamentarien inguruko zenbait datu bilduta eta jarrita daude modu egituratuan, hala nola, jaiotza-data eta jaioterria, alderdi politikoetan izan duen afiliazioa (bat baino gehiago posible da), berari buruzko informazioa duen webgunearen esteka (Wikipediakoa eta alderdi politikoaren webgunean azaltzen dena, etab.). Metadatuen atal horretan, alderdi politikoen inguruko zenbait datu ere badaude: noiz sortu eta desagertu zen, alderdiaren webgunea eta ea legegintzaldietan gobernuan edo oposizioan egon den. Bukatzeko, Eusko Legebiltzarreko nahiz beste parlamentuetako corpusaren azaleko azterketa linguistikoa ere egina dago: entitateak identifikatzea, sintaktikoki aztertzea eta rol semantikoak etiketatzea.Eusko Legebiltzarreko eta beste parlamentuetako corpusek dituzten eta aurretik aipatu ditugun datu eta ezaugarriak interesgarriak izan daitezke hainbat azterketa egiteko. Hizketaldiak modu askotan bildu daitezke: alderdi politikoen arabera, adinaren arabera, jaioterriaren arabera, generoaren arabera edota hizkuntzaren arabera, besteak beste. ParlaMint proiektuko sustatzaileek tutorialak eta erabilera kasuak egin dira edozein ikertzailek ParlaMinteko corpusa erabilera errazteko: Tutoriala:
 

 

Voices of the Parliament: A Corpus Approach to Parliamentary Discourse Research, Darja Fišer eta Kristina Pahor de Maiti. Erabilera kasuak: ParlaMint and ParlaMeter: How Standardised Data Formats Empower End Users. Filip Dobranić. ParlaMint -A Resource for Democracy. Dario Del Fante and Virginia Zorzi, 'Who Is the Enemy Now?'. Networks of Power -Gender Analysis in European Parliaments. Jure Skubic, Alexandra Bruncrona, Jan Angermeier, Bojan Evkoski and Larissa Leiminger.Bukatzeko, Eusko Legebiltzarreko corpusa hemen aurkitu daiteke: http://hdl.handle.net/11356/1860 CC BY 4.0 lizentziapean eta baita TEITOKen ere: https://lindat.mff.cuni.cz/services/teitok/parlamint-40/index.php?action....

Univertsitatea edo erakundea: 
Universidad del País Vasco/Euskal Herriko Unibertsitatea (UPV/EHU), University of Copenhagen
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea; Department of Nordic Studies and Linguistics (NorS)
Autorea: 
Mikel Iruskieta, Jon Alkorta, Kike Fernandez, Ekain Arrieta, Rodrigo Agerri, Manex Agirrezabal
Emaila: 
{mikel.iruskieta;jon.alkorta;ekain.arrieta;kike.fernandez;rodrigo.agerri;}@ehu.eus; manex.aguirrezabal@hum.ku.dk

Euskararako itzultzaile automatikoa: aurrerapausoak eta ikerlerro berriak

Esanak esan, ezin uka dezakegu euskara bezalako hizkuntza gutxituetarako itzulpen automatikoak (IA) hainbat onura ekar ditzakeela, besteak beste, euskara babesten eta sustatzen lagun dezakeelako. Esaterako, IA duinek euskarazko eduki digitala handitu dezake, eta horrek, era berean, gure komunitatearentzat informazioa euskaraz eskuragarri egotea ahalbidetuko luke, bestela izango ez genukeena, sarri. Halaber, lineako plataformetan, sare sozialetan eta komunikazio digitaleko askotariko kanaletan, euskaraz parte hartzea ahalbidetu dezake. Eta zergatik ez, hizkuntza ikasteko pizgarria ere suerta liteke teknologia hori, ikasketa-prozesuan kide bihurtuta. Aipatutako aukerek hizkuntza-aniztasuna sustatzen dute, IA hizkuntza-homogeneizazioari aurre egiteko lanabes bilakatua.

Alabaina, IAk dakarzkigun abaguneetatik onurak erdiestea ez da erraza, berez gertatuko den ondorioa. Izan ere, halaxe ohartarazi digute zenbait ikertzailek azken urteetan: IAk sortutako proposamenetako xede-hizkuntzen ezaugarriak ez omen datoz guztiz bat hizkuntza horiek pertsonek zuzenean erabiltzen dituztenean erakusten dituztenekin. Batetik, teknologiaren garapenean erabili diren testu generoak eta gaiak ez direnak itzultzeko erabiltzen dugu IA, bestela esanda, IAk ikasi ez dituen adierazpenez eta moldez jositako testuak itzultzeko (Sánchez-Gijón eta Piqué-Huerta, 2020). Bestalde, badakigu itzulitako testuek berariazko zenbait ezaugarri erakusten dituztela, hala nola, homogeneizazioa (Toury, 1995: 268) eta interferentzia (Toury, 1995: 278). Ezin aipatu gabe utzi, gainera, itzultzeko IA programak erabiltzerakoan ezaugarri horiek nabarmendu egin omen direla (Vanmassenhove, Shterionov eta Gwilliam, 2021). Arrazoiak arrazoi, badirudi IA-hizkuntzak bere ezaugarri propioak dituela, eta litekeena da ezaugarri horiek gure egunerokoan maiztasunez agertuz gero, euskaran eragina izatea eta pertsonen jardunean ere agertzea (Kranich, 2014; Kotze, 2020).

IA euskara sustatzeko eta normalizazio bidean lagun diezagun erabili nahi badugu, hobe dugu tentuz jokatzea teknologiarekin. Baliteke haren garapena bideratzeko bide-orria prestatzea zuhurra izatea. Horretan laguntzeko, hona hemen testu-baliabideei, tresnei eta pertsona-baliabideei dagokienez ezinbesteko izan litezkeen alderdi batzuk:

  • IA sistemak, dela zehazki itzultzeko entrenatutakoak dela hizkuntza eredu masiboetan oinarritutakoak, testu-baliabideez hornitzen dira. Egun, lineako baliabideak ustiatzen ditugu gehienbat, batez ere publikoki atzigarri jarriko diren programak entrenatzeko. Gogoan izan behar dugu linean ez daudela testu-genero, erregistro eta gaia guztiak era orekatuan islatuta.
  •  
  • IA sistemen kalitatea neurtzeko ezinbesteko tresnak dira metrika automatikoak. Arestian BLEU bezalako hurbilpenak erabiltzen ziren, doitasun lexikoan oinarritutakoak, hizkuntza-independenteak. Egun, baina, sare neuronalen bidez entrenatu daitezkeen ereduak gailentzen ari dira. COMET da metrika horietako bat, itzulpen-erreferentziekin eta haien balorazioekin entrenatutakoa. Arriskua metrika hori euskarazko daturik gabe entrenatu arren euskarazko IAren kalitatea antzemateko erabiltzean datza. Horrelakoak saihesteko eta euskararako metrika fidagarriak izateko, kalitatea zehaztuta duten itzulpenen corpusa osatzea beharrezkoa litzateke. Noski, corpus horrek bildu beharko lituzke IA erabili nahi dugun arlo, testu-genero eta erregistro anitzak.
  •  
  • Zeresanik ez, ebaluazioa ez da zeregin automatikoa bakarrik. Horren atzetik datoz erabilera-ebaluazioak, mota askotarikoak, hainbat testuingurutan gerta litezkeenak. Momentua helduta horri samur ekiteko, interesgarria litzateke ebaluazio-ekintzetan parte hartzeko prest dauden pertsonen komunitate bat heztea. Asko dira profil egokiak eta beharrezkoak gainera, hizkuntza-adituak zein ez adituak: itzultzaileak, filologoak, gaitasun maila askotariko pertsonak eta ikasleak…
  •  
  • Kalitate-ebaluazioez eta erabilera-ebaluazioez gain, IA sistemak bide ekoitzitako hizkuntza aztertzea ere garrantzitsua izango da hizkuntzaren garapenaz jabetzeko. Horretarako, derrigorrezkoak izango zaizkigu testu multzo zabalak analizatzeko tresna automatikoak, hizkuntza-maila desberdinetan lan egiteko gai direnak, hala nola, lexikoan, morfosintaktikoan, semantikoan eta pragmatikoan. Sortuak dira jada lan honetan lagunduko diguten zenbait prototipo, baina ikerketa sendorik egingo badugu, horien doitasuna, estaldura eta eraginkortasuna hobetzea ezinbestekoa izango da.

 

Erreferentzia bibliografikoak

Kotze, H. (2020). Translation, Contact Linguistics and Cognition. Routledge Abingdon.

Kranich, S. (2014). Translations as a locus of language contact. In Translation: A multidisciplinary approach, pages 96–115. Springer

Sánchez-Gijón, P., & Piqué Huerta, R. (2020). Conseqüències de la traducció automàtica neuronal sobre les llengües d'arribada. Tradumàtica, (18), 0001-10.

Toury, G. (1995). Descriptive Translation Studies: And Beyond. John Benjamins Publishing Company.

Vanmassenhove, E., Shterionov, D. and Gwilliam, M. (2021). Machine translationese: Effects of algorithmic bias on linguistic complexity in machine translation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 2203–2213, Online. Association for Computational Linguistics.

Univertsitatea edo erakundea: 
UPV/EHU
Ikerkuntza taldea: 
Ixa-HiTZ
Autorea: 
Nora Aranberri
Emaila: 
nora.aranberri@ehu.eus

Goi-mailako testu akademikoak lantzeko baliabideak eta tresnak

Ezinbestekoa da hizkuntza bat erabiltzea eremu akademikoetan, eremu horretako adierazpide-
baliabide bereizgarriak garatu ahal izateko. Izan ere, hizkuntza-komunitate batek baliabide horiek garatzeari uzten dionean, erabilera-eremu espezializatuak galtzeko arriskua du (Lauren et al., 2022). Nahiz eta eremu akademikoen konkista erabakigarria izan den euskara biziberritzeko (Zabala, 2019), erregistro akademikoak oraindik ez daude erabat garatuta, ezta egonkortuta ere (Zabala et al., 2011; Zabala et al., 2021). Lan honetan euskararen erregistro akademikoen garapenean laguntzeko eta garapena bera ikertzeko sortu ditugun eta aberasten jarraitzen dugun baliabideak eta tresnak deskribatuko ditugu: Garaterm corpusa, TZOS (Terminologia Zerbitzurako Online Sistema) datubase terminologikoa eta Testu Akademikoen Idazketarako Laguntza Tresna (HARTA/TAILA) elebiduna, hurrenez hurren. Garapen-lan horietaz gain, helburuen artean ditugu alor akademikoan erreferentziazko lan-ingurunea izatea eta lankidetzak bilatzea, sare dinamiko nahiz kolaboratiboak sortzeko helburuaz eta datuen elkarreragintasuna jomugan.

 

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea (UPV/EHU)
Ikerkuntza taldea: 
Ixa taldea, Hitz Zentroa
Autorea: 
Igone Zabala, María Jesús Aranzabe, Izaskun Aldezabal
Emaila: 
izaskun.aldezabal@ehu.eus

BasqueParl: Eusko Legebiltzarreko corpus elebiduna

Transkripzio parlamentarioek baliabide baliotsuak dira errealitatea ulertzeko eta gure gizarteetako gertaera garrantzitsuen berri izateko. Gainera, haietan bildutako eztabaida politikoek diskurtso politikoaren ikerketa errazten dute gizarte zientzien ikuspegitik. Lan honetan Eusko Legebiltzarreko transkripzioen corpus berri baten lehen bertsioa aurkezten dugu. Corpusa euskararen eta gaztelaniaren arteko aldaketen ugaritasuna du bereizgarri: hori dela-eta, inguru eleanitzetan diskurtso politikoa aztertzeko baliabide garrantzitsua da. Transkripzioak hiztunen eta hitzaldien ezaugarriekin erlazionatutako metadatuekin (hizkuntza, generoa, alderdia...) aberastu ditugu eta testuak prozesatu ditugu entitateak eta lemak erauzteko. Lortutako metadatuak corpusaren analisi zehatz bat egiteko erabili dira, ordezkari politikoen hizkuntzaren erabilera aztertzen duena denboran zehar eta alderdien eta generoaren arabera.

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea UPV/EHU
Ikerkuntza taldea: 
HiTZ Zentroa - Ixa
Autorea: 
Nayla Escribano, Jon Ander González, Julen Orbegozo-Terradillos, Ainara Larrondo-Ureta, Simón Peña-Fernández, Olatz Perez-de-Viñaspre eta Rodrigo Agerri
Emaila: 
nayla.escribano@ehu.eus

Frankismoko Euskal Herriko eskola-kulturak UPV/EHUko Hezkuntzaren Museoko eskola-koadernoetatik abiatuta

Azken hamarkadetan, historiografia orokorra aldaketa esanguratsuen baitan kausitu da. Besteak beste, bira linguistikoak eta bira kulturalak historia aztertu, pentsatu eta interpretatzeko moduetan eragin du. Hezkuntzaren historiografia ez da eraberritze hauetatik at geratu eta, historia kultural berria (Viñao Frago, 1995) nahiz historia kontzeptuala (Vilanou, 2006) lagun, iraganeko eskola-kulturak aztertzeko gero eta joera nabarmenagoa erakutsi du. Historiaren antropologia horri hezkuntzaren historiari atxiki izanak, ikastetxek eta kolegioak barrenetik aztertzeko eskaera dakar, hau da, hezkuntzaren “kutxa beltza” deitu izan zaiona zabaltzekoa (Braster et ál, 2011). Horretarako parada ezin-hobea eskaintzen digu hezkuntzaren museoetan aurki daitekeen hezkuntzaren ondare historikoak eta, bereziki, hau osatzen duten eskola-koadernoek. Izan ere, kaieretan aurki daitezkeen haur-ekoizpenek, beste eskola-material batzuen aldean, ikasgeletan egin ziren zenbait alderdi aztertzeko aukera ematen dute. Besteak beste, ariketak, errituak, eskolaren diskurtsoa, curriculum ofizialaren eta ezkutuaren aztarnak (Castillo Gómez, 2010) edota jakintzen hierarkia presentzia daitezke bertan (Gvirtz, 1995; Chartier, 2009), eta kasu batzuetan baita emozioak eta eskolaz gaindiko gertaerak ere (Martín Fraile & Ramos Ruiz, 2017).

EHUko Hezkuntzaren Museoko corpusaren aberastasunak, frankismoan zehar Euskal Herrian zeuden eskola-kulturaren alderdi ezberdinak analizatzeko parada eskaintzen digute. Kaier-bilduma horretan kausi ditzakegu 1620 koaderno ingurutik, 418 bederen Hego Euskal Herrian osaturikoak dira. Azken zifra horretatik 161ek euskarazko edukiak  dituzte: 142 euskal etxe-eskoletan eginak dira, 2 Elbira Zipitriak berak idatziak, 1 Beasaingo San Martin kolegioan osaturikoa, eta 19 “Orereta Gazte” aldizkariak dira, 1970. hamarkadan Orereta Ikastolan ikasleek osatzen zutena. Gainera, hautaturiko testuingurua nola pedagogikoki, hala ideologikoki, zinez interesgarria da, etxe eskolek nahiz ikastolek euskara eta euskal kultura bultzatzeko eredua izaki, beren hautu pedagogikoekin ere eskola frankistarengandik bereizi baitziren (Zabaleta Imaz et ál, 2015).

Honaino helduta, haur ekoizpen horien bidez frankismoko eskola-esperientzia eta eskola-kultura ezberdinetan barneratzea eta horietako bakoitzaren berezitasun pedagogiko eta ideologikoak aztertzea da helburua. Horretarako, frankismoan Hego Euskal Herriko eskola-koadernoetako haur ekoizpenen analisi deskriptibo bat egiten dihardugu, non ikasgaiek eskola bakoitzean zuten pisua, hauek hartzen zuten aldaerak eta irakaslearen edota testuliburuen bitartez helarazten ziren mezuak ikus baitaitezke. Baina, esklusiboki ikasgeletako ekoizpenei erreparatu beharrean, erabiltzen ziren koaderno motak eta beren ezaugarriak ere aintzat hartzen ari gara analisi honetan, zeren eta, kaier mota bakoitza eskola-, argitaletxe- eta idazketa-material bat den heinean, jakintzen produkzioan eta transmisioan parte hartzen du bere egituraketaren bidez. Guzti horrek, eskoletan praktikan jarri ziren esku-hartzeek zein sustatutako jakintzek ala eskola-diziplinek dituzten berezitasunak aditzera emateko abagunea eskainiko digu, betiere, testuinguru historiko eta sozialarekin atonduta eta beste autore batzuen teorien laguntzaz interpretatuta.

Azkenik, emaitzen analisian eta interpretazioan gabiltzalarik, eskola-kulturak hiru taldetan banatuta –eskola nazional-katolikoak, Zipitriak bultzatako etxe-eskolak eta Orereta Ikastola–, gaingiroki azaldutako ditugun hiru interpretaziotara heldu gara dagoeneko. 1)Ideologia hezkuntzan: oro har, eskola nazional-katolikoan eta etxe eskoletan transmisio ideologikoa, baliabide pedagogiko ezberdinen bitartez ematen bazen ere, esplizitua zela 70. hamarkadako ikastolaren aldean, non testu libreen ekoizpenen bidez ikasleen pentsaera ikus baitaiteke. 2)Berrikuntza pedagogikoa: eskola ofizial batzuetan pedagogia aurrerakoi batzuk nabari diren arren, geure eskuetan ditugun koadernoei dagokienez, berrikuntza pedagogiko-didaktikoa euskarazko hezkuntza euskaltzaleari lotuta etorri zela agerian geratzen da, eta Zipitriatik Orereta ikastolara jauzi nabarmena dago, nahiz azken biak genealogia berberaren parte izan. 3)Koadernoak eta jakintzak: garrantzia ematen zaien jakintzetan alde azpimarragarria dago hiru eskola-kulturen artean, baita ikastetxe bakoitzeko koaderno motetan ere.

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea eta UPV/EHUko Hezkuntzaren Museoa
Ikerkuntza taldea: 
IKASGARAIA
Autorea: 
Peio Manterola-Pavo
Emaila: 
peio.manterola@ehu.eus

Corpusetik abiatutako idazketa programa baten sorkuntza

Lan hau egiteko IXA-CLARIN-K ikerketa azpiegitura digitalaren zerbitzuak erabili dira (http://ixa2.si.ehu.eus/clarink/), euskarazko idazketa programa bat egiteko: "Azkar idatzi eta ortografia onarekin". Ikerketa azpiegitura honek datu-bilketan, testuen prozesamenduan eta datuak bistaratzen lagundu du, idazketa programa idatzizko ebidentzietan oinarritzeko. Idazketa trebea izatea gakoa da bai eskoletan eta bai eskolatik kanpo (UNESCO, 2017). Eskuz azkar eta ortografia onarekin idazteak bizitza akademikoa baldintzatzen du eta garrantzitsua da txikitatik bi trebezia hauek garatzea. Karga Kognitiboaren teoriaren arabera (Australiako Gobernua, 2017) giza-garunak aldi berean prozesa dezakeen informazio berria mugatua da eta idazketaren irakaskuntza egituratzea komeni da. Badira hortarako ebidentzietan oinarritutako eskuzko transkripzioaren eta ortografiaren praktika onak, adibidez, Limpok eta Grahamek (2020) proposaturiko alfabetoaren letrak epe luzeko oroimenean gordetzeko estrategiak (alfabetoaren ordena etetea eta ezkutatuko marrazkietan letrak aurkitzea).

Poster honen helburua da, Lehen Hezkuntzako 2. mailako ikasleen esku bidezko transkripzioa lantzeko programa bat nola sortu den erakustea, corpusak eta nazioarteko transkripzio-irizpideak erabiliz. Programa horren izenburua da "Azkar idatzi eta ortografía onarekin" eta portugesezko  programa arrakastatsuan oinarritzen da: "Clube dos Escritores: Escrevo depressa e sem erros!" (Limpo & Alves, 2020). LHko 2. mailarako moldatu da.

Idazketa-programa egiteko honako urratsak jarraitu dira: Lehenik, zenbait argitaletxek eginiko ortografía arauak aukeratu dira. Bigarrenik, haurrentzat egokia izan daitekeen corpusa erabili da, ohikoenak diren hitzak zehazteko, LHko ikasleentzat egokituriko TXIKIPEDIAko testuen arabera. TXIKIPEDIAko testuetan bilaketak egiteko IXA-CLARIN-K azpiegiturari laguntza eskatu eta azpiegitura horretan sortutako ~260.000 hitz dituen corpusa eta hitzak bilatzeko web interfazea erabili da (http://ixa2.si.ehu.es/clarink/corpusak/txikipedia helbidean kontsulta daiteke).  Hirugarrenik, karaktere-konbinazio zehatzak bilatu dira corpus horretan eta ondoren bilatutako hitz (edo lema) bakoitza interfazean bilatu da eta interfazeak hitz horrekin corpuseko esaldi guztiak eskaintzen ditu. Laugarrenik, corpuseko esaldi guztiak lortuta, sintagma edo perpaus egokienak aukeratu dira eta esaldi horiek egokitu egin dira, idazketa ariketetarako baliagarriak izateko, batzuetan luzeegiak izanik informazio osagarria kentzeko. Sintagma egokirik aurkitu ez den kasu gutxietan adibideak asmatu dira, beti ere maizenak diren hitzetatik abiatuta. Azkenik, esaldiak portugesez egina zegoen txantiloian sartu dira eta euskarazko programa sortu da.

Lan honetako emaitzei dagokionez, bi atal dituen programa da honakoa: a) Hezitzailearen gida eta b) Ariketa koadernoa. Hezitzailearen gidan programa martxan jartzeko irizpideak eta jarraipenerako kontrol-zerrendak proposatu dira. Bestetik, Ariketa koadernoan ikasleentzako 10 astetan zehar egiteko saioak bildu dira. Aste bakoitzerako 3 saio daude, bakoitza 15 minutuz lantzeko. Saioetako bi, gela barruan lantzeko dira eta beste bat etxean. Saioetan, bi motatako jarduerak daude: i)  alfabetoarekin edo  ortografiarekin zerikusia duten jarduerak ii) hitzen edo esaldien kopia azkarreko jarduerak. Orobat, 5. eta 10. asteko saioak errepasorako diseinatu dira. Programa honen berrikuntza bikoitza da: corpusean oinarrituta dago eta nazioarteko irizpideak kontuan hartuz esku bidezko transkripzioaren azkartasuna eta ortografia biltzen ditu.  

Etorkizunean ere IXA-CLARIN-K edo sortu berri den CLARIAH-EUS ikerketa azpiegitura digitalen ekarpenak baliagarriak izango dira hezkuntzako lanak datuetan oinarritzeko.

Erreferentzia bibliografikoak

Australiako gobernua (2017). Cognitive load theory: Research that teachers really need to understand. https://education.nsw.gov.au/content/dam/main-education/about-us/educational-data/cese/2017-cognitive-load-theory.pdf

Limpo, T. y Graham, S. (2020). The role of handwriting instruction in writer’s education. British Journal of Educational Studies, 68(3), 311-329.

UNESCO, E. S. (2017). Reading the past, writing the future: Fifty years of promoting Literacy. https://unesdoc.unesco.org/ark:/48223/pf0000247563

 

 

 

Univertsitatea edo erakundea: 
Hezkuntza, Filosofia eta Antropologia Fakultatea eta Bilboko Hezkuntza Fakultatea. Euskal Herriko Unibert
Ikerkuntza taldea: 
Irune Ibarra, Mikel Iruskieta eta Iraia Gordo
Autorea: 
Irune Ibarra, Mikel Iruskieta eta Iraia Gordo
Emaila: 
irune.ibarra@ehu.eus

Euskarazko komunikabideen audientzia azterketarako datu zientzia

Euskal Hedabideen Behatokia (behategia.eus) euskarazko komunikabideen ikerketarako espazioa da. Behategia 2016an sinatutako hitzarmen batetik abiatu zuten Hekimen elkarteak, EHUk, DUk, MUk eta UEUk.

Euskarazko komunikabideak eta komunikazioa ikergai gisa hartuta, hedabideen kontsumoa eta erabiltzaileak ezagutzeko xedez planteatutako ikerketek osatzen dute NOR Ikerketa Taldearen Behategiko analisi eremua. Ipar horrekin, Behategiak orain arte egiten zuen audientzia ikerketa klasikoa datu zientziarekin gurutzatzen hasi gara, eskuragarri dauden datu multzoei esker. Horrek diziplina arteko begiradak eta big data uztartzeko aukera ematen digu.

Jarraian azaltzen dira abian diren hiru proiekturen nondik norakoak:

  • BEHA

Euroeskualdeko (2021, 2022) hiritartasuna deialdiari esker abiatutako BEHA ikerketa-lerroak euskarazko hedabideetan datuen kultura sustatzea du helburu. Marko orokor horri bultzada bat emateko, 2024tik aurrera azterketa kuantitatiboa eta kualitatiboa konbinatuta, datu kulturaren gako-adierazleak identifikatuko dira euskal hedabideen egoera ebaluatzeko; eta behin diagnostikoa ezagututa, datu kultura bultzatzeko baliabideak eskainiko zaizkie komunikabideei —hala formazioa nola datuen analisiak—.

Azken hiru urteetan, halaber, datu analitikoen bilketarako tresnen diseinuan eta garapenean jarri da arreta. Lehenengo mugarri gisa, duela lau hilabete euskal hedabideen web–analitika datuen jarraipena ahalbidetzen duen panel interaktiboa (BEHA panela) jarri zen martxan —60 komunikabidek haien Google Analytics kodeak biltzen duen web trafikoa nahieran kontsultatzeko eskura duten panela, eta hilero-hilero modu estandarrean txosten forman jasotzen hasi direna— (Mimenza, 2023). Hurrengo urratsa izango da software librean oinarritutako garapen propioko ingurune digital osoko panela sortzea (Behategia Analytics), zeinetan, web-analitikaz gain, sare sozialen trafikoa ere neurtuko den. Horrek euskal komunikabideen audientzia azterketa digitala egitea ahalbidetuko du. Bi tresna horien garapen-, mantentze- eta eguneratze-lanez gain, Behategiaren erronketako bat da denbora errealeko trafiko-datuen jarraipena ahalbidetuko duen panela diseinatzea. 

  • Di—Datu integralak

Jose Ignacio Ruiz Olabuenaga ikerketa-bekari esker (Burreso et al., 2023), Behategian analisi matematikoa txertatzea lortu da DI—Datu integralak proiektuaren bitartez. Ikerketa-lan horretan, datu-base ezberdinak fusionatzeko metodologia bat garatu da, eta metodologia horren aplikaziorako pilotu gisa Estudio de audiencia de medios (CIES) eta Ikusiker panelaren (Ikus-entzunezkoen Behategia) datuak fusionatu dira. Aurrera begira, bidean daude beste fusio batzuk; esaterako, CIES eta Inkesta Soziolinguistikoaren datuak bilduko dituena.

Fusioez gain, machine learning tekniken erabilpenak audientzien azterketa analisi prediktibo eta preskriptiboaren bitartez egitea ahalbidetu du. Horren adibide dira Hegoaldeko hedabide tradizionalen kontsumitzaileen profilen clustering-a, hedabide horien kontsumoa aurresaten duen modeloen eraikuntza eta kontsumoan eragiten duten aldagaien identifikazioa (Burreso, 2023).

  • Komunikazioaren azterketarako datutegia

Datutegia (Behategia, d. g.) euskarazko komunikazioaren inguruko datuak batzen dituen datu-bilduma da: adierazle soziodemografikoak, ekoizpen datuak, audientzia datuak edota euskal hedabideen direktorioa ditu kontsultagai egun. Datu-bilduma hori osatzea eta eguneratzea da erronka, corpus hori analisi gurutzatuetarako baliatzea eta baita ezagutza-iturri izango den datu-base erabilgarri gisa konfiguratzea ere (Amezaga, 2022; Martinez, 2023).

Proiektu guztien atzean asmo argia dago: komunikazioari buruz modu irekian zein hedabideen eskura dauden datu-multzo handiak —izan modu irekian edo hedabideen eskura— euskarazko produktuen kontsumoa sustatzeko baliatzea; bidean euskal hedabideen sektoreari baliabideak emanez, hizkuntza politiken diseinuan lagunduz, eta maila akademikoan ezagutzan sakonduz.

 

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea
Ikerkuntza taldea: 
NOR ikerketa taldea
Autorea: 
Libe Mimenza, Naroa Burreso, Ane Martinez, Hibai Castro eta Josu Amezaga
Emaila: 
behategia@behategia.eus

Eskolako laburpen-testuak biltzeko baliabideak eta euskarazko laburpenen corpusa

Eskolako laburpen-testuak biltzeko baliabideak eta euskarazko laburpenen corpusa

Tesi-lanetan egiten diren datu-bilketak eta datu horiek aztertzeko sortzen diren tresnak sakabanatuta egoten dira unibertsitateetako biltegietan. Dispertsio horrek oztopatu egiten du datu horien edo tresnen berrerabilpena. CLARIAH-EUS bezalako ikerketa-azpiegitura digitalen helburuetako bat da tesietan egindako datuak erraz bilatzeko tresnak sortzea eta beste ikertzaileentzat ikusgarri eta berrerabilgarri jartzea. Esaterako, CLARIN-ERIC azpiegiturak, Virtual Language Observatory (VLO) tresnarekin, biltegi ezberdinetan dauden datuak eta tresnak bilatzeko modua ematen du. Lan honetan, Unai Atutxaren tesian (Atutxa 2022) lortutako eskolako laburpen-testuen datuak EuDatera igo ditugu eta, ondoren, CLARINen VLOn eskuragarri jarri ditugu, beste ikertzaileek erabil ditzaten, CC BY-NC 4.0 lizentziapean. Bestalde, laburpenak lortzeko tresnak eta laburpenak eskolan lantzeko ebaluazio-metodoak proposatu ditugu. 

Eskolan, Vigotskik (1978) proposatzen duen garapen potentzialera laguntzeko ikaslea, oso lagungarria da irakaslearentzat ikasketa-maila bakoitzean lortu beharreko trebeziak ondo jasota izatea. Bada, Oinarrizko Hezkuntza Curricilumean (77/2023 DEKRETUA) eta Batxilergokoan (76/2023 DEKRETUA), hutsunea nabarmena da laburpenari dagokionez, ez baita laburpenaren eta curriculumeko oinarrizko jakintzen zein helburuen arteko lotura espliziturik egiten; ondorioz, ikasketa-maila bakoitzean izan beharreko laburpen-gaitasuna zehaztu gabe dago. Beraz, funtsezkoa deritzogu ikasketa-maila guztietako ikasleen laburpenak batu eta aztertzeari, eta lan honen helburu nagusiak hori lortzera bideratu ditugu: i) ikasketa-maila ezberdinetako ikasleek eginiko eskolako laburpen-testuen corpusa euskaraz jasotzea eta ii) corpusa biltzeko erabilitako baliabideak erabilgarri jartzea eta aurkeztea.

Metodoari dagokionez, lehenik, Lehen Hezkuntzako (LH) 5. eta 6. mailako ikasleek eskolan erabiltzen dituzten 13 testu aukeratu dira; ondoren, testu horien gainean LH 5. mailako ikasleek eta etorkizunean irakasle izango diren unibertsitateko ikasleek egindako laburpenak bildu ditugu. Laburpenak biltzeko, baliabide hauek erabili ditugu:

  • Compress-eus (Atutxa et al., 2017): laburpenak jasotzeko tresna. Ikasleak estrakzio-laburpena egiten du, laburtu beharreko testuaren testu-zati garrantzitsuenak aukeratuz. Ondoren, estrakziotik abiatuta, abstrakzio-laburpena egiten du, testua berreginez. Horrela, ikasleak egindako estrakzio- eta abstrakzio-laburpenak bildu dira. Hemen proba daiteke: https://ixa2.si.ehu.eus/compress-eus/ 
  • Hierarkiaren atzeraelikadura automatikoa: estrakzioan aukeratutako testu-zatiei buruzko informazioa ematen die automatikoki ikasleei, abstrakzioa egitean kontuan hartzeko. Jarraian,  atzeraelikadura emateko bi modu dituzue ikusgai, laburtu diren testuetara egokituta:
  • Laburpena lantzeko tailerra: laburpenak burutzeko webgune bat da; ikasleak, eman beharreko urrats guztietan, behar duen materiala du. Urratsak: i) ikasle bakoitzak laburpena egin behar du Compress-eus erabilita, ii) laburpenak egin eta ebaluatzeko irizpideak landuko dituzte irakaslearekin, iii) laburpena errepikatuko dute, orain duten jakintza eta GOM metodoan oinarritutako galderak erantzunez, iv) nola aritu diren ikusiko dute, GOM metodoan oinarritutako atzeraelikadura automatikoarekin eta v) ikaskideen laburpenak ebaluatuko dituzte. 

Emaitzei dagokienez, unibertsitateko eta LHko ikasleen 1654 laburpen-testurekin osatutako corpusa eratu dugu euskaraz, TXT formatuan.  Corpus hau EuDatera igo dugu beste ikertzaileek erabil dezaten; CLARIN komunitatean eta CC BY-NC 4.0  lizentzipean erabil daiteke. Etorkizunera begira, ezinbestekotzat jotzen dugu corpusa handitzea, Derrigorrezko Bigarren Hezkuntzako eta Batxilergoko ikasleen laburpenak bilduz, adibidez.

 

Univertsitatea edo erakundea: 
Euskal Herriko Unibertsitatea (UPV/EHU)
Ikerkuntza taldea: 
Ixa taldea, HiTZ Zentrua
Autorea: 
Unai Atutxa-Barrenetxea; Mikel Iruskieta; Olatz Ansa
Emaila: 
unai.atutxa@ehu.eus

Gizapedia, giza eta gizarte zientzien entziklopedia

Gizapedia, Giza eta Gizarte Zientzien euskarazko entziklopedia

 

Gizapedia.org

 

(Josemari Sarasola Ledesma, Eneko Sarasola Telleria)

 

2016ko bukaeran arlo akademikoan diharduen lagun-talde baten eskutik sortua, Gizapedia giza eta gizarte zientzien arloan kalitatezko artikuluak biltzen dituen entziklopedia irekia da. 2023ko azaroan, euskaraz ia 6.000 artikulu biltzen ditu hainbat alorretan, hala nola antropologian, soziologian, filosofian, ekonomian, estatistikan, informatikan eta hizkuntzalaritzan. Euskaraz kalitatezko eduki akademikoa sortzea da gure eguneroko erronka, Internetetik informazio guztiontzat irisgarri eta irekia, zehatza eta, behar denean, sakona ere ematea, bereziki ikasle unibertsitariei begira.

 

Irisgarritasunari begira eta bilaketak errazteko, terminologia bereziki lantzen dugu, kontzeptu bakoitza termino egoki baina baita ere erabilienen bitartez izendatzen. Artikulu bakoitzaren hasieran definizio zehatza eta ulergarria ematen dugu, gero kontzeptua sakonago aztertuz eta beste kontzeptuekiko loturak zehaztuz, testu barneko hiperloturen bitartez eta loturiko artikuluen estekak proposatuz. Argigarriak direla kontsideratzen dugunean, testua laguntzen duten irudiak txertatzen ditugu. 

 

Aurkezpen zabala behar duten gaietarako, ikasliburuak ditugu, sarrera baten ondoren, gaia ikasgai moduan jorratzen dutenak, azalpen zabalen bitartez, adibide eta ariketekin, PDF dokumentu batean bilduak. Ikasliburuak ikastaro direlakoetan biltzen dira. Adibidez, estatistika alorreko ikastaroek milaka jarraitzaile izan dituzte urteotan zehar (ikus, https://gizapedia.org/ikasliburua-estatistika-eta-datuen-analisia). 

 

Egun, Gizapediak milaka erabiltzaile ditu egunero. Barne-inkestek erakusten duten datuen arabera, ikasleak dira erabiltzaile gehienak, baina gradu eta master amaierako lanak, tesiak eta monografien erreferentzia gisa ere erabili da (bilatu Google Scholar-en: Gizapedia). Google, Bing eta beste bilatzaileetan puntako kokapenetan agertzen dira bere artikuluak. Erabiltzaileek eskatuta, gaztelaniazko artikuluak sartzen ere hasi ginen 2020an, pandemia garaian: gaztelaniazko edukiek hartu duten bolumena eta bisita kopurua ikusita, beste webgune bat prestatu eta osatzen ari gara (ikusmira.org)  haiek guztiak hara eraman eta gaztelaniazko hiztunen eskura jartzeko, Gizapedia euskal entziklopedia gisa atxikitzeko. 

 

Gizapediako hiztegia ere osatu dugu, Hizkailua izenekoa (https://hiztegia.gizapedia.org/). Hiztegi egituratua da, hitzak eta lokuzioak biltzen dituena, eta definizioez gainera, kategoria gramatikala, etimologia, itzulpenak, audioak eta abar jasotzeko diseinatua. Egun 3.000 sarrera baino gehiago ditu. 

 

Etorkizunerako erronkak giza eta gizarte zientzien inguruan entziklopedia lantzen jarraitzea (ez da erronka makala!), baita hiztegia ere, bereziki giza eta gizarte zientzietako lokuzio bereziak txertatuz eta horrekin batera, ikastaroen eskaintza zabaltzea.

Univertsitatea edo erakundea: 
ehu
Ikerkuntza taldea: 
-
Autorea: 
JM Sarasola Ledesma, Eneko Sarasola Telleria
Emaila: 
josemari.sarasola@ehu.eus

Pages