2. workshopa: azpiegitura eraikitzen (2023)
GIZARTE EKONOMIA ETA BERE ZUZENBIDEA” EUSKAL UNIBERTSITATE SISTEMAKO IKERKETA TALDEA (IT 1711-22)
Hizkuntzen tipologiak hizkuntzen arteko transferentzian duen eraginaren analisia gertaera-erauzketa atazetan
Hizkuntzen arteko transferentzia bidezko ikasketan hizkuntza-eredu eleanitzak (HEE) erabiltzen dira (Min et al., 2023). Lehenbizi HEE aukeratu eta hizkuntza jakin bateko datuekin entrenatzen da, ondoren beste hizkuntza bateko datuetan erabiltzeko. Hizkuntzen arteko transferentziarako teknika hau oso erabilia da baliabide urriko hizkuntzetan, berari esker baliabide ugariagoak dituzten hizkuntzatan dagoen ezagutza balibide urrietara transferitu daiteke eta.
Adibidez, ohikoa den bezala, Ingelesez dauden gertaera-erauzketaz anotatutako datu-multzoak erabili daitezke hizkuntza-eredu bat entrenatu eta horrela Ingeleserako gertaera-erauzketa sistema bat eraikitzeko. Hizkuntzen arteko transferentzian entrenatzen den eredua eleanitza da. HEE hori orain baitan duen edozein hizkuntzatan erabili daiteke, adibidez euskarazko gertaera-erauzketa egiteko.
Hizkuntzen arteko transferentziari buruzko ikerlan asko daude, baina oso gutxitan aztertu da bi hizkuntzen arteko tipologiak eduki dezakeen garrantzia transferentzia arrakastatsua izan dadin. Alegia, ingeleseko eta gaztelerazko entrenamendu datuak badauzkagu, zein hizkuntza da egokiena euskarazko (edo, demagun, hindi hizkuntzarako) gertaera-erauzle arrakastatsua eraikitzeko?
Artikulu honetan hizkuntzen arteko antzekotasun tipologikoek hizkuntzen arteko transferentziaren kalitatean duten eragina aztertu dugu. Zehatzago, hizkuntza batean entrenatu eta beste batean ebaluatzean tipologia horiek duten eragina neurtu dugu. Esperimentuetan, Euskarak inguruko hizkuntzen ezaugarri tipologiko desberdinak dituelako ebaluazio hizkuntza gisa ezarri dugu.
Esperimentuak informazioaren erauzketako hiru atazetan aplikatu ditugu: entitateen aipamen-detekzioan, gertaeren aipamen-detekzioan eta gertaeren argumentu-erauzketan. Egindako esperimentuek erakutsi dute arestian aipatutako tipologiek eragina dutela eta atazaren araberakoak direla.
Lortutako emaitzak hobeto ulertzeko azterketa sakonago bat egin da beste 8 hizkuntza erabiliz (72 hizkuntza pare aztertuz guztira). Bertan agerian geratu da, alde batetik, ataza oro har lexikaletan, hau da, entitateen aipamen-detekzioan eta gertaeren aipamen-detekzioan, alfabeto eta ezaugarri morfologiko komunak izateak kalitate handiagoko transferentzia bat ekartzen duela. Eta bestalde, ataza sintaktikoagoetan hau da, gertaeren argumentu-erauzketan, hitzen hurrenkera mota berdina izateak ekartzen duela transferentzia handiena. Honetaz gain ikusi da entrenamenduaren tamaina handitzean hizkuntza guztiek ez dutela modu berdinean hobetzen.
Esperimentuak egin ahal izateko, EusIE sortu dugu, euskarazko lehen gertaera-erauzketarako datu-multzoa, Multilingual Event Extraction (MEE) datu-multzoa zabaltzen duena (Pouran Ben Veyseh et al., 2022). EusIE anotatzeko aditu batek wikipediako esaldi batzuk eskuz etiketatu ditu. Zehazki 300 segmentu (1500 esaldi) anotatu dira, bi multzotan bananduak: garapenekoa eta ebaluaziokoa. Datu-multzoaren kalitatea neurtzeko helburuarekin, bigarren aditu batek segmentu batzuk etiketatu ditu anotatzaileen arteko adostasuna kalkulatzeko; emaitzek erakutsi dute EusIE datu-multzoaren kalitatea altua dela, 0.92 baino handiagoko adostasuna lortuz. EusIE publiko egiteko intentzioa dugu.
Elebitasunaren laborategia
.
Euskarazko Baliabideak Logopeda eta Entzumen eta Mintzaira Irakasleentzat: Haur Literaturaren Corpusa
Euskal Herriko Unibertsitateko (UPV/EHU) Euskara Institutuak corpus integral bat sortzeari ekin dio mintzaira- eta hizkuntza-zailtasunak dituzten haurrekin lan egiten duten logopedei eta entzumen- eta mintzaira-irakasleei hizkuntza-materialak prestatzeko lanabes bat eskaintzeko asmoz. Ekimenaren helburu nagusia da corpus digital bat garatzea, 2 eta 8 urte bitarteko haurrentzako literaturatik abiatuta eta corpus hori ustiatzeko bilaketa-sistema bat sortzea, non profesionalek askotariko irizpideen arabera hizkuntza-materialak aukeratu ahal izango dituzten.
Haurren mintzaira- eta hizkuntza-nahasmenduek askotariko ezaugarriak izan ditzakete eragiten duten hizkuntza mailaren edota mailen, eta hizkuntza-ekoizpenean edota ulermenean duten aurkezpenaren arabera. Logopeda eta entzumen eta mintzaira irakasleek, sarritan, berariazko material linguistikoak behar izaten dituzte zailtasun horiek sistematikoki lantzeko, eta lanketa hori haurraren hizkuntza funtzionalean ahalik eta gehien orokortzeko. Horretarako, ezinbestekoa izaten da ezaugarri linguistiko zehatz batzuk partekatzen dituzten ahalik eta material gehien eskuragarri izatea. Zoritxarrez, gaur egun ez dago euskarara egokitutako material komertzialik hizkuntza eragozpenen esku-hartzeetarako, eta horrek erronka handiak dakartza mintzaira eta hizkuntza-arazoak dituzten haur euskaldunen arretaren kalitatean. 0-8 urte bitarteko Euskal Haur Literaturako Corpusa urrats garrantzitsua da gai honi ekiteko, logopedei hizkuntza-baliabide baliotsua eskainiko baitie.
Hasierako bertsioan, corpusak 428 liburu ditu, bi adin-taldetan sailkatuta: 0-4 urte eta 5-8 urte. Corpusa 392.413 testu-unitatek eta 34.331 hitzek osatzen dute, 8.637 lema desberdinekin. Gaur egun, hizketako eta hizkuntzako terapeuten behar espezifikoetara egokitutako bilatzailea ezartzeko prozesuan gaude. Interfaze bat erabiliz, bilaketa errazak eta kontsulta fonemikoak egin daitezke. Lehenengoan, erabiltzaileek corpusaren barruan hitz edo hizkuntza-segida espezifikoak berreskuratzeko aukera dute. Bilaketa fonemikoetan aldiz, berariazko grafiketan (e.g., d) edo propietate fonemikoetan oinarritutako hitzak aurki daitezke, hala nola artikulazio puntuaren, moduaren eta fonemen sonoritatearen arabera (e.g., ezpainbikaria, igurzkaria, ahostuna). Horrek hitzen zerrenda bat bueltatzen du; irizpideak betetzen dituzten fonemak dituzten lemen zerrenda, bakoitzak corpusean duen agerpenen kopuruarekin batera.
Etorkizunari begira, corpusa zabaltzeko asmoa dago, hizkuntza-materialen sorta zabalagoarekin aberastuz. Halaber, bilaketa-motorra findu nahi dugu, maila fonologiko, lexiko, semantiko, morfosintaktiko eta gramatikalak biltzen dituzten bilaketak egin ahal izateko, zenbait irizpide barne hartuta. Hala nola silaba egitura, posposizioak, hitzen maiztasuna edota hitz/esaldiaren luzera eta konplexutasuna. Horretaz gain, baliabide multimodalek logopedian eta hizkuntzaren terapian duten garrantzia aintzat hartuta, corpusean ikusizko euskarriko materialak sartzea ere aurreikusten da.
Laburbilduz, baliabidea hobetzeko lanean jarraitzen dugun arren, uste dugu tresna baliotsua izan daitekeela arlo kliniko edo hezkuntzaren esparruan mintzaira eta hizkuntza-eragozpenak dituzten haurrekin lan egiten duten profesionalei euskarazko, banakako eta kalitatezko eskuhartzea eskaini ahal izateko.
Corpusa hemen aurki daiteke: [Lotura](https://www.ehu.eus/ehg/08corpusa/)
Testu historikoak wiki-plataformetan, Datu Lotu gisa
Motibazioa
Euskarazko testu historikoen digitalizazioari dagokionez, ahalegin anitz ikusi ditugu azken urteotan; helburu eta metodologia ezberdinak darabiltzaten hainbat ekimen. Proiektu horien emaitza berrienen artean, EHUko Euskara Institutuak kudeatzen duen Corpus Historikoa osatzen duten testu digitalak ditugu, sareko interfaze batean esplora daitezkeenak; IXA taldean garatutako SAHCOBA (Estarrona et al., 2022), anotazio morfosintaktikoez aberastua eta bilaketa finduak interfaze batetik eskaintzen dituena; eta, bestetik, anotazio filologikoak interfaze grafiko bidez eskaintzen dituen testu-edizio digitalak, Lazarragaren eskuizkribuarena (Bilbao et al., 2011) adibide.
Bestalde, euskarazko datu lexikografiko historikoak eta estandarrak Datu Lotu (Linked Data) gisa errepresentatu eta elkarrekin lotzeko esperimentuak aurkeztu ditugu (Lindemann & San Vicente, 2020; Alonso & Lindemann, 2022); lan horietan, Wikisource eta Wikidata plataformetan integratu ditugu erabilitako datu-multzoak. Honezkero, eskuz edo programatikoki, iturri historikoko edukiek egungo ezagutza-grafo librean dituzten loturak azter daitezke.
Helburuak
Manuel Larramendiren euskarazko testuen eta egile beraren Hiztegi Hirukoitzaren argitalpen digitala prestatzen dihardugu. Jatorrizko eskuizkribu edo lehenengo argitalpen inprimatura jo eta edizio digitala eraiki nahi dugu. Goian aipatutako proiektuetako helburu zehatz ezberdinen araberako metodologiak elkartu nahi ditugu proiektu honetan, hau da, ondorengo osagaiak bateratu nahi ditugu elkarrekin lotutako datu-multzoan:
- corpuseko tokenaren agertokia faksimile digitalean (Wikisource plataforma)
- corpuseko tokenaren inguruko anotazio morfosintaktikoak (Wikibase)
- corpuseko tokenaren inguruko anotazio filologikoak (Wikibase)
- tokenari lotzen zaion hiztegi-lema estandarra, haren adiera, eta haren forma flexionatua (Wikibase)
- hiztegi-lema estandarrak beste hainbat baliabidetan duen deskribapena (Wikidata)
- corpuseko tokenak entitate izendun bati egiten dion erreferentzia (Wikibase, Wikidatako entitateak erabilita)
Datu Lotu Irekien irizpideak aintzat hartu eta Wikimediak eskaintzen dituen plataformetan gorde, editatu eta argitaratuko ditugu datuak.
Metodoa
Wikiteka plataforman (euskarazko Wikisource) jatorrizko argitalpenaren edo eskuizkribuaren faksimilea eta haren transkripzioa gordetzen ditugu. Wikibase instantzia batean, MLV Wikibase-an, transkripzioko tokenak deskribatzen ditugu, bakoitzak faksimileko agertokira lotura daramala. Deskribapena errepresentatzeko eredua garatzen ari gara, Linguistic Linked Open Data arloko estandarretan oinarrituta. Testu-tokenak lexema mailan, adiera mailan nahiz forma mailan Wikidatara daramaten loturak errepresentatzeko moduan gaude, bai eta Orotariko Euskal Hiztegian, Egungo Testuen Corpusean, Elhuyar hiztegian eta potentzialki beste hainbat baliabidetan dituen deskribapenetara. Horretaz gain, span bati, hau da, token multzo bati, anotazioak gehi diezazkiokegu, esaterako, entitate izendun baten erreferentzia, edo adituen anotazio filologikoa.
Emaitzak
Datu-eredu bat aurkezten dugu, maila esperimentalean erabiltzen ari garena, eta proiektu osoa garatzeko ebaluatzen ari garena. Datu guztiak Wiki-plataformetan gordetzeak, editatzeak eta argitaratzeak abantaila nabarmenak dakartza. Abantaila horiek azaltzeko eta gure proposamenaren inguruan feedbacka lortzeko asmotan aurkezten dugu poster hau.
Erreferentzia bibliografikoak
- Alonso, M., & Lindemann, D. (2022). Larramendiren Hiztegi Hirukoitzaren digitalizazioa. Karaktereen ezagutze optikoa eta Wikitekara igotzea. Uztaro. Giza eta gizarte-zientzien aldizkaria, 120, 83–93. https://doi.org/10.26876/uztaro.120.2022.5
- Bilbao, G., Gómez, R., Lakarra, J. A., Manterola, J., Monoule, C., & Urgell, B. (2011). Lazarraga eskuizkribuaren edizioa eta azterketa. Lazarraga eskuizkribuaren edizioa eta azterketa, v.1.2, Vitoria Gasteiz: UPV-EHU. https://www.ehu.eus/monumenta/lazarraga/
- Estarrona, A., Etxeberria, I., Soraluze, A., Etxepare, R., & Padilla-Moyano, M. (2022). The first annotated corpus of historical Basque. Digital Scholarship in the Humanities, 37(2), 391–404. https://doi.org/10.1093/llc/fqab066
- Lindemann, D., & San Vicente, I. (2020). Baliabide lexikoen sarea: Baldintza filologiko eta tekniko zenbait. In Hitzak sarean: Pello Salabururi esker onez (or. 79–96). UPV/EHU Argitalpen Zerbitzua. http://www.ehu.eus/ehg/salaburu/liburua/HitzakSarean06.pdf
Paisaia eta ondarea aztertzeko euskarazko azpiegitura baten beharraz
Proposamen hau sinatzen dugunok denbora luze daramagu ondarea bere osotasunean aztertzen, bai eraikin soil bat izan zein bere ingurunerik zabalena. Ikerketa jarduera irakaskuntzarekin tartekatu dugu gainera, eta biak ala biak euskaraz aurrera eramateko zailtasunak eguneroko ogia izan dira. Tamalez, egun berdin antzera jarraitzen dugula esan beharrean gaude. Harreman pertsonaletatik harago, zaila izaten da ikerketa bat euskaraz abiatzea eta ia ezinezkoa hura helmugaratzea. Honen inguruan aritu izan ginen besteak beste iaz Eibarren, UEUk sustatu zituen Euskal Historialari Euskaldunen VI. topaketetan. Izan ere, auzi jakin honen gaineko hausnarketa propio bat ere plazaratu izan dugu aurki (Belaustegi, Escribano-Ruiz, 2022). Unibertsitatean irakaskuntza eskaraz gutxienezko berme linguistikoekin eskaintzea helburu izanda, beharrizan hauek argiago ikusi eta ozenago entzuten dira. Aldiz, azken alor honetan bai antzeman daitezkeela aurrerapausoak, beti ere erakundeen politika linguistikoen eskutik. Baliabide digital berriak daude eskuragai, eta hauek bai euskaraz zein gaztelaniaz erabiltzeko aukera dago.
Hortaz, gure ekarpenaren oinarrizko helburua egungo egoeraren diagnosi bat egitea baino, egun ondarea aztertzeko erabilgarriak diren euskarazko baliabideen oinarrizko katalogo bat osatzea litzateke. Berorren irakurketa kritikoak, etorkizunari begira egituratu beharko liratekeen estrategia eta gidalerroen gogoetari bide emango lioke. Metodoaren ikuspuntutik, abiapuntua guztiz enpirikoa litzateke, gure esperientziatik eratortzen diren arazo eta baliabideen bilduma bat egin eta beroriek etorkizunari buruzko eztabaidan txertatu. Ariketa honen emaitza paisaia historikoen eta ondarearen arloan egun dauden euskarazko baliabide eta beharrizanen azterketa litzateke.
Erreferentzia bibliografikoak
BELAUSTEGI Unai, ESCRIBANO-RUIZ, Sergio (2022): Euskararen egoera akademian (2001-2021): Historialari euskaldunen topaketen harira egindako gogoeta, Kondaira 19, 1-6 orr. http://www.kondaira.eus/article/view/501
Badalab, Hizkuntza Berrikuntzako Partzuergoa
-
Euskarazko zientziaren ezagutza-grafoa eraikiz
Aurkezten dugun proiektu hau Humanitate Digitalen esparruan kokatzen da. Euskarazko ekoizpen zientifikoa biltzen duen INGUMA datu-basea (https://www.inguma.eus/) abiapuntu gisa hartuta, bi urrats eman nahi ditugu: batetik INGUMA-ren edukiak Datu Lotu Irekiak paradigmara pasatzea, web semantikoaren teknologiak baliatuz euskal ekoizpenaren azterketa bibliometriko berriak ahalbideratzeko; bestetik berriz, euskal ekoizpena Wikidatarekin lerrokatzea, ezagutza-grafo handienarekin, euskal zientzialarien eta beren produkzioaren ikusgarritasuna handituz.
Helburu orokorra, euskarazko ekoizpen zientifikoa mundu mailako ekoizpenaren testuinguruan erakutsi eta aztertzeko bidea zabaltzea da, INGUMA plataformaren bertsio publiko berri bat garatuz. Plataforma berriak gordailu digitala ere izango du, euskarazko produkzio akademikoa jaso eta dokumentuetara sarbidea emango duena.
Gure proiektua DARIAH europar sarearen helburuekin lerrokaturik dago eta gure asmoa da WG Bibliodata sareko kide bihurtzea, antzeko proiektuetan Europa mailako ikerketa proiektuetarako lankideak topatzeko.
Hizkuntzalaritza Teorikorako Taldea (HiTT)
-