EU · EN

Corpusa

Bizkaieraren Bideoteka

Bizkaieraren Bideoteka

Berton, Bizkaiko herrietan egiten dan euskeraren barri izango dozu hainbat modutara: grabazinoak entzunez, testuen transkribapenak eta barriemoilearen datuak ikusiz, eta abar. Material guztia aurkitzeko bilatzaile bat erabiliko dozu, eta bertan testu moeta, herria edo eskualdea aukeratuz, zeuk gura dozun materialea lortuko dozu, hala nola, kantak, ipuinak, esaldiak, narrazinoak, esakuneak. Erabiltzaile aurreratuak bilaketa aurreratuko tresna bat be eukiko dabe.

Bideoteka honen bidez, parebako altxorra dan Bizkaiko euskerea guztion esku itxi gura dogu, gaur egun bizkaiko herrietan egiten dan euskera hori; era berean, jadanik iragana dan bizimodu eta mundu baten erakusgarri izan daiteke Bideoteka honetan aurkituko doguna. Bizkaieraren Bideoteka honen bidez, datozan belaunaldiek Bizkaiko euskerea, guztion euskerea zelakoa dan eta izan dan jakitea gurako genduke, gure hizkuntzaren geroa atzera eta herrira begiratu barik jorratu ez daiten.

BizkaiFon
Inma Hernaez
inma.hernaez@ehu.eus
Online
Hezkuntza

Gizapedia

Gizapedia

Gizapedia giza eta gizarte zientzien arloan kalitatezko artikuluak biltzen dituen entziklopedia irekia da. 2024ko urtarrilean, euskaraz 6.000 artikulu baino gehiago biltzen ditu hainbat alorretan, hala nola, antropologian, soziologian, filosofian, ekonomian, estatistikan, informatikan eta hizkuntzalaritzan.

Gizapedia giza eta gizarte zientzien arloan kalitatezko artikuluak biltzen dituen entziklopedia irekia da.
Josemari Sarasola Ledesma
josemari.sarasola@ehu.eus
Online
Hezkuntza
Gizapedia
Idatzizko testuak

BIM-SAHCOBA

BIM-SAHCOBA

Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa sortzearen helburu nagusia hizkuntzalaritza diakronikoaren, eta batez ere sintaxi diakronikoaren alorreko ikertzaileentzat lagungarri izango diren Hizkuntzaren Prozesamendurako oinarrizko tresnak sortzea da. Corpusak euskarazko lehen testuetatik XVIII. mende erdialdera bitarteko testuak biltzen ditu.

Morfosintaktikoki etiketatutako euskarazko corpus historikoa
Ainara Estarrona Ibarloza
ainara.estarrona@ehu.eus
Online
Hizkuntza
HiTZ zentroa (UPV/EHU) / IKER (CNRS
Ixa taldea
Idatzizko testua

EPEC-DEP (BDT)

EPEC-DEP (BDT)

Euskarazko zuhaitz-bankua edo treebank-a (EPEC-DEP) dependentzia-erlazioetan oinarrituta eskuz sintaktikoki etiketatu den Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) da. EPEC corpusa euskara estandarrean idatzitako 300.000 hitzek osatzen duten testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik (www.euskaracorpusa.net) hartu da eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.
EPEC-DEP treebank-ean, 200.000 hitz etiketatu dira eskuz Dependentzia Gramatikaren Teoria (Tesnière, 1959) jarraituz. Teoria honetan, esaldiko hitzak binaka lotuz esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzen da. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen (Aranzabe, 2008) bidez.

Sintaktikoki etiketatutako EPEC corpusa (Basque Dependency Treebank)
Maxux Aranzabe
maxux.aranzabe@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ZT corpusa

ZT corpusa

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia.

Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira.

Zientzia eta Teknologiako testuen corpusa (morfosintaktikoki etiketatua).
clariaheus.hitz@ehu.eus
Online
Hizkuntza
Elhuyar
Idatzizkoa

EPEC-EuSemcor

EPEC-EuSemcor

EuSemcorren hainbat izenen agerpen eskuz etiketatu dira EusWordNet-eko adierak erabiliaz. Bi baliabideak elkarrekin garatu dira, eta horrek adieren arteko mugak garbiago definitzea ekarri du, eta bi baliabideen arteko integrazio estuagoa.
Garapen-metodologiak edizioa, etiketatzea eta desadostasunen kudeaketa zituen barnean.

EPEC corpuseko izenen agerpenak EusWN-eko adierekin markatuta dituen corpusa
Eneko Agirre
eneko.agirre@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EPEC-KORREF

EPEC-KORREF

EPEC-KORREF aipamen eta korreferentzia-kateak eskuz etiketatuta dituen euskarazko testu-dokumentuez osatutako corpusa da. Dokumentu-bilduma hau euskarazko EPEC corpusaren zati bat da (Aduriz et al., 2006), eta Euskaldunon Egunkariako albisteez osatuta dago. Corpus hau 46.383 hitzekoa da eta 12.792 aipamen aurki daitezke.

Euskararako Korreferentzia Corpusa
Ander Soraluze
ander.soraluze@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

UD treebank for Basque

UD treebank for Basque

Universal Dependencies edo Dependentzia Unibertsalak, hizkuntza desberdinetarako sortuta dauden zuhaitz-bankuak etiketatze estandar batera bihurtzea helburu duen proiektua da, horretarako zenbait gidalerro eskaintzen dituelarik. Guk euskarazko 150.000 hitzeko zuhaitz-bankua bihurtu dugu aurretik aipatutako gidalerroak jarraituz. Bihurtutako zuhaitz-bankuak 121.000 hitz ditu.

Dependentzia Unibertsalak proiektuko gidalerroak jarraituta etiketatutako euskarazko zuhaitz-bankua
Iakes Goenaga
iakes.goenaga@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ETSC-CBST

ETSC-CBST

Euskarazko Testu Sinplifikatuen Corpusa (ETSC) eskuz sinplifikatutako testuekin eta euren jatorrizko bertsioarekin osatu dugun testu-bilduma da. Testuak sinplifikatzean egin diren eragiketak deskribatzeko etiketatze-eskema osatu dugu eta testuak BRAT tresnaren (Stenetorpet al., 2012) bitartez etiketatu ditugu.

Euskarazko Testu Sinplifikatuen Corpusa (ETSC)
Itziar González
itziar.gonzalezd@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Pages