EU · EN

Language

Maltixa

Maltixa

Euskarazko testu bat emanda, esaldi bakoitza lerro batean, esaldi horien analisiak lortuko ditu. Hau da, mendekotasun-zuhaitza lortuko da

Analizatzaile sintaktiko-estatistikoa
Koldo Gojenola
koldo.gojenola@ehu.eus
Eskaera bidez
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ixaKat

ixaKat

Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modular honen ezaugarri nagusiena honakoa da: lehenengo tresnak analisi morfosintaktiko sakona burutzen du, eta morfologikoki aberatsak diren anotazio hauek erabiltzen dituzte katean atzetik datozen prozesatzaile linguistikoek. Katearen inplementazioa diseinu modularrean oinarritzen da, eta prozesatzaileak erabilerrazak dira. Tresnak eskuragarri daude, eta erabiltzeko prest gainera.

Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modularra
Arantxa Otegi
arantxa.otegi@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Ixa pipes

Ixa pipes

Tokenizatzaile, POS tagger, Lematizatzaile, entitate izendunak saikatzaile, iritzien gaiak erauzteko tresna, zatiak, parserra

Hizkuntzaren Prozesamendurako tresna eleanitzak
Rodrigo Agerri
rodrigo.agerri@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ETSC-CBST

ETSC-CBST

Euskarazko Testu Sinplifikatuen Corpusa (ETSC) eskuz sinplifikatutako testuekin eta euren jatorrizko bertsioarekin osatu dugun testu-bilduma da. Testuak sinplifikatzean egin diren eragiketak deskribatzeko etiketatze-eskema osatu dugu eta testuak BRAT tresnaren (Stenetorpet al., 2012) bitartez etiketatu ditugu.

Euskarazko Testu Sinplifikatuen Corpusa (ETSC)
Itziar González
itziar.gonzalezd@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

UD treebank for Basque

UD treebank for Basque

Universal Dependencies edo Dependentzia Unibertsalak, hizkuntza desberdinetarako sortuta dauden zuhaitz-bankuak etiketatze estandar batera bihurtzea helburu duen proiektua da, horretarako zenbait gidalerro eskaintzen dituelarik. Guk euskarazko 150.000 hitzeko zuhaitz-bankua bihurtu dugu aurretik aipatutako gidalerroak jarraituz. Bihurtutako zuhaitz-bankuak 121.000 hitz ditu.

Dependentzia Unibertsalak proiektuko gidalerroak jarraituta etiketatutako euskarazko zuhaitz-bankua
Iakes Goenaga
iakes.goenaga@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EPEC-KORREF

EPEC-KORREF

EPEC-KORREF aipamen eta korreferentzia-kateak eskuz etiketatuta dituen euskarazko testu-dokumentuez osatutako corpusa da. Dokumentu-bilduma hau euskarazko EPEC corpusaren zati bat da (Aduriz et al., 2006), eta Euskaldunon Egunkariako albisteez osatuta dago. Corpus hau 46.383 hitzekoa da eta 12.792 aipamen aurki daitezke.

Euskararako Korreferentzia Corpusa
Ander Soraluze
ander.soraluze@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EPEC-EuSemcor

EPEC-EuSemcor

EuSemcorren hainbat izenen agerpen eskuz etiketatu dira EusWordNet-eko adierak erabiliaz. Bi baliabideak elkarrekin garatu dira, eta horrek adieren arteko mugak garbiago definitzea ekarri du, eta bi baliabideen arteko integrazio estuagoa.
Garapen-metodologiak edizioa, etiketatzea eta desadostasunen kudeaketa zituen barnean.

EPEC corpuseko izenen agerpenak EusWN-eko adierekin markatuta dituen corpusa
Eneko Agirre
eneko.agirre@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EDGK

EDGK

Hizkuntza-ezagutzan oinarrituta osatu den gramatika konputazionala da hau. Gramatika hau osatzen duten islapen-erregelen bitartez esaldi bateko hitz bakoitzari dependentzia-etiketa bat esleitzen zaio eta hitz bakoitzaren gobernatzailea zein norabidetan aurkitzen den esaldi bakoitzaren barruan zehazten da; alegia, bi hitzen arteko dependentzia sintaktikoa (bata gobernatzailea eta bestea mendekoa) gauzatzen da Dependentzia Gramatikaren Teorian (Tesnière, 1959) oinarrituta. Islapen-erregela horien idazketa Murriztapen Gramatika (Karlsson et al., 1995) formalismoa baliatuz egin da.
Gramatika hau analizatzaile sintaktikoaren bitartez aplikatu ondoren, testu errealetako esaldien analisi sintaktiko osoak lortzen dira.

Hizkuntza-ezagutzan oinarrituta osatu den Euskarako Dependentzia Gramatika Konputazionala (EDGK) da.
Maxux Aranzabe
maxux.aranzabe@ehu.eus
Eskaera bidez
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ZT corpusa

ZT corpusa

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia.

Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira.

Zientzia eta Teknologiako testuen corpusa (morfosintaktikoki etiketatua).
clariaheus.hitz@ehu.eus
Online
Hizkuntza
Elhuyar
Idatzizkoa

WSD-IXA

WSD-IXA

Hitz-Adieren Desanbiguatze (HAD) sistema Support Vectors Machine (SVM) algoritmo ezagunean dago oinarritua. Sistema EuSemCor corpusaren gainean entrenatu da, hori baita euskal corpus bakarra semantikoki etiketuta dagoena. Corpusaren tamaina mugatua dela eta, HAD sistema 402 izen polisemikoekin entrenatu da.

Euskarazko Adiera-Desanbiguazioa
Eneko Agirre
eneko.agirre@ehu.eus
Online
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Pages