EU · EN

Language

BIM-SAHCOBA

BIM-SAHCOBA

Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa sortzearen helburu nagusia hizkuntzalaritza diakronikoaren, eta batez ere sintaxi diakronikoaren alorreko ikertzaileentzat lagungarri izango diren Hizkuntzaren Prozesamendurako oinarrizko tresnak sortzea da. Corpusak euskarazko lehen testuetatik XVIII. mende erdialdera bitarteko testuak biltzen ditu.

Morfosintaktikoki etiketatutako euskarazko corpus historikoa
Ainara Estarrona Ibarloza
ainara.estarrona@ehu.eus
Online
Hizkuntza
HiTZ zentroa (UPV/EHU) / IKER (CNRS
Ixa taldea
Idatzizko testua

Eustagger

Eustagger

Eustagger analizatzaile morfosintaktiko sendo eta estaldura zabalekoa da. Analizatzailea bi mailatako formalismoan oinarritzen da eta modu inkrementalean diseinatua izan da, hiru modulu nagusirekin: analizatzaile estandarra, aldaera linguistikoen analizatzailea, eta lexiko gabeko analizatzailea, hitz-formak hauteman ditzakeena lexikoan izan gabe. Transduktore lexikoak erabiliz gure analizatzailearen sistemaren osagai ezberdinen errendimendua eta deskripzioa bera hobetu ditugu. Lema posibleak, PoS eta bestelako informazio morfologikoa ere eskaintzen du. Era berean, data/denbora adierazpenak eta zenbakiak ezagutzen ditu. Desanbiguazioan erabili ditugun metodoak, Murriztapen Gramatika (MG) formalismoa eta HMMan oinarritutako analizatzailea dira. MGko erregelak ezaugarri morfologiko guztiak kontuan hartuz sortu dira eta prozesu honek testuen anbiguotasun morfologikoa gutxitzen du. Azkenik, tresna estokastikoa erabiltzen dugu ematen dituen etiketa-aukeretatik bat hautatzeko. Metodo estokastikoa bakarrik erabiliz, errore-tasa % 14 ingurukoa da, baina lexikoa hitz ezezagunekin aberastuz doitasuna % 2 inguru handitu daiteke. Bi metodoak konbinatzen direnean, prozesu osoaren errore-tasa % 3,5 da.

Euskararako etiketatzaile morfosintaktikoa
Nerea Ezeiza
nerea.ezeiza@ehu.eus
Eskaera bidez
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Xuxen

Xuxen

Euskararako zuzentzaile ortografikoa hainbat aplikazioetarako deskargatu daiteke Microsoft Word, OpenOffice/LibreOffice, Explorer, Chrome, Firefox, Adobe InDesign, Hunspell, MAC OS X, eta mugikorretan.

Euskarazko zuzentzaile ortografiko eta gramatikala
Klara Ceberio
xuxen@elhuyar.eus
Online
Deskarga
Hizkuntza
Idatzizkoa

EPEC-DEP (BDT)

EPEC-DEP (BDT)

Euskarazko zuhaitz-bankua edo treebank-a (EPEC-DEP) dependentzia-erlazioetan oinarrituta eskuz sintaktikoki etiketatu den Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) da. EPEC corpusa euskara estandarrean idatzitako 300.000 hitzek osatzen duten testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik (www.euskaracorpusa.net) hartu da eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.
EPEC-DEP treebank-ean, 200.000 hitz etiketatu dira eskuz Dependentzia Gramatikaren Teoria (Tesnière, 1959) jarraituz. Teoria honetan, esaldiko hitzak binaka lotuz esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzen da. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen (Aranzabe, 2008) bidez.

Sintaktikoki etiketatutako EPEC corpusa (Basque Dependency Treebank)
Maxux Aranzabe
maxux.aranzabe@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Konbitzul

Konbitzul

Konbitzul datu-baseak euskarazko eta gaztelaniazko izen+aditz konbinazioei eta euren ordainei buruzko informazioa biltzen du. Bilaketak hainbat irizpideren arabera egin daitezke: (1) hizkuntza-norantza (euskaratik gaztelaniara ala gaztelaniatik euskarara), (2) bilatu nahi den testuaren forma (konbinazio osoa, aditza edo izena), eta (3) informazio linguistiko gehigarria (euskara-gaztelania zentzuan, euskarazko izenaren kasu- edo postposizio-marka; gaztelania-euskara zentzuan, gaztelaniazko konbinazioaren egitura).
Horrez gain, nahi izanez gero, % ikurra erabiltzeko aukera ere badago, edozein karaktere multzo bilatzeko. Adibidez, era% bilatuz gero, eraz hasten diren hitz guztiak agertzen dira: era, erabaki, eragozpen, erantzukizun, erantzule...

Izen+aditz konbinazio-itzulpenen datu-basea
Uxoa Iñurrieta
usoa.inurrieta@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EusWN

EusWN

Euskal WordNet EuroWordNet-en markoan garatu da, euskal hitzak ingelesezko WordNet-era metodo erdiautomatikoz lotuz. Ingelesaren gehiegizko eragina saihesteko eta kalitate linguistikoa babesteko euskal synset-ak eskuz orraztu dira bi pasalditan: lehenengoan, kontzeptutik kontzepturako pasaldi batean, euskal hitzen eta synset-en arteko lotura egiaztatu da; bigarrenean, hitzetik hitzerako pasaldian, hitzei estekatutako hitz-adieren osotasuna bermatu da. Metodo honen bidez, azkartasuna eta kalitatea uztartu nahi dira.

Euskal WordNet
German Rigau
german.rigau@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

e-ROLda

e-ROLda

e-ROLda BVI lexikoian eta EPEC-RolSem corpusean dagoen informazioa arakatzea ahalbideratzen digun tresna da1. Sisteman sartzen garenean, informazio orokorra eta horren gainean bilaketak egiteko aukera ematen zaigu. Bilaketa zenbait ezaugarri orokorren arabera egin daiteke: i) euskal aditza, ii) euskal aditzaren adiera jakin bat edota iii) PB-VNeko aditz-adiera. Corpusean bilaketa zehatzagoak egiteko aukera ere eskaintzen digu tresnak, hala nola, argumentu zenbakia edo balentzia (Arg0, Arg1, ...), PB-VNeko rol semantikoa, EADBko (Euskal Aditzen Datu Basea) rol semantikoa, deklinabide-kasua edota hautapen-murriztapena. Tresnak atal pribatu bat du baimendutako hizkuntzalariak BVI lexikoia editatzeko aukera ematen duena.

    Aditz-sarrera bakoitzak duen informazio bi eremutan banatzen da:

  1. 1- Aditz bakoitzaren egitura sintaktiko-semantikoak (BVI)
  2. 2- Estekak PropBank (PB), FrameNet (FN) eta EuskalWordNetera (BWN)
  3. 3- Corpuseko aditzaren agerpenak (EPEC-RolSem)

 

Beraz, tresna honi esker, BVI lexikoian gordetzen den euskal aditzaren informazio sintaktiko-semantikoa eta aditz-adiera horiek beste baliabide semantikoetara dituzten loturak ikusteaz gain, aditzak EPEC-RolSem corpusean dituen agerpenak ere ikus ditzakegu.

Euskarazko predikatuak aztertzeko ingurunea
Ainara Estarrona
ainara.estarrona@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
idatzizkoa

BertsolariXa

BertsolariXa

Bukaera bat emanda, hitz errimatuak aurkitzen ditu. Lemak ez ezik, BertsolarIXA gai da hitz deklinatuak eta aditz-formak ere eskaintzeko. Arloka iragaz daitezke emaitzak. Arau fonetikoak aplikatzeko aukera ere ematen du.

Errimak bilatzeko tresna.
CLARIAH-EUS
clariaheus.hitz@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

BASYQUE

BASYQUE

BASYQUE Euskararen sintaxiaren datu-basea da. Hizkuntzaren ahozko aldaera desberdinak mapetan agerian emateko egiten dira hizkuntza atlasak. Hortaz, Euskararen Herri Hizkeren Atlasak (EHHA) ahozko euskararen aldaerak mapetan jasotzea du helburu. Euskaltzaindiak 1983an onartu zuen egitasmo hau. BASYQUE proiektu honen informazio-iturrri nagusia da.

Euskararen sintaxiaren aldaketak aztertzeko aplikazioa
Ainara Estarrona
ainara.estarrona@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Pages