EU · EN

EPEC-DEP (BDT)

EPEC-DEP (BDT)

Euskarazko zuhaitz-bankua edo treebank-a (EPEC-DEP) dependentzia-erlazioetan oinarrituta eskuz sintaktikoki etiketatu den Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) da. EPEC corpusa euskara estandarrean idatzitako 300.000 hitzek osatzen duten testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik (www.euskaracorpusa.net) hartu da eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.
EPEC-DEP treebank-ean, 200.000 hitz etiketatu dira eskuz Dependentzia Gramatikaren Teoria (Tesnière, 1959) jarraituz. Teoria honetan, esaldiko hitzak binaka lotuz esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzen da. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen (Aranzabe, 2008) bidez.

Sintaktikoki etiketatutako EPEC corpusa (Basque Dependency Treebank)
Maxux Aranzabe
maxux.aranzabe@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa