BIM eta SAHCOBA Morfosintaktikoki etiketatutako euskarazko corpus historikoa eraikitzen
Basque in the Making (BIM): A Historical Look at a European Language Isolate eta Syntactically Annotated Historical Corpus in Basque (SAHCOBA) morfosintaktikoki etiketatutako corpus historiko bat eraikitzeko bi proiektu dira. Corpus honek, morfosintaktikoki etiketatua egoteaz gain, metadatuen egitura aberatsa izango du. Gure datu-baseak aukera emango digu bilaketa konplexuak egiteko: hitzak, lemak, kategoria gramatikalak, kategoria gramatikalen konbinazioak edo egitura morfosintaktiko jakinak bilatu ahal izango dira corpusean zehar. BIM proiektuak XV. eta XVIII. mende bitarteko lanik esanguratsuenak biltzen ditu euskalki historiko guztiak kontuan hartuta; SAHCOBA proiektuak, berriz, XVIII. mendearen erdialdetik XX. mendearen erdialdera arteko testuak jasoko ditu. BIM eta SAHCOBA diziplina arteko proiektuak dira, eta bertan hizkuntzalaritzako eta hizkuntza naturalaren prozesamenduko adituek hartzen dute parte.