Jezikovni viri za starejšo slovenščino

Jezikovni viri za starejšo slovenščino
Skupina: Odsek za tehnologije znanja

Razvili smo prvi večji in medsebojno povezani sklop virov za starejšo slovenščino (1584–1918), ki vsebuje digitalno knjižnico (430 enot), slovar starejše slovenščine (20 000 gesel, 66 000 besednih oblik), ročno označeni korpus (1 000 strani, 300 000 besed) in orodje ToTrTaLe za jezikoslovno označevanje starejših slovenskih besedil, vključno s posodabljanjem besed.

Slovar in digitalna knjižnica sta dostopna na spletu za branje, za jezikoslovne raziskave pa je bila avtomatsko označena in je dostopna tudi preko spletnega konkordančnika, tako kot ročno označeni korpus. Razviti viri se uporabljajo v sklopu iskanja po besedilu digitalne knjižnice NUK dLib.si, v izvajanju pedagoškega procesa na Univerzi v Ljubljani, primerni pa so tudi za razvoj nadaljnjih programov jezikovnih tehnologij za starejšo slovenščino, ki bi omogočali npr. korekcije OCR in posodabljanje starejših besedil. Vsi viri so tudi dostopni za prenos po licenci CC-BY, dostopni pa so na http://nl.ijs.si/imp/.

Delo pri virih sta podprla EU 7OP IMPACT (IJS in NUK) in nagrada Google za razvoj računalniških modelov za obdelavo starejše slovenščine (IJS in ZRC SAZU).