Vaba juurdepääsuga keelekorpus

Eesti Rahvusraamatukogu on koostöös Tartu Ülikooliga loonud 526 miljonit sõnet sisaldava keelekorpuse.

Korpuse eesmärk on suurendada keeleandmete kättesaadavust keele uurimiseks, keeletehnoloogiliseks arenduseks ning kultuuripärandi säilitamiseks ja kättesaadavaks tegemiseks.

Korpus sisaldab metaandmestatud tekste eesti ning teistes soome-ugri keeltes, välja arvatud soome ja ungari keel. Nii võimaldab see uurida nii eesti kui ka väiksemaid ja vähemkäsitletud sugulaskeeli ning toetab võrdlevaid ja ajaloolisi keeleuuringuid. Tekstid pärinevad erinevatest kultuuripärandi portaalis DIGAR kättesaadavaks tehtavatest raamatutest, ajalehtedest, ajakirjadest, standarditest ja jätkväljaannetest. Selline mitmekesine allikabaas tagab keelekasutuse laia spektri ning võimaldab analüüsida keelt eri žanrites ja kasutuskontekstides.

Korpuse mahu tõttu on seda keeruline veebis jagada, sellele juurdepääsu saamiseks pöörduge palun digilab@rara.ee.

Keelekorpus valmis taaste- ja vastupidavusrahastu komponent 3 „Digiriik“, reform „Andmehalduse ja avaandmete oivakeskuse loomine ja väljaarendamine“ rahastuse toel.

Korpuse tehniline info

Korpuse struktureerimist on mõjutanud:
• Ligipääs – korpuses on vaid need materjalid, mille autoriõiguse kaitse on lõppenud.
• Teksti kvaliteet – tekstituvastuses võib esineda vigu.
• Sisu struktuur – korpuses on nii väljaanded, mis on kättesaadavad vaid lehekülje kaupa (korpuses märgitud kui „physical“) kui ka väljaanded, mis on segmenteeritud ehk jaotatud sisu põhjal artikliteks, peatükkideks vms (korpuses märgitud kui „logical“).
• Ilmumisaasta – vanemad materjalid kasutavad tänapäevasest erinevat ortograafiat.

Vaba juurdepääsuga keelekorpus

Liitu Eesti Rahvusraamatukogu uudiskirjaga