Eesti Rahvusraamatukogu on koostöös Tartu Ülikooliga loonud 526 miljonit sõnet sisaldava keelekorpuse.
Korpuse eesmärk on suurendada keeleandmete kättesaadavust keele uurimiseks, keeletehnoloogiliseks arenduseks ning kultuuripärandi säilitamiseks ja kättesaadavaks tegemiseks.
Korpus sisaldab metaandmestatud tekste eesti ning teistes soome-ugri keeltes, välja arvatud soome ja ungari keel. Nii võimaldab see uurida nii eesti kui ka väiksemaid ja vähemkäsitletud sugulaskeeli ning toetab võrdlevaid ja ajaloolisi keeleuuringuid. Tekstid pärinevad erinevatest kultuuripärandi portaalis DIGAR kättesaadavaks tehtavatest raamatutest, ajalehtedest, ajakirjadest, standarditest ja jätkväljaannetest. Selline mitmekesine allikabaas tagab keelekasutuse laia spektri ning võimaldab analüüsida keelt eri žanrites ja kasutuskontekstides.
Korpuse mahu tõttu on seda keeruline veebis jagada, sellele juurdepääsu saamiseks pöörduge palun digilab@rara.ee.
Keelekorpus valmis taaste- ja vastupidavusrahastu komponent 3 „Digiriik“, reform „Andmehalduse ja avaandmete oivakeskuse loomine ja väljaarendamine“ rahastuse toel.
Eesti Rahvusraamatukogu
Tõnismägi 2, 10122 Tallinn
+372 630 7100
info@rara.ee
rara.ee