Tööriistad - Digilab

Kratt Kata

Automaatse kataloogimise ja märksõnastamise kratt Kata.

01.10.2025 Kataloogimine, Kratt Kata, Märksõnastamine

Keelemudelid tekstituvastuse hindamiseks ja parandamiseks.

27.06.2025 Ajalehed, DEA, Lõputööd, OCR

Aastate jooksul on ühisloome käigus parandatud DEA portaalis olevate perioodikaväljaannete tekstituvastust, millest on valim näiteid koondatud andmestikuks OCR tekstiparandused. Lisaks tekstiparandustele sisaldab andmestik ka parandusele eelnenud teksti ja GPT-4o mini hinnangut teksti kvaliteedile.

Andmestikku parandasid ja täiustasid TalTechi tudengid Loore Lehtmets ja Mari-Anna Meimer bakalaureusetöös „Ajalooliste eestikeelsete OCR tekstide järeltöötluse ja hindamise automatiseerimine Eesti Rahvusraamatukogu jaoks“. Töö eesmärgiks oli välja töötada lahendused ajalooliste tekstide kvaliteedi hindamiseks ja parandamiseks. Bakalaureusetöö raames valmis neli vabavaralist keelemudelit, millest kaks hindavad tekstide kvaliteeti ja kaks parandavad teksti. Mudelid on treenitud eestikeelse Llammas keelemudeli baasil. Töö käigus katsetati mitmeid meetodeid (näiteks eelistuste suunamine ja preemiamudeli metoodika) ning tulemusi võrreldi ka teiste keelemudelitega, näiteks ChatGPT-4o ja DeepSeek V3.

Bakalaureusetöö käigus valminud mudelid (kasutusjuhendid mudelite README-des):

Llammas CER prediction – teksti CER (Character Error Rate ehk keskmine vigade arv tähemärgi kohta) hindaja.
Mudelile antav sisend: Kui suur protsent tähemärke sellest ajaloolisest eestikeelsest tekstist on vigane? Tagasta protsent täisarvuna.
Llammas prediction grading – OCR paranduse hindaja.
Mudelile antav sisend: Kui suur on tõenäosus, et parandatud tekst on OCR tekstist parem? Tagasta tõenäosus täisarvulise protsendina.
Llammas OCR FT-5k – OCR teksti parandaja, mida on treenitud umbes 5000 tekstinäidisel.
Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.
Llammas OCR FT-13k – OCR teksti parandaja, mida on treenitud umbes 13 000 tekstinäidisel (mille hulka kuuluvad ka sünteetilised andmed).
Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.

Bakalaureusetöö GitHub-i repositoorium: https://github.com/mari-annam/estonian-ocr, sealhulgas:

Bakalaureusetöö Hugging Face repositoorium: https://huggingface.co/mariannam.

Eesti tõlkekirjanduse võrgustik

Eesti tõlkekirjanduse võrgustik 19. sajandi algusest tänapäevani.

13.03.2024 Analüüs, Digihumanitaaria, Metaandmed, Raamatud, Suurandmed

Digiteeritud ajalehed Eestis

Visuaalne ülevaade ajalehtede digiteerimise seisust Eestis

12.07.2023 Ajalehed, Analüüs

Eesti kultuuripärandist on digiteeritud hulk ajalehti, aga kaugeltki mitte kõik. Seda informatsiooni on osaliselt kajastatud ERB perioodika andmekogus. Siin on loodud visuaalne vahend sellest ülevaate saamiseks.

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/digitized_newspapers/

Digiteeritud ajalehed Eestis annab visuaalse ülevaate ajalehtede digiteerimise seisust Eestis. Andmed pärinevad ERB perioodika osast. Viimase paari aasta jooksul digiteeritud ajalehed ei ole veel kõik selliseks märgitud.

Kasutamine

Visuaalne vahend võimaldab valida teatud ajaperioodi (alguses 1800–1950) ning sealt alt lehti, mis on ilmunud vähemalt kindlal hulgal aastaarvudest (alguses 10). Neid parameetreid saab muuta liigutades jooni rakenduse vasakul äärel.

Lisaks on võimalik muuta joone paksust, kuna eri parameetritega võib kujutatud ajalehtede hulk muutuda oluliselt. Kui algselt on kuvatud alla 100 ajalehe, siis kõiki eri väljaandeid kuvades võib joonistada üle 1200 joone.

Joonisel kuvatakse ajalehti lihtkujul (simple) või grupeeritult (grouped). Grupeeritud versioon paigutab lehti, mida saab pidada eelmiste jätkuks ühele joonele.

Graafik võib olla interaktiivne (interactive) või lihtpilt (image). Interaktiivsel graafikul saab lehtede kohta rohkem informatsiooni liigutades hiirt joonte peal. Menüü ülaribal olevate nuppude või graafiku piirkonna valimise abil on võimalik graafiku mõnda kohta lähemalt vaadata. Lisaks on võimalik digiteeritud ajalehtede joontele klikkida, mis viib neid majutava digikollektsiooni kodulehele ja selle ajalehe kogule seal, juhul kui see on võimalik.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel".

Andmed on viimati uuendatud aprill 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/B2HPX.

Keeletöötlus

Eesti keele lemmatiseerimine ning morfoloogiline analüüs

21.06.2023 Analüüs

Kratt Folli

Kratt Folli analüüsib muuseumite kogudes olevaid pilte

12.04.2023 Digihumanitaaria, Kratid, Mäluasutused, Muuseumid

DIGAR ja ERB metaandmete allalaadija

Vahend RaRa metaandmete allalaadimiseks ja teisendamiseks

27.03.2023 DIGAR, Eesti rahvusbibliograafia, Metaandmed, Python

Sõnamitmike loendaja ajalehtedes

Tööriist ajalehtedes esinevate sõnamitmike sageduse visualiseerimiseks

26.03.2023 Ajalehed, Analüüs, DEA

Rakendus on eraldiseisvana leitav veebilehel: https://digilab.shinyapps.io/dea_ngrams/

Ülevaade

Tööriist võimaldab kuvada sõnade ja sõnamitmike sagedust läbi aja - st kui levinud oli mõni termin või fraas tekstikogus. Sõnamitmikeks ehk n-grammideks nimetatakse üksteise kõrval olevate sõnade kooslusi. Tekstikogu sisaldab endas 39 ajalehte 1850-2023 ja annab suhteliselt hea ülevaate Eesti meediaruumist selle aja vältel. Täpsemalt vaata sisu dokumentatsioonist.

Otsing

Tööriista kasutamiseks tuleb sisestada otsingusõna. Selle saab sisestada otsingukasti vasakul üleval. Mitmesõnalise otsingu tegemiseks kasutage tühikut, mitme erineva otsingu tegemiseks reavahetusklahvi ENTER (töötavad ka TAB ja koma). Otsida saab korraga kuni kaheksat mitmikku, mis koosnevad kuni kolmest sõnast.

Näiteks on võimalik otsida seal korraga sõna terevisioon ja sõnaühendit aktuaalne kaamera ilm. Otsingulahtri all saab valida, kas otsingut teostatakse muutmata tekstide peal, kus käänded ja pöörded on olemas või sõnade algvormide ehk lemmade seast. Esimese valiku puhul on võimalik leida sõnu on ja oli, kuid lemmatiseeritud tekstide puhul vaid sõna olema. Mitmesõnalise ühendi juures eralda sõnad tühikuga.

Otsingu tulemused

Otsingu tulemused kuvatakse paremale äärde. Kui graafik on tühi, siis otsitud sõna või sõnaühendit ei leitud. Vasakult saab muuta ka vaadeldavat ajaperioodi ning graafiku joone kõverust.

Graafikul kujutatakse otsinguterminite sagedust tuhande sõna kohta. Selline kuvamisviis aitab arvestada tekstikogu suuruse muutustega.

Otsingusõnade leidmine

Graafiku all on leitav tabel kõigi analüüsiks kriitilise piiri ületanud sõnade ja sõnaühenditega. Seda tabelit saab kasutada otsingusõnade leidmiseks. Tabelis on võimalik kasutada otsinguteks ka regulaaravaldisi. Tabelis tehtud otsingud ei mõjuta joonist.

Käivitamine

Rakendus võtab tavaliselt 10-15 sekundit, et laadida. Kui näete paremal all tabelit sagedate sõnadega, on rakendus käivitunud ja saate otsinguid teha.

Andmed

Tööriistas on koondatud suuremad lehed Rahvusraamatukogu kollektsioonidest. Valitud on Eestis ilmunud päevalehed ja kohalikud lehed, millel on olemas vähemalt viis digiteeritud aastakäiku. Kokku on neid 39 erinevat väljaannet. Täpsema ülevaate saab jooniselt all.

Töötlus

Digiteeritud materjalides on tihti vigu tähtede tuvastamisel. Mõned tähed on valesti loetud, mõned sõnad jaotatud tükkideks või mõned varjud paberil loetud sõnadeks. Selle jaoks, et vältida nende vigade mõju tulemustele, on analüüsidest jäetud kõrvale kõik sõnalaadsed üksused, mis sisaldavad endas ainult ühte tähte. Kõrvale on jäetud ka tähemärgid, mis ei ole tavaliselt eesti sõnades (sh nt jutumärgid, sidekriipsud, punktid, komad jne). Kõik suured tähed on muudetud väikesteks.

Sõnade ja sõnamitmike kokkuloendamisel on jäetud kõrvale haruldased sõnad, mille puhul sageduste analüüs ei ole mõistlik. Täpsemalt on jäetud kõrvale sõnad ja sõnamitmikud, mida esineb vähem kui 40 korda ühe kollektsiooni sees ja vähem kui 1000 korda kõigi kollektsioonide peale.

Lemmatiseerimisel on kasutatud EstNLTK (v 1.4.1) Pythoni teegi lemmatiseerimise vahendeid Vabamorf jt.

Ülevaade andmestikust

<\p>

Hiirt punktide peal liigutades näeb lisainformatsiooni, väljaande täisnime andmebaasis, mitu numbrit sel aastal on ilmunud jne. Kuna joonisel on kokku pandud mitu eriliigilist andmestikku, pole igal lehel täit informatsiooni, ära on toodud see, mis oli kättesaadav.

Märkus

Tööriista valmimist on toetanud teadusprojekt EKKD72 "Tekstiainese kasutusvõimalused digihumanitaaria juhtumiuuringutes Eesti ajalehekollektsioonide (1850-2020) näitel". Tööriista arendab Rahvusraamatukogu digilabor.

Andmed on viimati uuendatud august 2023. Andmed ja kood on ligipääsetav OSF-is https://doi.org/10.17605/OSF.IO/XHU2A.

Automaatse märksõnastamise kratt MARTA

Eestikeelsete artiklite märksõnastamise krati prototüüp

24.02.2023 Eesti keel, Märksõnastamine

Ajalehtede metaandmete sirvija

DEA metaandmete sirvija

17.10.2022 Analüüs, DEA, Metaandmed

Ligipääs ajalehtede tekstidele

Ligipääs ajalehtede täistekstidele

09.10.2022 Analüüs

Ligipääs ajalehtede täistekstidele toimub nüüdsest OnDemand keskkonnas RStudio kaudu. Keskkonnale ligipääsemiseks kirjutage digilab@rara.ee.

Lisaks dea.digar.ee kasutajaliidesele on teinekord vaja tekstidele otseligipääsu. Selle jaoks on digilabor kasutusele võtnud eraldi keskkonna, kus on võimalik ligi pääseda soovitud tekstide toorandmetele, töötada nendega R-i koodi kaudu ja nii andmeid kui analüüsitulemusi endale arvutisse laadida ja teistega jagada. Tekstide kasutamisel ja taaskasutamisel tuleb jälgida litsentsitingimusi.

Kirjeldus

Joonis 1. dea.digar.ee kollektsiooni sisu. Avatud ligipääs on rohelistele numbritele. Punased numbrid on ligipääsetavad Rahvusraamaatukogus autoriseeritud töökohal või lepingu alusel.

Digiteeritud Eesti Artiklid on otsitavad veebiliidese kaudu https://dea.digar.ee/ ja ligipääsetav ka andmestikuna. Ülevaade andmestikust on eraldi lehel.
Andmetele pääseb ligi OnDemand keskkonna kaudu, kus saab tekstidele ligipääsuks kasutada R-i.
OnDemand keskkonnas on ligipääs täistekstidele ja metaandmetele, võimalus kirjutada oma analüüs ja laadida alla oma leiud. Andmed on avatud kõigile kasutamiseks.

Kuidas alustada

Keskkonna kasutamiseks kirjutage e-posti aadressile digilab@rara.ee.
Andmestikule mugavaks ligipääsuks on loodud R-i pakett digar.txts, mille kaudu saab eraldada tervikkollektsioonist osa ning teha otsinguid täistekstil.
Andmete töötlusel on võimalik kasutada enda koodi, toetuda mõnele näidisanalüüsile või võtta välja otsingu tulemused tabeli kujul.
Vaata näidisanalüüse: Elekter, aur ja hobujõud 20. saj vahetusel (.html, .ipynb, .Rmd), Marlene Dietrich läbi aja.
Töötoad: Kevad 2020 eestikeelne lühikursus tekstitöötlusest R-is.
Juhendid: Kuidas teha reprodutseeritavat RaRa digilabori teadustööd.

Pakett

Ligipääs failidele on toetatud R-i paketi poolt digar.txts, mis paari lihtsa käsuga 1) annab ülevaate andmekogust koos seostega failidele, 2) võimaldab moodustada andmestikust vajalikke alamhulki, 3) võimaldab teha tekstiotsingut ja 4) võimaldab otsingu tulemustes võtta välja leidude vahetu konteksti. Otsingu tulemused võib edasi salvestada ka tabelisse ja töötada juba väiksema koguga edasi mujal.

Need käsud on:

get_digar_overvew() – loeb sisse ülevaate tervst kollekstioonist (numbrite tasandil)
get_subset_meta() – loeb sisse alamhulga metainformatsiooni (artikli tasandil)
do_subset_search() – teostab alamhulgas otsingu ja salvestab tulemused faili (artiklite kaupa)
get_concordances() – leiab otsingutulemustest konkordantsid (s.t. otsingusõna ja selle vahetu konteksti)

Vahepealseks töötluseks sobivad igasugu R-i paketid ja käsud. Töötluseks Pythonis tuleks andmed enne kokku koguda ja teha uus Pythoni märkmik.

Koodi kasutamine

Mõned vajalikud paketid on serverisse juba installitud. Kui soovite kasutada tidyverse pakette saab sisse laadida tidyverse ja tidytext paketid.

suppressPackageStartupMessages(library(tidyverse,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
suppressPackageStartupMessages(library(tidytext,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))

Käivitage installitud pakett.

suppressPackageStartupMessages(library(digar.txts,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))

Kasuta get_digar_overview() käsku andmestiku sisust ülevaate saamiseks.

all_issues <- get_digar_overview()

Ehita oma valim andmetest kasutades R-i käske. Siin on tidyverse stiilis näide.

library(tidyverse)
subset <- all_issues %>%
    filter(DocumentType=="NEWSPAPER") %>%
    filter(year>1880&year<1940) %>%
    filter(keyid=="postimeesew")

Hangi alamhulga metainformatsioon (iga artikli kohta) käsuga get_subset_meta(). Juhul kui me kasutame seda infot korduvalt on soovitav metaandmestik salvestada faili. Täismetaandmestikuks on meil vaja ka varem võetud ülevaadet all_issues.

subset_meta <- get_subset_meta(subset)
#potentially write to file, for easier access if returning to it
#readr::write_tsv(subset_meta,"subset_meta_postimeesew1.tsv")
#subset_meta <- readr::read_tsv("subset_meta_postimeesew1.tsv")

Teeme märksõnaotsingu käsuga do_subset_search(). See salvestab otsingu tulemused faili artiklite kaupa. Käsk vaikimisi eirab suur ja väiketähti.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset)

Vaikimisi otsib pakett läbi artiklite kaupa esitatud allikatest. Mõned allikad ei ole segmenteeritud artikliteks ja on ligipääsetavad ainult lehekülgede kaupa. Lehekülgede kaupa otsimiseks kasuta lisaparameetrit source.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages")

Otsida võib ka lemmatiseeritud tekstidest, sel juhul määratle ka searchtype.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages", searchtype="lemmas")

Loe sisse otsingu tulemused failist. Edasi saab kasutada R-i tööriistu töötluseks. Kasulik on nimetada otsingu tulbad ümber id-ks ja txt-ks.

texts <- fread("lurich1.txt",header=F)[,.(id=V1,txt=V2)]

Hangi otsingusõnad lähemas kontekstis ehk konkordantsd käsuga get_concordances()

concs <- get_concordances(searchterm="[Ll]urich",texts=texts,before=30,after=30,txt="txt",id="id")

Märkus: et kasutada ctrl+shift+m klahve %>% toru kirjutamiseks Jupyteris, tuleb lisada väike koodijupp. Selleks mine Settings -> Advanced Settings Editor… -> Keyboard Shortcuts vasakul pool User Preferences kastis ja lisa sinna järgnev kood. ctrl+shift+m peaks nüüd töötama.

{
    "shortcuts": [
         {
            "command": "notebook:replace-selection",
            "selector": ".jp-Notebook",
            "keys": ["Ctrl Shift M"],
            "args": {"text": '%>% '}
        }
    ]
}

Lihtsamad R-i käsud

<- - salvesta väärtused
%>% - ‘toru’ mis suunab väärtusi edasi
filter() - vii oma andmed läbi filtri (säilitades sobivad väärtused)
count() - loenda väärtuste esinemisi
mutate() - loo uus tulp (saab kasutada nt n(), row_number(), min(), max() uute väärtuste arvutamisel)
head(n) - võta esimesed n rida

Avatud teadus

Andmetega töötamisel soovitame lähtuda avatud teaduse põhimõtetest. Selle tööriista kontekstis vaata selleks juhendit siin.

Perioodiliselt uuendatav ülevaade DEA tekstide kollektsioonist on näha siin.

Käsud on koondatud R-i paketti, mis on hoiustatud githubis https://github.com/peeter-t2/digar.txts. Kood töötab keskkonnas pärast sisse logimist. Andmed on hoiustatud ETAIS-i serveris ja ligipääsetavad paketi abil (vt juhend) või käsureal.

Ülevaate tegemise kood ja andmed on OSF-is https://doi.org/10.17605/OSF.IO/3GZXE.

Raamatud kaardil

Rahvusbibliograafia raamatud kaardil

09.10.2022 Raamatud

Abiks andmekaevandamisel: OAI-PMH protokoll

OAI-PMH protokolli kasutamise juhend.

01.01.2022 OAI-PMH

OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.

OAI-PMH standard kirjeldab järgnevaid päringuid ja meetodeid:

ListRecords – päringu tulemuseks on reeglina XML objekide kogum, mis sisaldab üldjuhul mitut erinevat kirjet ühes vastuses. Selleks, et pärida suurt hulka kirjeid, võimaldab ListRecords kontrollida saadetavate metaandmete voolu resumptionTokeniga.
ResumptionToken – on kursor, mis ütleb, kust andmete ülekandmist jätkata.
ListIdentifiers – on ListRecords päringu vähendatud versioon, kust on välja võetud täielik kirje objekt ning tagastatakse ainult objektis sisalduv identifikaator (header).
GetRecord – päringut kasutatakse üksiku kirje objekti saamiseks tema unikaalse identifikaatori järgi.

Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid:

List set – väljastab kõik kasutuses olevad kogumi tunnused. Päringu koostamisel tuleb kasutada parameetrit set.
ListMetadataFormats – väljastab kõik kasutuses olevad andmete vormingud (Rahvusraamatukogus kasutatavad vormingud ja nende kirjeldused on lahti kirjutatud alapeatükis Andmete vormingud). Päringu koostamisel tuleb anda kaasa parameeter metadataPrefix.
- (https://data.digar.ee/repox/OAIHandler?verb=ListRecords&set;=poster&metadataPrefix;=edm)
From – võimaldab täpsustada päringut kirjed lisandunud alates kuupäevaga, kuupäev peab olema vormingus YYYY-MM-DD.
Until – võimaldab täpsustada päringut kuni kirjed lisandunud kuupäevani, kuupäev peab olema vormingus YYYY-MM-DD Reeglina kasutatakse From ja Until ühes pärgingus koos.
- (http://dea.digar.ee/cgi-bin/dea-oaiserver?verb=ListRecords&metadataPrefix;=marc21&from;=2017-05-01&until;=2017-05-10)

Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.

Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.

Näide: http://dea.digar.ee/article-text-XML/eestiekspress/2014/01/02/8.1.

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/.
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/.
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html.
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html.

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused:

MARC21 100 = = Autor
MARC21 700 = = Autor
MARC21 245 = = Artikli pealkiri
MARC21 260 $c = = Väljaande ilmumisaasta
MARC21 260 $a $b = = Väljaande kirjastus ja ilumiskoht
MARC21 540 = = Juurdepääsu piirangu tähtaeg
MARC21 542 = = Autoriõiguse märkus ja litsents
MARC21 588 = = Andmete allikas
MARC21 650 = = Märksõnad
MARC21 690 = = Kasutaja lisatud märksõnad (võib sisaldada isikute ja organisatsioonide nimesid)
MARC21 773 $n = = Ajalehe kategooria Nt. päevaleht, maakonnaleht jne.
MARC21 773 = = Artikli ilmumise andmed
MARC21 773 $3 = = Väljaande laad: ajaleht, ajakiri, jätkväljaane
MARC21 856 41= = Viide artiklile DIGAR-is
MARC21 856 4_= = Viide väljaande kirjeldusele ESTER'is
MARC21 998 = = Viide täistekstile
MARC21 999 = = artikli tüüp

Digihumanitaaria videokool

Digihumanitaaria videokooli episoodid DIGAR-ist, DEA-st ja ERB-ist

31.12.2021 Digihumanitaaria, Videod

Demokasutaja vaade

Korduma kippuvad küsimused