OCR tekstiparandused

Aastate jooksul on ligi 500 kasutajat panustanud DIGARi tekstide korrigeerimisse ja nende pingutuste tulemusel on parandatud üle 800 000 rea. See andmestik sisaldab valikut algtekstide ja paranduste paaridest.

Andmestik koos dokumentatsiooniga asub siin: https://zenodo.org/records/13325713

Tekstiparanduste kogumine DIGAR keskkonnas on toimunud ühisloome käigus.

Eeltöötlus

DIGARi arhiivis olevad tekstiparandused salvestatakse muudatuste logidena, seega on algtekst pöördprojekteeritud, st parandatud osad algse sisuga asendatud. Tekstid on tugevalt filtreeritud. Täpsemalt on kaasatud ainult tekstiparanduspaarid, mis vastavad järgmistele kriteeriumidele:

  • Parandatud tekst sisaldab vähemalt 80% tähestikulisi tähemärke.
  • Originaaltekstide ja parandatud tekstide pikkuse erinevus ei ületa 5%.
  • Suhteline Levenshteini kaugus kahe teksti vahel on vähemalt 0,1.

Nende kriteeriumite abil on proovitud välistada tekste, mis on osaliselt toimetatud, milles on liiga palju numbreid, loendeid või muid mittealfabeetilisi sümboleid, või kus olulised osad on kustutatud või lisatud (sageli segmenteerimisvigade parandamiseks).

Kvaliteedihindamine

Kuna parandused on ühisloome tulemus, esineb neis vigu ja nad pole käsitletavad lõpliku tõena. Ligikaudse ülevaate saamiseks paranduste tekstikvaliteedist on nii originaal- kui ka parandatud tekstid läbinud GPT-4o mini, mis on neile määranud loetavuse skoori 1-st 5-ni. Selleks kasutati järgmist viipa:

The following is the OCR output from a digitized historical Estonian newspaper from {year}. Analyze the text placed after "TEXT" and decide if it is reasonably free of OCR errors. Return a rating on the scale of 1 to 5.

5 - The text is clear and readable. It may contain unusual spellings and use of punctuation throughout, but there are no distorted words.
4 - The text is readable, but contains some distortions of alphabetical characters. These distortions do not impede understanding the text at any given point.
3 - The text is readable with minor difficulties. Words and phrases may be noticeably distorted.
2 - The text is only readable with great difficulties. All or almost all sentences contain severe errors that make it very hard to understand.
1 - The text is unreadable. It contains mostly gibberish and random symbols, almost no words are recognizable.

If you are hesitating between 4 and 5, it is probably a 5. If you are hesitating between 2 and 3, it is probably a 2.

Note: the use of "w" instead of "v" and "=" instead of "-" are elements of historical orthography an do not count as errors.

Do not reply anything else than a number from 1 to 5, unless explicitly asked to do so.

TEXT:
{ocr_transcription}

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P     10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram