Aastate jooksul on ligi 500 kasutajat panustanud DIGARi tekstide korrigeerimisse ja nende pingutuste tulemusel on parandatud üle 800 000 rea. See andmestik sisaldab valikut algtekstide ja paranduste paaridest.
Andmestik koos dokumentatsiooniga asub siin: https://zenodo.org/records/13325713
DIGARi arhiivis olevad tekstiparandused salvestatakse muudatuste logidena, seega on algtekst pöördprojekteeritud, st parandatud osad algse sisuga asendatud. Tekstid on tugevalt filtreeritud. Täpsemalt on kaasatud ainult tekstiparanduspaarid, mis vastavad järgmistele kriteeriumidele:
Nende kriteeriumite abil on proovitud välistada tekste, mis on osaliselt toimetatud, milles on liiga palju numbreid, loendeid või muid mittealfabeetilisi sümboleid, või kus olulised osad on kustutatud või lisatud (sageli segmenteerimisvigade parandamiseks).
Kuna parandused on ühisloome tulemus, esineb neis vigu ja nad pole käsitletavad lõpliku tõena. Ligikaudse ülevaate saamiseks paranduste tekstikvaliteedist on nii originaal- kui ka parandatud tekstid läbinud GPT-4o mini, mis on neile määranud loetavuse skoori 1-st 5-ni. Selleks kasutati järgmist viipa:
The following is the OCR output from a digitized historical Estonian newspaper from {year}. Analyze the text placed after "TEXT" and decide if it is reasonably free of OCR errors. Return a rating on the scale of 1 to 5.
5 - The text is clear and readable. It may contain unusual spellings and use of punctuation throughout, but there are no distorted words.
4 - The text is readable, but contains some distortions of alphabetical characters. These distortions do not impede understanding the text at any given point.
3 - The text is readable with minor difficulties. Words and phrases may be noticeably distorted.
2 - The text is only readable with great difficulties. All or almost all sentences contain severe errors that make it very hard to understand.
1 - The text is unreadable. It contains mostly gibberish and random symbols, almost no words are recognizable.
If you are hesitating between 4 and 5, it is probably a 5. If you are hesitating between 2 and 3, it is probably a 2.
Note: the use of "w" instead of "v" and "=" instead of "-" are elements of historical orthography an do not count as errors.
Do not reply anything else than a number from 1 to 5, unless explicitly asked to do so.
TEXT:
{ocr_transcription}
Eesti Rahvusraamatukogu
Narva mnt 11, 15015 Tallinn
+372 630 7100
info@rara.ee
rara.ee