OCR-i hindamise ja parandamise mudelid

Aastate jooksul on ühisloome käigus parandatud DEA portaalis olevate perioodikaväljaannete tekstituvastust, millest on valim näiteid koondatud andmestikuks OCR tekstiparandused. Lisaks tekstiparandustele sisaldab andmestik ka parandusele eelnenud teksti ja GPT-4o mini hinnangut teksti kvaliteedile.

Andmestikku parandasid ja täiustasid TalTechi tudengid Loore Lehtmets ja Mari-Anna Meimer bakalaureusetöös „Ajalooliste eestikeelsete OCR tekstide järeltöötluse ja hindamise automatiseerimine Eesti Rahvusraamatukogu jaoks“. Töö eesmärgiks oli välja töötada lahendused ajalooliste tekstide kvaliteedi hindamiseks ja parandamiseks. Bakalaureusetöö raames valmis neli vabavaralist keelemudelit, millest kaks hindavad tekstide kvaliteeti ja kaks parandavad teksti. Mudelid on treenitud eestikeelse Llammas keelemudeli baasil. Töö käigus katsetati mitmeid meetodeid (näiteks eelistuste suunamine ja preemiamudeli metoodika) ning tulemusi võrreldi ka teiste keelemudelitega, näiteks ChatGPT-4o ja DeepSeek V3.

Bakalaureusetöö käigus valminud mudelid (kasutusjuhendid mudelite README-des):

Llammas CER prediction – teksti CER (Character Error Rate ehk keskmine vigade arv tähemärgi kohta) hindaja.
Mudelile antav sisend: Kui suur protsent tähemärke sellest ajaloolisest eestikeelsest tekstist on vigane? Tagasta protsent täisarvuna.
Llammas prediction grading – OCR paranduse hindaja.
Mudelile antav sisend: Kui suur on tõenäosus, et parandatud tekst on OCR tekstist parem? Tagasta tõenäosus täisarvulise protsendina.
Llammas OCR FT-5k – OCR teksti parandaja, mida on treenitud umbes 5000 tekstinäidisel.
Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.
Llammas OCR FT-13k – OCR teksti parandaja, mida on treenitud umbes 13 000 tekstinäidisel (mille hulka kuuluvad ka sünteetilised andmed).
Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.

Bakalaureusetöö GitHub-i repositoorium: https://github.com/mari-annam/estonian-ocr, sealhulgas:

Bakalaureusetöö Hugging Face repositoorium: https://huggingface.co/mariannam.

OCR-i hindamise ja parandamise mudelid

Liitu Eesti Rahvusraamatukogu uudiskirjaga