OCR-i hindamise ja parandamise mudelid

Aastate jooksul on ühisloome käigus parandatud DEA portaalis olevate perioodikaväljaannete tekstituvastust, millest on valim näiteid koondatud andmestikuks OCR tekstiparandused. Lisaks tekstiparandustele sisaldab andmestik ka parandusele eelnenud teksti ja GPT-4o mini hinnangut teksti kvaliteedile.

Andmestikku parandasid ja täiustasid TalTechi tudengid Loore Lehtmets ja Mari-Anna Meimer bakalaureusetöös „Ajalooliste eestikeelsete OCR tekstide järeltöötluse ja hindamise automatiseerimine Eesti Rahvusraamatukogu jaoks“. Töö eesmärgiks oli välja töötada lahendused ajalooliste tekstide kvaliteedi hindamiseks ja parandamiseks. Bakalaureusetöö raames valmis neli vabavaralist keelemudelit, millest kaks hindavad tekstide kvaliteeti ja kaks parandavad teksti. Mudelid on treenitud eestikeelse Llammas keelemudeli baasil. Töö käigus katsetati mitmeid meetodeid (näiteks eelistuste suunamine ja preemiamudeli metoodika) ning tulemusi võrreldi ka teiste keelemudelitega, näiteks ChatGPT-4o ja DeepSeek V3.

Bakalaureusetöö käigus valminud mudelid (kasutusjuhendid mudelite README-des):

  • Llammas CER prediction – teksti CER (Character Error Rate ehk keskmine vigade arv tähemärgi kohta) hindaja.
    Mudelile antav sisend: Kui suur protsent tähemärke sellest ajaloolisest eestikeelsest tekstist on vigane? Tagasta protsent täisarvuna.
  • Llammas prediction grading – OCR paranduse hindaja.
    Mudelile antav sisend: Kui suur on tõenäosus, et parandatud tekst on OCR tekstist parem? Tagasta tõenäosus täisarvulise protsendina.
  • Llammas OCR FT-5k – OCR teksti parandaja, mida on treenitud umbes 5000 tekstinäidisel.
    Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.
  • Llammas OCR FT-13k – OCR teksti parandaja, mida on treenitud umbes 13 000 tekstinäidisel (mille hulka kuuluvad ka sünteetilised andmed).
    Mudelile antav sisend: Paranda vead selles eestikeelses OCR tekstis.

Bakalaureusetöö GitHub-i repositoorium: https://github.com/mari-annam/estonian-ocr.

Bakalaureusetöö Hugging Face repositoorium: https://huggingface.co/mariannam.

Liitu Eesti Rahvusraamatukogu uudiskirjaga

    AVATUD
    RaRa väike maja
    E-R 10—20
    L 12—19
    P Suletud

    RaRa saatkond Solarises
    E-P 10—19
    KONTAKT

    Eesti Rahvusraamatukogu
    Narva mnt 11, 15015 Tallinn
    +372 630 7100
    info@rara.ee
    rara.ee

    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram