Aastate jooksul on ühisloome käigus parandatud DEA portaalis olevate perioodikaväljaannete tekstituvastust, millest on valim näiteid koondatud andmestikuks OCR tekstiparandused. Lisaks tekstiparandustele sisaldab andmestik ka parandusele eelnenud teksti ja GPT-4o mini hinnangut teksti kvaliteedile.
Andmestikku parandasid ja täiustasid TalTechi tudengid Loore Lehtmets ja Mari-Anna Meimer bakalaureusetöös „Ajalooliste eestikeelsete OCR tekstide järeltöötluse ja hindamise automatiseerimine Eesti Rahvusraamatukogu jaoks“. Töö eesmärgiks oli välja töötada lahendused ajalooliste tekstide kvaliteedi hindamiseks ja parandamiseks. Bakalaureusetöö raames valmis neli vabavaralist keelemudelit, millest kaks hindavad tekstide kvaliteeti ja kaks parandavad teksti. Mudelid on treenitud eestikeelse Llammas keelemudeli baasil. Töö käigus katsetati mitmeid meetodeid (näiteks eelistuste suunamine ja preemiamudeli metoodika) ning tulemusi võrreldi ka teiste keelemudelitega, näiteks ChatGPT-4o ja DeepSeek V3.
Bakalaureusetöö käigus valminud mudelid (kasutusjuhendid mudelite README-des):
Bakalaureusetöö GitHub-i repositoorium: https://github.com/mari-annam/estonian-ocr.
Bakalaureusetöö Hugging Face repositoorium: https://huggingface.co/mariannam.
Eesti Rahvusraamatukogu
Narva mnt 11, 15015 Tallinn
+372 630 7100
info@rara.ee
rara.ee