24.–26. novembril 2024. aastal toimus neljandat korda Viinis Austria Rahvusraamatukogu digilabori korraldatud konverents, mille seekordseks peateemaks oli „Ajalehed kui andmestikud“ („Newspapers as Datasets“). Üritusel esinesid teadlased ja spetsialistid üle Euroopa, kelle teemade fookus ulatus tehisintellektist eetikani ning suurtest ajalehti uurimisobjektina kasutavatest projektidest (näiteks NewsEye ja impresso) konkreetsete doktoritöödeni. Ettekandeid kuulates sai tõdeda, et probleemid ja katsumused on erinevates paikades, sealhulgas Eestis, sarnased.
Mitmed kõnelejad tõid välja ajalehtede OCR-i kvaliteedi ja segmentatsiooni olulisust, sealjuures tutvustati ja võrreldi mitmeid ajalehtede segmenteerimiseks loodud tööriistu, millest osad on treenitavad mudelid. Kuna enamik tutvustatud tööriistu on avatud lähtekoodiga, siis proovib digilabori tiim neid lähiajal katsetada ka segmenteerimata eesti ajalehtede peal. Lisaks tööriistadele ja meetoditele tutvustati ka kultuuripärandi andmeid koondavaid infrastruktuure (vt konkreetseid näiteid allpool olevast materjalide loendist). Välja toodi koostööna sündinud üldiseid põhimõtteid selle kohta, mida võiksid sisaldada kultuuripärandi andmestikud, et need oleksid võimalikult hästi taaskasutatavad. Doktoritööde hulgas leidus Christian Lendli uurimus Habsburgide ülemkihist ajalehe Wiener Salonblatt põhjal ning Nina Rastingeri töö loendite kohta ajalehtedes.
Ürituse kokkuvõte ja esinejate slaidid: https://labs.onb.ac.at/en/topic/symposium-2024/
Huvitavaid materjale konverentsilt:
Eesti Rahvusraamatukogu
Narva mnt 11, 15015 Tallinn
+372 630 7100
info@rara.ee
rara.ee