Eesti Rahvusraamatukogu andmeteadlane Krister Kruusmaa kirjutas väljaandes Postimees artikli, kui oluline on andmete kvaliteet tehistaibu ajastul ning samuti panustamine kohalikku tehisintellekti hindamise võimekusse. Artikkel sündis inspireerituna rahvusraamatukogu Digimälu seminarist tänavu märtsis.
Alustan tsitaadiga. „Pearu on Andres Tõnise naaber, kes on kirjeldatud kui aus, kuid veidi kangekaelne talupoiss. Andres ja Pearu on head sõbrad, kuid nende vahel tekib sageli ka lahkarvamusi ja konkurentsi. Näiteks võitlevad nad mõlemad sama maa-ala pärast ning Pearu püüab ka Andres Tõnise poja Indreku tüdruksõbraks saada. Pearu ei varja oma armukadedust ega viha Indreku vastu, sest tema enda tütar Mari ei saa Indrekust aru.“
Niimoodi vastab küsimusele „kes on Pearu A. H. Tammsaare teosest „Tõde ja õigus?““ sensatsiooniline juturobot ChatGPT, kes on vallandanud hirmu lausa inimkonna tuleviku pärast. Kuna tegu on salapärase ja futuristliku valdkonnaga, on avalik arutelu tehistaibu üle jäänud liialt keerlema „Terminaatori“ filmist tuttavate düstoopiliste kujutelmade ümber, kus tulevikuinimesed ellujäämise nimel tapjarobotite vastu võitlevad.
Paraku pole selline teemapüstitus kuigi mõistlik. Ehkki tehistaibu arengut saatvad filosoofilised küsimused vajavad kahtlemata vastuseid, ei tohi me unustada palju vahetumaid probleeme, mis annavad tunda ammu enne seda, kui robotid maailma üle võtavad. Nimelt mõjutab tehistaibu lahenduste levik otseselt meie keelt, kultuuri ja iseolemist.
Kõigepealt on asi mahus ja kvaliteedis
Tehisintellekt ei ole tegelikult midagi uut ning on enamiku selle mõiste definitsioonide järgi meie elu juba aastaid mõjutanud. Praegune läbimurre ei seisne mitte tehistaibu „leiutamises“, vaid teatud sorti lahenduste muutumises kvaliteetsemaks ja kättesaadavamaks, mistõttu need on tunginud üsna ootamatult inimeste argiellu.
Eriti sensatsiooniliseks on saanud ChatGPT ja selle taga peituvad GPT-perekonna keelemudelid. Ehkki tehisintellekti maailm on lai, on just keelemudelitel selles eriline koht. Kuna keelt on aastasadu peetud inimmõistuse kõige olulisemaks ja jäljendamatuks osaks, on keelemudelite hüppeline areng viimase paari aasta jooksul tulnud üllatusena ka valdkonna kõige helgematele peadele.
Siiski pole üllataval kombel praeguse edasimineku taga ühtki uut teaduslikku avastust, kuna tehisnärvivõrkudel põhinevate keelemudelite ülesehitus on püsinud juba ligi viis aastat suuresti muutumatuna. Edu on olnud kvaliteedi asemel kvantiteedis – mudelite loomiseks ehk treenimiseks on kasutatud suurusjärgu võrra rohkem andmeid ja arvutusvõimsust.
Selleks vajalike ressursside piisav kontsentratsioon on praegu saavutatud peamiselt vaid üksikutes Ameerika firmades, nagu OpenAI, Microsoft, Google, Meta jne. Ootuspäraselt on nende valida ka andmed, mille põhjal mudeleid treenitakse. Eesti Keele Instituudi keeletehnoloogide sõnul on asjaolu, et ChatGPT üleüldse eesti keelt „oskab“, seega lihtsalt juhuslik kõrvalprodukt – internetist kokku kogutud treeningandmetes juhtus lihtsalt olema piisavalt eestikeelset materjali, et mammutmudel selle nagu möödaminnes arvestataval tasemel ära õppis.
Ehkki ChatGPT rahuldav eesti keele oskus on meile justkui ootamatult sülle kukkunud kingitus, on põhjust ka muretsemiseks. Üks asi on keelemudeli võime genereerida korrektset ja ilusat eesti keelt, teine asi on aga keeles peituvad teadmised. Ülaltoodud lõik Pearust on küll anekdootlik näide (ning mudel võib mõnel muul korral toota parema vastuse), aga sobib probleemi illustreerimiseks hästi.
Nimelt viitab ChatGPT totter arusaam Vargamäe tegelastest sellele, et eesti kultuuri ja eluolu kontekstis ei tööta mudeli kõige olulisem funktsioon – maailma kohta struktureeritud teadmiste esitamine. Treeningandmed on mõistliku väljundi genereerimiseks sisaldanud lihtsalt liiga vähe eestikeelseid ja -teemalisi andmeid. Selles üldises tõdemuses on kerge omal käel veenduda nii ChatGPT kui ka veel uuema GPT-4 puhul.
Kuidas džinniga üheskoos elada
Aga miks peaks üks juturobot üldse Tammsaaret tundma? ChatGPT on hetkel ajaloo kõige kiiremini kasvava kasutajaskonnaga tarkvararakendus, millele on esimese kahe kuuga tekkinud 100 miljonit püsikasutajat – vaatamata sellele, et veel pole isegi välja lastud ametlikku mobiiliversiooni.
Tehistaibu plahvatuslik levik pole üllatav, arvestades asjaolu, et teadlikule kasutajale pakub see enneolematut ligipääsu teadmistele ja produktiivsuse kasvu. Üleskutsed arenduse peatamiseks ja Itaalia hiljutine katse ChatGPT keelustada saavad küll meediatähelepanu, aga džinni ei ole võimalik enam tagasi pudelisse suruda.
Eitamise asemel peame õppima kohanema. Meeldigu see meile või mitte, aga näiteks hariduses mõjub generatiivsete keelemudelite kasutamise keelamine juba paari aasta pärast nii, nagu kästaks inimesel guugeldamise asemel ENEKEst kasutada.
Muretsema ei peaks mitte selle pärast, et õpilased lasevad tehistaibul kirjandi luua, vaid selle pärast, et tehistaip kirjutab halbu kirjandeid. Ränioru arendajad ei pane globaalsete küsimustega tegeledes tähele, et nende mudel toodab näiteks eesti kultuuri A ja O kohta sõna otseses mõttes väärinfot. Meie jaoks on praeguses olukorras aga mitut olulist probleemi.
Esiteks ei ole eestikeelsel kasutajal praegu võimalik tehistaibust täiel määral kasu lõigata – seda ka tööturul. Teiseks ei ole tehistaibust lähiajal abi meie kohaliku elu probleemide lahendamiseks, sest olemasolevatel mudelitel puuduvad selleks vajalikud teadmised. Kolmandaks võib ChatGPT-laadsete mudelite kultuuriline kallutatus pikas plaanis osutuda väga kahjulikuks, suunates inimeste huvisid nende teemade poole, mille kohta on oodata asjalikke vastuseid.
Näiteks on usinal kooliõpilasel lihtsam analüüsida Jane Austenit või Ernest Hemingwayd kui Tammsaaret, kelle kohta käiv info on uue aja entsüklopeedias lihtsalt vigane. Ning mis siis veel rääkida välismaalasest, kes soovib Tanel Toomi hittfilmi tegelaste kohta rohkem teada.
Kvaliteetsed andmed on määravad
Mida peaks nende probleemide lahendamiseks ette võtma ja kas me üldse saame midagi muuta? Pakun välja kolm sammu, mis võiks aidata Eestil ja eestlastel saabuval tehistaibu ajastul võitjate poolele jääda.
Esiteks, vaja on kvaliteetseid eestikeelseid andmed. Väikese rahva ja keele esindajatena ei saa me jääda lootma, et meie andmed ise üles leitakse, vaid peame võtma proaktiivse hoiaku. Väikese kultuurina loome iga iga päev ainult üsna piiratud hulga andmeid ning seetõttu tuleb mõelda kastist välja.
Näiteks on meil võimalik enda teenistusse rakendada terve olemasolev eesti kultuuripärand, mis lisaks tarvilikku sügavust nüüdisaegsele, võrgus sündinud infole. Ehkki Eesti on juba praegu olnud vaimupärandi digiteerimisel eeskujulik, tuleb veelgi tempot tõsta ja uute vajadustega arvestada, keskendudes eelkõige digitud objektidest korrektsete masinloetavate tekstide kättesaamisele.
Samuti on võimalik tekstiandmeid luua teistest meediumitest, näiteks raadiosaateid automaatselt transkribeerides. Lisaks on paljud suured andmekogud praegu erakätes paroolide või maksumüüride taga, kuid võiksid treeningandmetena väga väärtuslikud olla. Andmete annetamine võiks seega saada üheks kultuuri toetamise viisiks.
Teiseks tuleb luua juurde kohalikku oskusteavet ja arendusvõimet. Sellega pole praegu otseselt halvasti – tehistaibu ja keeletehnoloogiaga tegelevatel Eesti teadlastel ja ettevõtetel ei ole mitte midagi häbeneda. Nii on ilmselt meilgi varsti oodata samasuguseid katseid nagu Islandil, kus GPT-4 islandi keele ja kultuuri paremaks tundmiseks n-ö edasi õpetati.
Paraku ei tähendaks „Eesti oma GPT“ veel seda, et inimesed võtavad kodumaise lahenduse omaks. Nagu digimaailmas tavaks, koonduvad kasutajad pigem suurkorporatsioonide ümber, kellel on ületamatu edumaa nii raha kui ka turunduse poolest. Kuna nende korporatsioonide rakendused ei ole meie kontrolli all, peame panustama kohalikku tehisintellekti hindamise võimesse.
AI peaks tingliku eksami sooritama
Suurfirmad tegelevad küll juba praegu põhjalikult tehistaibu eetilise kallutatuse testimisega, aga teevad seda paratamatult oma subjektiivsest vaatenurgast.
Mudelite sobivust meie kohalikku kultuurikonteksti ja komberuumi saame hinnata vaid me ise. Selleks tuleks humanitaar- ja arvutiteadlaste koostöös välja töötada standardiseeritud metoodika, omalaadne eksam, millega saaks hinnata ühe või teise mudeli kasutatavust näiteks Eesti haridussüsteemis või riigivalitsemises.
Ja kolmandaks, me peame tunnetama küsimuse tähtsust ja julgema vastu võtta julgeid otsuseid. Ei pea olema oraakel nägemaks, et tehistaibu tulek võib kujuneda üheks inimajaloo suurimaks tehnoloogiliseks revolutsiooniks. Kultuurina seisame seetõttu varsti silmitsi ebamugavate valikutega.
Näiteks peame otsustama, kui palju oleme ise valmis kolmandatele osapooltele oma andmeid pakkuma, selleks et turul olevatest mudelitest Eesti inimestele rohkem kasu oleks. Siin on vaja mõelda nii andmekaitsele kui ka autoriõigusele, aga suures plaanis on tegu väikerahva igipõlise dilemmaga: kas kaitsta kiivalt oma kultuuri ja riskida sellega, et jääme üksi ja unustusse, või olla võimalikult avatud, seistes silmitsi sellest tulenevate ohtudega.
Tasakaalupunkti otsides ei tohi me piirduda pelgalt globaalse debati ümberjutustamisega, vaid peame julgema omaenda vaateid sõnastada. Eestlased on varemgi astunud riskantseid samme, mille vilju me tänapäeval iseenesestmõistetavaks peame. Meie keele ja kultuuri viimine tehistaibu ja suurandmete maailma on võrreldav selliste fundamentaalsete ülesannetega nagu eestikeelse kirjasõna loomine või rahvusliku kõrghariduse ellukutsumine.
Lisaks eesti keelele ja kultuurile peame hakkama mõtlema ka eesti andmete säilimisele läbi aegade – või õigupoolest tähendavad keel, kultuur ja andmed tulevikus aina enam ühte ja sama asja. Nende hoidmisel ja väetamisel saame tänu oma digiühiskonna kõrgele tasemele endale lubada nõtkeid otsuseid. Nagu interneti ja infotehnoloogia levik lükkas 25 aasta eest eest meid oma laineharjal edasi, tuleb nüüd ära kasutada uut murdepunkti.
Julgelt tegutsedes on meil võimalus tehistaibu abil saada kultuuri ja ühiskonnana suuremaks, kui meie rahva ja emakeele kõnelejate väike arv seda muidu lubaks.
Eesti Rahvusraamatukogu
Narva mnt 11, 15015 Tallinn
+372 630 7100
info@rara.ee
rara.ee