Tartu Ülikooli ja Tallinna Ülikooli teadlased ning Eesti Kirjandusmuuseumi ja Eesti Rahvusraamatukogu esindajad märgivad ühispöördumises, et kui tehisaru eesti keelt ja meelt hästi ei mõista, läheme paratamatult ingliskeelsele kultuuriruumile üle. Tehisaru kohandamiseks Eestile sobivaks on ainus viis seda piisava hulga eestikeelsete ning meie rahvast ja kultuurist kõnelevate andmetega treenida.

Äsja pälvis meediatähelepanu justiits- ja digiminister Liisa Pakosta avaldus, et Eesti peaks jagama keeleandmeid suurte tehnoloogiaettevõtetega meie keele ja kultuuri tuleviku tagamise eesmärgil. Ehkki Eesti andmete jagamine tehisaru õpetamise eesmärgil on olnud esil juba mõnda aega, laitsid selle pärast Pakosta poolt välja ütlemist kiiresti maha nii suuremate päevalehtede juhtkirjad kui ka poliitikud ja meediaorganisatsioonide esindajad.

On tervitatav, et eesti keele ja kultuuri kestmise küsimus tehisaru ajastul on viimaks pälvinud laiemat tähelepanu. Samal ajal näib Eesti olevat jõudnud olukorda, kus tehnoloogia arenguga kaasas käimine on takerdunud jäikade seaduste ja erinevate huvigruppide vastuseisu taha.

Hea ja meie väärtustega kooskõlas tehisaru vajab kvaliteetseid keele- ja kultuuriandmeid, kuid nende autorid ja valdajad ei soovi neid jagada. Ometi oleks hästi toimivast tehisarust lõpuks kasu kõigile.

Kui kokkulepet ei leita, võib pikemaajaline patiseis tähendada majanduslangust ja keele hääbumist. Käesoleva pöördumise eesmärk on osutada teema kriitilisusele, täpsustada meie ees olevate probleemide iseloomu ja pakkuda välja mõned mõtted, kuidas Eesti riik ja ühiskond võiks neid lahendada proovida.

Milles seisneb probleem?

Paari aasta eest alanud tehisaru läbimurret veavad eest suured keelemudelid, mille loomiseks on vaja tohututes kogustes keeleandmeid ehk teksti, kallist riistvara, elektrienergiat ja suure hulga ekspertide kontsentreeritud tööpanust. See on nii ressursimahukas protsess, et Eestis ei ole tipptasemel keelemudelite nullist loomine hetkel isegi mõeldav.

Keelemudeleid õpetatakse mujal maailmas peamiselt ingliskeelsete andmete põhjal, mida on kõige rohkem saadaval. Eesti keele osakaal praegu populaarsete mudelite treeningandmetes on heal juhul suurusjärgus 0,1 protsenti. Kuna enamik inimesi puutub generatiivse tehisaruga kokku vaid üksikute tipptasemel rakenduste kaudu (nt ChatGPT), võib tekkida mulje, et eesti keel ja kultuur on tehisaru arenguga iseenesestmõistetavalt kaasas. Tegu on eksiarvamusega mitmel põhjusel.

Esiteks valdab heal tasemel eesti keelt vaid käputäis keelemudeleid. Pea kõik need on eraettevõtetele kuuluvad nn kinnised mudelid, mille kasutamine nõuab andmete töötlemist ettevõtte serverites ning on suurema mahu korral tasuline. Paljude asutuste jaoks on selliste teenuste kasutamine juba eos välistatud kas andmekaitsenõuete tõttu või turvakaalutlustel. See piirab oluliselt Eesti ühiskonna võimalusi tehisarust kasu lõigata. Teenusepakkujad võivad piirata juurdepääsu ka juriidilistel (nt Euroopa Liidu seadused) või poliitilistel põhjustel, mis jätaks Eesti tehisaru kasutamisest sootuks kõrvale.

Teiseks ei tähenda eesti keele oskus tehisaru puhul veel Eesti ühiskonna ja eesti kultuuri tundmist ega meie väärtushinnangutega joondumist. Rahvusvahelised teadusuuringud on näidanud, et keelemudelid võivad väikestes keeltes olla ebakvaliteetsemad või isegi ohtlikud – näiteks suurema tõenäosusega luua valet, sobimatut või diskrimineerivat sisu. See probleem on eriti terav näiteks hariduses, kuna praegu kasutavad nii õpilased kui ka õpetajad rakendusi, mille arusaamad ja teadmised ei pruugi ühtida ühiskonna ootustega.

Kolmandaks on oluline mõista, et suurfirmad nende meile oluliste küsimuste pärast tõenäoliselt ise muret ei tunne.

Praeguste parimate mudelite eesti keele oskus ja teadmised Eestist on pigem juhuslik kõrvalsaadus, mis tuleneb andmemassiivides sisalduvast eestikeelsest juhuslikust sisust. Samuti ei kontrolli suurfirmad oma toodete kvaliteeti ega ohutust eesti keeles. Kuna seda ei tehta suurfirmadega võrreldavas mahus ka Eestis, puudubki praegu süsteemne ülevaade sellest, millised mudelid eesti kultuuriruumis üldse kasutuskõlblikud on.

Kultuuriandmete tark kasutamine

Eelnevat arvestades on justiits- ja digiministri initsiatiivi üldine suund hädavajalik, sest tegutsemata on tõepoolest oht, et eesti keel ja kultuur jäävad tulevikus vaeslapse rolli. Tehisaruga saab võimestada väga erinevaid tegevusvaldkondi ja teenuseid, aga kui häid eestikeelseid mudeleid pole, jääb paratamatult majanduslikult mõttekaks lahenduseks üleminek mõnele teisele keelele.

Ilma automatiseerimiseta konkurentsivõime langeb, kuid ilma heade andmeteta häid mudeleid ei saa. Samuti tähendab ebakvaliteetsete keelemudelite rakendamine igapäevastes toodetes ja teenustes seda, et laieneb vigase eesti keele kasutus ja laiemat kõlapinda saavad võõrad väärtushinnangud.

Teisalt on mõistetav ka valulik vastureaktsioon andmete tasuta jagamisele mõnele suurfirmale, mis võib esmapilgul paista läbimõtlematu ja kahjulikuna. Nõustume, et see peab olema põhjendatud ja arvestama andmete loojate ja omanikega.

Samas on vajalik mõista, et kui andmete jagamine välistada, ei ole ka põhjust eeldada, et eesti keele kvaliteet ja kultuuriteadmised keelemudelites tõusevad. Samuti ei pruugi soovitud tulemust anda vaid avatud mudelitele panustamine, sest viimaste eelistest hoolimata on tõenäoline, et laiatarbe-kasutus jätkub kinnistel kommertsmudelitel.

Sarnane on olnud näiteks operatsioonisüsteemide, meiliteenuste, kontoritarkvara ja sotsiaalmeedia saatus, mille kõigi puhul on lõviosa turust suurkorporatsioonide valduses.

"Jutt käib palju suurematest mahtudest kui neli miljardit sõna, mis on keelemudelite treenimisel pigem tagasihoidlik."

Arutelu andmete jagamisest vajaks täpsustust, millistest andmetest on jutt. Ehkki eesti keele nähtavus veebis on meie rahvaarvu kohta üks maailma parimaid, on keelemudelite treenimiseks vajamineva teksti kogus inimesele hoomamatu.

Isegi kogu olemasolevast digitaalsest eestikeelsest tekstist ilmselt ei piisaks, et luua nullist vaid eesti keele põhine tipptasemel keelemudel. Ainus viis tagada, et mitmekeelsed mudelid valdaksid ka eesti keelt, on lisada vastavatesse andmekogumitesse piisavalt heal tasemel omakeelset sisu. Jutt käib palju suurematest mahtudest kui neli miljardit sõna, mis on keelemudelite treenimisel pigem tagasihoidlik.

Ülioluline on ka andmete kvaliteet. See osa eestikeelsetest andmetest, mis on juba praegu leidnud tee tehisarude alusandmestikesse (ülaltoodud ~0,1 protsenti), ei koosne peamiselt ilma loata hangitud ajakirjandustekstidest, vaid pigem masintõlgitud tootejuhenditest, õigusaktidest ja eeskirjadest, reklaamidest, kommentaaridest sotsiaalmeedias jne. Sellest ka praeguste parimate mudelite kohati puine ja kantseliitlik eesti keel.

Tõeliselt kvaliteetsed andmed – näiteks digiteeritud raamatud, päevakajalised õpikud, teaduskirjandus ja hoolikalt kureeritud meediasisu – on praegustesse mudelitesse tõenäoliselt jõudnud vaid vähesel määral. Sellised andmed, mis on kirjutatud sadade tuhandete üksikautorite poolt, on praegu peamiselt riigi- ja erameedia väljaannete omandis ning rahvusraamatukogu digiarhiivis.

Tehisaru õpetamiseks ei piisa aga vaid mudeli eeltreenimiseks kasutatavatest tekstiandmetest, mille ümber on arutelu seni keerelnud. Lisaks nendele on kvaliteetse tehisaru jaoks vaja ka spetsiifilisemat sorti tekstiandmeid, mida kutsutakse juhisteks ja eelistusandmeteks. Sisuliselt on tegu näidistega sellest, kuidas peaks käituma mudel, mis on keele üldtõed juba omandanud.

Nende andmetega õpetatakse mudelit vastama kontekstitundlikult ja soovitud stiilis ning avardatakse mudeli "silmaringi". Võrreldes eeltreenimisandmetega on selliseid andmeid vaja mitme suurusjärgu võrra vähem, kuid need peavad olema loodud suures osas käsitsi. Praegu selliseid tehisaru õpetamisel hädavajalikke eestikeelseid näidiseid veel ei eksisteeri.

Eesti rahva, keele ja kultuuri kestmise tagamine tehisaru ajastul peab olema riiklik prioriteet ning tuginema läbimõeldud otsustele. Oluline on mõista probleemi pakilisust, kuid samuti hoolitseda, et arvestatud oleks kõigi osapooltega.

Vaja on selget strateegiat selleks, et vältida eesti keele ja kultuuri unarusse jäämist tulevikutehnoloogias. See ei tohiks piirduda vaid keelemudelite ja tekstiandmetega, vaid peaks juba eos hõlmama ka audiovisuaalseid ja muid andmeid, mis edaspidi tehisarude arendamisel samavõrd olulised on.

Lahenduste suunas

Visandame ka ühe potentsiaalse viisi, kuidas saaks kasutada eesti rahva ja kultuuriga seotud andmeid vastutustundlikult, aga tõhusalt. Esmalt oleks vaja panustada senisest rohkem ja süstemaatilisemalt olemasolevate mudelite eesti keele, rahva ja kultuuri tundmise hindamisele.

See nõuab vastavate testide disainimist, mis hindavad tehisaru puhul teadmisi ja oskusi, mis meie, eestlaste, jaoks on olulised (piltlikult võib neid võrrelda kodakondsuseksamiga). Nende testide tulemused peaksid olema avalikult kättesaadavad ja pidevalt uuenevad, et otsustajad oskaksid tehisaru kasutuselevõtmisel langetada teadlikke valikuid.

Samal ajal oleks tarvis võimalikult terviklikku ülevaadet sellest, millised eesti rahva ja kultuuriga seotud andmed meil üldse kasutada on ning teha pingutusi nende korrastamiseks ja juurde loomiseks. See tähendaks digikogude kvaliteedi tõstmist, et suurendada kvaliteetsete andmete mahtu, aga ka läbirääkimisi nende ettevõtete ja esindusorganisatsioonidega, kes loovad oma tegevuse käigus uusi andmeid, eeskätt tekste. Lisaks peaks võimaldama kõigil oma tekste ja muud sisu loovutada sarnaselt geenivaramule või kõnekorjele, sest meie keeleruumi väiksuse tõttu on iga sõna arvel.

Ülevaate loomise järel oleks võimalik eesti rahva ja kultuuri kohta käivad andmed jaotada kaheks osaks. Esimene osa koondaks n-ö vabakasutuses andmeid, millele ei kehti autorikaitse ja muud piirangud. Nende hulka peaksid kuuluma ka eestikeelsed juhised ja eelistusandmed, mida võiks koguda ühisloomena. Seda osa andmetest tuleks võimalikult aktiivselt levitada, sealhulgas ise eraettevõtetele pakkuda.

Teine osa andmetest koosneks kvaliteetsetest ja terviklikest, kuid juurdepääsupiiranguga andmetest. Nende andmete kasutamist võiks võimaldada vaid hoolikal kaalumisel ja valitud osapooltele, kelle tegevusest võrsub Eestile otsest kasu (näiteks avatud keelemudelite õpetamiseks Eestis ja Euroopa Liidus).

Sellise andmekogu koostamine eeldab, et ühe laua taha jõuaksid riik, mäluasutused, meediamajad, kirjastused ja teised suurte keele- ja kultuuriandmete loojad ja hoidjad, et saavutada kõiki osapooli rahuldav kokkulepe.

Viimaks tasub õppida teistelt ja leida koostöövõimalusi. Maailmas leidub juba praegu häid näiteid sellest, kuidas väikerahvad on oma keele ja kultuuri nähtavust suurendanud. Näiteks Island pakkus oma keelandmeid OpenAI-le, kusjuures neid esindas selles küsimuses vastne Maarjamaa Risti kavaler, toonane Islandi president Guðni Jóhannesson. Norras aga tegeleb norrakeelsete avatud mudelite loomisega sealne rahvusraamatukogu, kes on sõlminud andmete kasutamise osas kahepoolsed kokkulepped nii kirjastajate ühingu kui meediamajadega.

Ka Eesti peaks olema nende tarkade väikerahvaste reas ja näidata eeskuju teistelegi, sest tegu ei ole ainult Eesti probleemiga ning väikekeelte ja -kultuuride käekäik tehisaru ajastul on küsimärgi all ülemaailmselt.

Eestil on võimalik võtta endale eestkõneleja roll ja töötada välja rahvusvaheline mudel, mis tagab väikekeelte ja -kultuuride kestlikkuse ka digitaalses tulevikus. Selleks on vaja tegutseda kiiresti, kuid läbimõeldult, teadvustades endale, et eesti keele staatuse võib tulevikus määrata meie suutlikkus tehnoloogia arenguga kaasas käia.

Eleri Aedmaa, Eesti Keele Instituut, keeletehnoloog

Tanel Alumäe, Tallinna Tehnikaülikooli kõnetehnoloogia kaasprofessor

Mark Fišel, Tartu Ülikooli keeletehnoloogia professor

Meelis Friedenthal, kirjanik, Tartu Ülikooli raamatukogu ja mõtteloo kaasprofessor

Tõnno Jonuks, Eesti Kirjandusmuuseum, teadusdirektor

Klaus Jõgi, Eesti Kirjandusmuuseum, IT-valdkonna juht

Andres Karjus, Tallinna Ülikooli tehisaru ja digihumanitaaria lektor

Raivo Kolde, Tartu Ülikooli terviseinformaatika kaasprofessor

Krister Kruusmaa, Tallinna Ülikooli tehisaru ja digihumanitaaria külalislektor, Eesti Rahvusraamatukogu andmeteadlane

Meelis Kull, Tartu Ülikooli tehisintellekti professor, Eesti tehisintellekti tippkeskuse juht

Sulev Reisberg, Tartu Ülikooli terviseinformaatika teadur

Kairit Sirts, Tartu Ülikooli keeletehnoloogia kaasprofessor

Marek Tamm, Tallinna Ülikooli kultuuriajaloo professor

Tanel Tammet, Tallinna Tehnikaülikooli rakendusliku tehisintellekti professor

Ardi Tampuu, Tartu Ülikooli tehisintellekti lektor

Jaak Vilo, Tartu Ülikooli bioinformaatika professor

Martin Öövel, Eesti Rahvusraamatukogu peadirektor