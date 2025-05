Hetkel töötab justiits- ja digiministeerium välja seadusemuudatust keeleandmete tehisarumudelite arendamiseks andmiseks. Kui kaugel see protsess on?

Eesti keelt masinatele kasutamiseks sobivasse lahendusse panemisega on tegelikult Eestis tegeletud üle kümne aasta. Ja väga hea, et on tegeletud. Nüüd, kus tehisaru areng on ülikiire ja kus näeme, et ka väikesed lapsed juba kasutavad tehisaru oma telefonides, on see ülioluline, et eesti keel oleks igal pool kättesaadav ja eesti keelt kõikvõimalikud tehisarumudelid maailmas kasutaksid.

Selleks, et see kõik kokku jookseks on haridus- ja teadusministeeriumi haldusalas eesti keele mudel ja eesti keele mudeli õiguslike aluste paremaks või läbipaistvamaks tegemisega pakume abi justiits- ja digiministeeriumi poolt, sest meie kõigi huvi on, et eesti keel kestaks ja ta kestab ainult siis, kui masinad ka seda keelt räägivad, seda keelt mõistavad ja meie kultuuri mõistavad.

Õigusliku suurema selguse loomine ei tähenda suuri põhimõttelisi muudatusi, sest tegelikult Euroopa Liidus teadus- arenduserand selgelt kehtib. Küsimus ongi selles, kas ütleme õigusselgelt välja, et tehisaru saab teadus-arenduserandit kasutada, nii nagu see on Euroopa Liidus üldiselt ette nähtud – ehk kõikidel avalike interneti tekstide valdajatel on võimalik peale panna keeld, et ma ei taha, et tehisaru minu asju loeb. Sellisel juhul tehisaru neid ei saa kasutada.

Teine variant on see, et keeldu peal ei ole – sellisel juhul ei ole vahet, kas seda internetis saadaolevat teksti loeb pärisinimene või tehisaru.

Kas lootus on, et see peaks põhinema EKI keelekorpusel? Keelekorpusest suur osa põhineb meediaväljaannetel, kellel on olnud küsimusi, kuidas ja mis alustel neid rahvusvahelistele suurettevõtetele oma mudelite treenimiseks antakse. Kuidas te sellele lähenete?

Eesti Keele Instituudi keelemudel on algusest peale tehtud niimoodi, et ta oleks ilma tasuta kasutatav. Meie eesmärk on, et võimalikult paljud seda kasutaksid. Selleks me oleme kasutanud maksumaksja raha, sugugi mitte vähe, et eesti keelest selline mudel teha. See ei ole nii, et kui keelemudel avada, siis sealt vaatabki vastu "Tõde ja õigus". Seal on võimalik vaadata nii, et on mingi sõna, näiteks "ajaleht", ja siis toob tehisarule sobival moel see keelemudel välja, millistes lausetes on üldiselt Eestis kasutatud sõna "ajaleht", millistes kontekstides seda kasutatud on. Kõige selle pealt saab tehisaru omakorda vastata inimesele, kes tehisarust midagi küsib. Ehk loogika on selles, et täiesti vabavaralisena arendatud eesti keele mudeli eesmärk on ikkagi see, et maailm eesti keelt kasutaks, et eesti keel välja ei sureks. Kui masinad seda ei kasuta, siis paraku teame varasemate tehnoloogiliste muudatuste näidetest, et eesti keel välja sureks ja seda tahame ära hoida, me tahame, et eesti keel kestaks üle aegade.

Eesti Keele Instituut koos ülikoolidega on kasutanud erinevaid võimalusi ja väga pikki aastaid seda mudelit kokku pannud. See, mida praegu vaatame on see, kuidas edasisteks tegevusteks oleksid need õiguslikud alused selgemad ja kuidas terves Euroopa Liidus vastu võetud lähenemised aitaksid Eestis meediamaju, autoreid nii, et õigusselgus oleks suurem.

See ei ole praegu ka nii, et keegi saab võtta piltlikult ERR-is ilmunud 1995. aasta loo ja selle terviktekstina maha müüa. Seda ei saa teha ei tehisaru, ei tehisaru arendajad ega ka muud osapooled, kes sellest võiksid üleüldse huvitatud olla.

Mis on need õiguslikud alused, mis täpsustamist vajavad? Hetkel Eesti seadusandlus otseselt keele jagamist ei piira, aga ei ole ka neid kohti, mis seda otseselt lubaks. Milline see seadusandlus praegu välja näeb ja milline on ootus tulevikuks?

Tõesti, Eesti seadustes midagi sellist, mis keelaks või piiraks keelemudeli senist arendamist tegelikult ei ole. Aga ootus on suurema õigusselguse järgi, see tähendab lihtsustatult ühiskondlikku otsust, et jah, seda Euroopas juba kehtivat teadus-arenduserandit me näeme Eesti õiguses hästi selgelt kehtivana, oleme otsustanud piltlikult öeldes, et tehisaru on sarnane teadlasele, kes teksti loeb ja sellest omakorda sünteesib uued teadmised või uued vastused.

Kuidas me eristame teadus- ja arendustegevust kommertskasutusest? Ütleme, et lubamegi andmed ühe tehisaru mudeli treenimiseks, aga kui mõned aastad hiljem hakatakse sellega tulu teenima, kuidas see piiratud on?

Autoritel võib olla hirm, et kui keegi on kirjutanud romaani, see võib olla avalikult kättesaadav, aga tehisaru või seda arendav firma võiks selle romaani uuesti tulu teenimiseks välja anda. See on ka täna ühemõtteliselt keelatud ja jääb keelatuks. Autorikaitsega kaitstud teostest kommertstulu teenimine ei ole ka täna ilma autori loata lubatud.

Kui me räägime eesti keelest, siis see koosneb lausetest, sõnadest, grammatikast, aga ka kultuurikontekstidest. Ehk millises kontekstis me ühte või teist sõna kasutame. Kui tehisaru kasutab näiteks lõiku mingist tekstist, et aru saada, millises kontekstis eestlased sõna "ajaleht" tavaliselt kasutavad, ja ta vastab näiteks lapse küsimusele, milliseid ajalehti Eestis ilmub, siis ta sõna sõna järel analüüsib seniseid sõna "ajaleht" kasutamise juhtusid avalikes tekstides, mis piltlikult öeldes tehisarul kasutada on. Kui tehisaru sellele küsimusele vastab, siis ta käib läbi näiteks terve rea eesti keelemudelis olevaid lauseid, kus on juttu sellest, misasi on ajaleht, mis kontekstis me sõna ajaleht kasutame, vaatab avalikke allikaid juurde, et milliseid ajalehti siin ilmub, ja vastab siis lapsele, et Eestis ilmuvad paberkujul sellised ja sellised ajalehed.

Ta täna liiga täpselt sellele ei pruugi vastata, sest tal on Eesti materjali liiga vähe, aga see vastus tehisaru poolt on samasugune vastus, nagu vastaks inimene, kes on kõiki neidsamu materjale lugenud. Sest inimene ka mõtleb välja uue vastuse seni loetu põhjal ja annab selle vastuse. Ehk vastus omakorda ei ole identne autori poolt loodud teosega, piltlikult öeldes see ei ole "Tõe ja õiguse" uustrükk.

Kui vaatame praegust seadusandlust, siis ka näiteks raamatute tsiteerimisel, piltide kasutamisel on piirangud, neid saab kasutada motiveeritud mahus. Kas sellised regulatsioonid on tehisarule ka laiendatavad või on seal teistsugused aspektid, mida peab kaaluma?

Selles mõttes on tehisaru lähenemine kaunis sarnane mõtlevale inimesele. Kui keegi sooviks "Tõe ja õiguse" välja anda justkui tsitaadi nime all, aga tegelikult raamatuna, mis tsiteeriks kogu romaani, siis see ei ole täna lubatud ei inimesele ega tehisarule. Aga tehisaru käest küsida "Tõest ja õigusest" meeldejäävaid mõtteid või tsitaate erinevate raamatutegelaste poolt, siis neid tsitaate, ma pole küll kontrollinud, tehisaru tõenäoliselt ikkagi pakub. Täpselt samamoodi kui inimese käest seda küsida, kes näiteks ettekannet peab kuskil, vestleb teise inimesega, ajaleheartikli kirjutamise jaoks ettevalmistusi teeb, sellisel juhul ta seda ju ka "Tõest ja õigusest" välja otsida saab, parimad meist loevad peast ette ja kasutada saab üksnes piiratud määral ka edasi. Tervikteksti ei tohi tehisaru edasi müüa.

Me siin räägime praegu ainult eesti keelest ja keelel põhinevatel tehisaru mudelitest, nagu ChatGPT, aga ma eeldan, et see seadus ja vajalik seadusemuudatus, kõik, mis seda hõlmab, on ikkagi veidi laiem ala. Mis on veel need valdkonnad, mida see puudutab Eesti riigi avalikke andmeid vaadates. Kus sellist muudatust vaja oleks?

Päris kindlasti me ei räägi ainult ühest seadusemuudatusest. Meil on töös terve pikem analüüs, kuidas me üldse Eesti riigis paremate teenuste osutamiseks andmeõigust saame selgemini tõlgendada ja mis on vaja muuta.

Me oleme esimeste arutelude põhjal üsna lähedal sellele, et väga palju on lahendatav selgema tõlgendamise abil, nii et uut seadusnormi välja töötada ei olegi vaja, vaid vaja on rohkem seda tõlgendamist ühtlustada. Teiseks tõenäoliselt ikkagi on mingeid muudatusi ka vaja. Selleks, et tehisaru kasutada, eriti tundlike isikuandmete analüüsimisel näiteks, on kindlasti vaja seadusesätteid ja neil tuginevaid regulatsioone uuendada.

Ma toon lihtsa näite. Inimene kasutab näiteks spordikella ja see spordikell teeb inimese enda kohta terve rea ülevaateid: kui kiiresti ta käib, kuidas süda lööb ja nii edasi. Ja nüüd, kui inimene soovib neid andmeid jagada oma arstiga, siis täna ka need alused vajavad veidi selgemat lähenemist, et kuidas see kõik toimuda saaks nii, et arst saab omakorda tehisaru ja andmeid paremini kasutada. Aga me saame kõik aru, et sellest on inimesel endal ainult võita. Tegelikult need andmed, mis inimese kohta on, kui need on väga hästi hoitud, väga turvaliselt reguleeritud, siis nende eesmärgipärasel kasutamisel, sealhulgas ka tehisaru abil, saab tehisaru inimese tervise osas teatud tähelepanekuid teha, mis siis koostöös arstiga annavad inimesele terve oma elu, pikema elu ja parema enesetunde. Aga see kõik nõuab läbipaistvust, reegleid, turvalisust ja inimeste kaitset kuritarvituste vastu.

Ehk konkreetselt mingit uut suurt seadust plaanis ei ole, plaanis on kogu valdkonda puudutav pakett läbi analüüsida, leida need kohad, kus on mingisuguseid täiendusi vaja? Kuidas see protsess hetkel kulgeb, mingi osa on praegu kooskõlastusel?

Meil on väljatöötamiskavatsus kooskõlastusringil, mis juba puudutab seda tehisaru kui piltlikult öeldes mõtlevat teadlast. Aga see on alles algus ikkagi. Kui me vaatame kasvõi praegu lõpusirgel olevat koalitsioonileppe mustandit, siis see teema on mahukas. Koalitsiooniläbirääkimistel oli meil kaks pikka kaasamisarutelu, üks andmete teemal ja teine tehisaru teemal. Juba see näitab, et me tunde ja tunde arutasime ja sõnastasime Eesti riigile täpsemaid ülesandeid. Koalitsioonileppes on palju ridu konkreetsete tegevuste kohta, mida selles asjas teha vaja on.

Kui see kõik lühidalt kokku võtta, siis on ta nii, et me eesti keelt ja kultuuri tahame hoida ja selleks on vaja teha terve rida tegevusi. Me tahame ka paremini kasutada andmeid inimeste paremaks teenimiseks ja inimeste paremaks aitamiseks. Ka selleks on terve rida tegevusi ja osad nendest tegevustest vajavad kas siis õigusruumi analüüsi või mingisuguseid juba konkreetsemaid muudatusi.

Samal ajal me ikkagi jätkame ka ju tööd vastavalt Euroopa Liidu õigusele ehk Haridus- ja Teadusministeeriumi vastutusalas olev Eesti Keele Instituut oma eesti keele korpuse arendamisega tegeleb selgelt lubatud määras edasi.

Põhimõtteliselt käivad need jupid jooksvalt analüüsist läbi ja ei ole konkreetseid tähtaegu, et näiteks järgmiseks aastaks peab mingisugune tehisaruga seotud valdkond reguleeritud olema?

Koalitsioonileppes on ma arvan vähemalt kümmekond rida, mis tehisaru ja andmete küsimusi puudutab ja seal on igal rea ikkagi tähtaeg taga. Pilt on tõesti suur ja lai, ka kogu aeg muutub. Kui nüüd kellelgi on ootus, et meil oleks väga detailselt teada, mis täpselt tehisaru valdkonnas toimub kahe aasta pärast, siis meil on teatud eeldused, mis seal võiks toimuda, aga me oleme valmis ka kiirelt muudatusi tegema, kui mingid uued arendused, uued võimalused või ka uued ohud peale tulevad.

Euroopa Liidu tehisaru maailmajao kava tuli ju alles 7. aprillil välja, ja see on põhimõtteliselt uus ambitsioon. Saada parimaks tehisaru maailmajaoks. Ja me Eestis tahame olla selle maailmajao parimad, et meie inimestel ja ettevõtetel oleks kõige parem.

Senikaua me lähtume üldpõhimõtetest. Autorite õigused on kaitstud. Eesti keel ja eesti kultuur on hoitud. Meie väikese rahvana eesti keelt ja kultuuri aktiivselt pakume kogu maailma tehisarule – ja seda tulebki aktiivselt pakkuda, sest loomulikku huvi on väga vähe või tegelikult pole üldse. Ning kolmandaks kõik, mis puudutab siis inimeste andmeid, see tuleb endiselt, endistviisi lahendada nii, et inimeste andmed ei tohi olla kuskil ripakil. Et inimeste andmed on väga hästi väga küberturvaliselt hoitud ja kaitstud ja inimene on ise oma andmete osas ka nii-öelda kontrollija ja järelevaataja.

Ma saan aru, et hetkel on fookuses Euroopa praeguste tavade ülevõtmine Eesti seadusesse?

Meie olemegi Euroopa. Meil on otsekohalduv määrus. Selle üle vaieldakse ka teistes riikides, et kuidas sellega ikkagi juuksekarva täpsusega on. Kõige muu hulgas on ikkagi suurema õigusselguse loomine see, millega me tegeleme. Mitte niivõrd, et me teeme täiesti mingeid uusi lahendusi.

Ehk et ei oleks seda kohta, et keegi ei keela ega keegi ei luba ka.

Jah, pigem, et õigusselgust oleks rohkem. Kuna määrus kohaldub otse, siis ta põhimõtteliselt Eestis kehtib. Aga jällegi, kuidas see siis ikkagi täpsemalt on ja kuidas sellega paremini saab – nii nagu ka riigikogu arutelust tuli välja, siis tegelikult sellest esmasest arutelust tuli ju ka meediamajadele justkui üllatusena see, et opt-out võimalus olemas on. Ja nii palju, kui me teame, siis, siis osad seda nüüd ka rohkem kasutama hakkasid. Et tegelikult see regulatsioon üldiselt on olemas, võib-olla sellest ka on teatud vähem või mingite nüanssidega on nagu vähem tegeletud. Aga nüüd on läinud juba kõik paremaks ja läheb edaspidi veel paremaks ja selgemaks.

Suur küsimus tekkis kohtumisest Metaga. Kas meil on koostöö üldse nende platvormidega, kas nad tunnevad huvi?

Ei tunne huvi kahjuks. Ka seda konkreetset Meta kohtumist olid ju ametnikud ette valmistanud üle aasta, et üldse kohtumist saada. Ja eesti keel – me oleme siiski pool Hamburgi linna kogu oma rahvaga kokku. Me oleme nii pisikesed, et me ei paku erilist huvi, eesti keel on meie enda huvi. Sarnaselt näiteks Islandile. Aga ka võtame näiteks Poola, kes meist oluliselt suurema rahvana ka väga jõuliselt tegeleb sellega, et Poola keel ja kultuur oleks tehisarus hästi kasutatud ja esil. Siin on vaja ikkagi väikeste keelte hoidjatel ja arendajatel, väga-väga suurt tööd ja aktiivsust, et kõike seda meie kultuuririkkust ka lastelastelastele pakkuda.

Kui kellelgi on illusioon, et kuskil Ameerikas istuvad ettevõtjad, kes on tohutult huvitatud nende töötundide kinnimaksmisest, et need kulutada selleks, et eesti keel integreerida oma lahendustesse ja nad tohutult tahavad oma raha sellele kulutada, siis kahjuks see ei vasta tõele. Me peame ise väga aktiivsed olema, et neid asju pakkuda ja sõna otseses mõttes ikkagi nagu toppida, et eesti keel ja kultuur kestaksid.