Tavast: keelemudeli arendajad ei soovi eesti keele korpust isegi tasuta

Kuigi Eestis on tekitanud ärevust teema eesti keele andmete pakkumisest tehisaru arendajatele, siis praegu veel muretsemiseks põhjust pole: AI kompaniid eesti keele koondkorpusest absoluutselt ei huvitu, sõnas Eesti Keele Instituudi (EKI) juht Arvi Tavast.
Tavasti sõnul on keelemudelite treenimisest rääkimisel üks probleeme, et see on nii uus valdkond, et seda ei ole õigusaktides reguleeritud. Näiteks kas keelemudeli treenimine on teadustöö või ei ole, ehk kas talle laieneb teadustöö teksti- ja andmekaeve erand (tasuta kasutamise õigus - toim.).
"Reguleerimata küsimustele aga ei saa ka juristid õiguslikult siduvaid vastuseid anda. Lõpliku vastuse annab ainult kohtupraktika, seda on aga väga vähe. Euroopast on teada üks kohtuotsus, mille kohaselt see on küll teadustöö ja treenimiseks tohib võtta andmeid ilma algse autori loata. Kuid oleks vaja rohkem kohtupraktikat, soovitavalt Euroopa Kohtust," rääkis Tavast.
Tavast rääkis, et Eesti keelekorpuse andmebaas on EKI koostatud ja sellele on EKI andnud allikale viitamist nõudva litsentsi, kuid korpuses sisalduvad teosed seevastu on endiselt oma algsete autorite omad ja nende autoriõigust ei ole nende korpusse lisamine kuidagi muutnud.
"Kui nüüd keegi peaks tahtma kasutada andmebaasis olevaid teoseid, näiteks neid uuesti avaldada, siis neid õigusi ei mõjuta EKI kuidagi, see on autoriõiguste omaja ja andmete kasutajate vaheline asi," sõnas Tavast.
"Ei ole mingit vahet, kas kasutaja võtab teose EKI andmebaasist või avalikust veebist - ebaseaduslikult kasutada ei tohi kummalgi juhul," lisas ta.
AI arendajad eesti keelest ei huvitu
Tavasti kinnitusel suured rahvusvahelised AI arendajad EKI keelekorpustest andmeid seni võtnud ei ole.
"Eesti riik on alates aastast 2020 nii ametnike kui ka poliitikute tasemel vaeva näinud, et parandada eesti keele esindatust suurtes keelemudelites, sealhulgas üritanud suuri arendajaid ära rääkida kasutama meie korpuseandmeid. Seni edutult. Ka Meta ametlik vastus meie andmete pakkumisele on siiani olnud - aitäh, me väga hindame teie pakkumist, aga nende andmete kasutamine pole pragu meie prioriteetide hulgas," sõnas Tavast.
Üks põhjus on see, et eesti keele turg on nii väike.
"Näiteks Mistral AI vastas, et tegeleb kõigepealt keeltega, millel on rohkem nõudlust. Teiseks on AI arendajatel lihtsam neid andmeid ise internetist koguda ehk crawl'ida. Meie võtame avalikest allikatest ja ka nemad võtavad sealt, ainult nende võimsus selle tegemiseks on märgatavalt suurem. Neil on niipalju lihtsam võtta kogu internet, sõltumata sellest, mis keeled seal on või kellele need andmed kuuluvad, ja treenida selle peal," rääkis Tavast.
Tegelikult on Tavasti sõnul keelemudelite arendajate huvi hoopis mujal - neil oleks vaja inimese käsitsi koostatud ekspertandmeid selle kohta, milline maailm on. Seda EKI-l neile kahjuks pakkuda pole.
Isegi kui õnnestuks AI arendajaid eesti keele vastu huvi tundma panna, siis Tavasti sõnul keegi neist maksma küll midagi ei hakkaks.
"Loota, et keegi hakkaks maksma korpuse andmebaasis sisalduvate tekstide eest, on täiesti ebarealistlik. Neil pole isegi tasuta midagi tarvis meie käest. Pealegi on seesama treeningmaterjal nende jaoks ju niikuinii tasuta veebis saadaval. Neil ei ole mingit motivatsiooni selle eest maksta. Pigem peaksime meie neile maksma selle eest, et nad meile mudeleid treenivad," selgitas Tavast.
Mis saaks aga siis, kui peaks juhtuma, et eesti keele korpuse andmed siiski keelemudelite arendajaid huvitama hakkavad?
Eesti autorite ühingu juht Mati Kaalep ütles, et kokkuleppeid on võimalik teha igasuguse tekstilise sisu asjus, vaadata tuleb aga seda, kes on õiguste omanikud ja nendega siis tingimused läbi rääkida.
"Kuna keelekorpuste arendajatele on oluline tihtipeale just tekstimass, siis peakski alustama esimesena suurt massi omavatest osapooltest," sõnas Kaalep.
Kaalepi sõnul oleks kõige loogilisem, kui turuosalised saaksid teha omavahel otsekokkuleppeid.
"Kui kui näiteks Meta või OpenAI tahab kasutada tekstiandmeid, näiteks meediamajade tekste, siis peaks olema võimalik neil vastavate meediamajadega kokkulepped otse teha," sõnas Kaalep.
Kuna autoriõiguste valdkond on Eestis justiitsministeeriumi pädevusalas, siis peaks ministeerium Kaalepi sõnul mõlema poole kokku tooma ja vajadusel nende suhtlust koordineerima. Kaalepi hinnangul on ministeerium proovinud küll digipoolt arendada, kuid õiguste omajad samaväärset tähelepanu pole saanud.
6. veebruaril ütles justiits- ja digiminister Liisa Pakosta (Eesti 200), et pooldab eestikeelsete andmete, sealhulgas ERR-ile kuuluva eestikeelse meediasisu tasuta andmist suurtele tehisaru ettevõtetele. Tema sõnul aitab see kaasa põhiseadusest tulenevale eesmärgile tagada eesti keele kestmine. Mõned päevad varem oli Pakosta kohtunud Meta esindajaga.
Toimetaja: Mari Peegel