Pakosta: eesti keele kestmiseks peame andma tehisaru hiidudele tasuta sisu
Justiits- ja digiminister Liisa Pakosta (Eesti 200) pooldab eestikeelsete andmete, sealhulgas ERR-ile kuuluva eestikeelse meediasisu tasuta andmist suurtele tehisaru ettevõtetele. Tema sõnul aitab see kaasa põhiseadusest tulenevale eesmärgile tagada eesti keele kestmine.
Neljapäeva hommikul teatas justiits- ja digiministeerium pressiteates, et Eesti andis sotsiaalmeediaplatvormi Meta kasutusse ligi neli miljardit sõna. Justiits- ja digiministeerium kutsub üles nii avalikku kui ka erasektorit avaldama andmeid, et kasvatada kvaliteetsete eestikeelsete andmete mahtu. Ütlesite selles pressiteates, et on tähtis, et suured keelemudelid arvestaksid eesti keele ja kultuuriga ning et keele ja kultuuri jätkusuutlikkuse mõttes on ülioluline, et eesti keele korpuse andmed oleksid keelemudelite arendajatele kättesaadavad. Kui palju Meta selle asja eest meile maksab?
Tegelikult meie kokkulepe ikkagi näeb välja niimoodi, et meie huvi on see, et nad neid eesti keele sõnu, lauseid kasutaksid ja et nad installeeriksid eesti keele kõikidesse oma rakendustesse. See nõuab nende poolt teatud arendusi. Meie omalt poolt arendame nii ehk teisiti edasi kõikidele teenusepakkujatele eesti keele digitaalset kasutust, kasutusvõimalust niimoodi, et see on tasuta kättesaadav. Meie huvi on see, et eraettevõtted üle maailma eesti keelt kasutaksid, peame selleks tegema üsna aktiivset tööd.
Paljudes riikides on see vaidlus üleval, et Meta ja suured Ameerika Ühendriikide digiplatvormid tegelikult varastavad meediaettevõtete sisu selle jaoks, et nende tehisaru oskaks inimeste küsimustele vastata. Tundub, et meil seda muret justiitsministril üldse ei ole.
Nüüd me räägime kahest täiesti erinevast asjast. Eesti keele sõnade just digiplatvormidel kasutamiseks loodud korpuse puhul räägime sellest, et me olemegi sellise eesti keele korpuse eraldi teinud selle jaoks, et digiplatvormides seda saaksid Eesti inimesed kasutada, et eesti keel kestaks. See ongi selle jaoks täis eraldiseisvalt tehtud. Siin me ei saa mitte mingisugusest varastamisest isegi mitte otsa pealtki rääkida, vaid vastupidi – see on selline eesti keele sõnade kogum, mida me piltlikult öeldes ise surume peale eraettevõtetele, et nad seda tingimata kasutaksid. See on riigi poolt tehtud ja tehtud selle eesmärgiga, et eesti keel oleks kasutuses.
See, mille kohta te küsisite, mis on olemasoleva, näiteks avalikult kasutatava sisu kättesaadavus tehisaru platvormidele vastuste harjutamiseks või vastusteks materjali kogumiseks. See on üks täiesti teine teema. Seal me oleme selle koha
peal praegu, et me oleme teinud ettepaneku Eesti meedialiidule arutada seda,
et missugustel tingimustel me saaksime pakkuda näiteks vanemat meediasisu tehisaru platvormidele, selleks et ikkagi seesama eesti keel elaks. Seal tuleb meil leida lahendus, kus äriettevõtete huvid on kaitstud. Teisest küljest on kaitstud Eesti inimeste huvid saada eesti keeles vastuseid ja on täidetud põhiseaduslik eesmärk, et eesti keel kestab.
Nüüd nende ärihuvide kõrval me oleme tõesti teinud ettepaneku Eesti Rahvusringhäälingule (ERR), et rahvusringhääling vaataks ka üle seda, et maksumaksja raha eest on need tekstid, mis on näiteks ERR-i uudistes kõik avalikult loetavad, et missugustel tingimustel me saaksime neid tehisarule
kasutada anda. Ühe korra on nad juba maksumaksja poolt kinni makstud. Meil on põhiseaduslik eesmärk, et eesti keel kestaks. Nüüd on küsimus, kuidas me siin selle hea lahenduse leiame. Mina küll selliseid läbirääkimisi kuidagi ei seostaks teie poolt kasutatava sõnaga.
Ma lihtsalt loen justiitsministeeriumi saadetud pressiteate lõpust, et justiits- ja digiministeerium kutsub üles nii avalikku kui ka erasektorit avaldama andmeid, et kasvatada kvaliteetset eestikeelsete andmete mahtu. Need platvormid ja tehisaru loojad on tegelikult kõige ehtsam tavaline äri, neid platvorme ilmselt tekib lähiaastate jooksul juurde kümneid kui mitte sadu. Meediaettevõtetel tekib see küsimus, kuidas riik jagab Ameerika äriettevõtetele meie kogutud andmeid.
Ma teie selle küsimuse püstitusega tegelikult ei saa kuidagi nõustuda. Esiteks, riik ei jaga neid andmeid praegu kuidagi. Ainukene asi, mida me jagame, on eesti keele korpus, mis on eesti keele sõnade kogum, mis on spetsiaalselt loodud selleks, et seda saaks digiplatvormide poolt kasutada. Mis on loodud Eesti Keele Instituudi poolt justnimelt selle eesmärgiga, et Eesti inimene saaks digiplatvorme kasutades eesti keelt kasutada ja et see eesti keel, millega talle sealt digiplatvormidelt vastu räägitakse, oleks korrektne, ilus ja tänu sellele
eesti keel üldse püsiks. See on põhiseaduslik eesmärk ja põhiseadusliku eesmärgi täitmiseks me eesti keelt kaitseme. Eesti keele kaitse sellisel kujul on üks osa sellest eesti keele kaitsest, nagu me teeme seda ka kättesaadavaks eraettevõtetele, kes näiteks kasutavad pabervarianti. Meil on Eesti Keele Instituudil mitmesuguseid tööriistu välja arendatud just selleks, et eesti keelt saaks hästi kasutada. Piltlikult öeldes ka õigekeelsussõnaraamat paberi kujul on selline tasuta tööriist, mida kasutavad nii eraettevõtted kui ka riigiasutused.
Teie küsimus selle kohta, kuidas me lahendame olukorra, kus tehisaru muudab põhimõtteliselt meie ühiskonna toimimist. Me oleme selles mõttes ju väga suure ühiskondliku pöörde juures ja selles suures ühiskondlikus pöördes me peame leidma need lahendused, kuidas eesti keel elab üle aegade ja on aktiivses kasutuses. Loomulikult tuleb selle juures arvestada kõikide osapoolte õigusi. Üleskutse sellele, et andmekogude valdajad teeksid oma materjali kasutatavaks, on üleskutse selle kohta, et iga eestikeelse andmekogu valdaja mõtleks ise läbi, missugustel tingimustel ja millisel moel saaks tema ise anda
oma materjali kasutusse. Meie tervikhuvi Eesti riigis on selles, et eesti keel kestaks ja see kestab juhul, kui tehisaru saab eesti keelt kasutada, kui ta saab eesti keelest aru, kui ta saab eesti kultuurist aru. Kui me oleme ise aktiivselt kaasa töötanud sellele, et eesti keel on tehisarus täpselt sama aktiivses kasutuses kui näiteks inglise keel või prantsuse keel. See tähendab seda, et me peamegi vaatama, milline on see õiglane kokkulepe.
Täiesti erinevas olukorras on meedia eraettevõte, kes on näiteks mingeid tekste loonud ja avalikes huvides toimiv Eesti Rahvusringhääling, kus maksumaksjad on kogu selle tekstiloome juba ühe korra kinni maksnud. Siin me kindlasti seda vahet vaatame, et see õiglane lahendus tuleks ja Eesti inimesed saaksid tehisarus eesti keelt kasutada.
Kas te siis soovitate ERR-i juhatuse esimehele, et kõik, kes tehisharu arendavad, võiksid rahulikult rahvusringhäälingu sisu kasutada?
Mina soovitan Eesti Rahvusringhäälingul läbi mõelda selle, kuidas kogu see eesti kultuur, mida tihti rahvusringhääling ju kannab ja kannab ilusas ja heas eesti keeles ja mis kõik on loodud maksumaksja raha eest. Kuidas seda panna veel paremini Eesti maksumaksjaid teenindama, kuidas panna seda veel paremini
eesti keelt ja eesti kultuuri teenindama. Juba loodud asju ei ole mõtet ka ilmaasjata oma kõhu all kinni hoida. Mis on need tingimused, kuidas tehisaru arendajad saavad Eesti Rahvusringhäälingule loodud asju, mis on juba Eesti
maksumaksja raha eest tehtud, Eesti inimesi veel paremini aitama panna.
Kui praegu näiteks Open AI-d kasutada, siis ta oskab öelda üsna palju asju Eesti kohta ja see on tegelikult märk sellest, et nad on kasutanud juba kõiki Eesti andmebaase, nii eraettevõtete kui ka riigi andmebaase, et seda asja üles ehitada. Ameerikas on mitu kohtuprotsessi praegu käimas, kus sisuliselt seesama Meta üritab tagantjärele legaliseerida seda varastamist, mida nad on teinud. Sama asi ilmselt on tulemas siin Eestis. Kas te näete, et peaks ka mingi uurimise tegema, kust need andmed pärit on, mida nad praegu kasutavad Eesti kohta, eesti kultuuri, Eesti inimeste, Eesti riigi poliitika, majanduse ja kõige muu kohta?
Jällegi. Ma ei saa taas teie küsimuse asetusega kuidagi nõustuda. Esiteks, vastupidi. Me näeme seda, et nad kasutavad äärmiselt vähe, isegi avalikke andmebaase. Ma tuletan meelde, et maksumaksja raha eest loodud andmebaasid, mis on avalikuks tehtud... Meil on ju terve portaal, kus meil on mitmesugused andmed, mida me pakumegi ka Eesti ettevõtetele tasuta kasutada. Me tegelikult tahame näha, et neid andmeid palju rohkem kasutataks.
Meil maksumaksja maksab oma palgast iga kuu osa raha selleks, et teha need andmed, mis riigi käes on ja need, mida saab avaldada, ühiseks hüveks, kasutatavaks. Me oleme loonud juba aastaid tagasi ka avaliku portaali, ühe keskse portaali, kus me kõikidele ettevõtetele, sealhulgas ka Eesti ettevõtetele, neid andmeid pakume. See on meie aktiivne huvi, et Eesti elaks edasi ja tänasel päeval me peame aktiivselt töötama selle nimel, et Eesti elaks edasi ka digimaailmas. Et eesti keel, eesti kultuur ja andmed elaksid seal edasi.
Kui te küsite seda, et tegemist on justkui vargusega, siis teiselt poolt töötab päris palju ametnikke selle nimel, et aktiivselt pakkuda Eesti kohta käivaid andmeid
eri platvormidele, et nad neid kasutaks. See ei ole sugugi niimoodi, et eriti suured ettevõtted, viitsiks sellega tegeleda, et pisikese Eesti kultuuri kohta käiv, pisikese eesti keele kohta käiv, oleks nende arendustes sees. Selleks me peame tegelikult ise vaeva nägema.
Nüüd siin on hästi oluline koht tõepoolest see, mis on see osa andmetest, mis on kontrollitud riigi poolt, mis on teada, et see ei sisalda mingeid delikaatseid andmeid, vaid sisaldabki neid andmeid eesti kultuuri kohta või Eesti riigi kohta, mida me tahamegi, et teised kasutaksid. Ja mis on siis Eesti ettevõtete käes, eraettevõtete käes olevad andmed, mille kohta iga Eesti ettevõte ise otsustab,
kuidas ta neid jagab.
Selles on väga suur põhimõtteline vahe. Ühel juhul me oleme maksumaksjatena selle info kokku koondanud, meil on ju terved asutused, mis tegelevad Eesti kohta käiva info levitamisega, näiteks turismi eesmärgil. Me rahastame Eesti turismiteenuseid pakkuvaid ettevõtteid selleks, et nad paneksid oma andmed tehisarule kättesaadavaks, sest paljud turistid täna koostavad oma reisiplaane
tehisaru abiga. Kui Eesti hotell või ka näiteks turismitalu ei ole oma andmeid pakkunud tehisarule, siis ta jääb sellest turust ilma. Me oma maksumaksja raha kasutame muuhulgas ka selleks, et aidata Eesti, näiteks turismiteenuseid pakkuvatel ettevõtetel, oma andmeid tehisarule pakkuda. Nii et see huvi on tegelikult ikkagi väga suur, et Eesti elaks edasi ka selles tehisaru maailmas.
Kolmapäeval te kohtusite Meta esindajatega Kesk- ja Ida-Euroopas. Kui teie uksele koputab Deepseeki esindaja Hiinast, kas te siis võtate ka vastu ja kas ka neile peaks jagama neid andmeid ja kutsuma üles Deepseekile neid
andmeid andma?
See on väga hea küsimus. Ma kindlasti kohtuksin. Aga me tegelikult vaatame ikkagi seda, mis on need riigid, kellega meie väärtushinnangud on sarnased,
mis on vabadustele ehitatud riigid ja kus ka meie õigusruum on sarnane.
Neid riike me vaatame ikkagi ühtemoodi, neid riike, kus meie õigusruumi väärtushinnangud ei ole nii sarnased, me vaatame teistmoodi. See on päris selge.
Meta AI ei ole praegu Eestis saadaval.
Toimetaja: Aleksander Krjukov