Tavast: keelekorpuse kasutustingimused on kõigile samad, Metal pole eelist
Keelekorpuse andmete kasutamisel ei ole Meta mingil moel eelisseisundis, sest tingimused on kõigile samad, ütles Eesti Keele Instituudi (EKI) direktor Arvi Tavast. Tema sõnul on aga raske öelda, kellele üldse keelekorpuse andmed kuuluvad.
Eelmisel nädalal kohtus justiits- ja digiminister Liisa Pakosta sotsiaalmeediaplatvormi Meta esindajatega, et arutada muu hulgas ettevõttele eesti keele korpuse andmete andmist. Tegu on mahuka andmekoguga, mida kasutatakse keele uurimisel, kirjeldamisel, aga ka keeletehnoloogias.
Eesti keele instituudi juht Arvi Tavast rääkis Vikerraadio saates "Uudis+", et keelekorpusesse koonduvad kõik tekstid, mis on digitaalsel kujul saadaval, kuid neid on vaja palju rohkem, kui neid praegu saada on, mistõttu nähakse aktiivselt vaeva, et sinna tekste juurde leida. Kõike, mis internetis leidub, sinna lisada ei saa.
"Saadavus seisnebki selles, et ta oleks kõigepealt digitaalsel kujul üldse olemas, siis, et ta oleks tehniliselt kättesaadav ja siis, et tema litsentsitingimused oleksid sobivad," selgitas Tavast.
Kellele keelekorpuse andmed kuuluvad, on Tavasti sõnul huvitav küsimus, millele tema mittejuristina vastata ei oska.
"See on keeruline olukord, mis on tekkinud, mille tehnika on tekkinud pärast seda, kui kogu juriidiline regulatsioon on paika pandud. See tähendab, et see regulatsioon ei ole kuidagi saanud kajastada praegust olukorda," tõdes ta.
EKI haldab, kuid ei oma korpust
EKI direktori sõnul on korpus andmebaas, mis ei ole otseselt selle osade summa. See tähendab, et kui andmebaasis on autoriõiguste, isikuandmete kaitse või konfidentsiaalsusega piiratud tekste, siis käivad need piirangud selle konkreetse teksti kohta. Korpuse kui terviku kohta on veel eraldi piirangud. Seejuures ei ole EKI keelekorpuse omanik.
"Haldamine on võib olla selle kohta täpsem sõna. Meie tegeleme sellega, et koordineerime selle kogumist. Me ei ole mitte alati kõike ise kogunud, sellega alustas Tartu Ülikool aastal 1998 ja praegu on keeletehnoloogia korraldus Eestis selline, et eesti keele instituut koordineerib seda. Muu hulgas jagab selle kohta välja rahastust ja korpuse kogumine on üks nendest töödest, mida Eesti keeletehnoloogia riikliku programmi raames tehakse," rääkis Tavast.
Tingimused, mille alusel keelekorpuse andmeid kasutada saab, pannakse paika riiklike programmide ja arengukavadega ning need tingimused on EKI direktori kinnitusel kõigile ühesugused.
"Meta ei ole mingil kombel eelisseisundis, pigem vastupidi," ütles ta. "Siin on kaks teemat, esiteks see, kas sinna müüakse ja lihtne vastus on, et ei müüda. Ei ole niisugust mehhanismi, kuidas riik saaks neid andmeid müüa. Teine asi on see, et "andis üle" kõlab niimoodi, nagu andjale endale poleks midagi jäänud, umbes et ta andis ära. Midagi sellist tehtud ei ole. Need andmed on kättesaadavad kõigile, kes vastavaid teenuseid arendavad".
Tavasti sõnul tahaksid nad tegelikult eelistada kohalikke arendajaid. Valeks peab ta aga eeldust, nagu saaks Meta EKI keelekorpusest mingisuguse väärtuse, sest olukord on vastupidine.
"Me oleme koos justiits- ja digiministeeriumiga näinud aastaid vaeva, et veenda Metat, et ta nõustuks võtma neid andmeid, et nende mudel paremini eesti keelt räägiks. Müümisest ei ole seal küll kohe kuidagi juttu, sest pigem on niimoodi, et meie saame sealt väärtust," ütles ta.
Tavast tõi välja, et Meta tehisintellekti eelarve on sel aastal 60 miljardit dollarit ehk peaaegu kolm korda suurem kui Eesti riigieelarve, mis tähendab, et EKI ise ei saaks mitte mingil juhul samasugust tööd endale ise lubada.
"Me ei saa panna kolme riigieelarvet ainuüksi keelemudeli treenimise peale. See tähendab, et kui Meta selle meie eest ära teeb niimoodi, et me saame ka tulemust kasutada, siis see on äärmiselt kasulik eesti keele ja kultuuri säilimise seisukohalt," usub ta.
Üle poole keelekorpuse sisust pärineb ajakirjandusest
Tavast ütles, et Meta on hea näide selle poolest, et arendab avatud mudelit, samas kui paljud teised arendavad suletud mudelit. See tähendab, et kui Meta võtab keelekorpuse andmeid, siis saame ise sealt selle mudeli vastu, samas kui andmeid võtaks sealt mõne suletud mudeli arendaja, siis sealtmudelit vastu ei saaks.
Tavasti sõnul on umbes 60 protsenti keelekorpuse sisust pärit ajakirjandusest, ülejäänu koosneb aga väga paljudest allkorpustest, millest üks suuremaid on õigusaktid, sealhulgas EL-i õigusaktid, millele autoriõigus ei kohaldu.
"Samuti ei kuulu autoriõigusega kaitstavate teoste hulka ka päevauudised, näiteks. Ülejäänud osa koosneb väga mitmesugusest materjalist. Igasugused foorumikommentaarid, teadustööd, ilukirjandus. Sisuliselt kogu see materjal, mis eesti keele kohta olemas on," selgitas instituudi juht.
Keelekorpust eristab internetist vabalt võetavatest andmetest tema sõnul see, et korpus on märgendatud - iga sõna kohta on seal öeldud, mis sorti sõna see on ja kuidas lauses käitub ehk sellega on tehtud suuremat sorti teadus- ja arendustööd.
"Varem oli niimoodi, et keele uurimiseks või keeletehnoloogiliste rakenduste tegemiseks oli see märgendus vältimatu. Tehniline areng, mis nüüd päris paari viimase aastaga on toimunud, on see, et suured keelemudelid ei vaja seda teadustööd sinna ette vältimatult, vaid nad õpivad vahetult nende tekstide pealt, mida tõepoolest on võimalik internetist lihtsalt leida," selgitas Tavast.
Suured arendajad nagu Chat GPT on tema hinnangul näinud tõenäoliselt palju rohkem eestikeelset teksti, kui EKI keelekorpuses sisaldub.
Tavasti sõnul vajab see valdkond ühiskondlikku kokkulepet ja seepärast on selle erialaga tegelevatel inimestel hea meel, et teema on lõpuks laiemat tähelepanu leidnud. Ta lisas, et eesmärk on jätkata selgeksrääkimist nii, et ühest küljest saaksime eesti keelt rääkiva ja eesti meelt toetava tehisintellekti ja teisest küljest ei oleks kellegi õigused kuidagi riivatud.
Toimetaja: Karin Koppel
Allikas: "Uudis+", intervjueeris Lauri Varik