TTÜ teadlane: Eesti võiks tehisaru arendajatega koostööd teha
Eesti meediaorganisatsioonid ei ole andnud nõusolekut jagada teiste riikide tehisaruettevõtetega oma sisu, kuid justiitsministeeriumi poolt USA firmale Meta antavate andmete seas on ka avalikest meediatekstidest kogutud sõnu.
Justiitsministeeriumi poolt Facebooki emafirmale Meta üle antavad eesti keele korpuse andmed on küll avalikult kättesaadavad, kuid seni on neid peamiselt kasutanud keeleuurijad.
Korpuse abiga on võimalik jälgida keele muutumist või uurida sõnade esinemiskuju kindlas kontekstis. Sinna on kogutud võimalikult palju avalikke tekste, sealhulgas maksumüürita artikleid.
"Keelekorpuses ongi terviktekstid, aga nad ei ole tavakasutajale selliselt kättesaadavad, et seda saaks lugeda nagu tavalist kodulehte või Wikipediat," sõnas EKI tänapäeva eesti keele osakonna juht Sirli Zupping.
Praegu on eesti keele korpuses neli miljardit sõna, kuid aasta lõpuks soovitakse see neljakordistada. Perioodikast, mille alla kuuluvad ka meediatekstid, on kogutud pea poolteist miljardit sõna.
Tallinna tehnikaülikooli vanemlektori Ago Lubergi sõnul peaks loomulikult arutama, milliseid andmeid ja kellele kasutada anda. Kindlasti ei tohiks loovutada tundlikku infot, kuid meediatekstide peale tasuks mõelda.
"Ma ei näe põhjust, et miks me peaksime siin väga palju vastu puksima, et iseasi on nüüd see, et kas meediaorganisatsioonid tunnevad ennast kuidagi ebaõiglaselt kohelduna, et see on selline poliitiline küsimus võib-olla kokkuleppe mõttes," ütles Luberg.
Luberg lisas, et teaduse vaatevinklist pole eesti keele korpuse andmete üleandmine sugugi halb. Tehnikaülikool näiteks kasutab Meta mudeleid ja praegu on seal eesti keel kehv. Lubergi hinnangul tuleks tehisaruga seoses rongi peale hüpata kohe. Vastasel juhul jääme sellest maha ja meie õpilased hakkavad kaasaegseid rakendusi kasutama ingliskeeles.
"Kuna Meta konkreetselt teeb oma mudelid avalikuks, siis ma ei näe ka seda probleemi, et me annaksime oma andmed kuhugi ära ja pärast peame hakkama nende eest maksma, et neid saaks kasutada. Muidugi on küsimus, kas anname OpenAI-le või mõnele muule sarnasele asutusele," ütles Luberg.
Lubergi sõnul on teisedki riigid tehishiidudega andmeid jaganud. Oluline on kokkuleppe sisu, mis on Eesti puhul veel segane.
Toimetaja: Mari Peegel
Allikas: AK