Külli Taro: tehisaru mudelid vajavad kvaliteetset eesti keelt
Kui treenime tehisaru üksnes tasuta kättesaadava puise kantseliidiga, algelise slängi või riigikogu stenogrammide solvangutest laetud tekstiga, siis masin arvab, et nii peabki eesti keelt rääkima, leiab Külli Taro Vikerraadio päevakommentaaris.
Justiits- ja digiministeerium teatas eelmisel nädalal, et Eesti on valmis jagama eesti keele korpuse avaandmeid suurte keelemudelite arendajatega. Seepeale süüdistati minister Liisa Pakostat mitmes patus. Isegi eesti keele tasuta äraandmises.
Vähemalt näis uudis äratavat huvi keeleteaduse ja keeletehnoloogiate vastu. Kommenteerijaid oli palju, aga ma pole veendunud, et kõik sõnelejad päris hästi aru said, millest täpselt jutt käib.
Tänuväärselt selgitasid ülikoolide ja Eesti Keele Instituudi, Eesti Kirjandusmuuseumi ning Eesti Rahvusraamatukogu esindajad ühispöördumises, et tehisaru kohandamine Eestile sobivaks vajab piisaval hulgal kvaliteetseid keele- ja kultuuriandmeid. Ainus viis teha masinad eesti keelt ja Eesti meelt mõistvaks, on neid meie keeles ning meie rahvast ja kultuurist kõnelevate andmetega treenida.
Tänapäeva keeleteaduse ja -tehnoloogia aluseks on keele tekstikorpused, mille abil tehisaru mudeleid treenitaksegi. Keele tekstikorpused on süstemaatiliselt kogutud kirjalike tekstide või kõnesalvestiste elektroonilised andmekogud.
Eesti keele jaoks on korpuseid loodud alates 1990. aastate algusest. Ühendkorpuste sarja ehk mahukaimat keele kollektsiooni on Eesti Keele Instituut koostanud alates 2013. aastast. Uusim, 2023. aasta versioon sisaldab 3,8 miljardit tekstisõna, 255 miljonit lauset, 83 miljonit lõiku ja 15 miljonit dokumenti. Suure osa ühendkorpuse kogust moodustavad internetist saadud avalikud tekstid. Ehk tegemist on enamasti veebikeelega.
Keeleteadlased juhtisid ühispöördumises tähelepanu sellelegi, et suur osa juba tehisarude alusandmestikesse jõudnud keelesisust koosneb masintõlgitud tootejuhenditest, õigusaktidest ja eeskirjadest, reklaamidest või sotsiaalmeedia kommentaaridest. Seetõttu on ka praeguste mudelite keel kohati puine ja kantseliitlik. Kvaliteetseid andmeid ehk tõeliselt ilusat eesti keelt, näiteks ilukirjandust, õpikuid, teaduskirjandust või toimetatud meediasisu, on seni mudelitesse jõudnud vaid vähesel määral.
Keelemudeli treenimisel saab väljund olla täpselt nii kvaliteetne, kui on antud sisend. Seega kui treenime tehisaru üksnes tasuta kättesaadava puise kantseliidiga, algelise slängi või riigikogu stenogrammide solvangutest laetud tekstiga, siis masin arvab, et nii peabki eesti keelt rääkima.
Keelekorpusi kasutatakse tänapäeval ka sõnaraamatute koostamiseks. Viimati räägitigi eesti keele korpusest põhjalikumalt vast eelmisel aastal, kui vaieldi selle üle, kuidas järgmist õigekeelsussõnaraamatut koostada tuleks.
Õnneks jõuti siiski kokkuleppele, et päris igasugune veebis leiduv keel, mis Sõnaveebis kajastub, ei peaks olema eesti kirjakeele norm ning õigekeelsussõnaraamatut tuleks edasi teha siiski senisel viisil. Nagu keeleseadus ette näeb. Et vahet tuleb teha õigel ja valel keelekasutusel, ilusal ja koledal keelel. Ilu on keele puhul muidugi kokkuleppeline, kuid ma eelistaks, et see kokkulepe ei sünniks mitte tasuta veebisisu pinnalt, vaid rikkaliku eesti kirjakeele pärandi põhjal.
Tehisaru on juba õppimist ja töötegemist oluliselt muutnud. Tulevikus saab tehisaru kasutamine igapäevastes tegemistes olema veel suurem ning laiemale osale inimestest tavaline ja kättesaadav. Ja see, et tehisaru mudeleid treenitaks kvaliteetse eesti keelega, on eelkõige meie endi huvi, mitte Meta või mõne muu arendaja mure. Kui tahame, et noored mõtleks ja saaks igapäevaselt toimetada ilusas eesti keeles, peame tagama, et keelemudelid kasutaksid ilusat eesti keelt. Keelemudelitel on keele säilimises ja arengus äärmiselt suur tähtsus.
Märtsis ootab ees emakeelepäev ning juba sel aastal peakski ilmuma uus õigekeelsussõnaraamat. Eesti keelele ja kultuurile oleks suur kingitus see, kui jõuame kokkuleppele keelekorpuste kvaliteetse täiendamise ja kasutamise reeglites. See on vajalik, et sõnaraamatud, keelemudelid, igasugu masinad ja tehnoloogiavidinad aitaksid edaspidi levitada rikkalikku ja ilusat eesti keelt.
Kõiki Vikerraadio päevakommentaare on võimalik kuulata Vikerraadio päevakommentaaride lehelt.
ERR.ee võtab arvamusartikleid ja lugejakirju vastu aadressil arvamus@err.ee. Õigus otsustada artikli või lugejakirja avaldamise üle on toimetusel.
Toimetaja: Kaupo Meiel