Hegle Pärna: kas Digar jääbki lukku?

Meediaväljaannete soov oma sisu kaitsta täiesti mõistetav, kuid küsimus on selles, milline kaitsemeede on proportsionaalne ja kuidas vältida olukorda, kus andmekaeve piiramine viib teadusliku ja kultuurilise juurdepääsu sulgemiseni, kirjutab Hegle Pärna.
Kevadest alates ei ole pääsenud Digari portaalis enam ligi Postimees Grupi, Õhtuleht Kirjastuse ja Delfi Meedia vanematele artiklitele. Tavalugeja jaoks tähendab see, et osaliselt on ajakirjanduslikud arhiivimaterjalid, mis varem olid vabalt sirvitavad, nüüd loetavad ainult valitud autoriseeritud lugemispunktides kohapeal. Põhjendus on lihtne: soov kaitsta sisu massilise andmekaeve eest, et tehisintellekti arendajatel ei oleks võimalik sisu sama vabalt koguda.
Praegu peab inimene, kes tahab lugeda osasid vanemaid Eesti ajalehti, suunduma autoriseeritud punktide poole. See meenutab aega, mil teabele ligipääs oli seotud füüsilise asukohaga. Ometi on digiajastu põhiolemus just see, et teadmised on kättesaadavad olenemata asukohast.
Selline otsus tõstatab küsimuse, kas digiajastu vastus masinliku andmekaeve probleemile peaks olema ligipääsu tagasipööramine füüsilisse ruumi. Kuigi meediaväljaannete mure oma sisu kaitse pärast on õigustatud, jääb õhku küsimus, kas praegune lahendus tasakaalustab piisavalt erinevaid huve – autori ja väljaandja majanduslikku õigust kaitsta oma loomingut ning ühiskonna õigust teadmiste ja kultuuripärandi kättesaadavusele.
Andmekaeve probleemi taustast
Iseenesest on selline probleem tuttav kogu maailmas. Erinevad tehisintellekti mudelid, nagu ChatGPT või Gemini, vajavad tohutul hulgal tekstimaterjali, mida nad sageli koguvad avalikelt veebilehtedelt ilma autori nõusolekuta ja autoritasu maksmata. Kui inimene loeb artiklit, teeb ta seda ükshaaval. Masin suudab mõne minutiga alla laadida tuhandeid lehti.
Selliselt kogutud andmete põhjal treenitakse tehisaru mudeleid, kusjuures õiguste omajad ei pruugi isegi teada, et nende looming on osa treeningandmetest. Seetõttu on meediaväljaannete soov oma sisu kaitsta täiesti mõistetav. Küsimus on pigem selles, milline kaitsemeede on proportsionaalne ja kuidas vältida olukorda, kus andmekaeve piiramine viib teadusliku ja kultuurilise juurdepääsu sulgemiseni.
Millal ja kuidas võib andmekaevet üldse takistada?
Andmekaeve ei ole iseenesest keelatud tegevus. Euroopa Liidu autoriõiguse direktiiv ja Eesti autoriõiguse seadus eristavad selgelt teadusuuringuteks tehtavat ja ärilisel eesmärgil tehtavat teksti- ja andmekaevet.
Viimase puhul on autoril või õiguste omajal õigus piirata oma teose andmekaeveks kasutamist (nn opt-out) tehniliste vahendite abil. Kui sellist välistust ei ole tehtud, võivad tehisintellekti arendajad eeldada, et avalikult kättesaadav sisu on ka andmekaeveks kasutatav.
On olemas teatud tehnilised vahendid andmekaeve piiramiseks, mis annavad otsingurobotitele ja teistele andmekoguritele juhiseid, milliseid lehti nad tohivad või ei tohi külastada ja salvestada. Kuid sellised vahendid ei ole olnud õiguslikult siduvad ning on sõltunud üksnes heausksest järgimisest.
Ka OECD 2025. aasta raport näitab, et sageli just väiksemad ja vähem läbipaistvad andmekaeve tegijad ignoreerivad autorite või õiguste omajate tehtud andmekaeve piiranguid, samas suuremad tehnoloogiaettevõtted neid üldjuhul arvestavad. Ühtlasi näeb nüüd ka Euroopa Liidu tehisintellekti määrus ette, et tehisaru arendajad peavad järgima autorite või õiguste omajate veebis tehtud teksti- ja andmekaeve välistusi.
Pikalt on räägitud ka ühtse tehnilise standardi loomisest, kuid siiani selleni ei ole jõutud vaatamata mitmetele aruteludele. Näiteks on Euroopa Komisjoni tänavu avalikkuse ette jõudnud tehisintellekti tegevusjuhendis on sellele samamoodi üksnes tähelepanu juhitud.
Lisaks viidatud tehnilisele standardile saab kasutada muid lähenemisi. Üks võimalus on n-ö autentimise või litsentsi nõue, mille eesmärk on eristada tavakasutajat masinlikust andmekogujast. Sel juhul jääb sisu avalikuks ja tavalugejale nähtavaks, kuid süsteemseks andmete kogumiseks tuleb sõlmida eraldi leping või kasutada eraldi pakutavat API-liidest.
Kolmas võimalus on ajutine juurdepääsupiirang. Selle põhimõte on, et ajakirjanduslik sisu on teatud aja jooksul kaitstud majandusliku huvi tõttu (näiteks vaid tellijatele loetav), kuid muutub seejärel vabalt kättesaadavaks. Eelnev lähenemine on mitmes Euroopa riigis kasutusel just seetõttu, et see võimaldab tasakaalustada õiguste kaitset ja avalikku juurdepääsu.
Digari juhtum näitab aga, et praegu kaldub Eestis kaalukauss pigem kaitse poolele ning tulemuseks on olukord, kus soov takistada masinlikku andmekaevet piirab ka inimeste ligipääsu.
Eesti perspektiiv
Eestis on digitaalse juurdepääsu senine praktika olnud võrdlemisi avatud ning ajakirjanduslik digisisu on olnud Digaris üldiselt vabalt loetav. Eestis võiks liikuda suunas, mis ühendab tehnilise kaitse ja avaliku huvi põhimõtted.
Siiski tuleb tunnistada, et enamik kirjeldatud tehnilistest meetmetest ei suuda täielikult takistada sihilikku ja ulatuslikku andmekaevet. Nendest on lihtne mööda minna, mistõttu pole need tegelikult kõige tõhusamaks tõkkeks.
Seetõttu on ligipääsu piiramine ajakirjanduslikule arhiivile veebis mõistetav kaitsemeede, kuid selle hind – ühiskonna võimalus õppida, uurida ja mõista minevikku – võib osutuda kõrgemaks, kui risk, mida sisu avatus ja ligipääsetavus tekitab.
Toimetaja: Kaupo Meiel




