Lennart Kitt: ka tehisaru ajastul tuleb alusandmetesse kriitiliselt suhtuda
Rehkendusoskus on andmekirjaoskuse vundament, kuid tänapäeva andmetest kubisevas maailmas on sellest oskusest vähe, kirjutab Lennart Kitt.
Kas matemaatikas pole tõesti midagi uut, kõik on ju tuhandeid aastaid tagasi kirja pandud? Tegelikult on matemaatika midagi enamat kui lihtsalt arvude kokkuleppeline süsteem. Nagu sõna tüvi viitab, on see "teadmiste õpetus" ja teadmised on pidevas muutumises. Eriti tänapäeva maailmas, kus meid ümbritseb tohutul hulgal andmeid, on oluline mõista, et matemaatika ja andmekirjaoskus ulatuvad pelgalt arvutamisest kaugemale.
Andmekirjaoskus hõlmab andmete loomist, kogumist, töötlemist ja tõlgendamist, aga ka meetodeid ning tehnilisi, õiguslikke ja eetilisi norme, mis on sellega seotud. E-rehkenduse kontekstis on see arutelu eriti asjakohane.
Arusaamise ja tõlgendamise olulisus
Matemaatika ajalugu ulatub kaugesse minevikku, kuid selle keskmes on alati olnud oskus andmetest loodud konteksti mõista ja neid tõlgendada. Näiteks võib üks protsent olla väike osa tervikust, kuid kaitsekulude kasv ühe protsendi võrra võib tähendada märkimisväärset summat. Samas moodustavad viie väikseima Euroopa Liidu riigi rahvaarvud kokku ainult üks protsent kogu liidu elanikkonnast. Kõik on konteksti ja tõlgendamise küsimus.
Oskus andmeid lugeda ei tähenda ainult keeruliste arvutuste tegemist või statistiliste mudelite rakendamist. Oluline on kriitiline mõtlemine ja konteksti mõistmine, mis aitavad eristada olulist ebaolulisest.
Valesti tõlgendatud statistika, graafikud ja mudelid võivad olla eksitavad ja viia väärate järeldusteni. Seetõttu on oluline, et andmetega töötades mõistaks inimene, mida need tegelikult näitavad, milliseid mustreid nad paljastavad ja kuidas neid saab rakendada reaalsete probleemide lahendamisel.
Et tehisaru (AI) meetodid tuginevad samuti üldjuhul matemaatilistel mudelitel, siis tuleb ka AI väljapakutud lahenduste/statistiliste seoste/prognooside puhul säilitada kriitiline meel ning meeles pidada konteksti, et väljapakutud tulem võib olla küll matemaatiliselt adekvaatne, kuid arvutil puudub tihtipeale konteksti (ja sisu) mõistmise võimekus ning lõppjäreldus võib olla väär ja viia tõsiste eksimusteni nii äris, teaduses kui ka igapäevaotsustes.
Halvad andmed = halvad järeldused
Enne kui andmeid saab sisukalt tõlgendada, tuleb tagada kvaliteetsete alusandmete olemasolu. Süstemaatiline hea kvaliteediga andmete kogumine on igasuguse sisuka andmetöötluse alus. Analüütikute tööprotsessis kulub sageli umbes 80 protsenti ajast andmete ettevalmistamisele ja ainult 20 protsenti tegelikule analüüsile ehk "ilusa matemaatika" tegemisele.
Nii tulekski andmete kogumise käigus veenduda, et tagatud oleks andmete järjepidevus, täpsus, ajakohasus ja esindavus. Igaüks neist on oluline mistahes andmetel tugineva järelduse tegemiseks.
Kui esimesed neist on küllaltki iseenesestmõistetavad, siis viimane neist, esindavus on üles kerkinud just tehisaru võimekuse kasvamise ja andme-eetika kontekstis. Seda põhjusel, et mistahes mustrite tuvastamisel ja sellest järelduste tegemisel on oluline jälgida, et alusandmed kajastaksid õiglaselt vaadeldavat olukorda ja poleks kuskile poole kaldu. Halvimal juhul võivad vildakad andmed viia ka diskrimineerivate mudeliteni.
Lisaks kvaliteedi tagamisele, on oluline ka andmetes sisalduva spetsiifika dokumenteerimine: mis täpselt andmetes kajastub, millised on võimalikud väärtused ja millised on kvaliteedinormid. Et andmetest ei tehtaks ennatlikke tagajärgedega järeldusi on Euroopa Liit asunud seda ka tehisintellekti käsitleva määrusega (AI act) suunama, asetades täiendavad kvaliteedi- ja järelevalvenormid kriitilisematele olukordadele, kus tehisaru vead võivad suurema (piirava) mõjuga olla.
Kuna teisalt jääb meist igaühest maha ka digitaalne jalajälg, siis on loomulik, et Euroopas on privaatsuse tagamiseks ellu kutsutud ka isikuandmete kaitse üldmäärus (GDPR), mis oma piirangutega sunnib põhjalikult läbi mõtlema, mis eesmärgil ja mis alusel isikuandmeid käidelda võib.
Rehkendamisoskusest andmekirjaoskuseni
Rehkendusoskus on andmekirjaoskuse vundament, kuid tänapäeva andmetest kubisevas maailmas on sellest oskusest vähe. Nagu märkisin, on analüüside tegemisel ülioluline konteksti hoomamise võime ning juba koolipingis võiks rõhku panna mitte ainult keeruliste valemite õppimisele, vaid ka praktilisele oskusele, mis võimaldavad andmeid analüüsida, visualiseerida ja tõlgendada ning näitlikustada andmepõhiseid otsuseid ja kriitiliselt hinnata nende mõju.
Samal ajal peavad analüütikud olema multitalendid, kes mõistavad andmete säilitamise, dokumenteerimise ja kontrollimise kunsti, mida tihtipeale on privaatsuse tagamiseks piiramas ka seadused.
Loen töö tõttu aastas sadade potentsiaalsete analüütikute CV-sid ja ning vestlen värbamisintervjuudel samuti kümnetega. Üha enam olen hindamas kandidaate, kelle taustast ja läbitud õppekavadest paistab läbi mitmekülgsus.
Viskan siinkohal õhku küsimuse, kas ka meie (kõige üldisemas mõttes) matemaatikute (üldharidus- või kõrgkooli tasemel) koolitajad on õppekavu üle vaatamas nii, et teooria oleks läbi põimumas praktikaga ja et tekiks terviklikum andmete maailmapildi tunnetus. Kuid ka vastupidi: kas ka teised traditsioonilised erialad, näiteks ajaloolased, juristid või arstid, saavad ülevaate, kuidas saab tänapäeva matemaatikute tööriistakohver neid aidata või mis on selle eelduseks?
Toimetaja: Kaupo Meiel