Remi Sebastian Kits: Aivar Voog eksib reitingute baastõdedes

Emori maikuu reitingukommentaarides tegi uuringuekspert Aivar Voog neli väidet, mis lähevad vastuollu uuringumetoodika baastõdedega, kirjutab Remi Sebastian Kits vastukajas ERR-i veebisaate "Otse uudistemajast" reitingute erisaatele.
Mais avaldasid kolm uuringufirmat erakondade toetusnumbrid, mis nägid välja vastandlikud: Turu-uuringute järgi möödus Keskerakond selgelt Isamaast, MTÜ Ühiskonnauuringute Instituudi ja Norstati järgi kasvas hoopis Isamaa edu, Emor jäi nende vahele.
ERR-i portaali igakuises reitingute erisaates, kus esitatakse Emori tulemusi, oli seekord ligi kolmandik saatest pühendatud just nende erinevuste lahkamisele. Peamine asjatundja oli Emori uuringuekspert Aivar Voog. Just selliste erinevuste sisuline lahtiseletamine ongi eksperdi ülesanne: kui palju neist tuleneb metoodikast, kui palju tegelikust arvamuste muutusest ja kus jooksevad andmete piirid.
Mitu saates kõlanud Voogi selgitust ei lähtu aga parimast teaduspraktikast ja eksitavad vaatajat. Erinevustele pakutakse usutavalt kõlav põhjus, ilma et tegeletaks tegeliku metoodikaga. Toon välja neli kõige probleemsemat väidet ja vaatan need üle uuringumetoodika baastõdede valguses.
Aivar Voog: "Telefoni teel on eripära, et seal inimesed vastavad palju lihtsamalt "Ei oska öelda" erakonna eelistuse küsimusele. See võib olla 15–20 protsenti kõrgem. Juba see määrab ära, et mõned valijagrupid jäävad sellepärast välja. Osa jääb sellepärast välja, et nad ei taha vastata ja osad sellepärast, et nad vastavad hästi lihtsalt "Ei oska öelda". See tähendab, et kui telefoniküsitluse osakaal on suurem, siis seda "Ei oska öeldat" tuleb sinna rohkem. Kui sa selle elimineerid, siis seda suurem seltskond jääb välja."
Voog kirjeldab kõrgemat "ei oska öelda" (EOÖ) osakaalu telefonis kui telefoniküsitluse puudust: kui see kõrgem osakaal eemaldada, jääb suurem hulk inimesi küsitlusest välja, ning madalam EOÖ veebis annab tema sõnul puhtama tulemuse. Küsimus on selles, mida see osakaal tegelikult tähistab. Hääletamiseelistuse küsimuse juures ei ole see müra, see on info nende inimeste kohta, kelle puhul pole kindel, kas ja kuidas nad hääletavad.
Emor ei mõõda valimisaktiivsust. Nende metoodika järgi esitatakse vastajale eelistuse küsimus, "ei oska öelda" vastanud jäetakse kõrvale ja toetus arvutatakse ülejäänute pealt. Vastajalt ei küsita (või vähemalt sellega reitingus ei arvestata), kas ta üldse hääletama läheks, ning aktiivsust ei modelleerita ka teisiti. Ainus samm, mis eristab valijaskonda kõigist valimisealistest kodanikest, on EOÖ-vastuste eemaldamine.
Viimasel kahel riigikogu valimisperioodil on Emori andmetes EOÖ olnud umbes 13 protsenti, nii et tulemus arvutatakse ligi 87 protsendi pealt ja seda koheldakse valijaskonnana. Tegelik aktiivsus Eestis elavate kodanike seas, keda küsitlus hõlmab, oli 2023. aastal ligikaudu 69 protsenti (610 299 häält ligi 887 000 kodaniku kohta; ametlik 63,7 protsenti sisaldab ka välismaal elavaid valijaid, kes uuringute sihtrühma ei kuulu).
Lõhe on ligi 17 protsendipunkti ja see ei jaotu ühtlaselt, kuna mittehääletajad erinevad hääletajatest vanuse, rahvuse ja piirkonna poolest (Ida-Virumaa 53,3 protsenti, Raplamaa 77,6 protsenti) ning erakonna tulemuse otsustab sageli see, kui hästi ta oma toetajad just nendes gruppides hääletama toob.
Veeb suurendab viga veelgi. Paneeli sattumine ei ole juhuslik, see eeldab nõustumist nii liitumise kui ka iga üksiku uuringuga, mis eelistab aktiivsemaid inimesi. Samu, kes ka hääletavad. Meie uuringutes on suurimad veebi ja telefoni erinevused püsivalt valimisaktiivsuse ja kultuurisündmustel osalemise küsimustes, mis mõlemad mõõdavad omaalgatuslikku kaasatust.
Sama topeltfilter surub kokku ka erinevused aktiivsete ja passiivsete valijarühmade vahel. 2023. aasta veebruari lõpus tehtud suures veebiuuringus ütles end valima minevat 70 protsenti 18–24-aastastest ja 83 protsenti kõigist vastajatest. Tegelik valimisaktiivsus oli neis rühmades ligikaudu 49 protsenti ja 69 protsenti.
Tasemete vahe pole siin peamine, sest välja öeldud kavatsus ületab tegelikku käitumist igas režiimis. Otsustav on rühmadevaheline suhe, veebis oli keskmine vastaja noorimast rühmast 1,2 korda aktiivsem, tegelikkuses 1,4 korda. Samal ajal tehtud telefoniuuringus ütles end valima minevat 46 protsenti noortest ja 64 protsenti kõigist, suhe 1,4, umbes sama, mis valimistel.
Telefon tabab vähem kaasatud osa, kes nii kavatseb harvemini kui ka hääletab harvemini, mistõttu üldtase jääb madalamaks, ent rühmadevaheline suhe püsib õige. Veeb eksib lisaks tasemele ka struktuuris, see kujutab madala aktiivsusega rühmi keskmisele lähemal, kui need tegelikult on.
Kui reiting valimisaktiivsust ei modelleeri ja tugineb veebile, kandub see struktuurne viga otse tulemusse: madala aktiivsusega rühmade eelistused saavad suurema kaalu, kui neil valimispäeval on. Tulemuseks on süstemaatiliselt kallutatud reiting, milles näiteks noorte või ka vene rahvusest valijate puhul on nende aktiivsus (ja aktiivse bloki eelistused) ülehinnatud.
Madalam EOÖ ei ole seega täpsuse võit, see tuleneb eelkõige valimi koosseisust, vähemal määral veebivormi survest, ja sellele lisandub otsus jätta valimisaktiivsus üldse hindamata.
EOÖ ja kõhklejate osakaal on Emori ülesehituses ainus kaudne aktiivsusnäitaja ning Voog käsitleb selle madalust kvaliteedimärgina, kuigi see tuleneb metoodika piirangust ja viitab otseselt andmetes esinevale fundamentaalsele probleemile. Mõõdetakse fantaasiamaailma, kus ideaalis on kõigil arvamus, mitte tegelikkust, kus esinduslik valim peab esindama ka reaalseid otsuseid ja esimene otsus on alati see, kas inimene üldse valima läheb.
Aivar Voog: "Telefon ei ole enam kõige parem meetod küsitlemiseks just sel aastal suurenenud kelmuste ja pettuste tõttu. Kui me oleme vaadanud oma telefoniküsitlusi, siis vastamismäär on selges langustrendis. Sa ei saa kätte kõiki, osa ignoreerib totaalselt, kui sulle võõras number helistab. Seoses telefonipettustega on vastamismäärad langenud. /-/ Me oleme leidnud, et veeb annab palju adekvaatsema tulemuse, kuna veebis tunnevad inimesed ennast turvalisemalt, ja siis tuleb objektiivsem pilt."
Petu- ja robotkõnede laine eksisteerib ja telefoniküsitluste vastamismäär on kõikjal langenud. Pew Research Centeris vastas 1997. aastal umbes kolmandik valimist, 2010. aastateks alla kümnendiku ja 2018. aastaks kuus protsenti ning üks põhjus ongi automaatkõnede laine, mida aetakse segi pettusega.
Probleem on järelduses. Madalam vastamismäär ei tähenda iseenesest vähem täpset ega vähem esinduslikku tulemust. Pew on neidsamu madala vastamismääraga telefoniküsitlusi korduvalt riiklike registritega võrrelnud ja leidnud, et enamiku näitajate puhul jääb erinevus keskmiselt paari protsendipunkti piiresse.
Suur metoodiline ülevaade 59 uuringust (Groves ja Peytcheva) leidis, et vastamismäär ennustab tulemuse kallutatust väga halvasti. Lühidalt öeldes ei riku see, et vähem inimesi vastab, tulemust ära. Meie endi tellitud uuringutes on osalusmäär püsinud kolm aastat stabiilselt umbes kaheksa protsendi juures ja intervjueerijate töö maht pole märgatavalt muutunud, mis räägib vastu ka väitele, et meetod on murdumas.
Tegelik küsimus ei ole telefon versus veeb, vaid see, kuidas valim kokku pannakse. Meie uuringutes olevad telefoninumbrid genereeritakse juhuslikult üle kogu numbrivahemiku blokkidena ja põhimõtteliselt võib valituks osutuda igaüks, sõltumata sellest, kas talle küsitlused meeldivad. Veebipaneel töötab vastupidi, inimene liitub kõigepealt paneeliga ja otsustab seejärel iga üksiku uuringu juures eraldi, kas osaleda. See kahekordne valik täidab paneeli just nende ühiskondlikult aktiivsemate ja kaasatumate inimestega, kes ise osaleda tahavad.
Just see, mitte vastamismäär, on suurem oht. Rahvusvaheline võrdlus (Yeager, Krosnick jt) leidis, et juhuvalimiga telefoniküsitlused olid veebipaneelidest järjekindlalt täpsemad ja, mis olulisim, et lihtne demograafiline tasakaalustamine seda viga ei paranda. Just sellele tasakaalustamisele Emori reiting tuginebki. Veebipaneeli andmeid on võimalik tugeva statistilise modelleerimisega kasutuskõlblikuks muuta (mida ma koostöös Ühiskonnauuringute Instituudiga mh teen), kuid pelk kvootide järgi kaalumine seda ei tee.
Tähtis on olla aus selles, et ka telefoniküsitlus kaldub aktiivsemaid inimesi mõnevõrra üle esindama, seda näitavad needsamad Pew uuringud. Enesevalik teeb selle kalde aga suuremaks ja just kaasatuse mõõtmise juures, mille kaudu erinev valimisaktiivsus valimistulemuse otsustab.
Voog peab nähtavat ja dramaatilist probleemi, petukõnesid, määravaks ning jätab vaiksema ja suurema probleemi, kes enesevaliku tõttu üldse paneeli satub, kõrvale. Madal vastamismäär tõstab vea riski, kuid ei murra küsitlust. Enesevalik on sügavam oht ja seda on tema eelistatud meetodis rohkem.
"Ehk küsitlusviga arvestades võis Keskerakonna toetus olla ka Isamaast ees (22,7 protsenti versus 21,3 protsenti). Emori uuringuekspert Aivar Voog resümeeribki, et selline vahe Isamaa ja Keskerakonna toetuses pole statistiliselt oluline." ("Kui palju erinevad kolme uuringufirma küsitlustulemused?", ERR)
Liikudes korraks saatest kõrvale, tasub peatuda uuringufirmade küsitlustulemustest kõneleval artiklil. Loo üldine mõte, et kolme firma tulemused ei ole pealkirjade põhjal nii vastandlikud, kui veapiire arvestada, on omaette õige: eri valimitest pärit hinnangud kattuvad vea ulatuses. Probleem on kitsamas, Voogile omistatud väites Emori enda küsitluse kohta, et Isamaa ja Keskerakonna vahe selle sees on "sisuliselt võrdne" ehk statistiliselt ebaoluline. See järeldus tugineb veale.
Loos põhjendatakse seda nii, et kahe erakonna veapiirid kattuvad, Keskerakonnal võiks olla 22,7 protsenti ja Isamaal 21,3 protsenti, seega ümber pööratud. Kuid see eeldab, et mõlemad tabavad korraga oma vahemiku vähem tõenäolist vastasotsa. Tegu ei ole 50:50 olukorraga. Selle asemel saab küsida: kui tõenäoline on, et Keskerakond on tegelikult Isamaast ees? Emori enda andmetest arvutades on see vaid 7,5 protsenti. Teisisõnu on umbes 92,5 protsendi tõenäosusega tegelikult ees Isamaa. "Sisuliselt võrdne" esitab seega ligi üheksa kümnest tõenäosuse nii, nagu oleks tegu viigiga.
Rangelt võttes on tõsi, et viie protsendi lävel see vahe "oluline" ei ole, aga see lävi ei tähenda, et erakonnad oleksid võrdsed või veel vähem selliselt pööratavad. Siin tuleb eristada kahte asja, ühelt poolt statistilist olulisust, teiselt poolt tõenäosust, et üks erakond on tegelikult teisest ees. Need ei ole samad. Veavahemike tõlgendamise on muuhulgas Martin Mölder 2023. aastal hästi lahti kirjutanud. "Sisuliselt võrdsest" jääb mulje, et tegu on lahtise küsimusega, kuigi andmed osutavad Isamaale.
Aivar Voog: "Ei ole sellist asja, et inimene kogu aeg mõtleb, et ma olen Keskerakonna valija, Isamaa valija. Tavapäraselt on inimesel ikka kaks-kolm erakonda, kes on enam-vähem võrdväärsed, ja kui küsida esimest eelistust, siis ühel hetkel ütleb ta ühe erakonna nime ja teisel hetkel, kui mingisugused sündmused on kallutanud teise kasuks, ütleb ta teise nime."
Seda väidet saab andmetega kontrollida. Jälgime aastate vältel kvartaalselt samu vastajaid (valim 3000), nii et näeme otse, kui sageli üks ja sama inimene oma nimetatud erakonda vahetab. Nende seas, keda oleme jälginud vähemalt kahe aasta jooksul, ei vahetanud erakonda kordagi ligi pooled (45 protsenti), üks kord 19 protsenti ja rohkem kui ühe korra 36 protsenti. Pooltel kordadel või sagedamini vahetas eelistust vaid umbes kümnendik (üheksa protsenti). Just see kümnendik vastab Voogi kirjeldusele "kogu aeg mõtleb", kuid tüüpiline valija seda ei tee.
Üks mööndus käib selle kontrolli kohta. Pikalt jälgitavad vastajad on paratamatult need, kes on paneelis kauem püsinud, ja nemad kalduvad olema keskmisest kindlamad oma valikus ning korduv küsitlemine võib seda veelgi võimendada. Tegelik vahetamine võib seega olla mõnevõrra suurem, kui need arvud näitavad, kuid isegi seda arvestades jääb sagedaste vahetajate osakaal selgelt vähemusse, nii et järeldus püsib.
Toimuv liikumine on koondunud väikesesse korduvasse rühma. Kõige kõikuvama kümnendiku vastajate arvele langeb ligi 40 protsenti kõigist eelistuse vahetustest. Küsitluste vahel kõigub väike osa vastajatest, mitte enamik.
See ei tähenda, et eelistused oleksid muutumatud. Mitme aasta jooksul liigub enamik inimesi vähemalt korra, mis on tavapärane, aga see on midagi muud kui väide, et tüüpiline valija nimetab pidevalt erinevaid erakondi.
Sama kehtib "kahe-kolme võrdväärse erakonna" kohta. Kiirema kontrollina, me küsime oma uuringutes iga erakonna kohta eraldi, kui tõenäoliselt vastaja talle kunagi hääle annaks, ja vaatame, kui paljudel on kaks või enam erakonda hinnatud peaaegu võrdselt kõrgelt (0–10 skaalal vähemalt kaks erakonda hindega üle 5 ja teineteisest kuni kahe punkti kaugusel).
Korraga ligilähedaselt võrdseid eelistusi on vaid umbes veerandil vastajatest, enamikul on üks selgelt eelistatud erakond. Ja kui tegelik kõikumine piirdub väikese vähemusega, ei saa suured või süstemaatilised erinevused küsitlusfirmade tulemustes tulla sellest, et valijad "kogu aeg" meelt muudavad. Need viitavad ikkagi metoodikale.
Tähelepanuväärne on seegi, et tegu on väitega, mida saaks andmetega kontrollida, aga mida ilmselt tehtud ei ole. See sobib mustrisse, mis läbib ka eelnevaid väiteid: iga erinevuse jaoks pakutakse usutavalt kõlav põhjendus, kuigi just nende erinevuste ja nende nõrkuste sisuline lahtiseletamine peakski olema eksperdi ülesanne. Tavaline meediatarbija võtab ERR-i portaalis kajanut eksperdi sõnana, ehkki argumentide veenvus tugineb siinkohal pigem autoriteedile kui sisule.
Autori märkus: olen andmeteadlane ja Ühiskonnauuringute Instituudi IT-partner ning osalen ÜI & Norstati reitingute andmetöös. Ma ei ole selles vaidluses täiesti neutraalne osapool. Artikli kriitika puudutab teaduslikke ja metoodilisi fakte, mitte tsunftisiseseid suhteid või eelistusi.
Vt ka: Aivar Voog: mõned täpsustused Remi Sebastian Kitse vastukajale, ERR 25.05.2026.
Toimetaja: Kaupo Meiel




