Blíží se volby, nervozita roste, a to hlavně díky předvolebním výzkumům, které ukazují voličské nálady v Česku. Vzhledem k tomu, že každý výzkum přináší trochu jiná data než ten předchozí, jsou čeští občané často zmateni a pochybují o přesnosti dat z těchto výzkumů. Jedním z argumentů, který lidé proti výzkumům vznáší, je upozornění na fakt, že ve výběrových souborech bývá zpravidla ,,jenom“ kolem 1000 respondentů. Diskutující na internetu a v restauracích se podivují nad tím, že si sociologický výzkum vystačí s tak malým počtem respondentů, když je v české populaci deset milionů lidí. V tomto krátkém textu se pokusím vysvětlit, že tisíc lidí bohatě stačí.
Následující text je psán s úmyslem pomoci laikům pochopit úplné základy statistického uvažování, proto obsahuje řadu zjednodušení, za která bych si na katedře statistiky MFF UK vysloužila opovržení a možná i facku. Proto prosím znalce, aby mi odpustili a pokusili se pochopit, že mé úmysly jsou čisté. Rovněž je třeba upozornit, že se v tomto článku zabývám pouze výběrovou chybou a částečně chybou reprezentativity (viz dále), sociologická praxe ale pracuje s dalšími, velmi podstatnými chybami, jejichž popis však přesahuje možnosti tohoto textu.
A teď k věci.
Pokud chceme uvažovat nad tím, jak velký výběrový soubor potřebujeme, abychom mohli odhadnout hodnotu nějaké proměnné ve zkoumané populaci (v případě předvolebních výzkumů tedy v populaci občanů ČR starších 18 let), musíme se krátce zastavit u konceptu výběrové chyby, tedy u toho, čemu se v médiích říká ,,statistická chyba“. Odhadnutí výběrové chyby nám dává informaci o tom, zda hodnotu statistiky (např. průměru nějaké proměnné) nebo procenta odpovědi (např. deklarovaná volba politické strany), které jsme získali z výběrového souboru (výběrový soubor = vzorek populace), můžeme vztáhnout na populaci. Prostě řečeno, chceme vědět, zda námi získaná hodnota ze vzorku odpovídá hodnotě v populaci. V případě, že máme relativně malý výběrový soubor, je výběrová chyba velká, v případě že máme soubor velký, je výběrová chyba malá. Toto pravidlo vychází z teorie pravděpodobnosti, konkrétně ze zákona velkých čísel, který říká, že čím větší množství pozorování máme, tím více se odhadnutá hodnota ze vzorku blíží hodnotě v populaci (velmi zjednodušeně řečeno).
Těch tisíc respondentů, o kterých se zmiňuji na začátku textu, je množství, které už můžeme považovat za docela velké. Pokud například tisíci respondentů položíme otázku ,,Pijete alkohol“ s možnostmi odpovědi „ano“/ „ne“ a dostaneme ze souboru dejme tomu výsledek 50 procent ,,ano“ a 50 procent ,,ne“, bude výběrová chyba, nebo lépe řečeno ,,interval spolehlivosti na hladině 95 procent“ plus mínus 3 procenta. Můžeme tedy očekávat, že v populaci se bude procento konzumentů alkoholu pohybovat mezi 47 a 53 procenty (toto je obrovské zjednodušení, za které by ta facka padla určitě, ale pro udržení jednoduchosti výkladu jsem to takto napsat musela).
V situaci, kdybychom měli 10 000 respondentů, by výběrová chyba činila pouze 1 procento; došlo by tedy ke zpřesnění odhadu, ale za cenu obrovských nákladů na monstrózní výběrové šetření o deseti tisících respondentech. Vidíme tedy sami, že desetinásobné zvětšení tisícihlavého výběrového souboru by vedlo ke zpřesnění o pouhá dvě procenta, a to za vynaložené náklady nestojí.
A teď k otázce: ,,Jak může stačit 1000 respondentů, když je v české populaci 10 milionů lidí?“. Odpověď je jednoduchá: ve statistické teorii není důležité, jak velká je populace, ze které vybíráme jednotky do výběrového souboru. Pro výpočet intervalu spolehlivosti (výběrové chyby) je důležitá velikost výběrového souboru a v případě testu nějaké statistiky, např. průměru, i tzv. směrodatná odchylka. Ve statistice jsou všechny populace tzv. nekonečné, při výpočtu výběrové chyby tedy vůbec nebereme v úvahu velikost populace, o které chceme dělat závěry (opět zjednodušuji, ale pro náš případ s volebními výzkumy to platí).
Co je však pro uvažování o výběrové chybě a velikosti výběrového souboru naprosto zásadní, je tzv. reprezentativita. Když se nám ve vzorku podaří zajistit reprezentativitu, bude výběrový soubor taková ,,zmenšená“ populace (velmi zjednodušeně řečeno). Pokud zastoupení jednotek ve výběrovém souboru hrubě porušuje zásady reprezentativity, nemá cenu trápit se s nějakou výběrovou chybou – výběrový soubor totiž nedostatečně reprezentuje zkoumanou populaci a výsledky budou systematicky vychýlené.
V klasické statistické teorii má být reprezentativita zajištěna tzv. prostým náhodným výběrem, tedy způsobem výběru, kdy má každá jednotka v populaci stejnou pravděpodobnost, že bude vybrána. V praxi kvantitativních sociologických výzkumů je však procedura prostého náhodného výběru tvrdý oříšek.
Kdybychom měli dejme tomu ,,populaci“ červených a modrých míčků ve velké krabici, mohli bychom z této krabice nějakým způsobem náhodně vylovit několik míčků, zjistit, kolik jsme vytáhli modrých a kolik červených, a statisticky ,,usoudit“, jaký je poměr barev míčků v krabici. S lidmi je to však jiné – netaháme je z krabice. Nejdříve musíme získat kompletní seznam všech lidí v populaci, náhodně z něj vybrat respondenty, najít je a požádat je, aby s námi vyplnili dotazník. Na problém narazíme už v prvním bodě, když zjistíme, že žádný kompletní seznam občanů ČR neexistuje. Musíme si tedy poradit jinak a už tady dochází k vypuštění části populace ze vzorku. Poté musíme respondenty najít na jejich adrese, kde se potýkáme s tím, že často nejsou doma. Pokud už se nám konečně podaří daného respondenta či respondentku kontaktovat, může nám rozhovor odmítnout, což se stává velice často. Jak je vidět, udělat „stoprocentní“ prostý náhodný výběr z populace je nemožné.
Prosté náhodné výběry (nebo jiné typy náhodných výběrů) jsou v sociologické praxi i přes výše popsané neduhy realizovány a výzkumnice a výzkumníci jsou si vědomi problémů, které práce s daty z nedokonalých náhodných vzorků obnáší. K dispozici jsou různé sofistikované statistické metody k úpravě dat, všechny ale pracují na statistické bázi a chybějící informace nedokáží plně nahradit. Popis těchto metod však zcela překračuje možnosti tohoto textu. Snad jen ještě upozorním, že kromě metody náhodného výběru existuje ještě tzv. kvótní výběr, ve kterém jsou jednotky do souboru vybírány podle nějakých předem daných charakteristik (věk, pohlaví, vzdělání, příjem, místo bydliště) a nalezení respondenta je plně v moci tazatele. V tomto případě lze svým způsobem eliminovat např. nízkou návratnost (procento lidí, kteří odmítnou rozhovor), ovšem od ideálu prostého náhodného výběru jsou tyto vzorky rovněž daleko. Kvótní výběry jsou pro svou praktičnost používány častěji než různé druhy náhodných výběrů a v praxi volebních výzkumů převažují. Pokud tedy čteme výsledky z nějakého předvolebního výzkumu, zpravidla se bude jednat o data pocházející z kvótního výběru.
Pokud chceme kritizovat kvantitativní výběrová šetření, je to rozhodně na místě. Kritika upozorňuje na problémy a vede k rozvoji oboru. Můžeme se zabývat např. problémem reprezentativity, který byl naznačen výše, a navrhovat nová řešení. Cílem tohoto textu však bylo ukázat, že „pouhý“ tisíc respondentů ve výběrovém souboru není zásadní problém.
Zdroj úvodní ilustrace: sxc.hu.