Ecco un post che mi viene ispirato da manifestazioni di incredulità ai risultati dei sondaggi – che si rimanifesteranno quando cominceranno a venir pubblicati gli exit-poll terminate le votazioni. In ispecie, gli si attribuisce l’incapacità di catturare le reali dimensioni di questo o quel fenomeno – e in qualche caso si contesta la possibilità stessa di predirre il comportamento dell’intera popolazione italiana sulla base dei ‘qualche centinaio di interviste’.
In realtà questa obiezione viene fatta ogni volta che qualcuno i cui interessi siano legati alla dimensione del fenomeno in esame è deluso dai risultati – per esempio, da Auditel. La prima accusa che salta fuori è sempre: il campione non è sufficiente. Sorprendentemente, anche chi è formato in o lavora con la statistica ha un’idea abbastanza vaga di come funzioni un campione, e in particolare sul modo in cui va interpretato l’errore di stima in un campione.
Per cui permettetemi due cose: una, la più arrogante, è di farvi la lezioncina sull’argomento. La seconda, in cambio, è una applet in java che simula una rilevazione campionaria, e vi può far sperimentare quanto grande può essere un ‘errore di stima’.
Ma cominciamo dalla lezioncina: una cosa che si dimentica spesso di una stima è che si basa su supposizioni, su assunzioni, su un modello del fenomeno da stimare. Una stima può essere precisa e accurata, che non sono la stessa cosa.
- La precisione è quanto il valore stimato è vicino a quello vero.
- L’accuratezza è quanto il procedimento con cui ho stimato riproduce il fenomeno che voglio stimare.
Precisione e accuratezza sono influenzate da caratteristiche diverse di un campione: la precisione della stima è influenzata da quanto il campione è grande, la sua accuratezza da come è composto. Mi spiego.
Facciamo finta di voler stimare quanti voteranno il Movimento 5 Stelle (che sono quelli che si lamentano più spesso), e di intervistare a questo scopo un campione di 100 persone che è composto dal 25% di persone con meno di 45 anni e dal 75% di persone più anziane. Facciamo finta che il 20% dei rispondenti dica che voterà M5S. Quanto è accurata questa stima?
Probabilmente non molto, perché la popolazione che ha diritto di voto ha una quota più alta di persone al di sotto dei 45 anni, e si suppone che l’età influenzi l’orientamento al voto – per cui il risultato finale potrebbe essere molto diverso. Ma si noti, per cominciare, che sto assumendo che l’età influenzi il voto, non posso saperlo a priori. Certo, posso, al limite, verificare quello che è successo in passato, ma nessuno mi assicura che il fatto che gli ultracinquantenni abbiano, per esempio, sempre votato centro-destra sia dovuto al fatto che fossero ultracinquantenni. Magari la variabile rilevante non è l’età, ma il reddito, ed è molto più difficile selezionare un campione che sia rappresentativo per reddito. Comunque: il punto è che so che quanto la mia stima sarà accurata dipende da quanto i caratteri che influenzano il voto sono distribuiti nel mio campione in modo simile a quello che avviene nella ‘realtà’. Gli istituti di ricerca seguono questo criterio cercando di fare in modo che i campioni intervistati siano costruiti con una distribuzione di caratteristiche almeno demografiche (età, sesso, regione di residenza, dimensioni del centro abitato in cui abitano) che riproducano quelle della popolazione italiana, così come rilevata dal censimento e aggiornata tramite le liste elettorali (almeno per gli aventi diritto).
Si noti che se un campione è sbilanciato (per esempio, se è costituito come quello dell’esempio sopra), non importa se gli intervistati sono 100, 1.000 o un milione, la stima che posso fare è comunque inaccurata. Ora. Non esiste una misura semplice a priori dell’accuratezza della stima, sappiatelo. Semplicemente non si può sapere se una stima è accurata. Il che non significa che è sempre inaccurata – può anche essere corretta, ma a priori né voi né l’istituto di ricerca può sapere se è sbagliata – neanche se sceglie la composizione del campione al preciso scopo di alterare i risultati, per esempio aumentando il numero di giovani, o di lavoratori in proprio – perché non può sapere a priori se la variabile che ‘ritocca’ è quella determinante per l’intenzione di voto.
Ad ogni modo, il meglio che si può fare è cercare di avvicinare la composizione del campione a quella nota della popolazione che vuole rappresentare. Un campione siffatto cerca di essere, appunto rappresentativo. Notate che la rappresentatività non dipende dalla dimensione del campione. Chiaro? Un campione è rappresentativo per come è composto, non per quanto è grande.
Ora viene la parte più complicata, perché non è molto intuitiva. La grandezza del campione, invece, influenza la precisione della stima. Fin qui è ragionevole: più è grande il campione, minore è l’errore che si compie rispetto al valore ‘vero’ della popolazione (per esempio, quanti votano M5S). Ma ora, attenzione: come faccio a sapere a priori quanto è grande questo errore, o meglio, quanto può essere grande questo errore (perché può anche darsi che io ci azzecchi)? Semplice. Anche in questo caso, non si può. Tutto quello che si può fare è stimare quanto è precisa la stima. E come si fa?
Si fanno, di nuovo, delle supposizioni. Per esempio, supponiamo che il 50% dei votanti voterà M5S, e facciamo finta che ci siano 1000 istituti di ricerca che intervistano ciascuno 100 persone (diverse), e che tutti abbiano campioni con la stessa distribuzione demografica (cioè, speriamo che siano tutti in grado di produrre stime con lo stesso grado di accuratezza). I risultati dei 1000 campioni saranno tutti diversi. Però si suppone che in generale ci saranno pochi istituti che sbagliano del tutto (qualcuno intervisterà 100 persone che non votano M5S, qualcun’altro troverà solo gente che invece lo vota), un po’ di più sbaglieranno tanto (che so, stimando più del 75% di voti o meno del 25%), e la maggior parte rileverà intenzioni di voto che stanno intorno al 50%. Attenzione: si suppone che sarà così, perché non si può sapere se è vero.
Dunque, se questo fenomeno è vero, cosa succede se si aumenta la dimensione del campione? Succede che le stime lontane dalla realtà diminuiscono, e diventano più precise. Ora: attenzione. La precisione della stima non dipende dal rapporto tra la popolazione che voglio stimare e la dimensione del campione ma solo dalla dimensione del campione. Cioè: se ho un campione di 100 persone, non importa se voglio stimare il comportamento di 1.000, 10.000 o 100 milioni di persone, la precisione della mia stima sarà esattamente la stessa. In altre parole ancora, un campione di 1000 persone consente stime (probabilmente) più precise di uno di 100, ma non perché rappresenta una quota più grande della popolazione che rappresenta: le consente solo perché è più grande.
Lo so che non è chiaro – e la gente ‘non ci creda’, ma la cosa migliore è provare. Motivo per cui ho messo insieme il gioco che segue (il link è in fondo al post):
si tratta di una popolazione virtuale fatta da puntini di vari colori. Ogni puntino è una persona, e il suo colore è il partito che intende votare in quel momento. L’immagine accanto mostra come appare la mia ‘popolazione. Sono simulati oltre 160.000 ‘votanti’.
Man mano che il tempo passa, ogni ‘puntino’ si fa influenzare da quegli che gli stanno intorno, e può cambiare idea: può, cioè, decidere di votare per il partito di un altro.
Nella mia applicazioncina, in ogni momento, l’osservatore ha sott’occhio la situazione reale: sa, cioè, quanti votano ciascun partito. In ogni momento, però, può decidere di fare dei sondaggi. Dato che i miei votanti sono perfettamente uniformi (l’unica cosa che li differenzia è il voto), siamo sicuri che un qualunque campione sarà accurato. L’osservatore ha a disposizione tre sondaggi, e può decidere quanto è grande il campione di ciascuno, dopodiché i campioni vengono ‘intervistati’ (si contano i colori) e i risultati del sondaggio presentati.
Un grafico a ciò predisposto tiene traccia degli errori che vengono fatti, a mano a mano che l’utente prova diverse configurazioni, incrociando questo dato con la dimensione del campione. Si possono provare campioni di dieci persone o di diecimila, o praticamente qualunque altra dimensione nel mezzo. Ora, provate, e provate a vedere quanto guadagnate in precisione aumentando la dimensione del campione. Vi accorgerete molto presto che oltre un certo livello, non importa quante persone intervistiate, la precisione sarà sempre più o meno quella.
Questa precisione è quella che in TV o sui giornali viene nominata come ‘forchetta’ o ‘forbice’ o ‘intervallo fiduciario’ o ‘intervallo di confidenza’. Questa forbice non dice dove potrebbe essere il valore vero (perché nessuno lo sa), dice una cosa molto meno importante, e più complicata: dice che date le ipotesi che sono state fatte sulla distribuzione dell’errore e assumendo che la composizione del campione sia accurata, assumendo che il valore rilevato dal sondaggio SIA QUELLO REALE, il 95% (o il 90%, o il 99% – ma di solito è il 95%) di altre ipotetiche misurazioni condotte con lo stesso metodo ricadrebbero all’interno della ‘forbice’.
Se vi va di giocare con l’applicazione, cliccate qui e buon divertimento.
Chiaro? No, lo so, è complicato. Il messaggio sintetico è il seguente: è inutile lamentarsi del fatto che i sondaggi siano imprecisi, perché è nella loro natura esserlo. L’errore può essere dovuto alla malizia dei ricercatori ma questi hanno molto meno controllo sul risultato di quanto non si pensi. Infine, basta fare i fighi con la dimensione del campione e la rappresentatività. Se qualcuno tira fuori questi termini, fidatevi, è indizio sicuro che non capisce una minchia di statistica.