Condividi l'articolo

Statistica e Campioni

La Statistica non è – come si potrebbe pensare – un blocco monolitico, ma contiene al suo interno tre rami principali:

  • La Statistica Descrittiva, in cui si sintetizzano i dati con degli indicatori;
  • La Teoria matematica della Probabilità;
  • L’Inferenza Statistica, che unendo i due rami precedenti prova a capire qualcosa del mondo partendo da un suo sottoinsieme.

L’Inferenza Statistica, in altre parole, cerca di capire il valore di un parametro ignoto su una Popolazione (ossia su un insieme completo di dati per un determinato fenomeno) partendo dal calcolo di quello stesso parametro fatto un suo sottoinsieme ossia un Campione.

In questo articolo prima si esemplificheranno i concetti appena esposti con un esempio di fallimento delle previsioni. Si esplorerà poi il concetto di Campione – differenziando tra Campione Casuale e Campione Distorto – facendo riferimento ad un esempio su Alteryx.

Un classico esempio di inferenza statistica è quello di provare a prevedere l’esito delle elezioni a partire da dei sondaggi precedenti la data del voto. In questo caso il parametro che si vuole conoscere è la percentuale di voti che un partito prenderà che è ignoto in quanto le elezioni si devono ancora tenere. Per ragioni di tempo o di soldi non è pensabile raccogliere quest’informazione intervistando tutti i componenti dell’elettorato attivo – anche perché vorrebbe dire fare delle elezioni. In poche parole, non si può avere accesso ai dati di voto di tutta la popolazione prima del giorno delle elezioni (ammesso che tutti vadano a votare).

Il limite sopra esposto è ciò che si propone di superare la statistica inferenziale che con i suoi algoritmi prova a colmare questo divario fra l’ignoranza dell’informazione sulla Popolazione (quale percentuale di voti otterrà un determinato partito) e la conoscenza dell’informazione sul Campione (la percentuale di voti ottenuta dal partito sulla base di un gruppo di persone intervistate). Per poter utilizzare i suoi algoritmi in modo appropriato e in modo che i risultati siano attendibili è necessario che il Campione sia estratto in maniera totalmente casuale dalla popolazione. Infatti, il calcolo del parametro fatto sui dati del campione sarà la stima – la migliore che si può ottenere – dello stesso parametro sulla popolazione.

Il Campione Casuale

Per spiegare il concetto di Campione Casuale si farà ora riferimento al più famoso fallimento nella previsione dell’andamento delle votazioni.

Nel 1936 si contendevano la Casa Bianca il presidente democratico uscente Franklin Delano Roosevelt e il repubblicano Alfred Mossman Landon. La rivista Literary Digest decise di condurre un sondaggio per provare a prevedere il vincitore della corsa presidenziale (il parametro). Per fare questo fece un sondaggio estraendo le persone dai registri automobilistico e dall’elenco telefonico (il Campione). A quel punto si sono calcolate le percentuali di voti ai due schieramenti per il Campione (la stima del parametro) in base alle risposte date dagli intervistati.

Il risultato del sondaggio fu una schiacciante vittoria per il repubblicano Alf Landon. Nessuno però ha mai sentito parlare della presidenza Landon, in quanto fu Roosevelt a vincere le elezioni con il 60% dei voti a favore.

Nonostante lo sforzo encomiabile del Literary Digest – che riuscì ad intervistare 2,3 milioni di persone – il campione scelto era distorto: nel 1936 solo le persone più benestanti – che erano tendenzialmente repubblicane – avevano macchina e telefono ed erano pertanto inclusi nel registro automobilistico e nell’elenco telefonico. Quindi, anche includendo tanti elettori questi non erano risultati essere rappresentativi della popolazione e pertanto la predizione è stata totalmente sbagliata.

La scelta del Campione pertanto è fondamentale per l’attendibilità della stima. Perché tutto funzioni è necessario non solo che il Campione sia ben nutrito (avere il gruppo di persone più ampio possibile) ma anche che nell’estrazione – volontariamente o involontariamente – non sia presente in maggioranza un cluster che renda il campione non rappresentativo della Popolazione. Nell’esempio sopra riportato il fatto di possedere la macchina era legato a doppio filo all’essere delle persone benestanti e dato che in quegli anni la maggior parte delle persone non era benestante si stava estraendo un cluster che rappresentava una minoranza della popolazione. Inoltre, questo cluster era legato anche alla scelta su chi si sarebbe votato il giorno delle elezioni. Un cluster veramente rappresentativo avrebbe incluso una quantità di persone ricche e povere in una proporzione uguale a quello della popolazione.  L’unico modo per ottenere un Campione che non abbia distorsioni è quello di fare un’estrazione casuale dalla Popolazione, in questo modo qualsiasi caratteristica (visibile o invisibile) non influirà sul Campione distorcendo il suo potere di rappresentare la Popolazione.

 

Alteryx

In Alteryx c’è lo strumento % campione casuale che consente proprio di creare un campione casuale. Per far vedere questo si analizzeranno i dati sull’emissione della CO2 nel 2014 presi dalla World Bank che contiene per tutti i principali paesi del Mondo.

In questo caso accademico si è a conoscenza del parametro della popolazione (che normalmente non è noto) ossia la media delle emissioni di CO2 per ogni paese. A partire da questo valore noto si mostrerà la differenza nella stima fra un Campione con un’estrazione casuale e un campione invece estratto sulla base di un’altra caratteristica (la percentuale di foreste). Il Campione estratto casualmente porterà ad una stima migliore dell’altro.

L’immagine di sopra rappresenta la sintesi dei valori della CO2 che deriva dallo strumento Riepilogo campo. Analizzando questi valori si può vedere come la media (Mean) sia di 4,9. Questa rappresenta il parametro, che solitamente non si conosce, della popolazione ossia le tonnellate di CO2 pro capite per ogni paese.

Utilizzando lo strumento introdotto precedentemente (% campione casuale), si andrà a prendere un campione estratto in maniera totalmente casuale e composto dal 30% delle osservazioni della popolazione (60 paesi) si ottiene una media di 4,80 (tecnicamente si chiama media campionaria).

Ovviamente c’è un certo margine di errore però con solo 60 dati sui 201 si è stato possibile ottenere un numero molto vicino a quello vero (il discostamento è di 0,15 tonnellate di CO2 emesse pro capite).

Adesso, per esemplificare, si introdurrà una perturbazione nell’estrazione del campione. Si supponga, infatti, che solo le nazioni in cui la percentuale di foreste nel territorio è inferiore al 10% abbiano fornito i dati sulle loro emissioni di CO2. Andando a rieseguire la media si ottiene un valore di 7,51.

    Questo valore è molto più distante rispetto a prima. In questo caso è stato commesso – in maniera artificiosa – lo stesso errore commesso dal Literary Digest: si è fatta un’estrazione tra coloro che hanno fornito i dati alla Wordbank non tenendo conto che in questo gruppo ci sono i paesi che più emettono CO2 in assoluto rendendo quindi la stima distorta.

     

    Concludendo, la statistica inferenziale per poter fare la sua previsione in maniera ottimale ha la necessità di avere un Campione rappresentativo della popolazione. Perché un Campione sia perfettamente rappresentativo esso dovrebbe riprodurre in maniera proporzionale le stesse caratteristiche della popolazione sia quelle visibili che quelle non visibili, che possono avere degli effetti sul risultato. Pertanto, la scelta ottimale è quella di scegliere in maniera totalmente causale le osservazioni dalla popolazione perché in questo modo – facendo tante estrazioni – il campione sarà sempre rappresentativo di ogni caratteristica in quanto la probabilità di estrarre quella caratteristica e di metterla nel campione è pari alla sua percentuale nella popolazione.