Condividi l'articolo

Il teorema centrale del limite spiegato con Alteryx

In questo articolo si andrà ad illustrare il funzionamento del cosiddetto “Teorema Centrale del Limite” che costituisce il fondamento di un gran numero di procedure statistiche. La spiegazione sarà empirica e avverrà andando ad impostare una macro su Alteryx.

 Proseguendo per gradi, si può partire dalla enunciazione del teorema:

 << Sia da una popolazione numerica di media µ e deviazione standard σ da cui vengono estratti dei campioni casuali formati ciascuno da n individui, con n abbastanza grande: la distribuzione delle medie campionarie tende ad una distribuzione gaussiana di media µxvera […]>>

In termini più semplici: se da una popolazione estraessimo dei campioni casuali (vedi articolo Popolazione e Campioni), che hanno un numero abbastanza grande di osservazioni e di ciascuno di questi campioni si andasse a calcolare la media, l’insieme di queste medie avrebbe una distribuzione gaussiana “a campana” la cui media tenderebbe alla media vera della popolazione al crescere del numero di individui inclusi nel campione.

Tutto – per i non addetti ai lavori – potrebbe sembrare molto complicato e astruso, ma in realtà questo importantissimo Teorema può essere dimostrato in maniera empirica e intuitiva. A tal fine verrà sviluppata una macro di tipo “iterativo sul prodotto desktop di Alteryx.

I passi da compiere per la dimostrazione sono questi:

  1. Creare una popolazione con dei valori (che saranno causali ma non distribuiti normalmente);
  2. Estrarre iterativamente dei campioni su cui andare a calcolare la media
  3. Guardare la distribuzione (graficamente) delle medie e verificare che la media delle medie dei campioni estratti sia vicina a quella della popolazione.

I passaggi, descritti sopra, possono essere riportati in tre semplici fasi su Alteryx, sviluppate attraverso i tool del Designer.

Passaggio 1: Creazione della Popolazione

Per creare la popolazione bisogna partire dal generare gli individui che la compongono. Per fare questo si utilizza lo strumento Genera Righe con cui si è andati a creare 1 milione di individui. Dopo di che, con lo strumento Formula, ad ogni individuo è stato attribuito un valore la cui distribuzione è un’uniforme – ossia ogni valore ha la stessa probabilità di essere estratto.

Si ha, quindi, una distribuzione – per quanto riguarda i valori associati a ciascun individuo – lontana dal concetto di campana come si può vedere nel grafico ad Istogramma.

Questa distribuzione è chiaramente un’uniforme: ciascun valore ha la stessa frequenza ossia ogni valore viene ripetuto circa 5 mila volte.


La media è proprio il valore che ci aspetta ossia circa 500 (dato che c’è una distribuzione di numeri da 1 a 1000 tutti ripetuti circa 5000 volte):

    Il Teorema enunciato dice che la media di un campione abbastanza numeroso preso da questa popolazione avrà una distribuzione a campana il cui valore più probabile è proprio la media vera della popolazione. Pertanto, il prossimo passaggio sarà quello di andare a calcolare diverse medie prendendo sempre un campione casuale diverso da questa popolazione.

    Passaggio 2: Generazione dei campioni e calcolo della media

    Per andare a calcolare la media di ogni campione casuale estratto è necessario fare una macro iterativa che può essere scomposta in tre fasi:

    • Nella prima fase, la macro ripropone per un numero di volte indicato dal valore dell’iterazione sempre la popolazione con 1 milioni di individui. Questo viene eseguito per permettere l’estrazione sulla stessa popolazione;
    • Nella seconda fase, viene fatta l’estrazione casuale di un campione casuale dalla popolazione e successivamente viene calcolata, per ogni campione, la media. Quindi, iterativamente, allo strumento Campione Casuale viene riproposta sempre la stessa popolazione ed ogni volta lo strumento andrà ad estrarre un campione diverso (con lo stesso numero di individui);
    • Nella terza fase ed ultima fase, vengono messe insieme tutte le medie in un’unica tabella.

    La macro diventa ora una scatola nera alla quale dando in input i valori della popolazione di partenza si potrà andare a verificare il teorema.

    Passaggio 3: Utilizzo della macro per il calcolo delle medie di ogni singolo campione, la media delle medie e la visualizzazione della distribuzione delle medie

    Si andrà ora a testare la macro, facendo 100 iterazioni (ossia generando 100 campioni) ognuna delle quali conterrà 10% degli individui rispetto alla popolazione originale (ossia 100.000 individui).

    Il primo passo è quello di andare a vedere le medie calcolate per ogni singolo campione da 100.000 individui estratto casualmente dalla popolazione.

    Come si può vedere la media è sempre molto vicino a quella vera (500,16).

    Il risultato ancora più sorprendente è che facendo la media di tutti i valori ottenuti con i diversi campioni si ottiene un valore molto molto vicino a quello vero.

      Questo valore si discosta per la seconda cifra decimale rispetto al valore vero. Se – ad esempio – fosse stato il reddito annuo di una certa popolazione l’errore sarebbe stato di 6 centesimi su 500 euro.

      Altro risultato riconducibile al teorema è la distribuzione dei valori per le realizzazioni delle medie di ogni singolo campione: una distribuzione a campana centrata sul valore vero.

      Come si può notare i valori con più occorrenze sono quelli compresi tra 500 (con maggiore frequenza) e 501 (con minore frequenza) che è un intervallo molto stretto rispetto al valore vero (500,16).

      Vale la pena ragionare sul fatto che è stato possibile ottenere una distribuzione a campana a partire da dei valori che non avevano una distribuzione a campana. 

      Con Alteryx è possibile intervenire sui parametri per continuare a testare il Teorema con diversi valori sia di individui inclusi che di numero di campioni. Il risultato sarà quello di ottenere – al crescere del numero di individui e del numero di campioni – di una media sempre più vicina a quella vera. A titolo di esempio si è scelto di rifare i calcoli considerando 10 campioni con 1000 individui ciascuno. In questo la media è risultata essere pari a 500,72. Ovviamente, questo è un valore meno preciso rispetto a prima, ma comunque molto vicino rispetto a quello vero. Si può, quindi, concludere che anche con campioni molto esigui rispetto alla popolazione (in quest’ultimo caso è stato considerato lo 0,1% della popolazione) i risultati ottenuti siano molto buoni.

      Pertanto, quando verrà analizzato il comportamento di un campione, si potrà essere sufficientemente sicuri che quel comportamento sarà molto vicino a quello della popolazione nel suo complesso. Tutto questo a patto – naturalmente – che i campioni siano estratti in maniera casuale

      Conclusioni

      Per dimostrare il funzionamento di questo importantissimo teorema in Alteryx non è stato necessario scrivere una riga di codice, ma è stato comunque possibile a generare diversi campioni tutti diversi sui quali andare – di volta in volta – a calcolare le medie utili per il teorema.

      Inoltre, è stato molto semplice intervenire sui parametri dell’esperimento (numero di campioni e numero di individui per ogni campione) per valutare il cambiamento nei risultati. Questo potrebbe consentire di risparmiare potenza di calcolo lasciando invariati i risultati.