Condividi l'articolo

Premessa: “imbrogliare senza mentire”

A suaforti Ma pè me la statistica curiosa

è dove c’entra la percentuale,

pè via che, lì, la media è sempre eguale

puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,

t’entra ne la statistica lo stesso

perch’è c’è un antro che ne magna due.

 

In questa poesia Carlo Alberto Salustri alias Trilussa prende in giro la media facendo vedere come si possano utilizzare gli indicatori statistici per imbrogliare il destinatario dell’informazione senza mentire. Trilussa prende – un po’ maliziosamente – due persone dalla popolazione di cui una non ha mangiato neanche un pollo mentre l’altra ne ha mangiati due e ne calcola la media, che risulta essere di un pollo mangiato a testa. Naturalmente la media – in questo caso – ha fornito un’informazione che non consente di valutare adeguatamente la situazione: dalla media sembra che tutti stiano bene, mentre in realtà una persona muore di fame mentre l’altra ha fatto indigestione di polli.

In questo articolo si spiegherà – con l’ausilio di Alteryx e della statistica – come la media campionaria (ossia la media calcolata sui campioni) sia un ottimo stimatore della media vera della popolazione anche prendendo “solo” due persone alla volta – purché se ne prendano tante coppie (anche considerando una popolazione sottostante con forti diseguaglianze). Inoltre, si dimostrerà come ci sia stata malizia in Trilussa nella sua scelta della coppia con cui ha calcolato la media. Infine, si forniranno gli strumenti statistici per poter valutare il potere informativo della media e capire chi “imbroglia senza mentire”. Alteryx – su questo ultimo punto – fornisce diversi strumenti che con pochi click consentono di valutare la bontà informativa della media.

Trilussa “imbroglia senza mentire”

In Statistica, come in ambito di Machine Learning, avere pochi dati è la cosa peggiore in quanto la potenza previsionale e informativa dei suoi algoritmi dipende dalla quantità, dalla qualità e della varietà dei dati. Pertanto, Trilussa prendendo in esame solo un caso sta – nei fatti – dando in pasto alla media un’informazione con cui quest’algoritmo non può funzionare. Infatti, l’informazione fornita da Trilussa all’algoritmo è scarsa sia in quantità che in varietà e probabilmente anche come qualità (presumibilmente è tendenziosa e non scelta casualmente dalla popolazione).

Facendo il gioco di Trilussa:

  • Per prima cosa si andrà a ricostruire la situazione della Roma del ‘900 con gli stessi abitanti e lo stesso indice di diseguaglianza (considerando solo i polli mangiati)
  • Poi, si andranno ad estrarre diverse coppie di persone (400) calcolando di volta in volta la media dei polli mangiati e si osserverà la distribuzione dei polli mangiati dalle persone
  • Infine, si calcolerà la media della media di tutte le coppie per vedere se questa si avvicini a quella vera

Il primo passo è quello di andare costruire una popolazione simile a quella che poteva avere davanti Trilussa: nel ‘900 a Roma c’erano 416.028 persone e l’indice di Gini (ossia di diseguaglianza) era pari a circa al 45 %.

Qui sopra è illustrato il workflow utilizzato per costruire la popolazione, che ha le seguenti caratteristiche:

In questa società – sul consumo di polli – l’indice di diseguaglianza è pari al 0,44 ossia vicina al 45% dell’Italia in quegli anni. Una società così fatta consuma in media 0,309825 polli a testa.

A questo punto – il secondo passo – è quello di creare un workflow con cui provare ad estrarre coppie di persone da questa popolazione per vedere:

  • Quante volte si prendono in considerazione medie che sovrastimano la media vera e che diano ragione a Trilussa e quante no
  • La media delle medie di tutti i campioni estratti per vedere se questa si avvicini a quella vera

Tutto questo – in Alteryx – può essere fatto con una macro-iterativa.

Dopo aver eseguito la macro si possono andare ad analizzare i risultati:

Come si può vedere circa 1 caso su 10 rientra nello scenario ipotizzato da Trilussa, mentre in generale più dell’80% dei casi riflette una media “accettabilmente” vicina a quella vera. 

Infine, dalla media di tutte le medie ottenute ha un valore molto vicino a quello vero (0,309825 polli a testa) ossia 0,31625.

Quindi, dando in pasto alla media dei dati con qualità, varietà e quantità accettabili si ottiene la stima accettabile della media vera della popolazione. Si può, pertanto, concludere che utilizzare pochi dati per valutare la qualità informativa di un qualsiasi algoritmo statistico sia di per se tendenzioso e malizioso.

Concludendo, al di là della bontà dell’esercizio statistico e intellettuale di ricostruire la Roma del ‘900: la scelta di Trilussa di usare una sola coppia per calcolare la media è metodologicamente sbagliata. Per calcolare la media in maniera che fosse informativa avrebbe dovuto considerare molte più coppie.

I limiti della media

Le parole di Trilussa, al di là della malizia del caso da lui ipotizzato, fanno luce su argomento importante: i limiti al potere informativo della media e come superarli.

La media – essendo una sommatoria – soffre l’influenza dei valori estremi, pertanto, valori molto grandi o molto piccoli tendono – rispettivamente – ad alzarla o a ridurla rispetto appunto al valore assunto dalla maggioranza delle osservazioni. Nel caso di Trilussa, il fatto che ci sia qualcuno che mangi 100 polli in un botta sola mentre il resto della popolazione muore di fame in qualche modo la “corrompe” aumentandone il valore rispetto a quello che si avrebbe prendendo in considerazione i valori assunti dalla maggioranza degli osservati.

Per questo la media deve essere valutata assieme ad altri indicatori: la mediana e la deviazione standard. Questi due indicatori hanno il vantaggio di poter essere calcolati con le stesse informazioni necessarie per calcolare la media, pertanto non si può non fornirli.

  • La deviazione standard esprime quanto ogni osservazione si discosta dal valore medio. Se quest’ultima dovesse avere un valore molto alto significherebbe avere media distante dalla maggioranza delle osservazioni sui cui è calcolata, mentre un valore tendente a 0 significherebbe avere tutte le osservazioni con valori vicino alla media.
  • Il rapporto con la mediana. La mediana ordina le osservazioni in maniera crescente secondo il valore di queste sulla caratteristica oggetto di indagine e individua quella che occupa il posto centrale ossia che alla sua sinistra e alla sua destra lascia lo stesso numero di persone. Se la media è più piccola della mediana significa che la prima sottostima la situazione della metà delle persone mentre se è più grande la sovrastima (come nel caso di Trilussa).

Per fare questi calcoli si possono usare – su Alteryx – due strumenti: Formula e Riepiloga. Nel caso descritto prima è stato usato lo strumento Riepiloga:

Come si può vedere, in questo caso la media è maggiore della mediana, quindi, la prima sta sovrastimando la situazione in cui si trova il 50% delle persone della popolazione.

Per fare questo confronto può essere utile fare un grafico per vedere visivamente la distribuzione. Infatti, dall’ispezione grafica della distribuzione si può vedere il rapporto tra la media e la mediana e distinguere tra 3 situazioni (immagine presa di Wikipedia).

  • Asimmetria Positiva o Assimetria a sinistra in cui la media (Mean) risulta essere maggiore della mediana (Median). Questo è il caso descritto nell’esempio di questo articolo e in questo caso la media tende a sovrastimare la situazione reale in cui si trova la maggior parte delle persone. Questa distribuzione rappresenta – ad esempio – come viene ripartito il reddito tra le famiglie: la maggior parte delle famiglie sta sotto la media che è alzata “artificialmente” dalle poche famiglie che guadagnano molto.
  • Distribuzione Simmetrica che è il caso in cui ricade la Distribuzione Gaussiana Normale e in cui il valore della media coincide con quello mediana. Questo è il caso di fenomeni naturali come l’altezza in cui il valore medio è quello più frequente mentre mano a mano che ci si spinge verso l’alto o verso il basso diventa più difficile trovare persone (è molto frequente trovare persone con un’altezza di 175 cm, mentre è più raro trovare persone alte 210 cm o 120 cm).
  • Asimmetria Negativa o Asimmetria a destra in cui la media è minore della normale e pertanto la media tende a sottostimare la situazione in cui si trova la maggior parte delle persone.

Con gli strumenti di Alteryx Grafico Iterativo e Istogramma si può fare il grafico della distribuzione per valutare graficamente la distribuzione. Prendiamo il caso dell’esempio usato in questo articolo:

Come aiuta a vedere il grafico fatto con Istogramma, la distribuzione in questo caso è Asimmetrica a sinistra ed infatti la media è maggiore la mediana: la prima è circa 0,3 mentre la seconda è 0. Pertanto, la media è più alta rispetto al valore assunto dalla maggioranza delle persone.

Trilussa non ha fornito questi altri indicatori che avrebbero aiutato a valutare meglio la media da lui fornita – fermo restando che anche per questi altri indicatori sarebbe stato necessario avere una maggiore quantità, qualità e varietà di dati.

Conclusioni

La media è un algoritmo statistico e come tale ha bisogno di avere tanti dati e questi devono essere alta qualità e di grande varietà. Senza questa premessa ogni tentativo di arrivare a delle conclusioni che si basano sulla media è di fatto un tentativo tendenzioso di “imbrogliare senza mentire”.

La media – per fornire un’informazione attendibile – deve essere accompagnata con degli altri algoritmi che aiutino a valutarne la potenza informativa: la deviazione standard e la mediana. Senza questi complementi – che per essere calcolati hanno bisogno delle stesse informazioni che si usano per calcolare la media – è probabile che chi fornisce l’informazione voglia imbrogliare.

Con Alteryx è molto semplice – basta un workflow con pochi strumenti – smascherare questi imbroglioni partendo dai loro dati ossia combattendoli con le loro stesse armi solo usandole in maniera più rigorosa.