Condividi l'articolo

Dopo il precedente articolo, dove è stata fornita una difesa alla media campionaria contro la provocazione di Trilussa, adesso si mostrerà un altro modo per imbrogliare senza mentire: dare per scontato di ottenere delle conclusioni corrette partendo dalla media.
Si prenderà come esempio un caso molto comune ossia la puntualità alle riunioni a lavoro. Si supponga che la puntualità della persone sia descritta da una distribuzione uniforme con media zero. In altre parole, in media le persone risultano essere puntuali. Anche in queste circostanze – si dimostrerà – la probabilità che le riunioni inizino in orario sono estremamente basse.
Per mostrare questo fenomeno si utilizzerà il calcolo combinatorio attraverso Alteryx.

Se le persone sono mediamente puntuali è estremamente improbabile che una riunione inizi in orario

Un errore che si dovrebbe evitare (in Statistica così come in altri campi) è quello di dare per scontato il risultato a partire dalle premesse. Ad esempio, in prima battuta si può essere tentati di dire che se tutti i partecipanti ad una riunione sono persone mediamente puntuali è probabile che una riunione inizi in orario. In realtà anche prendendo un caso in cui ritardi e anticipi si compensano perfettamente per dare come media di ritardo 0 è molto improbabile che una riunione inizierà in orario. Questo succede perché la riunione non inizia in base alla puntualità media, ma quando l’ultima persona (ossia quando la persona con più ritardo) arriva. Pertanto anche se le altre persone riescono a compensare il ritardo massimo di una persona arrivando molto in anticipo questo non porterà ad un inizio puntuale di una riunione.

Come si può vedere dalla tabella sopra, sono stati raccolti i dati su 15 riunioni in cui 6 persone (ABCDE e F) – tutte necessarie per l’inizio della riunione – mostrano la loro puntualità. Si supponga – per semplicità – che questi 15 risultati esauriscono tutte le possibilità per queste 6 persone ossia A può – con la stessa probabilità – fare solo o 3.532.521.510.5 minuti di anticipo, essere perfettamente puntuale oppure fare 3.532.521.510.5 minuti di ritardo. In sostanza, è come se per determinare l’arrivo di una di quelle sei persone ad una riunione viene estratta una di quindici palline che ne determina i minuti di arrivo rispetto all’inizio della riunione. 

A questo punto con l’aiuto di Alteryx e dei suoi strumenti Seleziona e Aggiungi Campi (con cui si fa’ il prodotto cartesiano) si può simulare il calcolo combinatorio. 

Questo ha permesso di creare 11.390.625 casi ossia tutte le combinazioni di 15 valori in 6 posizioni (15 elevato 6). Per farlo si è dovuto anzitutto scomporre la tabella in ciascuna delle sue colonne. Dopo di che si sono combinate le une con le altre ottenendo così tutti i possibili casi.

A questo punto, si può calcolare la media di arrivo di ogni persona – sulla base dell’orario concordato -, il massimo valore di arrivo rispetto all’orario concordato e – conseguentemente – la regola secondo cui si determina l’inizio in ritardo o in orario di una riunione: se il massimo orario di arrivo delle 6 sei persone è minore di 0 la riunione inizia in orario mentre se è maggiore inizia in ritardo.

Come si può vedere, in certi casi la media è addirittura di quasi 6 minuti di anticipo calcolando i tempi di arrivo di tutti i partecipanti, però la riunione inizia comunque con 7 minuti di ritardo perché l’ultima persona arriva con quel ritardo.
A questo punto si può utilizzare lo strumento Riepiloga per determinare quante riunioni iniziano in orario e quante in ritardo.

Come si può vedere solo 262.144 casi su 11.390.625 ossia solo nel 2,3% dei casi la riunione inizia in orario. Questo nonostante il fatto che – in media – tutti i partecipanti possano essere considerate delle persone mediamente puntuali.

Il cappello del mago e l’algoritmo

Con questo semplice esempio si è dimostrato come non bisogna farsi influenzare dalle premesse perché è possibile che l’algoritmo utilizzato ignori tali premesse. Nel caso del ritardo – infatti – l’algoritmo per il calcolo del ritardo non è influenzato dal comportamento medio dei partecipanti, ma dal comportamento “peggiore” che di volta in volta adottano.
In sostanza, le premesse che sono state fornite quando è stato esposto il problema sono state – in un certo senso – “il cappello del mago” ossia un elemento di distrazione perché in realtà la vera azione avveniva da un’altra parte: il cappello del mago era la media mentre ciò cui bisognava prestare attenzione era l’input che l’algoritmo per il calcolo del ritardo usa per compiere la sua magia.
Questa importante lezione serve perché spesso nella comunicazione le premesse vengo usate maliziosamente di modo che fungano da “cappello del mago” per far passare una conclusione totalmente sbagliata che però suona ragionevole. Se non si vuole cascare nell’equivoco del ritardo nella riunione bisogna andare a considerare – a fondo – l’algoritmo che si utilizza per arrivare alla conclusione.

Conclusioni

In Alteryx è stato possibile – con i suoi strumenti – implementare il calcolo combinatorio creando tutte le possibili combinazioni di 15 valori per i 6 partecipanti. Questo ha permesso di avere tutti i possibili scenari dopo di che si è creata la regola per determinare se la riunione inizierà in ritardo oppure no. Questa regola prescinde dal comportamento medio delle persone e si focalizza sul peggiore scenario.
Pertanto: premesse nella media non è detto che portino a conclusioni nella media.