Condividi l'articolo

Quante volte per esprimere un rapporto di causa-effetto tra due eventi si è usato il termine “correlazione”?

In questo articolo si utilizzerà Alteryx per spiegare la differenza tra il concetto di correlazione e il concetto di causa-effetto utilizzando il concetto di relazione spuria. Si introdurrà, inoltre, il concetto di correlazione lineare che è l’indice cui implicitamente ci si riferisce parlando di correlazione tra due eventi.

La figura sopra mostra il flusso di Alteryx usato in questo articolo. Come si può vedere, quest’ultimo è  composto da quattro parti:

  • La connessione alle fonti (due file Excel);
  • Alcune operazioni di preparazione dei dati in cui si sono ribaltati i dati da righe a colonne;
  • Unione delle due fonti dati e operazioni per rendere i dati in formato numerico per poterne calcolare l’indice di correlazione;
  • Calcolo della correlazione.

Pertanto, per esprimere un rapporto di causa-effetto tra due eventi si può usare il termine correlazione?
Giustamente, si potrebbe dire che l’evento “piantare dei semi nel terreno” è correlato con l’evento “crescita delle piante in quel terreno” e, allo stesso modo, dire che il primo evento causa (o contribuisce a causare in collaborazione con altri eventi) il secondo.

Ma è sempre così?

La risposta è no. Infatti, è facile trovare un forte correlazione tra eventi per i quali sarebbe assurdo vedere dei nessi causali.

Utilizzando i dati presi dal database della World Bank sull’indice di diseguaglianza di Gini e sulla percentuale di foreste rispetto al totale del terreno presenti sul territorio nazionale è stato altrettanto possibile dire – attraverso Alteryx Designer – che l’indice di diseguaglianza in Armenia è correlato negativamente con la percentuale di foreste presenti nella vicina Georgia.

Dopo alcune operazioni di manipolazione dei dati si è ottenuto un fonte dati con tre colonne: anno, indice di Gini per l’Armenia e la % di foresta in Georgia.

L’indice di Gini è un valore che – tipicamente – va da 0 a 1 (in questo caso è stato scalato su base 100) e tanto più ci si avvicina allo 0 tanto più nella società c’è una distribuzione equa del reddito tra tutte le persone, mentre tanto più ci si avvicina a 1 tanto più la maggior parte della ricchezza è concentrata nelle mani di poche persone. Come si può vedere, l’Armenia ha una società in cui c’è un certo grado di grado di diseguaglianza, ma che tutto sommato, considerando i valori delle altre nazioni, ha un comportamento virtuoso: il valore maggiore è di 63.0 per il Sud Africa, mentre il più basso è di 24.2 della Slovenia.

 

Guardando la tabella riportata nella figura sopra si può vedere l’andamento strettamente crescente della % di foreste in Georgia e l’andamento altalenante dell’indice di Gini in Armenia. Si può quindi provare a vedere se ci sia una relazione tra queste due variabili utilizzando lo strumento Analisi di Associazione di Alteryx Designer.

In questo tool – come mostra la figura sopra – si possono scegliere le tre più importanti misure di correlazione, tra cui la più utilizzata ossia l’indice correlazione lineare di Pearson. Questo indicatore esprimerà un valore da -1 a 1 a seconda del legame lineare tra le due variabili:

 

  • Un valore di 0 significherebbe l’assenza di un legame lineare tra le due variabili;
  • Un valore di -1 significherebbe la presenza di un forte legame lineare inverso tra le due variabili (quando una cresce, l’altra decresce e viceversa);
  • Un valore di 1 significherebbe la presenza di un forte legame lineare tra le due variabili (decrescono e crescono insieme).

La figura sopra (presa dalla pagina Wikipedia dell’Indice di correlazione di Pearson) mostra l’andamento grafico di due variabili a seconda dei diversi valori dell’indice di correlazione.

Utilizzando questo indicatore per le due variabili prese in esame si ottiene il risultato di -0.70.

Questo significa che se la correlazione fosse un indicatore affidabile del legame di causa effetto si potrebbe suggerire al primo Ministro armeno che per avere una società più eguale dovrebbe andare a deforestare le terre dei vicini georgiani. Questa, al netto di tutti i possibili problemi diplomatici, sarebbe un’indicazione utile da seguire? Naturalmente no, è quello che in gergo statistico viene chiamata “spurious relationship” o relazione spuria ossia una relazione matematica in cui due o più variabili hanno una qualche relazione ma non hanno alcun legame di causa-effetto. Quello che lega le due variabili è la presenza di un terzo fattore, sconosciuto, che influenza entrambe attraverso una catena di relazioni che non si può vedere guardando al semplice indice di correlazione.

Pertanto, benché l’indice di correlazione sia un buon punto di partenza per una ricerca sulle aristoteliche cause prime di un fenomeno questo non può essere considerato in alcuna misura risolutivo di questa ricerca.

Sulla base di questa ambiguità tra semplice indicazione e certezza del legame causa-effetto ha avuto successo il sito tylervigen.com in cui si cercano delle alte correlazioni fra gli eventi più improbabili come una correlazione del 99.26% fra il tasso di divorzio in Maine e il consumo pro capite di Margarina.

Fortunatamente, oltre agli strumenti teorici e di buon senso per anticipare la possibile buccia di banana è possibile utilizzare Alteryx, in cui c’è un’intera categoria di strumenti utili a trovare legami di causa effetto che è Test AB. Ma, l’approfondimento su questi strumenti sarà oggetto di un prossimo articolo.

In conclusione, è bene andare sempre con i piedi di piombo nella ricerca dei legami di causa effetto e tenendo sempre a mente il problema della correlazione spuria bisogna ripetere: “la correlazione non implica il nesso di causalità”.