Condividi l'articolo

Premessa

Lunedì 3 agosto 2020 l’indagine sierologica sulla diffusione del coronavirus tra la popolazione italiana ha diffuso i primi risultati. Come riportato dal Fatto QuotidianoSolo 64mila persone sulle 150mila previste hanno partecipato all’indagine”. In questo articolo si utilizzeranno le conoscenze costruite fino ad ora sul campione casuale e sul Teorema Centrale del Limite per capire se il “solo” utilizzato dal Fatto Quotidiano – che sott’intende una sfiducia nei confronti dei risultati dell’indagine – sia giustificabile oppure no in termini statistici. Inoltre, si farà un’indagine per provare ad ipotizzare l’effetto che le defezioni abbiano avuto sulla stima per avere un quadro di tutti i principali scenari. Gli esperimenti statistici con cui si trarranno le conclusioni verranno costruiti con Alteryx.

Confronto tra i risultati ottenuti con le persone che si sono sottoposte al test e quelle che non si sono sottoposte

Adesso, con l’ausilio di Alteryx andremo a ricostruire l’Italia e l’incidenza del Covid così come riportato dalle statistiche ufficiali. Dopo di che – sempre con Alteryx – ricostruiremo gli esperimenti fatti calcolando di volta in volta l’incidenza. Dapprima utilizzeremo le 64mila persone – ossia lo stesso numero di coloro che si sono effettivamente sottoposte al test; in seguito tutte le 150mila persone – ossia lo stesso numero di persone che inizialmente sono state selezionate per eseguire il test; infine valuteremo i dati sull’incidenza in entrambi i casi per vedere se – effettivamente – queste defezioni abbiano comportato un grave danno all’indagine.

Creazione della popolazione italiana e relativa diffusione del Covid

Il primo passo è quello di andare a costruire la popolazione italiana in modo da poter verificare se l’estrazione che viene fatta sia affidabile o meno.
Per il numero di italiani si prende il dato fornito dall’Istat nel Bilancio Demografico Nazionale di 60,24 milioni di Italiani. Mentre, per quanto riguarda la diffusione del coronavirus si utilizzerà il dato pubblicato del 2,5% (che il risultato dell’indagine riportato dall’Istat).

La popolazione italiana prodotta nel precedente passaggio ha quindi generato 60.244.639 italiani di cui: 1.506.116 con gli anticorpi del Covid e 58.738.532 sani.
In questa prima parte del processo di simulazione si è, quindi, ricreata la popolazione italiana ipotizzando che – realmente – la diffusione del Coronavirus riguardo il 2,5% della popolazione, ossia 1,5 milioni di italiani.

Creazione di alcuni campioni da 64.660 persone su cui andare a calcolare l’incidenza

Il secondo passaggio, come nell’articolo in cui si spiegava il Teorema Centrale del Limite, è quello di andare ad estrarre un campione casule dalla popolazione italiana – in questo caso di 64.660 italiani (come il numero di test per l’indagine fatti al 3 agosto 2020 ossia il 43% dei 150.000 selezionati) – e di andare a calcolare un parametro – in questo caso la percentuale di contagiati. Questo esperimento verrà ripetuto per dieci volte.

La tabella sopra mostra i risultati dell’esperimento, con il valore dell’incidenza che si attesta – anche a colpo d’occhio – attorno al 2,5%: qualche volta è più grande e qualche volta è più piccola. In generale la differenza (Delta Incidenza) ha un suo massimo in un errore in negativo di 0,11. Naturalmente, dato che si parla di persone, un errore di decine di migliaia di persone (nel caso più grave si sottostima il prima di 71mila persone) non è poco e rappresenta il 4% di tutti i malati. In generale:

  • La stima è abbastanza precisa, infatti in media questi campioni hanno trovato un’incidenza del 2,4911%, ossia hanno sottostimato il valore vero di -0,008815 punti che diventa 13.276 malati su 1.5 milioni
  • Come si vedrà, la stima fatta su 150mila persone, non produrrà risultati molto più precisi rispetto a questi

Pertanto – ammettendo che le defezioni non siano andate ad inficiare il fatto che il campione estratto sia casuale – si può ritenere l’esperimento fatto dall’Istat sufficientemente (in quanto l’errore rientra in una banda di oscillazione del +- 4%) affidabile anche con “solo” il 43% del campione che si è sottoposto al test. Naturalmente il risultato ottenuto non è estremamente preciso, ma non rappresenta neanche una stima totalmente irrealistica.

Adesso ripeteremo l’esperimento supponendo che tutte le 150mila persone selezionate inizialmente dall’Istat abbiano accettato di sottoporsi al test. Questo permetterà di confrontare i risultati e – di conseguenza – vedere se ci siano delle differenze significative che portino a ritenere non valido quanto ottenuto al 3 agosto.

Creazione di alcuni campioni da 150.000 persone su cui andare a calcolare l’incidenza

In questo terzo passaggio si suppone che tutte le 150.000 persone selezionate si siano sottoposte al test. Verrà pertanto ripetuto 10 volte lo stesso esperimento visto sopra andando a selezionare 150.000 persone anziché 64.660.

Come si può vedere, anche in questo caso i valori sono molto concentrati intorno a quello vero, però le imprecisioni riscontrate nel campione con 64mila persone si possono ritrovare anche con un campione più grande. C’è anche da notare come il minimo degli errori commessi venga dagli esperimenti fatti con un campione di 64mila persone. Naturalmente questo non significa che sia meglio avere un campione più piccolo che più grande, però la media degli esperimenti fornisce un’incidenza del 2,5089% che commette un errore molto simile a quello di prima (0,008933 di ora contro -0,008815 di prima).

Naturalmente questi risultati cambieranno ogni volta, e in generale ci si può aspettare che il caso con 150.000 persone testate produca delle stime migliori, però anche con 64.660 persone testate i risultati non si sono discostati in misura maggiore rispetto al primo caso.

Si può, quindi, concludere che il “solo” utilizzato dal Fatto Quotidiano non sia statisticamente giustificabile in quanto le conclusioni con i due campioni sono sostanzialmente le stesse e la precisione delle aumenta di poco anche più che raddoppiando il numero di persone esaminate.
Interpretando quel “solo” in maniera più estensiva potrebbe, però, nascere un’interessante riflessione sul perché la gente non sia andata a fare il test. Infatti, le ragioni per cui non si è andati a fare il test potrebbero essere collegate all’aver contratto il virus oppure no, questo renderebbe il campione di chi si è sottoposto al testo non casuale, quindi non rappresentativo e pertanto le conclusioni non sarebbero affidabili. Esattamente come nel caso delle elezioni americane citate in un precedente articolo.
Adesso si procederà – dunque – ad analizzare gli scenari in cui non essersi sottoposti al test abbia un riflesso sull’aver contratto o meno il virus.

Chi non è andato a fare il test sierologico?

Perché le conclusioni tratte nel primo passaggio, cioè che le 64 mila persone che si sono sottoposte al test siano corrette, è necessario che queste siano frutto di un campione causale, ossia non ci deve essere alcuna differenza tra il gruppo che è andato a sottoporsi al test e il gruppo che non c’è andato.
Le due situazioni che potrebbero inficiare la stima fatta possono essere due e portano a due conclusioni diverse:

  • Le persone non sono andate a fare il test per paura di essere messi in quarantena. Questo potrebbe significare che sono stati – magari – meno attenti e pertanto con maggiore probabilità sarebbero potuti risultare positivi, il che significherebbe che il risultato ottenuto sottostima il risultato vero
  • Quelli che non sono andati a fare il test lo hanno fatto perché per non contrarre il virus hanno tagliato i contatti con chiunque. Pertanto, la loro prudenza li porterebbe ad avere una minor probabilità di aver contratto il virus. In questo caso il valore trovato sovrastimerebbe il valore vero della popolazione

Partendo sempre dai dati: si sa’ che il 43% dei selezionati si è sottoposto al test, mentre il 57% si è rifiutato. Adesso si enunceranno tre ipotesi sul perché le persone non siano andate a sottoporsi al test in modo da avere tutti i casi limite dei possibili scenari:

  • H1: Il 57% delle persone che hanno contratto il virus decide di non sottoporsi al test per paura di essere messo in quarantena
  • H2: Il 57% delle persone che non hanno contratto il virus decide di non sottoporsi al test per paura di essere contagiato
  • H3: Il 57% è un parametro indipendente dall’avere o meno contratto il virus e deriva dal fatto che quasi il 60% degli italiani non voglia sottoporsi ad alcun test

Per il bene dell’indagine e dell’Istat il desiderio è di trovarsi nell’ipotesi tre in quanto – come si vedrà – il risultato sarebbe attendibile. Mentre le altre due ipotesi sono casi estremi la cui probabilità di realizzarsi è molto bassa che però portano ad una grave distorsione delle stime. Con ogni probabilità la situazione reale è un misto dell’ipotesi 1 e dell’ipotesi 2 che – sperabilmente per l’esito dell’indagine – si andranno a compensare. Comunque, in questa sede, ci si limiterà ad analizzare gli scenari estremi in modo da avere in mente i binari in cui il risultato di questa indagine si muove.

Pertanto, nelle prossime tre sezioni verranno rifatti i seguenti passaggi:

  • Creazione di un’Italia in cui:
    • Una volta il 57% degli italiani che ha contratto il virus non si rende disponibile a fare il test
    • Una volta il 57% degli italiani che non ha contratto il virus non si rende disponibile a fare il test
    • Una volta il 57% di tutti gli italiani non si rende disponibile a fare il test per ragioni ignote
  • Creazione di dieci campioni da 64.660 persone depurati di coloro che non vogliono – in base alle ipotesi sopra descritte – di volta in volta sottoporsi al test e relativo calcolo delle incidenze. Questo passaggio permetterò di confrontare le tre situazioni limite

In questo la macro per generare i campioni sarà leggermente diversa da quella vista prima in quanto bisognerà togliere coloro che non si sottopongono al test.

Scenario 1

Nel primo scenario si suppone che il 57% delle persone che hanno contratto il virus in Italia decida di non partecipare al test per paura di essere scoperti e di essere messi in quarantena.

Come si può vedere la maggior parte dei contagiati non vogliono sottoporsi al test pertanto si riduce drasticamente la probabilità che una persona che ha contratto il virus non sia inclusa nel campione e per cui – di conseguenza – si riduce l’affidabilità delle indicazioni tratte dall’analisi dei campioni che verranno estratti da questa popolazione.
Quindi, visto che il 57% dei contagiati non si vogliono sottoporre al test e, pertanto, è probabile che i calcoli che andranno a stimare la percentuale di contagiati produrranno un risultato che andrà a sottostimare il valore vero. Per verificare questa idea si andrà a ripetere l’esperimento visto precedentemente per vedere i risultati sull’incidenza. Si può intuire – già da ora – che se dall’esperimento si tolgono solo quelli che hanno il virus la stima che ne verrà fuori non potrà che sottostimare il dato vero.

Come si può vedere in questo caso c’è una grave sottostima del problema che risulta – in media per i 10 esperimenti – essere allo 0.8074% che è molto sotto il valore vero di 2,5%. In questo caso l’errore meno grave riduce la stima delle persone che hanno contratto il virus di 998.332 ossia sottostima il problema del 66% che in altri termini significa che questa stima “non vede” 2 malati su 3.
Bisogna quindi auspicare che nella realtà di questo esperimento non si ricada in questa situazione altrimenti il rischio è quello di sottovalutare fortemente la diffusione.

Scenario 2

Nel secondo scenario si suppone che il 57% degli italiani che non hanno contratto il virus decida di non sottoporsi al test. In questo modo aumenta la probabilità che una persona che ha contratto il virus finisca del campione che verrà testato. È questo, come si vedrà, andrà a sovrastimare l’incidenza che viene da ogni singolo campione.

Come si può vedere già dalla tabella sopra: la maggior parte degli individui sani non vuole sottoporsi al test, quindi la percentuale di persone che hanno contratto il virus sul totale delle persone che vogliono sottoporsi al test aumenta.

Come si può vedere in questo caso c’è una grave sottostima del problema che risulta – in media per i 10 esperimenti – essere allo 5.6317% che è molto sopra il valore vero di 2,5%. In questo scenario si prevedono circa 2 milioni di malati in più rispetto a quelli veri. Questo deriva appunto dal fatto che le persone sane hanno deciso di sottrarsi al test aumentano la rappresentanza degli individui che avevano contratto il virus nel campione da esaminare.
Bisogna quindi auspicare che non nella realtà di questo esperimento non si ricada in questa situazione altrimenti il rischio è quello di sopravalutare fortemente la diffusione e attuare delle restrizioni che risulterebbero non necessarie.

Scenario 3

Nel terzo scenario si suppone che il 57% di quelli che al 3 agosto 2020 non sono presentati per fare i test per un motivo indipendente dall’avere o meno contratto il virus e che deriva dal fatto che il 57% degli italiani – per qualsiasi motivo – non si sottoporrebbe a qualsiasi test.

Come si può vedere dalla tabella sotto gli Italiani si sono divisi casualmente in disposti a fare il test (43%) e in contrari a fare il test (57%) e questa divisione causale è stata ereditata nella stessa proporzione tra coloro che hanno contratto il virus e nei sani. Per tanto ci sarà:

  • Il 43% delle persone con il virus e il 43% dei sani è disposto a fare il test
  • Il 57% delle persone con il virus e il 57% dei sani non è disposto a fare il test

In questo caso si può essere portati a credere che il risultato che si otterrà sarà più o meno in linea con quello vero in quanto non ci si immagina una sostanziale differenza visto che il campione non è – sostanzialmente – distorto.

Come si può vedere in questo caso l’incidenza calcolata sul campione è sempre molto vicina al valore vero (2,5%), in particolare facendo la media di tutti questi 10 esperimenti questa risulta di 2,5074% che è superiore solo alla terza cifra decimale rispetto a quella vera. Questo significa che se la distorsione riguarda casualmente gli elementi della popolazione non va ad inficiare la bontà delle stime. In sostanza, questo caso ha ricalcato quello in cui si andavano a prendere 64mila persone a caso dalla popolazione, quindi la distorsione è come se non esistesse.
Capiamo così come il rifiuto di fare il test non sia di per sé un problema. Il problema è l’eventuale legame tra il rifiuto a fare il test e l’aver contratto il virus o l’essere sani.

Conclusioni

Con Alteryx è stato possibile implementare una profonda analisi statistica della ricerca condotta dall’Istat senza che sia stato necessario scrivere del codice. Per fare questo è stato sufficiente immaginare e disegnare il processo. L’unica vera conoscenza fondamentale è quella relativa ai concetti statistici dietro la valutazione dell’esperimento.
In seconda battuta, Alteryx ha permesso di fare tutti questi ragionamenti senza avere dei dati già pronti, ma andandosi a costruire in casa una nuova popolazione italiana per analizzare l’aspetto di maggior interesse.
Quanto scritto sopra ha permesso di essere in grado di valutare un fenomeno di grande interesse e dando un’idea di quale sia il valore vero, quale la sua massima sovrastima e quale la sua massima sottostima.