Tra le misure statistiche, il p value è:
- quella a cui si rivolge maggiore attenzione;
- quella allo stesso tempo peggio interpretata.
Non voglio però discutere in questo post tutti gli errori di valutazione del p value (lo farò in un altro post).
Di questi misunderstanding vorrei prenderne uno, quello che maggiormente secondo me ha impatto sulla comprensione di quanto studiamo attraverso i nostri esperimenti.
Premetto che si tratta anche di un errore che commetto io stesso nel momento in cui mi ritrovo a dover semplificare l’interpretazione dei risultati delle analisi, soprattutto quando ho a che fare con persone che sanno poco o niente di statistica.
Partiamo e prendiamo il più classico degli esempi: stai testando il farmaco A contro il farmaco B.
Conduci il tuo test di efficacia e ottieni un p value di 0.04.
Siccome avevi impostato il tuo livello di significatività statistica al 5%, il tuo test è significativo visto che p è inferiore a 0.05.
Fantastico. Ma ora devi fare molta attenzione a come interpreti questo valore nella pratica.
L’errore secondo me più grave è sostenere che:
“il mio p value di 0.04 mi dice che io ho il 4% di probabilità di commettere un errore nel rigettare l’ipotesi nulla, cioè che il Farmaco A e il Farmaco B abbiano uguale efficacia”.
In altri termini di correre un rischio del 4% di avere il tuo esperimento, il tuo test, “falsamente positivo”.
Detto ancora in altri termini: se tu ti ritrovi al bar dell’ospedale con il tuo collega di un altro reparto sbagli di grosso se gli dicessi. “sai Giovanni, ho provato il Farmaco B e funziona meglio del Farmaco A, ma ho il 4% di probabilità di sbagliarmi”.
Falso. Not true. Bullshit.
Non è così. La probabilità di errore, cioè di avere un esperimento falsamente positivo è ben più alta di quanto indicato dal tuo p value e qualcuno già da tempo l’ha stimata.
Ad esempio in Selke et al. del. 2001, per un p value di 0.01 è stimato una probabilità di falsa positività del 15% circa. Con un p value di 0.05 arriviamo addirittura a una probabilità di errore del 50% circa. Queste cifre possono variare a secondo di alcune caratteristiche dell’esperimento come il sample size o come la prevalenza dell’effetto studiato, ma penso tu abbia capito l’entità di quanto si sta discutendo.
Queste cifre di probabilità di errore sono considerevoli e, secondo me, andrebbero discusse sempre nelle conclusioni degli articoli scientifici.
Ma allora nella pratica cosa ci dice un p value significativo?
Alla fine, quello che devi avere ben chiaro è che quando conduci un esperimento, come ad esempio l’efficacia di un farmaco come dicevamo sopra, l’interpretazione pratica che dovresti dare quando ottieni il tuo bel p value <0.05 è :
“ok, forse questo farmaco funziona. Forse. Continuiamo ad indagare”.
Per renderci conto ancora meglio, è come se andassimo a farci un dosaggio del glucosio ematico e scoprissimo di avere una glicemia compatibile con diagnosi di diabete, ma quel test potrebbe essere un falso positivo nel 15% dei casi.
Con un test di questo tipo è chiaro che il test tu lo voglia ripetere prima di cominciare a iniettarti insulina.