Correzione di Bonferroni: come, quando e perché

Vediamo in questo post cos’è la correzione di Bonferroni e soprattutto come e quando applicarla.

La situazione è questa: hai condotto uno studio, un esperimento, un progetto qualsiasi, e hai tratto le conclusioni dello studio non attraverso un singolo test statistico ma attraverso più test.

Ad esempio perché hai testato diverse variabili, diverse condizioni sperimentali, eccetera.

E qualcuno (un reviewer, un tuo collega, un tuo docente…) ti ha detto che devi interpretare i risultati ottenuti considerando la molteplicità di questi test e di usare la “correzione di Bonferroni”.

Bene: voglio pensare che se stai leggendo questo post probabilmente non sai cosa si intenda per “correzione di Bonferroni” o comunque hai dei dubbi sul perché si debba effettuare e soprattutto se è veramente il caso di farlo.

Correzione di Bonferroni: perché

Facciamo un breve esempio pratico: diciamo che hai preso cinquanta persone e le hai massaggiate con la tecnica di “massaggio A”; altre cinquanta persone e le hai massaggiate con la tecnica di “massaggio B”.

Alla fine del massaggio hai misurato il livello di relax somministrando ai tuoi soggetti massaggiati un questionario che va da zero a 100 punti.

Diciamo ora che tu voglia dimostrare che il massaggio A sia più rilassante del massaggio B e decida di effettuare un test statistico (ad esempio un classico t-test per il confronto delle medie del valore ottenuto dal questionario sul rilassamento).

Ora sai benissimo che quando effettui un test statistico, imposti un livello di significatività statistica, classicamente il 5%.

Cosa significa? Significa che se nella realtà le due tecniche di massaggio A e B dovessero essere uguali, tu ritieni accettabile un rischio del 5% di trarre la seguente conclusione sbagliata: “Il massaggio A è più rilassante del B”, quando esso come dicevamo in verità non è affatto vero.

In statistichese si dice: assumi un livello di errore di tipo 1, cioè di rigettare l’ipotesi nulla (i massaggi hanno lo stesso effetto) quando essa è vera, del 5%. Qualcuno dice anche: ti assumi un rischio massimo del 5% di avere un Falso Positvo (questa affermazione mi piace molto meno perchè in statistica ed epidemiologia Falso Positivo ha un significato ben preciso)

Quello che succede nella pratica è che tu condurrai il tuo test e se otterrai un p-value inferiore a 0,05 esulterai come un pazzo perchè vorrà dire che l’effetto che il tuo test ha evidenziato sarà dovuto al caso con una probabilità inferiore al 5%, al di sotto cioè del livello di significatività che hai prestabilito.

Ora però il tuo spirito di avventura ti spinge a far compilare ai tuoi soggetti un altro questionario, sempre sugli effetti rilassanti del massaggio, ma comunque con domande differenti rispetto al primo questionario compilato.

Alla fine del tuo esperimento ti ritroverai non più con il risultato di un test, ma con i risultati di due test:

  1. massaggio A vs Massaggio B misurati con il primo questionario (chiamiamolo “questionario 1”;

  2. massaggio A vs Massaggio B misurati con il secondo questionario (“questionario 2”).

E tu dirai, vabbene, tanto meglio. Ho più informazioni.

Vero, ma c’è un problema.

Nel caso le due tecniche di massaggio dovessero avere uguale effetto esiste una certa probabilità che, per puro effetto del caso, almeno uno dei due test possa dare risultati erroneamente significativi.

  • “Il massaggio A è più rilassante del B” (misurato con il questionario 1)

oppure

  • “Il massaggio A è più rilassante del B” (misurato con il questionario 2).

E la probabilità di avere almeno (ripeto: almeno) un test significativo e dire che il massaggio A è meglio del B, quando questo non è vero, non è più del 5%, ma aumenta e non di poco.

Più precisamente, la probabilità di ottenere almeno un test positivo (p<0.05) per frutto del caso e non per la reale superiorità del massaggio A rispetto al B è

P=1-(1-a)k

dove:

P è la probabilità di avere almeno un test significativo;

a è il livello di significatività;

k è il numero di test condotti.

Nel caso di due test, come nell’esempio riportato, la tua probabilità di avere almeno uno dei due test erroneamente significativi non è più 5% ma

1-(1-0.05)2

cioè 1-0.9025=0.0975,

cioè il 9,75% di dire che il Massaggio A è meglio del B quando questo non è affatto vero.

Se i test fossero 3, la probabilità di dire almeno una boiata sarebbe 14,3% e via via salendo con il numero di test eseguiti.

Correzione di Bonferroni: come

Quello che devi fare, e per cui ti serve la correzione di Bonferroni, è mantenere la probabilità complessiva di errore di Tipo 1 al 5%.

Come si fa?

Si fa che il livello di significatività statistica di ogni singolo test non sarà più quello iniziale di 0.05 (o 5% se preferisci) ma 1−(1−α)1/k.

Perciò nel caso di due test, come nel nostro esempio, il livello di significatività sarà di 0.0256. In soldoni i tuoi singoli test per essere statisticamente significativi devono darti un p value < 0.0256.

Molto più comunemente la formula che hai visto tre righe più in su 1−(1−α)1/n viene approssimata a α/k, dove k è sempre il numero di test condotti.

Perciò per riassumere:

  • se fai 2 test il tuo livello di significatività sarà 0.05/2 e il p-value per essere significativo dovrà essere <0.025;,
  • se fai 3 test  sarà 0.05/3 e il p-value per essere significativo dovrà essere <0.017, e così via.

Nel tuo articolo dovrai ovviamente riportare questa correzione di Bonferroni scrivendo

Our 2 hypotheses were tested using Bonferroni adjusted alpha levels of 0.025 per test (0.05/2). When using questionnaire 1, massage technique A showed…eccetera.

Correzione di Bonferroni: problemi

Sembra tutto molto semplice, ma non lo è.

Questa correzione di Bonferroni è vero che ti protegge da un aumento di probabilità di dire che il massaggio A è meglio del B quando questo non è vero, ma causa anche l‘effetto contrario: cioè la possibilità di non dire che il massaggio A è meglio del B quando questo è vero e commettere quello che in statistica si chiama errore di tipo 2.

Si dice, sempre in statistichese, che  la correzione di Bonferroni è troppo conservativa; tende cioè a preservare troppo l’ipotesi nulla di non differenza tra il massaggio  A e massaggio B.

Immagina che disdetta: il tuo massaggio A è veramente superiore al massaggio B ma tu non puoi decretarlo perché il livello di significatività statistica (il p-value al di sotto del quale devi stare) è troppo basso!

Quando dobbiamo usare la correzione di Bonferroni?

La domanda più spontanea è: ma allora lo uso o non lo uso questo metodo di correzione del livello di significatività, se poi rischio di non poter vedere la differenza tra le due tecniche di massaggio nel caso essa ci fosse veramente?

Su questa domanda orde di statistici si stanno prendendo a parolacce da anni. Chi toglierebbe di mezzo Bonferroni, chi lo giustifica invece a spada tratta.

Come spiegavo in un precedente post sul problema dei test multipli, l’approccio più saggio è quello di valutare le circostanze; ti elenco perciò i criteri più importanti per decidere se usare o meno la correzione di Bonferroni.

L’importanza dell’errore di Tipo 1  o quelli di Tipo 2

Nel caso il tuo studio necessiti cautela nel decretare un test statisticamente significativo, Bonferroni potrebbe essere una buona idea proprio perché, come dicevamo, è un metodo molto conservativo. Ad esempio quando si confronta un farmaco sperimentale con uno già in uso è necessario fornire un’evidenza molto forte perché il farmaco sperimentale vada a sostituire quello già in uso (soprattutto se più costoso, più tossico, eccetera).

Nel caso invece non puoi permetterti di non vedere un effetto realmente presente (errore di Tipo 2) allora Bonferroni è una pessima idea, sempre per lo stesso motivo: l’eccessiva “severità”.

La correlazione tra i test

Vuoi sapere una cosa? Nell’esempio che abbiamo visto sopra (due tecniche di massaggio a confronto) Bonferroni…non andava utilizzato! Perchè? Perchè i due test sono molto correlati tra loro. Tradotto: per ogni singolo paziente, il risultato ottenuto con il questionario 2 dipenderà molto dal valore ottenuto dal questionario 1. Se uno dei tuoi soggetti con il questionario 1 risulterà “molto rilassato”, difficilmente con il questionario 2 sarà “poco rilassato”; il suo livello di relax sarà di nuovo quasi certamente molto alto.

Questo comporta che anche l’esito dei due test statistici saranno correlati. E se ci pensi, quanto più due test sono correlati tanto più essi finiscono per rappresentare…lo stesso unico test e non richiedere perciò l’utilizzo della correzione di Bonferroni. Ad ogni modo in caso di test correlati esistono altre tecniche che non ti mostro in questo articolo per evitare di mettere troppa carne al fuoco.

La natura delle analisi e del contesto

Ci sono analisi ed analisi: se stai cercando di far approvare un farmaco, quasi certamente l’ente regolatore, per avere certezza che il tuo farmaco funzioni ti chiederà la correzione dei p-value. O comunque, quando stai interpretando i risultati di uno studio, se i tuoi test sono prespecificati e “confermativi” delle ipotesi che hai dichiarato nel protocollo, molto più probabilmente la correzione di Bonferroni diventerà necessaria (sempre che siano rispettati altri criteri come quelli che ti ho descritto sopra).

Se invece stai conducendo invece tanti test esplorativi per generare ipotesi da testare in studi successvi disegnati ad hoc, allora direi che Bonferroni può attendere.

Insomma: la valutazione va fatta caso per caso è noi di StatsImprove saremo ben lieti di fornirti un parere nel caso tu ne avessi bisogno.

[one_half]
Ti serve aiuto? Contattaci e ti forniremo una soluzione.
La nostra struttura di network di professionisti ci permette di abbattere notevolmente i costi dei servizi di supporto e darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti.
[contact-form-7 id=”140″ title=”Modulo di contatto 1″]
[/one_half]

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *