Test Multipli: quando dobbiamo correggere per la multiplicity dei test?

In questo post cerchiamo di dare qualche indicazione che possa aiutare lo sperimentatore a rispondere alla fatidica domanda: devo correggere o non correggere i livelli di significatività statistica per la multiplicity dei test?

Il problema dei test multipli (multiplicity) è un problema che riguarda la quasi totalità dei lavori scientifici e che non ha ancora trovato una soluzione condivisa e definitiva. Anzi, sono moltissime le pubblicazioni scientifiche che ignorano la molteplicità delle ipotesi testate e l’inflazione dell’errore di primo tipo. Per farti capire l’entità del problema, un paper del 2014, ad esempio, stima la percentuale di questi lavori a circa il 50% nei trial multibraccio.

C’è da dire, però, che a tal proposito, manca un consenso nella comunità scientifica e nell’ambito delle autorità regolatorie. Ad esempio, le direttive sul problema della multiplicity fornite dall’EMA’s (Agenzia Europea dei Medicinali) lasciano spazio a mille interpretazioni, anche per il fatto che i possibili disegni di studio di un clinical trial sono potenzialmente infiniti.

Insomma: bisogna armarsi di un po’di buon senso, di spirito di chiarezza e verità, e possedere qualche criterio decisionale.

Il problema dei test multipli (multiplicity) in breve

Anche se non è possibile affrontare in profondità il problema dei test multipli, prima di partire cerchiamo di capire in breve a cosa andiamo incontro quando ignoriamo la presenza di più test all’interno del nostro studio e non aggiustiamo il livello di significatività statistica.

Diciamo che tu stia conducendo una sperimentazione con due farmaci anti-asma e che voglia misurare la differenza tra i due misurando due endpoint diversi: il primo è un endpoint di efficacia, diciamo la FEV1, e il secondo invece è la misura della qualità della vita dei pazienti (misurata attraverso un particolare questionario).
Tu conduci i tuoi due test e dichiari il limite della significatività statistica considerata al 5%.
Ora, considerando il limite al 5% per entrambi i test, la tua possibilità di commettere un errore del primo tipo in almeno uno dei due test non sarà del 5% ma del 9,75%.
La formuletta dalla quale viene questo 9,75% è molto semplice:
P=(1-(1-a)k
Dove:
P è la probabilità di almeno un test significativo;
a è il livello di significatività;
k è il numero di test condotti.

In soldoni: più test di ipotesi conduci in un esperimento, più il livello di almeno un errore di primo tipo aumenta.
In realtà bisognerebbe tenere conto anche di altri fattori, come ad esempio la correlazione tra i test, ma ne parleremo in qualche altro articolo.

Come facciamo a tutelarci da queste possibili “false positività”? Esistono una serie di tecniche che ci permettono di distribuire quel fatidico 5% di significatività suddividendolo tra i diversi test che vengono condotti all’interno dello studio. La tecnica più diffusa è la correzione di Bonferroni, ma ce ne sono mille altre.

Non è in questo post che parleremo delle tante tecniche di gestione della multiplicity. L’obiettivo di questo articolo è invece capire:

come decidere se correggere o meno per questa molteplicità dei test?

Quanto leggerai di seguito è una mia personalissima opinione, ma che è in buona parte supportata dalla letteratura scientifica.

Partiamo.

Gli scenari più comuni di multiplicity e come regolarsi

La strategia più solida da utilizzare è quella di stabilire la natura dello studio e del test eseguito: esplorativo o confermativo?
In generale, quando il tuo studio è di natura esplorativa (come lo sono ad esempio molti studi in cui non vi è una stima del sample size, o comunque una power-analysis formale) la strategia potrebbe essere:
non correggere per multiplicity;
dichiarare molto chiaramente la natura esplorativa dello studio;
nei metodi dello studio indicare che non si è corretto per la multiplicity (data, appunto, la natura esplorativa dello studio) ed eventualmente commentare i risultati alla luce di questo problema.

Quando invece lo studio e i test sono di natura confermativa allora l’obiettivo è “essere cauti” e considerare la possibilità di ottenere risultati falsamente significativi.

Vediamo di seguito un elenco degli scenari più frequenti.

Endpoint multipli

Quando hai endpoint multipli dove nessuno di questi è considerabile principale, allora diventa necessario correggere per multiplicity. Un esempio banalissimo: 3 endpoint cardiovascolari (diciamo: pressione arteriosa, frequenza cardiaca, alterazioni del tracciato elettrocardiografico) in cui nessuno di essi ha una rilevanza clinica superiore a quella degli altri due e ognuno testato attraverso un test ad hoc separatamente dagli altri.

Diventa allo stesso modo necessario correggere per multiplicity se il successo dello studio è decretabile se i test di tutti gli endpoint sono risultati statisticamente significativi.

Misure ripetute

Quando il tuo studio ha misure ripetute nel tempo e il test viene effettuato a diversi timepoints (ad esempio per vedere l’effetto di un trattamento dopo 2 mesi, 6 mesi e 12 mesi), allora anche qua diventa necessaria la correzione.

Trial multibraccio

Quando hai uno studio confermativo multibraccio (cioè con più di due trattamenti) e con più confronti pairwise (ad esempio: trattamento 1 vs 2, 2 vs 3, 1 vs 3), allora è indicato correggere. In questo caso in realtà, alcuni autori sostengono che bisognerebbe considerare quanto i trattamenti siano o meno “della stessa natura”.

Ad esempio: se i tre bracci dello studio sono due dosi di farmaco e un placebo, allora la correzione è opportuna

Quando invece i bracci sono di natura completamente scorrelata il problema multiplicity può diventare superfluo.
Ad esempio, in un trial vogliamo valutare la gestione dell’alcolismo randomizzando nei seguenti tre bracci di studio:
un protocollo rieducativo;
un protocollo farmacologico;
un braccio di controllo.
i confronti “protocollo rieducativo vs controllo” e
“protocollo farmacologico” vs “controllo”, sono considerabili come due trial diversi e diventa addirittura concettualmente sbagliato correggere per la multiplicity.

Analisi Subgroup e Post-Hoc

Le analisi per sottogruppo e tutti gli altri test post-hoc sono quasi sempre considerate esplorative per cui diventa inutile la correzione. Ho scritto “quasi sempre” perché in alcuni casi le analisi sottogruppo possono avere un ruolo confermativo per ipotesi non correlate all’ipotesi principale dello studio.
Ad esempio: studio con due bracci, trattamento farmacologico vs programma educativo per la cura di una dipendenza. L’analisi principale è la valutazione dell’efficacia del trattamento famacologico. L’analisi su un sottogruppo può avere come obiettivo, per esempio, l’identificazione del legame tra il grado di alcolismo e il livello di fertilità dei maschi.
In questo caso, per quella che è la mia modesta opinione, diventa inutile correggere per multiplicity (l’analisi è secondaria e scorrelata dall’analisi principale) ma allo stesso tempo bisogna anche considerare che molto spesso queste analisi accessorie per quanto confermative ambiscano ad essere, hanno problemi di potenza statistica. E questo andrebbe accuratamente misurato e discusso.

Dataset differenti

Quando stai usando due dataset per effettuare la stessa analisi (ad esempio il dataset “per protocol” oppure quello “intention to treat”) in generale non è necessario correggere per la multiplicity.

Analisi ad interim

Quando conduci analisi ad interim è necessario correggere per multiplicity. In questi casi la strategia è quasi sempre usare un livello di significatività molto elevata per l’analisi ad interim (ad esempio 1%) in modo da lasciare un restante 4% per il test finale dello studio.

E negli studi osservazionali?

Per quanto riguarda gli studi osservazionali, sempre a mio parere, la situazione non cambia. Rimane necessario stabilire molto chiaramente quali siano i test confermativi dello studio e quali i test esplorativi. C’è da dire, a riguardo, che negli studi osservazionali questo sforzo di chiarezza è sempre meno comune rispetto ai clinical trials e spesso si infarciscono gli studi con decine di p-value quasi sempre inutili.

Interessante il giudizio di Kenneth Rothman, uno dei padri dell’epidemiologia moderna. Secondo il buon Kenneth la correzione per multiplicity andrebbe sempre evitata perché farebbe diventare la ricerca scientifica troppo conservativa. Meglio, cioè, ottenere studi falsamente significativi ed esplorare ulteriormente le ipotesi in studi successivi, invece di “castrare ingiustamente” troppe evidenze abbassando in modo eccessivo gli alfa-levels.

Ti serve aiuto? Contattaci

[contact-form-7 id=”140″ title=”Modulo di contatto 1″]

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *