Come calcolare un Sample Size quando non hai informazioni a priori

Calcolare un sample size per un protocollo, richiesta di un grant, o semplicemente perché devi rispondere a un reviewer, può essere decisamente complicato nel caso tu non possegga determinate informazioni a priori e nel caso tu non possa condurre nessuna indagine pilota.

Nei casi più comuni le informazioni che ti servono prima di effettuare il calcolo sono:

potenza (o probabilità di commettere errore di tipo-II, 1-beta);

probabilità di commettere errore di tipo-I (alpha);

dimensione dell’effetto che si vuole andare ad investigare;

variabilità della misurazione.

Le prime due informazioni (alpha e beta) sono una scelta che dipende da una serie di fattori come il tipo di disegno, obiettivo dello studio, eccetera, ma che comunque non rappresentano un problema; di solito si usa il 5% di significatività (alpha, da distribuire su una o due code del test) e una potenza minima dell’80% (1-beta).

Dimensione dell’effetto e variabilità sono invece una brutta gatta da pelare se non hai informazioni a priori dalla letteratura scientifica.

Vediamo come uscire dai pasticci.

In questi casi la prima cosa che devi metterti in mente è che l’approccio più onesto e credibile non è quello di fornire una stima unica del sample size ma di produrre un range di numerosità campionarie con valori basati su diversi scenari. Purtroppo il disegno di un protocollo non è mai una scienza esatta per cui è bene fare uno sforzo per tenere conto di tutti gli ipotetici scenari che si possono presentare per poter garantire uno studio che non sia solo una perdita di tempo e di risorse.

Prendiamo allora i due “ingredienti” che devi necessariamente possedere per il calcolo del sample size: dimensione dell’effetto e variabilità della misura.

Se non consosci la Dimensione dell’effetto (effect size)…

Per dimensione dell’effetto intendiamo l’intensità del fenomeno che stai osservando. Ad esempio la variazione del tuo endpoint tra un gruppo sperimentale e quello di controllo (o tra un pre- e un post- trattamento, nel più semplice dei casi).

Per essere ancora più pratici facciamo un esempio: stai trattando un gruppo di pazienti con un antiipertensivo e ad un altro gruppo somministri placebo; la dimensione dell’effetto sarà la differenza della pressione media nel gruppo trattato con farmaco rispetto al gruppo di controllo. Qual è il valore che ti aspetti di trovare?

Ho fatto l’esempio della differenza tra medie di pressioni del sangue, ma lo stesso vale per altre misure di effetto: Odds Ratio, Rischio Relativo, una coefficiente di regressione quello o che ti pare. Qual è il valore che il tuo studio ipotizza di trovare?

In generale questo valore uno sperimentatore lo dovrebbe conoscere e dovrebbe essere basato su precedenti studi esplorativi o perlomeno sulla “speranza” dettata dalla sua pratica clinica.

Alcuni sperimentatori sparano un “diverso da zero”. Questa è una pessima idea: se tu avessi un tuo genitore o figlio icoverato per una crisi ipertensiva e dicessero che il farmaco che gli stanno somministrando riduce la pressione di un valore diverso da zero tu cosa diresti? Io direi: “vabbè, allora?”. Ed è quello che ti direbbe anche un reviewer che legge un tuo protocollo.

Nel caso in cui tu non abbia la più pallida idea di quanto possa essere questo valore, quello che puoi fare è cercare il minimo valore significativo dal punto di vista clinico (MCID, minimal clinically important difference) per la popolazione di pazienti a cui ti stai riferendo.

Dove lo cerchi? Ovviamente in letteratura. E qua bisogna fare attenzione ad un errore che commettono in molti: non devi usare un effetto trovato da altri studi; devi trovare un valore che sia universalmente riconosciuto come MCID e questo MCID deve essere specifico, come dicevamo, per il tipo di soggetti di cui ti stai occupando. Se trovi che Caiosempronio et al hanno studiato un antiipertensivo simile al tuo su pazienti dializzati e hanno visto che il loro effetto e stato 3 mm di mercurio, NON devi usare quel 3 mm di mercurio per il tuo studio (che magari è condotto su tutt’altro tipo di pazienti).

Devi invece trovare una bella review o una linea guida che ti indichi la tua MCID nei tuoi pazienti. Probabilmente troverai più valori di MCID: bene, tienili da parte perché poi andrai a utilizzarli per creare quel pannello di ipotetici sample size.

Se non conosci la deviazione standard delle tue misurazioni…

Il secondo valore che ti serve necessariamente conoscere è quello della deviazione standard della tua misura. Qual è la deviazione standard della pressione misurata sui tuoi pazienti dializzati? Questa è una misura che devi conoscere. Non puoi farne a meno. Non puoi stabilire una deviazione standard sulla base della tua “speranza” clinica. Mettiti davanti a pubmed e cerca un valore di deviazione standard misurata nelle condizioni più simili possibile a quelle del tuo studio.

Come ti dicevo, non è necessario che siano pazienti studiati nelle tue stesse identiche condizioni, ma va bene anche un’approssimazione a patto che tu, nel momento in cui scrivi il paragrafo del sample size, ti ricordi di dichiarare da dove hai preso quei valori di deviazione standard.

Usa un approccio conservativo

Ora che hai individuato dei valori di dimensione dell’effetto e di variabilità (deviazione standard) della tua misurazione, effettua più calcoli di sample size tenendo conto delle diverse possibili combinazioni dei valori individuati.

Alla fine otterrai un elenco di ipotetiche dimensioni campionarie.

A questo punto la strategia che, almeno nel mio caso, ha sempre funzionato, è quella di usare un approccio più conservativo possibile, cioè quello di:

  • descrivere il lavoro di calcolo che è stato fatto (tutti i sample size ottenuti);
  • usare il sample size più alto sulla base delle risorse di tempo e di denaro.

In questo modo dimostrerai che avrai fatto tutto il possibile sforzo per garantire il livello più alto di solidità statistica.

Il peggior scenario

Scoperta terribile: non c’e nessun articolo o documento che ti parli di differenza clinica significativa e nemmeno del più lontano valore di deviazione standard ipotetica. A questo punto l’ultima spiaggia è quella di usare delle dimensioni di effetto standardizzate, come ad esempio i valori di Cohen’s d.

Non possiamo parlarne in questo post altrimenti esso diventa troppo lungo, ma sappi che nonostante sia l’approccio preferito di molti ricercatori, esso è quasi sempre una pessima idea perchè si basa su un effetto esclusivamente statistico e non legato alla clinica o a qualunque altra realtà tu stia studiando.

1 commento su “Come calcolare un Sample Size quando non hai informazioni a priori”

  1. Ciao!
    grazie per la spiegazione che è veramente molto chiara ed esaustiva.
    Volevo chiederti una cosa, rispetto al calcolo della dimensione adeguata del campione per studi pilota. Nel nostro caso vogliamo testare l’efficacia di un programma psicoeducativo (precedentemente utilizzato in adulti, con studi pubblicati) in un gruppo di adolescenti. Visto che però non ci sono studi a riguardo in questa popolazione, l’idea e di iniziare con un pilota. Ma come posso calcolare il campione adguato per un piliota?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *