Covariate, confondenti, eccetera: quali differenze (e la figura che migliora il tuo articolo o tesi)

Molti studenti e ricercatori quando devono mostrare i risultati delle loro analisi usano, per indicare le variabili indipendenti dei loro modelli statistici, i termini “covariata”, “confondente”, “fattori di confondimento”, eccetera, in modo inappropriato. Devo dire la verità: quando ero dottorando ero il primo a commettere queste leggerezze e questo mi ha causato non pochi problemi quando cercavo di pubblicare.

Vediamo come comportarci per mettere dalla nostra parte editor e reviewer delle riviste, usando i termini corretti e soprattutto in modo da dare valore aggiunto ai nostri articoli.

Partiamo.

Nella stragrande maggioranza dei casi, nei tuoi articoli ci saranno una o più variabili indipendenti che indichiamo come “esposizione” (se hai a che fare con uno studio epidemiologico) o “trattamento” (nel caso si stia parlando di un trial clinico). Ad esempio un esposizione può essere l’esperienza di essere ricoverato in un certo tipo di reparto di chirurgia: chirurgia pediatrica, generale, oncologica, geriatrica e via dicendo.

Poi c’è il tuo “outcome” o “endpoint”, che è la “Y” dell’equazione, il valore cioè che vuoi andare a predire, a modellizzare.

Infine ci sono tutte le altre variabili indipendenti come età, sesso, comorbidità, abitudini di vita, eccetera, che usiamo per correggere e rendere più precise le stime che vogliamo effettuare.

In un articolo scientifico, nelle sezioni dei risultati e della loro discussione, la maggior parte dei ricercatori, dottorandi, tesisti e company, si limita a mostrare tutte queste variabili di cui abbiamo appena parlato sottoforma di modello strettamente matematico del fenomeno studiato.
Cosa intendo per “strettamente matematico”? Intendo dire che si limitano a produrre una tabella in cui vengono riportati coefficienti, p-value e gli intervalli di confidenza dei coefficienti.

E non c’è niente di male.

Ma per avere una marcia in più ed essere più convincente e solido, un lavoro scientifico dovrebbe proporre, quando possibile, un modello meccanicistico, classificando correttamente tutte le variabili in gioco e attribuendo loro un ruolo nel pathway studiato (se stai studiando una patologia) o più in generale quello che viene chiamato “Data Generation Mechanism”, meccanismo attraverso il quale si genera il dato.

Come facciamo?

Usiamo i termini corretti

In linea generale, nelle scienze biomediche, le variabili che presentiamo in un modello multivariato possono essere classificate a seconda della loro presenza o meno sul pathway causale:

le variabili che NON stanno sul pathway causale sono le “covariate”, i “confondenti” e i “collider”;

le variabili che invece entrano nel pathway causale sono i “mediatori” e i “modificatori di effetto”.

Prendiamo questi diversi tipi di variabile una ad una e facciamolo prima tramite questa immagine che troverai su tanti libri di epidemiologia.

Bene, ora possiamo entrare nel dettaglio.

Confondente

Questo termine è quello più sovrautilizzato (assieme a covariata) ma un “confondente” è una variabile che ha una precisa caratteristica: è associata sia all’esposizione (o al “trattamento”, se parliamo di un trial), sia alla tua variabile dipendente (o “outcome” se preferisci).

Il classico esempio di confondente negli studi clinici è la gravità di un paziente. Se stai ad esempio confrontando la mortalità (variabile dipendente o “outcome”) tra diversi reparti ospedalieri (esposizione), capisci bene che la gravità è associata sia a determinati reparti (gli oncologici sono più gravi rispetto a chi deve operarsi a un’appendicite, per esempio) e non ad altri, sia alla mortalità stessa (i più gravi hanno una probabilità di morte più alta). Questo è un fattore che non è direttamente presente nel meccanismo causale che porta all’outcome (morte) ma è una variabile che se non opportunamente randomizzata in fase di disegno o se non considerata nello sviluppo del modello predittivo può distorcere (e anche non di poco) i tuoi coefficienti.

Covariata

Le covariate sono variabili che non sono presenti sul meccanismo causale ma che spiegano parte della variabilità del tuo outcome e per questo motivo vanno introdotte nell’analisi. Nell’esempio sopra, una variabile che potrebbe spiegare parte della mortalità per un effetto tutto suo e indipendente dall’esposizione o da altre variabili, potrebbe essere un determinato pattern genetico (è il primo esempio che mi viene in mente, ma forse ce ne sono di migliori). Sono chiamate covariate anche altre variabili misurate che non hanno relazioni con le altre variabili e che non sono nemmeno legate all’outcome e perciò quasi sempre non vengono usate nell’analisi perché non aggiungono niente alla spiegazione del fenomeno osservato. Ad esempio nel contesto di uno studio oncologico, il colore dei pantaloni di un paziente potrebbe essere un buon esempio, sempre che qualche sperimentatore si prenda la briga di misurarlo.

Mediatore

I mediatori somigliano ai confondenti con i quali vengono spesso confusi (perdona il brutto gioco di parole). Anch’essi sono variabili infatti associate sia all’esposizione che all’effetto ma in modo “sequenziale”: hanno cioè un “ruolo” nel pathway che stai studiando e questo ruolo lo si può quantificare attraverso un’analisi ad hoc (mediation analysis) di cui però non parliamo in questo post altrimenti diventa tutto troppo lungo. Ad ogni modo, nella figura allegata a fine post capirai meglio la loro notevole differenza tra i concetti di mediatore e di confondente.

Modificatori di effetto

Ci sono poi i modificatori di effetto. Essi altro non sono che variabili che amplificano o riducono l’effetto dell’esposizione sull’outcome. In altre parole i modificatori di effetto sono variabili che creano un’interazione con l’esposizione cambiando l’effetto di quest’ultima sull’outcome. In generale i termini “modificazione d’effetto” e “interazione” sono utilizzati come sinonimi, anche se esiste comunque una differenza tra i due concetti sulla quale però non è il caso di dilungarsi in questo post.

Collider

Esistono infine delle variabili il cui valore è determinato causalmente dall’esposizione e dall’effetto e che devono essere eliminate dall’analisi. Sono chiamate “colliders” (in italiano sarebbe qualcosa tipo “scontratori” o “variabili che causano attrito”) e, come detto, vanno eliminate dall’analisi perché il loro uso genera bias nelle stime che ci interessano.

Termina il tuo articolo o la tua tesi con una figura come questa

Ora che hai capito la differenza tra termini come “covariata”, “confondente” eccetera, per dare valore aggiunto alla tua tesi o al tuo articolo, “riempi le caselline” della figura che ti ho mostrato prima.

Precisazione: sempre che tu ne abbia la possibilità. Molte riviste pongono un tetto al numero di figure presentabili in un paper, ma se ne hai la possibilità perchè non hai un limite o perchè semplicemente stai scrivendo una tesi….beh, fallo!

Vediamo un esempio pratico.

Riprendiamo l’esempio anticipato prima e consideriamo uno studio in cui si vuole valutare l’andamento di un outcome generico in pazienti sottoposti a chirurgia nei diversi reparti chirurgici di un ospedale.
Come outcome diciamo, ad esempio, la qualità della vita (misurata via questionario) dopo un anno dall’intervento nei pazienti della chirurgia generale, della chirurgia pancreatica, chirurgia pediatrica eccetera.

Ora: fornire una tabella con dei numeri è assolutamente utile ma una figura in cui è rappresentato il meccanismo generante l’aumento o il decremento della qualità della vita di questi pazienti può fare molto di più.

Partiamo dall’alto.

Nel tuo dataset potresti avere una variabile categorica “morto/vivo”. Di questa variabile non te ne fai niente. Essa è “causata” dal tipo di reparto in cui si trova il paziente e dal livello di qualità della vita dopo un anno dall’operazione. Inserirla nell’analisi oltre ad essere un’operazione priva di senso è anche pericolosa perchè potrebbe inficiare pesantemente le stime.

Subito sotto abbiamo l’età che è il confondente per eccellenza. In questo caso è evidente che i pazienti più anziani saranno in un certo tipo di reparto e che l’età è anche più correlata alla misura della qualità della vita.

Poi ci sono le complicazioni chirurgiche. In questo caso, una complicanza chirurgica è strettamente legata alla qualità della prognosi dei pazienti e, anche se più frequente in determinati reparti di chirurgia, ad essa può essere attribuito un ruolo causale ed essere classificata come mediatore. Come ti dicevo, il ruolo di “mediatore” dovrebbe sempre essere verificato tramite un test ad hoc.

Nella parte in basso della figura abbiamo un modificatore d’effetto: ad esempio l’abitudine al fumo. Partendo dal presupposto che un test di interazione lo confermi, nell’ambito dello stesso reparto, i fumatori hanno una qualità della vita a un anno dalla chirurgia migliore rispetto ai non fumatori.

Infine abbiamo condizioni di comorbidità (altre patologie che affliggono il paziente) che intaccano la qualità della vita in modo indipendente dal tipo di reparto in cui esso è ricoverato.

Evidentemente ogni variabile, sulla base di quelle che sono le conoscenze dello sperimentatore, possono assumere un ruolo diverso. Ad esempio quella che è una covariata può essere in alcuni casi considerato un mediatore. Oppure un modificatore d’effetto, oltre ad interagire con l’esposizione, può avere anche un effetto principale tutto suo (vedi la freccia tratteggiata nella figura) e che va interpretato (vedi questo post sull’interpretazione degli effetti principali in caso di interazione).

L’importante, come dicevo, è che quando hai i risultati alla mano tu dia una spiegazione meccanicistica dei risultati, se non altro per incentivare la discussione scientifica attorno al tuo lavoro e per avere una maggiore possibilità di pubblicazione.

Ciao!
Gianfranco

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *