Ok, ci siamo: hai il tuo dataset, il tuo foglio excel o quello che ti pare, e sei pronto per costruire il tuo modello di regressione multivariato per analizzare un tuo outcome sperimentale (morte per cancro, numero di ospedalizzazioni, la quantità di una molecola eccetera).
Solitamente in questi casi lo sperimentatore si chiede: come costruisco il mio modello di regressione? Quali variabili devo inserire?
E qui si apre il mondo della “variable selection”, terra di nessuno in cui da anni fior fior di statistici ed epidemiologi si danno battaglia sulle riviste specializzate e nei congressi.
Ho già parlato di questo tipo di problema mostrandoti in un altro articolo quali sono gli “8 passaggi da seguire per costruire un modello di regressione“.
Ma in questo post vorrei andare un attimo oltre e farti riflettere sul perché stai costruendo il tuo modello multivariato.
La prima domanda che ti devi fare, prima di cominciare a schiacciare tasti sul tuo pc è questa:
a cosa mi dovrà servire il modello multivariato che sto per costruire?
Questa è una domanda fondamentale perché la risposta che le darai determinerà la modalità di selezione delle variabili del tuo modello e la discussione dei tuoi risultati.
Le risposte plausibili alla fatidica domanda sono due: o un modello ti serve per spiegare oppure ti serve perpredire.
Sono due cose decisamente diverse. Per cui prima di chiederti come costruire un modello di regressione multivariato è bene che tu conosca la differenza tra le due.
Modelli multivariati per “Spiegare”
Quando vuoi spiegare un fenomeno tu stai cercando di individuare quelle variabili che sono teoreticamente legate al tuo outcome e ne generano il valore. Diciamo che stai studiando i casi di cancro al polmone nella tua città e vuoi testare delle ipotesi per capire perchè il cancro si sviluppa.
Se ad esempio vuoi sapere se il fatto di vivere in un determinato quartiere è un fattore di rischio, tu stai verificando un’ipotesi ben precisa e la variabile “quartiere” la DEVI inserire nel tuo modello. Oppure: se ritieni che l’abitudine al fumo sia un importante confondente allora lo DEVI inserire nel tuo modello.
Nel momento in cui avrai testato le tue ipotesi a priori, avrai testato eventuali variabili accessorie e tenuto conto dei possibili confondenti, allora prenderei il tuo modello, verificherei che esso rispetti tutte le sue assunzioni (ad esempio l’omoschedasticità, se stai sviluppando una regressione lineare) e lo pubblichi (o almeno ci provi). PS: se fai fatica a capire cosa sia un confondente o come esso si differenzi da un’altra covariata ti consiglio fortemente di leggere questo mio articolo di qualche tempo fa: “Covariate, confondenti, eccetera: quali differenze (e la figura che migliora il tuo articolo o tesi)“
Un modello di questo tipo ti serve, oltre che a capire quali siano le variabili che spiegano il cancro, a intervenire sulla realtà. Vivere in quel quartiere è un fattore di rischio? Svuoti il quartiere (no, scherzo, vai a studiare ulteriormente se sono presenti ad esempio un traffico automobilistico maggiore o se delle aziende sversano schifezze cancerogene nell’acqua).
Un modello di questo tipo che ti serve per spiegare è a grandi linee definibile modello epidemiologico. In alternativa nei libri di testo lo potranno citare come descrittivo oppure semplicemente explanatory.
Modelli multivariati per “Predire”
Quando invece ti interessa predire la probabilità di un evento allora le cose cambiano. Ad esempio tu stai studiando il numero di tumori che ti aspetti in città. Qui a te non interessa spiegare perchè alla gente viene un tumore. A te in questo caso interessa sapere con la massima precisione possibile quanti tumori ti ritroverai diagnosticati.
Per questo motivo non ti importa di inserire necessariamente nel modello variabili che hanno un razionale biologico. L’importante è massimizzare l’aspetto matematico del modello e non l’epidemiologia sottostante.
In questo caso cambia la strategia della selezione delle variabili. Esistono ad esempio dei metodi di costruzione del modello automatizzati (LASSO regression, Stepwise modelling, eccetera) che se ne potrebbero tranquillamente fregare del fatto che, ad esempio, l’età del soggetto è un importante predittore del cancro e lasciarlo fuori dalle variabili incluse nel modello.
Quando il reviewer ti chiederà: ma come? E l’età dei soggetti? Perché non c’è nel modello? Tu spiegherai che il tuo è un modello predittivo e non explanatory.
Anche nel caso di questi modelli finalizzati alla predizione è evidente che seguirà una decisone pratica, ma queste decisioni hanno in generale obiettivi diversi. Nel nostro caso, ad esempio, un modello predittivo potrà servire a calcolare i fondi regionali per finanziare le cure dei tumori.
In questo caso il modello ha una natura puramente statistica e meno epidemiologica.
Se sei un medico o un ricercatore noterai come in uno studio osservazionale sarai interessato nella stragrande maggioranza dei casi a spiegare un fenomeno, mentre quando disegnerai uno studio sperimentale vorrai predire il valore di un tuo outcome.
Se vuoi approfondire come costruire un modello di regressione multivariato e comprendere la differenza tra modelli predittivi ed explanatory, ti consiglio la lettura di questo articolo di Galit Shmueli della National Tsing Hua University di Taiwan.
Ciao!
Ti serve aiuto? Contattaci. Noi di StatsImprove abbattiamo notevolmente i costi dei servizi di supporto per darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti (dottorandi, specializzandi, laureandi).
Contattaci con un click: