Molti ricercatori e studenti che analizzano dati per i loro lavori si chiedono spesso se lasciare o rimuovere dai loro modelli predittivi variabili che non mostrano significatività statistica.
Vediamo come comportarci.
Quando sviluppi un modello di regressione andrai incontro ad una serie di operazioni tra cui centratura, trasformazione, rimozione di variabili, e alla fine ti troverai con un elenco di predittori della tua variabile dipendenti, e alcune di queste variabili solitamente hanno un p-value non significativo.
Tengo queste variabili? Le rimuovo?
Ovviamente il p-value non è l’unico criterio che ti indica se tenere o rimuovere una variabile. Ricordati sempre che ciò che conta è il significato dei risultati che ottieni e che per dare senso a tutta la tua comunicazione scientifica ti serve includere variabili che svolgono un ruolo descrittivo del fenomeno che stai osservando, anche se non significative statisticamente.
In particolare non dovresti omettere una variabile il cui p-value è non significativo quando:
- la variabile riguarda il tuo quesito scientifico. Se tra le ipotesi della tua sperimentazione c’è quella di valutare se il fatto di essere maschi rappresenta un fattore predittivo dell’outcome che stai misurando è evidente che, anche se non statisticamente significativa, la variabile sesso dovrai tenerla nella tua analisi;
- la variabile rappresenta un confondente (o comunque un predittore) riconosciuto in letteratura; ad esempio se stai studiando l’evoluzione di una malattia la variabile età rappresenta quasi sempre un confondente da non rimuovere dall’analisi, anche se nel tuo modello non risulta statisticamente significativo;
- la variabile rientra in un fattore di interazione; se ad esempio nel tuo modello compare come interazione “sesso*trattamento”, la variabile “sesso” va lasciata come effetto principale anche se non statisticamente significativo;
- la variabile spiega parte della variabilità totale del tuo outcome; non è facile che accada, ma se rimuovere una variabile non statisticamente significativa, e che non ricade in uno dei casi sopracitati, porta a una riduzione consistente della bontà del modello (ad esempio un R-quadro più basso di più del 10%, oppure una peggiore distribuzione grafica dei residui) allora potrebbe essere una buona idea tenere la tua variabile non-significativa nell’analisi.
[one_half]
Ti serve aiuto? Contattaci e ti forniremo una soluzione.
La nostra struttura di network di professionisti ci permette di abbattere notevolmente i costi dei servizi di supporto e darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti.
[contact-form-7 id=”140″ title=”Modulo di contatto 1″]
[/one_half]
ciao , vorrei sapere se la senso effettuare una regressione su una variabile dipendente non significativa.
grazie mille.
Francesca