Quanto deve essere grande il tuo R quadro per avere un modello di regressione valido?

Molto bene: hai condotto il tuo esperimento/trial clinico/quello che ti pare e hai messo in piedi il tuo bel modello di regressione multipla lineare. Hai addirittura trovato che il tuo trattamento funziona perché il famoso p-value è inferiore a 0.05. Insomma: sei pronto ad offrire da bere a tutti. Ora però diamo un’occhiata a come fitta il tuo modello, cioè al tuo R quadro.

Oppps: ora che guardo bene, il mio R quadro è un po’ bassino: 0.38. Sarà sufficiente a convincere i reviewer? O rischio che mi “uccidano” l’articolo e io ho lavorato per niente? Quanto deve essere alto questa brutta bestia di R quadro?

Vabbene, so che sai cos’è l’R quadro, ma ripetiamolo: in un modello di regressione lineare l’R-quadro è la percentuale di variabilità della tua variabile dipendente spiegata dal tuo modello. Detto in altro modo: l’R quadro è la percentuale in cui la variabilità degli errori del modello sono ridotti rispetto alla varianza della tua variabile dipendente.

E More et al nel 2013 hanno provato a dare qualche indicazione:

R quadro < 0.3 vuol dire nullo o bassissimo;
R quadro compreso tra 0.3 e 0.5 vuol dire basso;
R quadro compreso tra 0.5 e 0.7 vuol dire moderato;
R quadro compreso > 0.7 vuol dire alto.

Andiamo avanti. La domanda è: quanto deve essere veramente grande questo R quadro per avere credibilità?
Dipende fondamentalmente da due cose:

  • da quello che stai osservando nella tua sperimentazione;
  • dalla precisione che ti interessa nello stimare quello che stai stimando.

Ora però andiamo con ordine e cerchiamo di fare luce su come tu possa prendere una decisione su se tenere o buttare via/rifare il tuo modello di regressione.

Un R quadro basso non è sempre da buttar via

Ci sono alcuni ambiti in cui un R quadro è risaputamente basso. Si tratta di quei fenomeni complessi in cui la variabilità è talmente elevata e il rumore di fondo dato da una serie enormi di fattori è così elevato che avere un R quadro anche solo di 0.4 è un miracolo. Un esempio sono i dati relativi ad alcuni comportamenti umani rilevati tramite questionario. Per cui, individuare un R quadro basso è perfettamente normale e, anzi, un R quadro in linea con la letteratura che trovi in giro sull’argomento ti permette addirittura di confrontare più agevolmente il tuo modello con altri modelli che trovi in letteratura.

Un R quadro alto, al contrario, non è detto che sia necessariamente una notizia positiva. Questo accade quando il tuo R quadro è alto ma il tuo modello semplicemente…non è lineare! Per cui del tuo R quadro strabiliante non te ne fai niente. Hai cercato di dare una spiegazione lineare al fenomeno e credevi di esserci anche riuscito alla grande; peccato che in natura non tutti i fenomeni sono lineari. E il tuo non lo è.

Andiamo avanti e cerchiamo di capire ora quanto conta l’uso e la precisione con la quale vuoi usare il tuo modello. Poi, in fondo all’articolo cercheremo di riassumere il tutto attraverso un adeguato diagramma decisionale.

Ci sei? Sei ancora vivo?

Bene. Dai un’occhiata qua sotto.

Hai due grafici. La pendenza della tua linea è assolutamente identica, come pure il tuo p-value. Il grafico a sinistra ha un R quadro decismaente alto: 0.85. Quello a sinistra invece è molto più basso: 0.35. La tua conclusione non cambia: il tuo p-value è significativo per cui hai trovato una significatività statistica.

Fantastico. Però il tuo modello ovviamente lo dovrai poi “usare”, o comunque proporre al mondo della scienza o dell’industria attraverso la tua bella pubblicazione.

Ora la domanda è: ok, hai il tuo p value significativo, il modello lo hai costruito in modo corretto e via dicendo, ma la domanda è: è abbastanza preciso? Capisci bene che se il modello ti serve a stimare qualcosa di molto importante (ad esempio la variazione di pressione arteriosa dei tuoi pazienti tu avrai bisogno di un modello molto preciso (per cui ti serve un R quadro decisamente alto). Se invece l’uso che devi farne può concederti una maggiore spazio di manovra allora potrai concederti stime meno precise (per cui R quadro più basso) e questo è un argomento che puoi far presente ad un ipotetico reviewer.

Cerchiamo di rimanere “pratici”.
Prendiamo ad esempio l’esempio della pressione arteriosa dei tuoi pazienti. Avrai che Y è la tua pressione arteriosa e poi una serie di variabili nel modello che rappresentano le condizioni del tuo paziente: sesso, età, fumatore si/no, attività fisica, peso eccetera.
Per riuscire a capire quanto è preciso il tuo modello in termini pratici devi simulare le tipologie di pazienti che ti interessano introducendo nel modello i valori delle variabili (ad esempio: peso 82 kg, età 52, sesso maschile eccetera) e calcolare la pressione con il suo intervallo di predizione ( attenzione: non quello di confidenza).

Non mi voglio soffermare sulle differenze computazionali tra intervalli di confidenza e di predizione. Ti basti sapere che l’intervallo di predizione ti risponde alla domanda che ti stai ponendo: io prendo un paziente esterno al campione usato per sviluppare il modello e che ha determinate caratteristiche. Quale sarà l’intervallo con il quale lo posso predire al 95%. So bene che somigli molto ad una ipotetica definizione dell’intervallo di confidenza, ma sappi che sono due cose diverse. L’intervallo di confidenza si riferisce alle stime che il modello fa sui pazienti usati per svilupparlo. L’intervallo di predizione considera un ipotetico nuovo paziente con determinate caratteristiche.
Una volta ottenuto il tuo intervallo di predizione puoi essere solo tu a stabilire se l’ampiezza con il quale il modello ti stima la pressione dei tuoi poveri pazienti è clinicamente accettabile.

Per concludere

Quando hai sviluppato il tuo modello e hai un R quadro alto fai una verifica delle assunzioni del tuo modello (lo dovresti fare comunque sempre) e assicurati che siano rispettate.

Se il tuo R quadro è basso: fai una verifica delle assunzioni, cerca in letteratura modelli simili per poter eventualmente verificare che gli “R-quadro circolanti” non siano poi così dissimili dai tuoi. Infine immagina i tuoi ipotetici nuovi pazienti e verifica con quale precisione il modello ne predice la misura in questione (in questo articolo abbiamo fatto l’esempio della pressione arteriosa).

E ora, in bocca al lupo con i tuoi dati.

Ti serve aiuto? Contattaci. Noi di StatsImprove abbattiamo notevolmente i costi dei servizi di supporto per darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti (dottorandi, specializzandi, laureandi).

Contattaci con un click:


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *