Perchè usiamo l’Odds Ratio nella regressione logistica (e non la probabilità)?

Tantissimi studenti e ricercatori a cui faccio consulenza quando hanno a che fare con la regressione logistica storcono il naso a causa del concetto di Odds Ratio.

Che diavolo è questo Odds Ratio?

E soprattutto: ma perchè devo usare questo Odds Ratio quando potrei esprimere l’effetto di una variabile attraverso una banalissima probabilità?

Per quanto riguarda la prima domanda (“Che diavolo è questo Odds ratio?”) ti rimando ad un mio vecchio post anche se nella seconda parte del post riprendiamo i concetti di probabilità, Odds e Odds Ratio con degli esempi pratici per chi volesse imparare a padroneggiare la statistica.

Diamo invece subito una risposta alla seconda domanda: perchè nella regressione logistica usiamo “Odds Ratio” e non “Probabilità”?

Non sarebbe più semplice dire: il fumo fa aumentare la probabilità X di ritrovarsi con un tumore invece di dire il fumo fa aumentare gli Odds di ritrovarsi con un tumore di Y

Cominciamo.

Quando sviluppi un modello di regressione logistica tu vuoi stimare l’effetto di un predittore (o di più predittori) su un evento.

Siamo d’accordo? Lo abbiamo già detto sopra. Semplice. Pulito.

Questo effetto lo puoi esprimere sia sotto forma di Odds Ratio che di Probabilità.

Quando è espresso in termini di Odds Ratio, questo effetto è costante; il suo valore, cioè, non varia al variare del valore del predittore.

Lo stesso effetto, invece, espresso in termini di probabilità cambia al variare del valore del predittore.

Perchè usare l’Odds Ratio? Un esempio pratico

Diciamo che tu voglia stimare l’effetto dell’età (in anni) sulla possibilità di essere contagiato di Coronavirus in discoteca.

Il rischio di essere contagiati è presente solo per i focosi ventenni o anche i patetici attempati che se ne stanno sui divanetti a bere Cubalibre rischiano allo stesso modo?

Diciamo che il tuo modello di regressione logistica ti fornisca un Odds Ratio di 0.87. In pratica all’aumentare di un anno il tuo Odds di prenderti il coronavirus cala di 0.23 (1-0.87).

Questo effetto è costante: la diminuzione di Odds è uguale sia passando da 20 a 21 anni che da 55 a 56 anni: sempre 0.23.

Ci siamo? Ora attenzione perché i prossimi due paragrafi sono i più importanti di tutto il post.

Se vuoi esprimerti in termini di probabilità invece non è così: la variazione di probabilità all’aumentare di 1 anno dipende dal valore di età iniziale e dai valori delle altre eventuali covariate presenti nel modello di regressione.

Per cui la caratteristica che rende conveniente l’Odds Ratio è la possibilità di sintetizzare l’effetto in un’unica misura. Cosa che, ti ripeto, non è possibile usando la probabilità.

E se invece avessi a che fare con un predittore categorico, tipo il sesso? I maschi in discoteca si lanciano di più nella mischia (forse): hanno maggiore probabilità di essere contagiati?

Il tuo modello di regressione emette la sentenza: Odds Ratio: 2.12 (Uomini rispetto alle donne). Anche questo è un valore costante ed indipendente dai valori delle altre covariate.

Se invece vogliamo parlare in termini di probabilità, la probabilità dei maschi di essere contagiati, rispetto a quella delle donne (quindi il rapporto delle loro probabilità) cambia a seconda del valore delle altre covariate presenti nel modello.

C’è un esempio che rende ancora meglio l’idea: compra azioni che ti rendono il 4% all’anno.

Se investi 1500 euro alla fine dell’anno avrai guadagnato 60 euro. Se invece compri azioni per diecimila euro, a fine anno porti a casa 400 euro.

Sempre il 4%, costante come un Odds Ratio, ma il valore in euro cambia a seconda del contesto, proprio come fa la probabilità.

Bene: e ora che facciamo nella pratica?

Ora, giustamente, tu stai scrivendo il tuo articolo o la tua tesi con la tua bellissima regressione logistica e non sai cosa fare: probabilità o Odds Ratio?

Diciamo proprio che la tua tesi sia relativa al rapporto Coronavirus e discoteche.

La risposta è tutte e due, sia probabilità che Odds Ratio:

  • comunica e commenta l’Odds Ratio; vedi i miei articoli su come riportare correttamente un modello di regressione logistica, se può esserti di aiuto;
  • comunica inoltre le probabilità a diversi livelli di predittori. Puoi ad esempio fare una tabellina dove per inserisci il valore di probabilità di prendersi il coronavirus per: maschi ventenni; femmine ventenni; maschi trentenni; femmine trentenni; maschi quarantenni…

E così via. Come calcoli queste probabilità? Dipende dal programma che usi. In Stata c’è il comando “margins”, in SAS puoi usare, ad esempio, la relativa Margins Macro.

Spero di esserti stato d’aiuto!

Ciao! Gianfranco

Sei nei guai fino al collo con la statistica e ti serve aiuto?

Noi di StatsImprove abbattiamo notevolmente i costi dei servizi di supporto per darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti (dottorandi, specializzandi, laureandi).

Contattaci con un click:


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *