Domanda proveniente da studenti/clienti/statistici neolaureati e chi più ne ha più ne metta:
Ma che differenza c’è tra Probabilità e Odds?
Facciamo chiarezza.
Entrambi i concetti di Odds e Probabilità indicano la stessa cosa: la quantificazione della possibilità che accada un determinato evento.
La caratteristica che li distingue è la scala utilizzata per questa quantificazione. Un po’ come misurare la temperatura in gradi Celsius e in gradi Fahrenheit.
Ultimamente ho scritto un paper sul perchè nella regressione logistica usiamo l’Odds ratio invece della probabilità; per scriverlo prendevo come esempio la possibilità di essere positivo al coronavirus dopo una serata in discoteca.
Torniamo su questo esempio e diciamo che il giorno dopo una maxi festa in disco ci sono 60 positivi su 750 persone che sono entrate nel locale.
La probabilità di positività al coronavirus è il rapporto tra il numero di malati rispetto al numero di persone entrate in discoteca: (60/750)=8%.
L’odds di positività al coronavirus è invece il rapporto tra il numero di positivi e il numero di negativi: 60/690=0.087
Se vogliamo sapere quanto il fatto di essere andati in quella discoteca
è legato statisticamente al fatto di ritrovarsi affetti da coronavirus, dobbiamo calcolare l’Odds Ratio.
Prendiamo gli Odds di positività tra chi è andato in discoteca rispetto all’ odds di positività dei giovani che invece di andare a ballare e a strusciarsi tra di loro sono stati buoni buoni a casa o al limite sono andati a mangiare un gelato. Diciamo che tra i “tranquilloni” pantofolai (o gelatofili) ci fossero 3 casi di coronavirus su 1600 persone che NON sono andate in disco. L’odds di coronavirus dei tranquilloni è dato da 3/1597=0.0019.
L’odds ratio finale è dato da 0.087/0.0019=45.8, cioè l’odds di essere positivi a coronavirus se sei stato in discoteca è 45.8 volte quello di chi non ci è stato.
Infine diciamo che a te interessi, attraverso la tua regressione logistica, capire quanto incida l’età in anni di chi è andato in discoteca sulla possibilità di ritrovarsi contagiati da virus. Puoi inserire nel tuo modello di regressione logistica la variabile età ed ottenere un coefficiente che ti dice di quanto aumenta o di quanto si riduce l’odds di contagio al variare di un anno di età.
Per concludere, puoi esprimere questa associazione tra l’essere discotecari e il contagio da coronavirus su due scale di misura che hanno un andamento monotonico (cioè quando aumenta la probabilità aumenta sempre ache l’Odds).
La relazione tra i due però come vedi non è lineare: la Probabilità varia da un minimo di 0 a un massimo di 1, l’Odds può variare da 0 a +infinito e questa proprietà matematicamente lo rende molto più “modellizabile” rispetto alla probabilità e perciò preferito a quest’ultima nella regressione logistica.
Ecco svelato l’arcano segreto.
Ciao! Gianfranco
Ti serve aiuto? Contattaci. Noi di StatsImprove abbattiamo notevolmente i costi dei servizi di supporto per darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti (dottorandi, specializzandi, laureandi).