La differenza tra regressione e analisi della varianza (ANOVA) è uno dei dilemmi che si pone più spesso a studenti e ricercatori. In questo post cerchiamo di capire quale sia questa differenza e soprattutto cerchiamo di capire quale tra le due sia le tecnica da preferire.
Dal punto di vista matematico regressione lineare ed ANOVA sono identiche: entrambe scompongono la varianza totale dei dati in diverse “porzioni” e verificano l’uguaglianza di queste “sotto-varianze” attraverso un test (Test “F”).
Quello che si può aggiungere è che, se per entrambe le tecniche, la variabile dipendente è di tipo “continuo”, nell’ANOVA la variabili indipendenti possono essere esclusivamente categoriche, mentre nella regressione possono essere usate sia variabili indipendenti categoriche che continue.
Per cui, in soldoni, l’ANOVA può essere considerato come un caso di regressione lineare in cui tutti i predittori sono di tipo categorico.
La differenza che, invece, distingue la regressione lineare dall’ANOVA è la modalità con cui vengono riportati i risultati nella stragrande maggioranza dei software statistici.
Facciamo un esempio:
mettiamo che tu abbia 3 gruppi:
studenti di medicina,
studenti di ingegneria,
studenti di scienze della comunicazione.
Supponiamo che ad ognuno degli studenti dei tre gruppi tu vada a misurare la variabile continua “frequenza cardiaca prima degli esami” (è una variabile ovviamente di fantasia).
Il tuo quesito è: le tre categorie di studenti hanno la stessa frequenza cardiaca prima degli esami?
Facciamo le misurazioni e diciamo che tu ottenga le seguenti medie:
studenti di medicina: 140,3 battiti per minuto;
studenti di ingegneria: 150,7 battiti per minuto;
studenti di scienze della comunicazione: 105 battiti per minuto.
Ora conduciamo sia l’ANOVA che la regressione lineare.
Tramite la regressione, assumendo che il tuo programma consideri la categoria “scienze della comunicazione” come riferimento, otterrai i seguenti coefficenti:
studenti di medicina: 35.3
studenti di ingegneria: 45.7
In più otterrai l’intercetta di 105.
Dal modello di regressione otterrai due p-value: uno per gli studenti di medicina e uno per gli studenti di ingegneria. Entrambi i p-value testano l’ipotesi “il coefficiente è diverso da zero?”.
Tradotto in altri termini: “la differenza con la media della categoria di riferimento (studenti di Scienze della Comunicazione) è uguale a zero”?
Diciamo che tu ottenga dei p value <0.05.
Conduciamo ora l’ANOVA. Tramite ANOVA avrai un unico p-value che testerà l’ipotesi nulla: “le tre medie sono uguali?” (o, se preferisci: “provengono da una popolazione comune?”).
Ora tutto quanto riportato sopra ti indica la stessa identica cosa: l’intercetta del modello di regressione (105) è la media della categoria di riferimento (“studenti di scienze della comunicazione”).
I due coefficienti non sono altro che la differenza con la categoria di riferimento. Ad esempio, il coefficiente della categoria “studenti di medicina”, 35.3, altro non è che l’incremento della frequenza cardiaca media rispetto agli “studenti di scienze della comunicazione ” che sono il riferimento. Per cui 105 (riferimento) + 35.3 (coefficiente studenti di medicina)= 140.3 battiti per minuto (la media della frequenza dei futuri medici prima dei loro esami).
Come vedi l’unica differenza che puoi osservare è la modalità con la quale sono riportati i risultati e le loro conclusioni.
Qual è il criterio attraverso il quale scegliere la regressione oppure l’ANOVA?
In realtà non esiste un criterio specifico.
Ovviamente se nel tuo quesito scientifico hai predittori in continuo (ad esempio: età) sei obbligato ad usare un modello di regressione lineare.
La mia personale preferenza è quella di usare sempre un modello di regressione, per due motivi:
mentre con ANOVA tu valuti un solo test “overall” che ti dice se le medie sono uguali, nel caso le medie dovessero differire non ti dice quali tra esse differiscono; il modello di regressione, con un p value per ogni media ti dice già quali sono le medie ad essere diverse da quella di riferimento.
Un secondo motivo e che il modello di regressione fornisce direttamente la “stima dell’effetto”, cioè la differenza tra due medie con il relativo intervallo di confidenza al 95%.
Ma come dicevamo questa è un’informazione contenuta anche nell’output dell’ANOVA.
È una questione di gusti.