La differenza tra correlazione e regressione spiegata facile

In questo post vediamo la differenza tra correlazione e regressione in termini “concettuali” più che “matematici”.

Uno dei quesiti, infatti, che i pone spesso chi non ha dimestichezza con la statistica è la differenza tra i concetti di correlazione e regressione. A dire il vero ho visto anche molti statistici stessi fare fatica a distinguere le due tecniche in modo corretto.

Per cui procediamo e accendiamo la luce.

Correlazione e regressione: differenze in termini di forma e di utilità

Vediamo subito la differenza in termini di forma:

La correlazione è una singola statistica, un indicatore calcolabile in diversi modi e che può avere valori compresi tra -1 e 1. Il coefficiente di correlazione più usato, per la cronaca, è il coefficiente di correlazione di Pearson; ne esistono altri di coefficienti di correlazione ma non è questo il momento di approfondire.

La regressione, invece, è un modello statistico, un’equazione. In questa equazione non viene calcolata una singola statistica ma almeno un paio: un’intercetta e una pendenza (il coefficiente di regressione), oltre a tutte le assunzioni sottostanti (scarti normalmente distribuiti con media uguale a zero, eccetera).

Ripetendo: la correlazione è identificata da un numero, la regressione da un’equazione.

Parliamo ora della differenza tra le due tecniche in termini di utilità.

La differenza fondamentale, infatti, sta nell’informazione che queste due tecniche ci forniscono (e il conseguente uso che ne facciamo).

La correlazione ti dice se e quanto due variabili sono matematicamente legate, quanto cioè al variare del valore di una variabile, anche il valore dell’altra variabile cambia.

Diciamo pure che si tratta della misura di “amore” tra due variabili, indipendentemente dal legame causa-effetto che può esserci tra di esse. Ovviamente non è detto che due variabili debbano variare nella stessa direzione (correlazione positiva), ma possono anche essere correlate negativamente: una aumenta, l’altra diminuisce, e viceversa. In questo caso possiamo parlare di odio più che di amore.

A proposito, se vuoi farti due risate e vedere qualche esempio di variabili correlate ma senza nessun nesso causa-effetto, visita questo sito GENIALE.

La regressione invece ti dice qualcosa di diverso: ti dice soprattutto come le due variabili sono matematicamente legate.

E questo è importante perché ti permette, attraverso l’equazione di regressione, di stimare il valore di una delle due variabili quando conosci il valore dell’altra, cosa che NON potresti fare attraverso il solo coefficiente di correlazione.

Esempio pratico

Nei diversi periodi dell’anno, in una famiglia, la quantità di pasta che mangia il marito sarà correlata alla quantità che mangia la moglie. In estate, ad esempio, mangeranno entrambi un po’ meno pastasciutta (perché c’è più caldo, forse). Alla domenica, in generale, entrambi ne mangeranno di più (per l’abitudine, per esempio, di pranzare con i suoceri, e quindi con portate più abbondanti). Questo legame tra i grammi di pasta mangiati dal marito e i grammi di pasta mangiati dalla moglie lo si può riassumere attraverso un coefficiente di correlazione.

Ma se vuoi sapere quanta pasta ha mangiato la moglie oggi a pranzo, sapendo la quantità mangiata dal marito, allora hai bisogno di un modello di regressione.

That’s it!

Ciao! Gianfranco

Sei nei guai fino al collo con la statistica e ti serve aiuto?

Noi di StatsImprove abbattiamo notevolmente i costi dei servizi di supporto per darne accesso, oltre che alle aziende, anche a gruppi di ricerca universitaria e studenti (dottorandi, specializzandi, laureandi).

Contattaci con un click:


 

1 commento su “La differenza tra correlazione e regressione spiegata facile”

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *