Molti ricercatori e studenti si chiedono come interpretare i risultati delle loro analisi dopo trasformazione logaritmica di una o più variabili. Vediamo qual è la riposta pratica.
Lo scenario è questo: stai analizzando un dataset e hai deciso di effettuare una trasformazione logaritmica di una delle variabili, o di tua iniziativa o perché qualcun altro ti ha detto di farlo (ad esempio un tuo prof, un reviewer eccetera).
Non lo hai fatto perché non avevi di meglio da fare in quel momento, ma per un motivo ben preciso. Nella stragrande maggioranza dei casi il motivo è che la distribuzione di quella variabile non è gaussiana (normale).
Perciò: trasformazione logaritmica in base e…e, oplà! La tua variabile espressa sotto forma di logaritmo, è ora distribuita normalmente.
Bene. La prendi e la usi nel tuo modello di regressione (anche qua: nella maggior parte dei casi)
Domanda: come interpretiamo i risultati che otteniamo?
Prendiamo un esempio di fantasia e consideriamo il seguente modello di regressione lineare tramite il quale vogliamo stimare la pressione arteriosa usando l’età in anni:
Pressione arteriosa=intercetta + β*età
In questo caso l’interpretazione è la solita:
la pressione arteriosa della tua popolazione di riferimento aumenta mediamente di β unità all’aumentare di un anno di età.
Se ad esempio la tua equazione è
Pressione arteriosa=intercetta + 1.88*età,
all’aumentare di un anno di età la pressione arteriosa aumenta di 1.88
Ora vediamo come interpretare i risultati della regressione nel caso la tua variabile dipendente (pressione arteriosa) e/o la tua variabile indipendente (età) dovessero essere sottoposte a trasformazione logaritmica. Per convenzione assumiamo la trasformazione tramite logaritmo naturale.
Caso 1: trasformazione logaritmica della variabile dipendente
La tua nuova regressione è:
lnPressione arteriosa=intercetta + β*età.
In questo caso, all’aumentare di un anno di età la pressione arteriosa aumenta non più di β, ma di 1*eβ. Se ad esempio il tuo β è 0.81, per ogni aumento di un anno di età la tua pressione aumenta di 1*e0.81=2.25.
Caso 2: trasformazione logaritimica della variabile indipendente
La tua nuova regressione è:
Pressione arteriosa=intercetta + β*lnetà.
In questo caso il modo più conveniente di interpretare il risultato è:
dividere il coefficiente per 100 e prendere il valore ottenuto come l’incremento della variabile dipendente all’aumentare dell’1% della variabile indipendente.
Tradotto: se il coefficiente è 0.81 vuol dire che all’aumentare dell’1% dell’età, la pressione aumenta di 0.0081. Se invece l’età aumenta di una percentuale superiore (diciamo dello z%), allora l’aumento della pressione sarà 0.81*ln(1.z).
Esempio: un aumento del 25% dell’età comporterà un aumento di pressione di 0.81*ln(1.25)=0.18
Caso 3: trasformazione logaritmici sia della variabile dipendente che di quella indipendente
La tua nuova regressione è:
lnPressione arteriosa=intercetta + β*lnetà.
Interpretazione: all’aumentare dell’1% dell’età la pressione arteriosa aumenta dello 0.81%.
Diciamo che invece tu voglia calcolare l’incremento percentuale della pressione all’aumentare di una percentuale z dell’età. Diciamo un incremento dell’età del 30%
((1.z)β -1)*100=((1.30)0.81 -1)*100=24%
That’s it!
Come vedi quando trasformi le variabili utilizzando i logaritmi un semplice modello di regressione cambia nella sua natura, e le relazioni tra le variabili da additive diventano moltiplicative.
Sei uno studente? Sei un ricercatore? Hai bisogno di aiuto o di un parere informale? Eccoci qua:
[one_half]
[contact-form-7 id=”140″ title=”Modulo di contatto 1″]
[/one_half]
Salve! Io ho un dataset in cui la variabile dipendente Y è espressa in forma logaritmica. Nel commentare il coefficiente di regressione della variabile indipendente X, devo seguire il Caso 1 da voi illustrato o devo trasformare anche la X in logaritmica?
Grazie