Come riportare correttamente un modello a effetti misti in letteratura o in una tesi

Ronald Fisher è stato un genio, per qualcuno il più grande dopo Darwin. Basterebbe andare sulla pagina di Wikipedia dedicata a lui per capire quanto grande sia stato il suo lavoro. E grazie a lui abbiamo ora a disposizione i modelli a effetti misti.

Utilizzare (bene) questi modelli a effetti misti (o mixed models, o multilevel, come preferisci) è già però di per sé complicato, figuriamoci poi spiegarli correttamente nel momento in cui vai a riportare i tuoi risultati a chi queste tecniche statistiche non le conosce.

Vediamo perciò come fare, nel caso ti dovesse capitare una situazione come questa: hai sviluppato uno di questi modelli o lo devi comunicare.

ATTENZIONE: questo post non è un tutorial su come si costruiscono i mixed models. La premessa è che tu abbia già un minimo di familiarità con queste tecniche.

Procediamo.

L’assunzione di base è ovvia ma è meglio ricordarla: un modello a effetti misti richiede che vengano riportati più elementi rispetto a una semplice regressione lineare o logistica. Bisogna fare qualche piccolo sforzo in più.

Chi è il tuo interlocutore?

La prima domanda che ti devi fare è: per chi stai scrivendo?

In generale i casi sono due: gente che sa di statistica e gente che non sa di statistica. Nel primo caso ci sono reviewer, enti regolatori e così via. Nel secondo perlopiù  commissioni di laurea, dottorato o specializzazione i cui componenti non sanno di statistica, oppure qualunque cliente che si occupa di tutt’altro e che ti chiede di analizzare i suoi dati.

Nel primo caso potresti liquidare la questione con un: “ho dovuto usare un modello a effetti misti perché alcuni dati, ad esempio quelli relativi allo stesso ospedale o allo stesso chirurgo, potrebbero essere correlati tra loro”.

A meno che la loro curiosità non sia abnorme non dovresti ritrovarti a dare altre spiegazioni.

Se invece hai a che fare con persone che di statistica ne masticano, allora devi essere molto convincente sul perché hai usato un modello mixed e non una tecnica magari più semplice. Ricordiamoci che buona parte dei reviewer vede erroneamente questi modelli come degli arzigogoli matematici per tormentare i dati e far tornare i conti a piacimento dei ricercatori.

Per cui attenzione: serve divulgare un chiaro razionale e i dettagli affinché i risultati siano riproducibili. Vediamo come evitare spiacevoli rischi.

Molti articoli in letteratura (come questo e quest’altro) affrontano il problema del reporting di questi modelli statistici. Puoi trovare anche delle vere e proprie linee guida, delle checklist molto dettagliate come questa.

Tuttavia, senza entrare nei dettagli, la scaletta del reporting che uso e ha sempre funzionato la trovi qui di seguito. Non si tratta di tutto ciò che devi riportare, ovviamente.

  • Descrivi molto chiaramente come sono strutturati i dati: misure ripetute, struttura multilivello dei dati, fattori incrociati e annidati. E ricordati di dire chiaramente che un modello più semplice produrrebbe stime meno corrette.

  • Elenca i fattori random (intercette o slopes) che hai introdotto nel modello, oltre ai fattori fissi, giustificando la scelta.

  • Indica quali strutture di covarianza hai utilizzato; inutile ricordarti che quando modellizzi misure ripetute o comunque misure correlate tra  loro dovrai scegliere una matrice di covarianza dei residui del modello: exchangeable, unstructured, eccetera. Bene, è necessario riportare quale di queste è stata utilizzata. Allo stesso modo dovrai riportare, se utilizzata, la matrice della covarianza tra i diversi effetti random inseriti nel modello.

  • Riporta e motiva il metodo di stima che hai utilizzato: Massima Verosomiglianza (ML, Maximum Likelyhood) oppure Massima Verosomiglianza Ristretta (REML, Restricted Maximum Likelyhood).

  • Riporta i risultati ottenuti: oltre agli effetti fissi riporta la varianza degli effetti random commentandola attraverso il relativo Coefficente di Correlazione Intraclasse.

  • Descrivi che tipo di diagnosi hai effettuato sul modello.

  • Ovviamente riporta tutte le altre peculiarità relative al tipo di modello mixed che stai utilizzando: lineare, logistico, poisson?

Ti riporto di seguito un esempio che potrebbe eventualmente aiutarti a scrivere. Prendiamo come esempio uno studio in cui si misura il numero di giorni di ricovero post-operatorio misurato dopo operazioni con le diverse equipe chirurgiche di un certo numero di diversi ospedali diversi ospedali e misurando altre variabili come età e sesso del paziente ed esperienza del chirurgo (esempio un po’ banalotto, lo so, ma sarebbe stato inutile complicare ulteriormente le cose).

The aim of the analysis is to estimate the days of post-operation hospitalization of the patients on the basis of the data we have collected. Given the multilevel structure of the data (patients nested in surgeons, in turn nested in hospitals) it was considered necessary to build the model by inserting the fixed factors age, sex and surgeon-experience, a random intercept relating to the hospital participating in the survey and a random slope on the level of experience of the surgeon considered.

Given the large number of patients involved, it was considered correct to use the maximum likelihood as an estimation method since the bias attributable to this method is negligible for large sample sizes.

It was considered correct to assume the covariance matrices of random factors and residues respectively Toeplitz and Unstructured.

Age reaches a statistical significance coefficient, 95% confidence interval, while sex and surgeon-experience do not (coefficients, 95% confidence intervals). The residual variability is explained by the intercept and the random slope inserted in the model with Intraclass Correlation Coefficients of 0.19 and 0.27 respectively.

The diagnostics considered for the model was the verification of the linearity and independence of all the variables and the normal distribution of the residues.

Questo è quanto. Ripeto, non tutti i modelli sono uguali (altrimenti noi biostatistici non avremmo più un lavoro) ma per la stragrande maggioranza di mixed model che potresti utilizzare durante le tue analisi la formula che ti ho appena descritto è sufficiente.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *