Imparare a costruire correttamente modelli multivariati è importante. Errori grossolani nella specificazione del modello, infatti, possono portare a risultati “biased”, per cui dannosi nel momento in cui il modello stesso viene pubblicato e utilizzato. Pensa solo ai risultati di un modello predittivo utilizzato nell’ambito sanitario. E purtroppo il problema della mispecification è decisamente diffusa: pensa a tutti quei ricercatori che schiacciano selvaggiamente i tasti dei loro pc con la dicitura “multivariata”, tirano fuori dei p-value privi di senso e poi nei loro articoli se ne escono con frasi ambigue del tipo: “i risultati sono da approfondire e vanno confermati da ulteriori studi”.
Ma andiamo diritti al sodo: hai il tuo dataset e devi tirarne fuori un modello multivariato da presentare nel tuo articolo e non sai che pesci pigliare.
Chiariamo subito un concetto: non esiste il modello migliore e non esiste il metodo migliore per svilupparlo. Esistono una serie di buoni modelli, dai quali poi scegliere.
Ed esistono dei passaggi obbligati di fronte ai quali non si scappa, e che ti garantiscono una elevata qualità nell’analisi dei dati.
Ti scrivo in questo post un processo quelli che ritengo essere 8 passaggi obbligati che renderanno, nella maggior parte dei casi, la tua analisi inattaccabile.
Non posso, per ognuno dei 8 step, essere dettagliato. Esistono degli ottimi libri che fanno questo lavoro. Io nell’ambito di un post ti posso indicare però la strada da imboccare e percorrere.
Facciamo un’altra premessa prima di cominciare.
Questo è un metodo che uso per i modelli di basati sulla regressione: lineare, logistica, Poisson, Cox, eccetera. Per altri tipi di analisi, ad esempio analisi delle componenti principali o analisi fattoriale, servirebbero delle modifiche a questo articolo. Tuttavia, a tal proposito, scriverò un post ad hoc in futuro.
Cominciamo.
Step # 1: definisci il problema nel modo più specifico possibile.
So che sembra superfluo e invece è maledettamente importante: quando sviluppi un metodo multivariato devi sapere esattamente cosa vuoi testare.
Qual è il tuo quesito scientifico? Qual è l’effetto principale che ti interessa? E qual è la dimensione di questo effetto che ritieni significativa nella vita reale? La risposta a questa ultima domanda è importante soprattutto nel momento in cui vorrai fare un’analisi di potenza della tua analisi.
Per cui ribadisco: prima di metterti a lavorare scrivi molto chiaramente l’ipotesi che intendi testare.
Step # 2: scegli la tipologia di modello (sulla base della struttura dei tuoi dati).
Quando sviluppi un metodo predittivo devi avere chiaro che stai andando oltre un semplice confronto tra gruppi. Stai, invece, considerando una moltitudine di variabili tutte assieme. La modalità in cui sono organizzate queste variabili è data dal disegno del tuo studio e questo disegno devi averlo ben chiaro. Significa che devi porti queste domande e avere risposte molto chiare:
Che tipo di variabili sto considerando? Continue, discrete, binarie?
Quali sono i fattori coinvolti nello studio?
Quanti livelli hai considerato per ogni fattore?
I fattori sono incrociati? Sono annidati? Hanno una struttura gerarchica?
I fattori li considero fissi? Oppure Random?
Sto considerando misure ripetute?
Le risposte a queste domande ti permetterà di scegliere il tipo di modello più appropriato.
Step # 3: analizza la qualità dei tuoi dati.
Questo è un passaggio cruciale. Con dati di buona qualità ti puoi permettere analisi che con dati di cattiva qualità non sarebbero possibili.
Prendi le tue variabili di interesse, una alla volta, e cerca eventuali misclassificazioni e correggile quando possibile.
Inoltre, quanti missing data hai per una certa variabile? Quando hai tanti missing data puoi considerare di eliminare la variabile.
Infine valuta le modalità con cui sono stati rilevati i dati per quella variabile: sono presenti bias di sampling del dato?
Step # 4: conduci analisi univariate
La tua analisi comincia prendendo in considerazione le variabili una alla volta. Prendi ogni singola variabile, dipendente o indipendente che sia, e analizzane la distribuzione, la numerosità, media, mediana, intervallo interquartile, deviazione standard.
Le informazioni che ne trarrai potranno essere preziose.
Potresti decidere, ad esempio, di trasformare una variabile perché distribuita in modo eccessivamente asimmetrico. Oppure potresti scoprire che una variabile si comporta in modo multimodale e potresti ipotizzare di categorizzarla per una facile interpretazione dei risultati. Come ti dicevo in questo post, però, categorizzare una variabile richiede molta coscienza e attenzione.
Il concetto, ad ogni modo, è: prima di fare il minestrone, assicurati di quali sono gli ingredienti che hai a disposizione.
Step # 5: conduci analisi bivariate.
Prendi la tua variabile dipendente e testa la sua associazione con ogni variabile indipendente presa singolarmente. In questo modo cominci a renderti conto di quali variabili possono essere dei predittori del tuo outcome. Inoltre puoi anche identificare andamenti non lineari delle tue variabili indipendenti rispetto alla variabile dipendente, e con queste informazioni eventualmente decidere di introdurre fattori quadratici o cubici nel tuo modello. Un altro tipo di analisi bivariata necessaria, quando conduci un modello di regressione, è quello di valutare la correlazione tra variabili indipendenti con il fine di evitare un problema che si chiama multicollinearità.
Step #6: individua il modello più semplice possibile.
Ok, ora hai analizzato le singole variabili per valutarne le caratteristiche e il loro rapporto con la variabile dipendente. Benissimo, ma è arrivato il momento di cominciare a giocare pesante e a mettere assieme gli ingredienti.
Il primo modello che devi costruire è quello cosiddetto “Naive“, quello essenziale, quello in cui inserisci unicamente le variabili che sai che saranno presenti al 100% all’interno del tuo modello finale. Saranno variabili che sarai sicuro di voler utilizzare per spiegare il fenomeno che stai analizzando.
Step # 7: “arricchisci” il modello “naive”
Una volta stabilito il modello “naive” allora potrai cominciare a pensare quali di tutte le altre variabili che hai a disposizione dovrai inserire nel modello finale.
Questa è l’operazione forse più critica del “model building” e diversi approcci sono stati proposti.
Quello che ritengo più solido è quello di inserire tutte le variabili e di provare a toglierle una alla volta (il termine tecnico per descrivere questo processo è “backward delection”). Per ogni eliminazione fai una valutazione del fitting del modello (ad esempio, se stai sviluppando un modello di regressione lineare, puoi valutare l’R-quadro). Se il modello non ha ripercussioni, allora puoi eliminare definitivamente la variabile.
Ovviamente il processo richiede pazienza e purtroppo le cose non sempre fileranno “liscie”.
Alla fine ti ritroverai con una serie di modelli candidati alla tua bella pubblicazione.
Finisce qua la faccenda? Neanche per sogno.
Ora puoi fare un’ulteriore operazione di “arricchimento” dei modelli candidati.
Si tratta di “giocare di fino”. Puoi, ad esempio, testare ipotetiche interazioni tra le variabili; puoi cominciare a considerare un fattore come random invece che fisso; puoi provare a fare un’imputazione dei dati mancanti.
Tutte queste operazioni sui modelli candidati servono, nella stragrande maggioranza dei casi, soprattutto a dare solidità ai risultati relativi all’ipotesi che stai testando e che avevi pianificato allo step # 1. Se andando ad effettuare queste modifiche i risultati non cambiano, allora il tuo modello lo puoi considerare “solido” e avere fiducia nei risultati che stai per pubblicare (si parla anche di analisi di sensitività).
Step # 8: effettua la diagnosi dei modelli candidati.
Una volta in cui hai individuato i modelli candidabili alla pubblicazione finale dello studio, devi accertarti che essi funzionino bene. E un modello funziona bene quando ti descrive nel modo quanto più preciso e costante le tue evidenze sperimentali. Per cui, nel momento in cui hai in mano i tuoi modelli, verifica tutte le assunzioni sulle quali essi si basano e verifica graficamente i loro residui per valutare il fitting dei tuoi modelli.
A questo punto, la mia strategia è quella di scegliere, tra i modelli candidati, quello che fitta meglio.
That’s it!
Anzi, no, non è ancora finita. Una volta effettuata la scelta, ti invito fortemente a “testare” il tuo modello. Per “testare” intendo “ipotizzare dei nuovi casi” e valutare, attraverso il calcolo degli intervalli di predittività, con quale precisione esso effettua le stime e decidere se quest’ultima è accettabile per l’utilizzo pratico.
Direi che c’è abbastanza carne al fuoco. Sentiti libero di contattarmi o di scrivermi nei commenti per eventuali dubbi.
Un caro saluto.
Gianfranco