Title: Parte III, a cura di: Stefano Parodi, Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini, 5
1Corso di Laurea in Statistica Matematica e
trattamento Informatico dei Datiati Università
di Genova
Applicazione del modello di regressione logistica
nellambito di uno studio caso-controllo
Esercitazione pratica nellambito del Corso di
Modelli Statistici Anno Accademico 2005-2006
Parte III, a cura di Stefano Parodi, Servizio di
Epidemiologia e Biostatistica, Direzione
Scientifica, Istituto G. Gaslini, Largo G.
Gaslini, 5 16147 Genova Tel 010 5636301,
e-mail stefanoparodi_at_ospedale-gaslini.ge.it
2Metodi per la selezione di un modello di
regressione multivariata
- Avendo a disposizione numerosi predittori si
possono - ottenere moltissimi modelli.
- Tuttavia il ricercatore desidera pervenire ad un
solo oppure a - pochissimi modelli in grado di descrivere in
modo sintetico - ed esaustivo leffetto delle variabili in
studio.
- La selezione del modello può essere effettuata
attraverso - diversi metodi, ovvero backward, forward,
stepwise, - best model.
3- Il metodo backward, che verrà utilizzato
nellesercitazione, - inserisce in blocco tutte le variabili nel
modello e quindi le - elimina una alla volta in base alla
significatività dei rispettivi - coefficienti.
- In genere il test utilizzato è il LR test.
- Tale procedura viene ripetuta ricorsivamente
finché solamente - le variabili con coefficiente statisticamente
significativo - rimangono allinterno del modello.
- Tuttavia molti Autori suggeriscono di lasciare
allinterno del - modello anche predittori non significativi,
che però siano noti - confondenti.
4- Il metodo forward consiste nellinserire le
variabili nel - modello una alla volta sula base della loro
significatività.
- Tale metodo è più conservativo, e
particolarmente adatto - quando il numero dei predittori è
relativamente elevato - rispetto al numero dellle osservazioni.
- Il metodo bakward tende invece a sovrastimare il
fitting del - modello, ma risulta più adatto per lanalisi
di data set - contenenti numerose osservazioni.
- Presenta inoltre il vantaggio di poter
controllare per il - confondimento simultaneo da due o più
variabili - (joint confounding).
5- Il metodo stepwise, consiste nellinserire e
rimuovere - ricorsivamente le variabili dal modello sulla
base della loro - significatività statistica.
- Può essere quindi applicato sia in al metodo
backward che a - quello forward, costituendo di fatto una
variante di tali metodi.
- Il metodo best model consiste nel fittare
tutti i modelli - possibili e nello scegliere quello con la
migliore bontà di - adattamento.
- È caduto ormai quasi completamente in disuso,
poiché tende a - sovrastimare largamente il fitting del
modello, generando - associazioni spurie.
6Modelli con variabili nested
- Talvolta il ricercatore deve analizzare
variabili che sono - presenti solamente allinterno di alcuni
livelli di altri - predittori.
- Ad esempio, tali variabili possono rappresentare
una misura - dellintensità dellesposizione, che esiste
ovviamente - solamente nel sottogruppo degli esposti.
- In tale caso è possibile evitare il modellamento
di tipo nested - attribuendo ai non esposti unintensità di
esposizione pari a 0.
7- Tale approccio non è sempre consigliabile, in
quanto spesso gli - esposti differiscono dai non esposti per una
serie di variabili il cui - effetto non è controllabile dal ricercatore
(in quanto molte di esse - non sono esattamente note).
- Ad esempio, i fumatori differiscono dai non
fumatori per una - serie di abitudini di vita e dietetiche che
non sono tutte facilmente - registrabili in fase di raccolta dati.
- In sintesi, si suppone che leffetto del fumo
possa racchiudere - anche effetti non misurati di altre variabili
e, di conseguenza, che - non si possa assumere come zero il valore
(teorico) del rischio di - patologia in assenza dellesposizione.
8- Inoltre esistono altre variabili, in genere
anchesse legate a - caratteristiche dellesposizione, che non
possono essere - introdotte nel modello se non come variabili
nested (cioè - annidate in altre variabili)
- Un esempio è dato dal tempo di cessazione
dallabitudine al - fumo, che si suppone debba essere associato
in modo inverso al - rischio di malattia.
- Infatti tale variabile è annidata entro la
variabile abitudine al - fumo, essendo misurata esclusivamente per i
soggetti ex- - fumatori.
9- Per i fumatori correnti sarebbe teoricamente
possibile calcolare - tale variabile, pur con i limiti sopra
accennati, attribuendole - valore zero.
- Tuttavia per i non fumatori tale variabile non è
calcolabile.
- In tal caso un modello nested permette di
valutarne leffetto - senza dover ricorrere ad una restrizione
(cioè senza togliere dal - modello i non fumatori).
10- Una procedura adeguata per fittare modelli con
variabili nested su - scala continua, consiste, come primo
passaggio, nel centering della - variabile stessa.
- Ovvero alla variabile viene sottratto il suo
valor medio entro - gruppo.
- Si supponga che la variabile principale di
esposizione sia a tre - livelli, ad esempio fumatori, non fumatori
ed ex-fumatori.
11- Si supponga inoltre che la variabile sia
annidata entro due livelli - di esposizione (es intensità
dellesposizione a fumo di tabacco - entro i due gruppi di fumatori, ex- e attuali)
- Il secondo passaggio dellanalisi consiste nel
sostituire il - valore zero ai soggetti con valore mancante
(nellesempio i non - fumatori).
- Si procede quindi a generare due nuove variabili
realizzando il - prodotto tra le due dummy variables che
descrivono lesposizione - e i valori della variabile nested centrata.
12- Siano D1 e D2 le due dummy per lesposizione,
con D1 che - assume valore 1 se il soggetto è un
ex-fumatore e 0 altrimenti e - la dummy D2 che vale 1 se il soggetto è un
fumatore corrente e - vale 0 altrimenti. .
- Siano D1Fc e D2Fc le due variabili per leffetto
nested - dellesposizione a fumo (dove il pedice c
ricorda il fatto che la - variabile è stata centrata, per cui presenta
media pari a zero).
- Un modello di regressione logistica può quindi
essere formulato - nella maniera seguente
13dove b5C indica leffetto di uno o più
confondenti.
- Poiché la variabile F è centrata sulla sua media
il coefficiente - stimato b1 opportunamente esponenziato,
rappresenta una stima - di rischio relativo (OR) tra gli ex-fumatori
che hanno consumato - un numero medio di sigarette e i
non-fumatori.
- Analogamente esponenziando b2 si ottiene lOR
tra i fumatori che - hanno fumato una quantità media di sigarette
e i non-fumatori.
14- I due coefficienti per la variabile nested (b3 e
b4) rappresentano - invece una stima delleffetto
dellesposizione entro i due - sottogruppi di esposti (ovvero una misura
della forza della - relazione dose-risposta).
- Essendo Fc una variabile continua, i due
coefficienti b3 e b4 - rappresentano una stima della variazione
media nel valore - dellOR in ognuno dei due gruppi di esposti
al variare di - ununità della variabile di esposizione
(nellesempio, migliaia - di sigarette fumate per anno).
15Valutare la bontà di adattamento di un modello di
regressione logistica
- Una volta selezionato un modello che descriva i
dati sulla - base delle ipotesi formulate nel disegno
dello studio occorre - procedere ad una valutazione della bontà del
modello stesso.
- È quindi necessario ricavare misure quantitative
della - capacità del modello di interpolare i dati
osservati.
16- Lanalisi della bontà di adattamento di un
modello - (goodness-of-fit, GOF) utilizza
essenzialmente due step - a) verifica della bontà di adattamento
globale - b) verifica che tutte le osservazioni
contribuiscano al fit, - almeno approssimativamente, nella
stessa misura.
- Lanalisi della GOF dipende dai gradi di libertà
del modello, - che a loro volta dipendono dal numero delle
osservazioni e - dalla presenza o meno di variabili continue.
17- Se il modello contiene solamente predittori
categorici, la - variabile risposta viene analizzata per
sottogruppi, definiti - dallinsieme dei valori che i predittori
possono assumere - (pattern di covariate).
- Invece se nel database vi sono n osservazioni e
almeno un - predittore misurato su scala continua, ci si
attende che al - crescere delle osservazioni i pattern di
covariate crescano - allo stesso modo.
18- Nel modello logistico i valori stimati attesi
per ogni pattern - di covariate j, con mj osservazioni, sono
dati dalla seguente - espressione
dove
19- Nei modelli GLM, come il modello logistico, lo
scostamento - tra valori osservati e stimati attesi può
essere valutato - mediante il calcolo della devianza o deviance.
- Posto l(0) la log verosimiglianza del modello
fittato e l(F) è la - log verosimiglianza del modello saturato
(Full model), la - devianza D viene ottenuta dalla loro
differenza moltiplicata - per -2.
20- Tale statistica segue asintoticamente una
distribuzione c2 con - valore atteso pari al numero dei pattern di
covariate meno il - numero dei parametri nel modello (compresa
lintercetta).
- Un test per la GOF può quindi essere formulato
utilizzando - tale proprietà della deviance, che risulta
soddisfatta solo per - modelli con predittori categorici.
- Inoltre se il numero delle parametri è elevato
rispetto a - quello dei predittori (ovvero vi sono celle
con valori attesi - inferiori a 5), lapprosimazione alla
distribuzione c2 - potrebbe non essere valida.
21- Un altro test per la GOF analogo alla deviance è
basato sui - residui di Pearson
- La sommatoria su j di tali residui al quadrato
segue - anchessa asintoticamente una distribuzione
c2 e può - essere impiegata per testare la GOF del
modello.
- Anche per tale test valgono le stesse
limitazioni del test sulla - deviance.
22- In presenza di variabili continue nel modello
oppure di un - elevato numero di predittori, un test
alternativo per la GOF - è stato proposto da Hosmer e Lemeshow (1980).
- Tale procedura consiste nel raggruppare le
probabilità - stimate per ogni soggetto in classi definite
sulla base della - distribuzione dei percentili.
- In genere si utilizzano i decili della
distribuzione, detti - decili di rischio, oppure, meno
frequentemente, valori di - probabilità stimata fissati a priori (ad es
a step di 0.1).
23- Il test consiste nel calcolare un c2 di Pearson
per la tabella di - contingenza ottenuta dallaggregazione dei
dati in colonne - corrispondenti, ad esempio, ai decili di
rischio e nelle 2 righe, - corrispondenti ai due outcome (0 o 1).
Con
E mj è il numero di osservazioni entro ogni
pattern di covariate j
24- Infine, unaltra statistica ampiamente
utilizzata per la - valutazione della GOF è larea sotto la curva
ROC (Area - Under the Curve, AUC).
- Tale curva viene ottenuta utilizzando i valori
stimati attesi - del modello logistico e classificando i
soggetti come - appartenenti alla categoria di variabile
risposta y1 - (corrispondente ai Casi) per valori superiori
a valori - selezionati.
- In genere si utilizzano tutti i valori stimati
attesi di - probabilità (oppure in modo del tutto
equivalente, del logit).
25- La curva viene ottenuta plottando i valori di
sensibilità e 1- - specificità ottenuti da ogni valore soglia.
- In pratica, se una curva ROC presenta unarea
elevata - (tipicamente al di sopra di 0.8) vi è evidenza
di un buon - fitting del modello.
- Valori di AUC intorno a 0.5 indicano una pessima
GOF.
26- Infatti si dimostra (in modo non banale!) che
lAUC stima - la probabilità che un soggetto appartenente
al gruppo dei - casi presenti valori di probabilità stimata
attesa dal modello - superiori ad un controllo.
- Quindi se il modello presenta unottima GOF la
grande - maggioranza dei casi presenterà valori di
probabilità stimata - attesa elevati e AUC tenderà a 1.
- Se il modello invece presenta una pessima GOF, i
casi e i - controlli presenteranno mediamente lo stesso
valore di - probabilità stimata attesa e AUC tenderà a
0.5.
27Ricerca dei punti influenti (outliers)
- Le statistiche di bontà di un modello dovrebbero
essere sempre - affiancate da diagnostiche di regressione,
che mirano ad - identificare le unità statistiche che possono
aver influenzato - lesito dellanalisi (punti influenti o
outliers).
- Tra queste misure una delle più utilizzate è il
leverage, che - stima il peso che ogni osservazione esercita
sul suo valore - atteso.
28- Nel modello logistico Pregibon nel 1981 ha
dimostrato che il - leverage hj presenta la seguente relazione
con i valori attesi .
Con
Si noti che il termine n rappresenta la stima
della varianza degli yi
29- Andamento del leverage in funzione dei valori
attesi da un - modello di regressione logistica (dati
simulati)
- Risulta quindi conveniente dividere il leverage
per la quantità nj, - che ne provoca un abbassamento in
corrispondenza degli - estremi dellintervallo di probabilità attese
stimate.
30- Altre diagnostiche di regressione utilizzano la
delezione delle - singole osservazioni o pattern di covariate e
ne stimano - leffetto sulle statistiche di GOF.
- Una statistica molto utilizzata è la variazione
in deviance - (DD) in corrispondenza delleliminazione di
un determinato - pattern di covariate
- Un plot di DD verso i corrispondenti valori
attesi permette di - identificare visivamente punti con valore più
elevato degli - altri, che potrebbero aver influenzato il fit
del modello.
31- Hosmer e Lemeshow suggeriscono inoltre di
identificare tutti - i punti con eventuale valore di DD superiore
a 4.
- In modo del tutto analogo anche la delezione dei
residui di - Pearson può essere utilizzata per ricercare
eventuali punti - influenti.
- Infine unaltra statistica molto utilizzata è la
distanza di - Cook che misura la differenza per ogni
coefficiente tra il - valore stimato nel modello con tutte le
osservazioni e quello - che si otterrebbe eliminando un determinato
pattern di - covariate.