Parte III, a cura di: Stefano Parodi, Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini, 5 - PowerPoint PPT Presentation

About This Presentation
Title:

Parte III, a cura di: Stefano Parodi, Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini, 5

Description:

Corso di Laurea in Statistica Matematica e trattamento Informatico dei Datiati Universit di Genova Applicazione del modello di regressione logistica nell ambito ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 32
Provided by: dimaUnige
Category:

less

Transcript and Presenter's Notes

Title: Parte III, a cura di: Stefano Parodi, Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini, 5


1
Corso di Laurea in Statistica Matematica e
trattamento Informatico dei Datiati Università
di Genova
Applicazione del modello di regressione logistica
nellambito di uno studio caso-controllo
Esercitazione pratica nellambito del Corso di
Modelli Statistici Anno Accademico 2005-2006
Parte III, a cura di Stefano Parodi, Servizio di
Epidemiologia e Biostatistica, Direzione
Scientifica, Istituto G. Gaslini, Largo G.
Gaslini, 5 16147 Genova Tel 010 5636301,
e-mail stefanoparodi_at_ospedale-gaslini.ge.it
2
Metodi per la selezione di un modello di
regressione multivariata
  • Avendo a disposizione numerosi predittori si
    possono
  • ottenere moltissimi modelli.
  • Tuttavia il ricercatore desidera pervenire ad un
    solo oppure a
  • pochissimi modelli in grado di descrivere in
    modo sintetico
  • ed esaustivo leffetto delle variabili in
    studio.
  • La selezione del modello può essere effettuata
    attraverso
  • diversi metodi, ovvero backward, forward,
    stepwise,
  • best model.

3
  • Il metodo backward, che verrà utilizzato
    nellesercitazione,
  • inserisce in blocco tutte le variabili nel
    modello e quindi le
  • elimina una alla volta in base alla
    significatività dei rispettivi
  • coefficienti.
  • In genere il test utilizzato è il LR test.
  • Tale procedura viene ripetuta ricorsivamente
    finché solamente
  • le variabili con coefficiente statisticamente
    significativo
  • rimangono allinterno del modello.
  • Tuttavia molti Autori suggeriscono di lasciare
    allinterno del
  • modello anche predittori non significativi,
    che però siano noti
  • confondenti.

4
  • Il metodo forward consiste nellinserire le
    variabili nel
  • modello una alla volta sula base della loro
    significatività.
  • Tale metodo è più conservativo, e
    particolarmente adatto
  • quando il numero dei predittori è
    relativamente elevato
  • rispetto al numero dellle osservazioni.
  • Il metodo bakward tende invece a sovrastimare il
    fitting del
  • modello, ma risulta più adatto per lanalisi
    di data set
  • contenenti numerose osservazioni.
  • Presenta inoltre il vantaggio di poter
    controllare per il
  • confondimento simultaneo da due o più
    variabili
  • (joint confounding).

5
  • Il metodo stepwise, consiste nellinserire e
    rimuovere
  • ricorsivamente le variabili dal modello sulla
    base della loro
  • significatività statistica.
  • Può essere quindi applicato sia in al metodo
    backward che a
  • quello forward, costituendo di fatto una
    variante di tali metodi.
  • Il metodo best model consiste nel fittare
    tutti i modelli
  • possibili e nello scegliere quello con la
    migliore bontà di
  • adattamento.
  • È caduto ormai quasi completamente in disuso,
    poiché tende a
  • sovrastimare largamente il fitting del
    modello, generando
  • associazioni spurie.

6
Modelli con variabili nested
  • Talvolta il ricercatore deve analizzare
    variabili che sono
  • presenti solamente allinterno di alcuni
    livelli di altri
  • predittori.
  • Ad esempio, tali variabili possono rappresentare
    una misura
  • dellintensità dellesposizione, che esiste
    ovviamente
  • solamente nel sottogruppo degli esposti.
  • In tale caso è possibile evitare il modellamento
    di tipo nested
  • attribuendo ai non esposti unintensità di
    esposizione pari a 0.

7
  • Tale approccio non è sempre consigliabile, in
    quanto spesso gli
  • esposti differiscono dai non esposti per una
    serie di variabili il cui
  • effetto non è controllabile dal ricercatore
    (in quanto molte di esse
  • non sono esattamente note).
  • Ad esempio, i fumatori differiscono dai non
    fumatori per una
  • serie di abitudini di vita e dietetiche che
    non sono tutte facilmente
  • registrabili in fase di raccolta dati.
  • In sintesi, si suppone che leffetto del fumo
    possa racchiudere
  • anche effetti non misurati di altre variabili
    e, di conseguenza, che
  • non si possa assumere come zero il valore
    (teorico) del rischio di
  • patologia in assenza dellesposizione.

8
  • Inoltre esistono altre variabili, in genere
    anchesse legate a
  • caratteristiche dellesposizione, che non
    possono essere
  • introdotte nel modello se non come variabili
    nested (cioè
  • annidate in altre variabili)
  • Un esempio è dato dal tempo di cessazione
    dallabitudine al
  • fumo, che si suppone debba essere associato
    in modo inverso al
  • rischio di malattia.
  • Infatti tale variabile è annidata entro la
    variabile abitudine al
  • fumo, essendo misurata esclusivamente per i
    soggetti ex-
  • fumatori.

9
  • Per i fumatori correnti sarebbe teoricamente
    possibile calcolare
  • tale variabile, pur con i limiti sopra
    accennati, attribuendole
  • valore zero.
  • Tuttavia per i non fumatori tale variabile non è
    calcolabile.
  • In tal caso un modello nested permette di
    valutarne leffetto
  • senza dover ricorrere ad una restrizione
    (cioè senza togliere dal
  • modello i non fumatori).

10
  • Una procedura adeguata per fittare modelli con
    variabili nested su
  • scala continua, consiste, come primo
    passaggio, nel centering della
  • variabile stessa.
  • Ovvero alla variabile viene sottratto il suo
    valor medio entro
  • gruppo.
  • Si supponga che la variabile principale di
    esposizione sia a tre
  • livelli, ad esempio fumatori, non fumatori
    ed ex-fumatori.

11
  • Si supponga inoltre che la variabile sia
    annidata entro due livelli
  • di esposizione (es intensità
    dellesposizione a fumo di tabacco
  • entro i due gruppi di fumatori, ex- e attuali)
  • Il secondo passaggio dellanalisi consiste nel
    sostituire il
  • valore zero ai soggetti con valore mancante
    (nellesempio i non
  • fumatori).
  • Si procede quindi a generare due nuove variabili
    realizzando il
  • prodotto tra le due dummy variables che
    descrivono lesposizione
  • e i valori della variabile nested centrata.

12
  • Siano D1 e D2 le due dummy per lesposizione,
    con D1 che
  • assume valore 1 se il soggetto è un
    ex-fumatore e 0 altrimenti e
  • la dummy D2 che vale 1 se il soggetto è un
    fumatore corrente e
  • vale 0 altrimenti. .
  • Siano D1Fc e D2Fc le due variabili per leffetto
    nested
  • dellesposizione a fumo (dove il pedice c
    ricorda il fatto che la
  • variabile è stata centrata, per cui presenta
    media pari a zero).
  • Un modello di regressione logistica può quindi
    essere formulato
  • nella maniera seguente

13
dove b5C indica leffetto di uno o più
confondenti.
  • Poiché la variabile F è centrata sulla sua media
    il coefficiente
  • stimato b1 opportunamente esponenziato,
    rappresenta una stima
  • di rischio relativo (OR) tra gli ex-fumatori
    che hanno consumato
  • un numero medio di sigarette e i
    non-fumatori.
  • Analogamente esponenziando b2 si ottiene lOR
    tra i fumatori che
  • hanno fumato una quantità media di sigarette
    e i non-fumatori.

14
  • I due coefficienti per la variabile nested (b3 e
    b4) rappresentano
  • invece una stima delleffetto
    dellesposizione entro i due
  • sottogruppi di esposti (ovvero una misura
    della forza della
  • relazione dose-risposta).
  • Essendo Fc una variabile continua, i due
    coefficienti b3 e b4
  • rappresentano una stima della variazione
    media nel valore
  • dellOR in ognuno dei due gruppi di esposti
    al variare di
  • ununità della variabile di esposizione
    (nellesempio, migliaia
  • di sigarette fumate per anno).

15
Valutare la bontà di adattamento di un modello di
regressione logistica
  • Una volta selezionato un modello che descriva i
    dati sulla
  • base delle ipotesi formulate nel disegno
    dello studio occorre
  • procedere ad una valutazione della bontà del
    modello stesso.
  • È quindi necessario ricavare misure quantitative
    della
  • capacità del modello di interpolare i dati
    osservati.

16
  • Lanalisi della bontà di adattamento di un
    modello
  • (goodness-of-fit, GOF) utilizza
    essenzialmente due step
  • a) verifica della bontà di adattamento
    globale
  • b) verifica che tutte le osservazioni
    contribuiscano al fit,
  • almeno approssimativamente, nella
    stessa misura.
  • Lanalisi della GOF dipende dai gradi di libertà
    del modello,
  • che a loro volta dipendono dal numero delle
    osservazioni e
  • dalla presenza o meno di variabili continue.

17
  • Se il modello contiene solamente predittori
    categorici, la
  • variabile risposta viene analizzata per
    sottogruppi, definiti
  • dallinsieme dei valori che i predittori
    possono assumere
  • (pattern di covariate).
  • Invece se nel database vi sono n osservazioni e
    almeno un
  • predittore misurato su scala continua, ci si
    attende che al
  • crescere delle osservazioni i pattern di
    covariate crescano
  • allo stesso modo.

18
  • Nel modello logistico i valori stimati attesi
    per ogni pattern
  • di covariate j, con mj osservazioni, sono
    dati dalla seguente
  • espressione

dove
19
  • Nei modelli GLM, come il modello logistico, lo
    scostamento
  • tra valori osservati e stimati attesi può
    essere valutato
  • mediante il calcolo della devianza o deviance.
  • Posto l(0) la log verosimiglianza del modello
    fittato e l(F) è la
  • log verosimiglianza del modello saturato
    (Full model), la
  • devianza D viene ottenuta dalla loro
    differenza moltiplicata
  • per -2.

20
  • Tale statistica segue asintoticamente una
    distribuzione c2 con
  • valore atteso pari al numero dei pattern di
    covariate meno il
  • numero dei parametri nel modello (compresa
    lintercetta).
  • Un test per la GOF può quindi essere formulato
    utilizzando
  • tale proprietà della deviance, che risulta
    soddisfatta solo per
  • modelli con predittori categorici.
  • Inoltre se il numero delle parametri è elevato
    rispetto a
  • quello dei predittori (ovvero vi sono celle
    con valori attesi
  • inferiori a 5), lapprosimazione alla
    distribuzione c2
  • potrebbe non essere valida.

21
  • Un altro test per la GOF analogo alla deviance è
    basato sui
  • residui di Pearson
  • La sommatoria su j di tali residui al quadrato
    segue
  • anchessa asintoticamente una distribuzione
    c2 e può
  • essere impiegata per testare la GOF del
    modello.
  • Anche per tale test valgono le stesse
    limitazioni del test sulla
  • deviance.

22
  • In presenza di variabili continue nel modello
    oppure di un
  • elevato numero di predittori, un test
    alternativo per la GOF
  • è stato proposto da Hosmer e Lemeshow (1980).
  • Tale procedura consiste nel raggruppare le
    probabilità
  • stimate per ogni soggetto in classi definite
    sulla base della
  • distribuzione dei percentili.
  • In genere si utilizzano i decili della
    distribuzione, detti
  • decili di rischio, oppure, meno
    frequentemente, valori di
  • probabilità stimata fissati a priori (ad es
    a step di 0.1).

23
  • Il test consiste nel calcolare un c2 di Pearson
    per la tabella di
  • contingenza ottenuta dallaggregazione dei
    dati in colonne
  • corrispondenti, ad esempio, ai decili di
    rischio e nelle 2 righe,
  • corrispondenti ai due outcome (0 o 1).

Con
E mj è il numero di osservazioni entro ogni
pattern di covariate j
24
  • Infine, unaltra statistica ampiamente
    utilizzata per la
  • valutazione della GOF è larea sotto la curva
    ROC (Area
  • Under the Curve, AUC).
  • Tale curva viene ottenuta utilizzando i valori
    stimati attesi
  • del modello logistico e classificando i
    soggetti come
  • appartenenti alla categoria di variabile
    risposta y1
  • (corrispondente ai Casi) per valori superiori
    a valori
  • selezionati.
  • In genere si utilizzano tutti i valori stimati
    attesi di
  • probabilità (oppure in modo del tutto
    equivalente, del logit).

25
  • La curva viene ottenuta plottando i valori di
    sensibilità e 1-
  • specificità ottenuti da ogni valore soglia.
  • In pratica, se una curva ROC presenta unarea
    elevata
  • (tipicamente al di sopra di 0.8) vi è evidenza
    di un buon
  • fitting del modello.
  • Valori di AUC intorno a 0.5 indicano una pessima
    GOF.

26
  • Infatti si dimostra (in modo non banale!) che
    lAUC stima
  • la probabilità che un soggetto appartenente
    al gruppo dei
  • casi presenti valori di probabilità stimata
    attesa dal modello
  • superiori ad un controllo.
  • Quindi se il modello presenta unottima GOF la
    grande
  • maggioranza dei casi presenterà valori di
    probabilità stimata
  • attesa elevati e AUC tenderà a 1.
  • Se il modello invece presenta una pessima GOF, i
    casi e i
  • controlli presenteranno mediamente lo stesso
    valore di
  • probabilità stimata attesa e AUC tenderà a
    0.5.

27
Ricerca dei punti influenti (outliers)
  • Le statistiche di bontà di un modello dovrebbero
    essere sempre
  • affiancate da diagnostiche di regressione,
    che mirano ad
  • identificare le unità statistiche che possono
    aver influenzato
  • lesito dellanalisi (punti influenti o
    outliers).
  • Tra queste misure una delle più utilizzate è il
    leverage, che
  • stima il peso che ogni osservazione esercita
    sul suo valore
  • atteso.

28
  • Nel modello logistico Pregibon nel 1981 ha
    dimostrato che il
  • leverage hj presenta la seguente relazione
    con i valori attesi .

Con
Si noti che il termine n rappresenta la stima
della varianza degli yi
29
  • Andamento del leverage in funzione dei valori
    attesi da un
  • modello di regressione logistica (dati
    simulati)
  • Risulta quindi conveniente dividere il leverage
    per la quantità nj,
  • che ne provoca un abbassamento in
    corrispondenza degli
  • estremi dellintervallo di probabilità attese
    stimate.

30
  • Altre diagnostiche di regressione utilizzano la
    delezione delle
  • singole osservazioni o pattern di covariate e
    ne stimano
  • leffetto sulle statistiche di GOF.
  • Una statistica molto utilizzata è la variazione
    in deviance
  • (DD) in corrispondenza delleliminazione di
    un determinato
  • pattern di covariate
  • Un plot di DD verso i corrispondenti valori
    attesi permette di
  • identificare visivamente punti con valore più
    elevato degli
  • altri, che potrebbero aver influenzato il fit
    del modello.

31
  • Hosmer e Lemeshow suggeriscono inoltre di
    identificare tutti
  • i punti con eventuale valore di DD superiore
    a 4.
  • In modo del tutto analogo anche la delezione dei
    residui di
  • Pearson può essere utilizzata per ricercare
    eventuali punti
  • influenti.
  • Infine unaltra statistica molto utilizzata è la
    distanza di
  • Cook che misura la differenza per ogni
    coefficiente tra il
  • valore stimato nel modello con tutte le
    osservazioni e quello
  • che si otterrebbe eliminando un determinato
    pattern di
  • covariate.
Write a Comment
User Comments (0)
About PowerShow.com