Title: ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE
1ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE
VARIABILI NEI MODELLI DI REGRESSIONE LINEARE
- Ipotesi e proprietà dello stimatore Ordinary
Least Squares (OLS) - Stimatore della varianza comune non nota ?2 e
f.d. dello stimatore OLS - Stimatore della varianza comune non nota ?2 nel
caso di modello nullo - Eliminazione delle variabili statisticamente non
significative - Tests statistici per la selezione delle variabili
- Il test F per la selezione delle variabili
- Procedure operative per la selezione delle
variabili backward elimination, forward
selection, stepwise selection. - Un criterio per leliminazione delle variabili
esplicative ridondanti - Eliminazione di variabili via analisi delle
componenti principali
2Ipotesi e proprietà dello stimatore Ordinary
Least Squares (OLS)
- Per le variabili risposta yixi, i1,2,,n,
complessivamente considerate nel vettore yX ,
sotto le seguenti ipotesi - 1) modello (parametrico) lineare E(yX, ?) X?
- 2) indipendenza condizionale
- 3) medesima varianza non dipendente da ?
VAR(yX, ?) ?2In - lo stimatore Ordinary Least Squares ?OLS
(XX)-1Xy, ha valore medio e varianza
rispettivamente - E(?OLS) ?
- VAR(?OLS) (?2/n)(XX/n)-1.
- Se si assume anche lulteriore aggiuntiva
ipotesi - 4) la legge di distribuzione condizionale comune
delle variabili risposta yixi, i1,2,,n, è
Normale (ipotesi di normalità) - lo stimatore ?OLS coincide con lo stimatore di
massima verosimiglianza ?ML ed ha f.d. Normale
k-variata - Diversamente, data la linearità dello stimatore,
per il teorema del limite centrale, esso ha solo
asintoticamente funzione di distribuzione Normale
k-variata in questo caso, per n elevato (grandi
campioni) la sua f.d. sarà approssimativamente
Normale k-variata.
3Stimatore della varianza comune non nota ?2 e sua
f.d.
- Lo stimatore corretto della varianza comune non
nota ?2 è dato da - (1) sk2 (y-X
?OLS) (y-X ?OLS)/(n-k). - Sotto lassunzione di normalità della legge di
distribuzione condizionata comune delle variabili
risposta, la statistica - (2) z
(n-k) sk2/?2, - si distribuisce come un chi-quadrato con n-k
gradi di libertà. - Essendo ?2 non nota, e dunque solo stimabile con
la (1), sempre sotto lassunzione di normalità,
considerando i singoli stimatori ?OLS(j), il loro
valore medio ?(j) e la stima della loro varianza
?j2 diagsk2(XX)-1, j 1,2,,k, la
statistica - ?OLS(j)
- ?(j) / , - ha funzione di distribuzione t di Students con
n-k gradi di libertà, j 1,2,,k.
4Stimatore della varianza comune non nota ?2 nel
caso di modello nullo
- Nel caso di modello nullo (in assenza di
dipendenza delle variabili risposta dalle
covariate (regressori o variabili indipendenti)),
posto m y1n/n, lo stimatore della varianza
comune non nota ?2 è dato da - s02
(y-m1n)(y-m1n)/(n-1). - In questo caso, sotto lassunzione di Normalità
della legge di distribuzione condizionata comune
delle variabili risposta, la statistica - z (n-1) s02/ ?2,
- si distribuisce come un (chi-quadrato) con n-1
gradi di libertà.
5Eliminazione delle variabili statisticamente non
significative
- Perché scartare delle variabili?
- (i) Per realizzare un modello parsimonioso.
- (ii) Per avere un adeguato rapporto tra la
dimensione del campione e il numero di parametri
del modello da stimare. - (iii) Per eliminare variabili esplicative
fortemente correlate con variabili già entrate
nel modello il cui contributo esplicativo
aggiuntivo non può che essere statisticamente
irrilevante (non significativo). - (iv) Per eliminare variabili il cui contributo
esplicativo è comunque statisticamente
irrilevante. - Il problema di scelta del modello migliore
comporta - (1) Prefissato il numero p di variabili da
selezionare, la scelta delle p (1? p ? k)
variabili delle k disponibili con coefficiente di
correlazione multiplo al quadrato (o rapporto di
determinazione) massimo, p1,2,,k. Fissato p (1?
p ? k), si tratta di comparare k!/p!(k-p)!
modelli di regressione. Questa comparazione può
risultare laboriosa per numero di modelli da
considerare. Il migliore modello con p1
variabili non è necessariamente costituito dalle
stesse variabili del migliore modello con p
variabili più una variabile aggiuntiva (i modelli
non sono necessariamente nested). - (2) La scelta del numero p di variabili da
considerare nel modello comparando tra loro i
modelli migliori. Questa scelta è resa non
univoca non essendo i modelli necessariamente
inclusivi (nested).
6Tests statistici per la selezione delle
variabili tests sui valori dei coefficienti di
regressione stimati (test t e test chi-quadrato)
- La selezione delle p variabili (0 ? p ? k), da
ritenere statisticamente significative nella
modellazione lineare della dipendenza della
variabile risposta dalle covariate, sotto ipotesi
di normalità e stima della varianza non nota ?2,
può avvenire nei seguenti modi - 1- Con verifica dellipotesi di nullità (H0
?j0, contro H1 ?j?0) di ogni singolo
coefficiente di regressione. In tal caso si fa
riferimento alla statistica determinata sotto
lipotesi nulla ?OLS(j) - 0/sqrt(?j2), che ha
f.d. t di Students con n-k gradi di libertà,
j1,2,,k. Si rifiuta lipotesi nulla per valori
elevati del valore assoluto della statistica (o
per valori piccoli di p-value della statistica in
valore assoluto). - 2- Con verifica dellipotesi di nullità (H0
?q0, contro H1 non tutti i singoli ?i di ?q
sono nulli) di un gruppo di coefficienti di
regressione, data la partizione ? (?p, ?q),
con pqk. In tal caso si fa riferimento alla
statistica di Wald (forma quadratica) determinata
sotto lipotesi nulla w (?q-OLS)VAR(?q-OLS)-
1 (?q-OLS), che ha f.d. chi-quadrato con q gradi
di libertà, se ?2 è noto (Mardia et al., teorema
3.2.1) diversamente, sostituendo ?2 con la sua
stima s2pq, risulta solo asintoticamente con
f.d. chi-quadrato con q gradi di libertà.
7Test sulla variazione della somma dei residui al
quadratoIl test F
- 3- Considerato un modello lineare con un numero
fissato di variabili già accettate (ritenute
statisticamente significative) xp (1 ? p ? k)
(modello ridotto), si tratta di verificare
lipotesi di decremento non significativo
(ipotesi nulla) della somma dei residui al
quadrato (RSS Residual Sum of Squares)
conseguente allinserimento aggiuntivo di una o
più ulteriori variabili esplicative (ulteriori
covariate) xq (1 ? q ? k-p) (modello esteso). In
questo caso ponendo - xpq (xp, xq)
- RSS(xp) (y-Xp?p-OLS)(y-Xp?p-OLS)
- RSS(xpq) (y-Xpq?(pq)-OLS)(y-Xpq?(pq)-OLS)
- si fa riferimento alla statistica
- z RSS(xp) - RSS(xpq)/q
/ RSS(xpq)/(n-p-q), - che, sotto lipotesi di normalità, ha f.d. F di
Snedecor con gradi di libertà q ed n-(pq). - Si rigetta lipotesi nulla per valori di z
maggiori del valore critico F(q,(n-p-q),(1-?)),
con usualmente ?0.05, oppure con p-value minore
di una soglia piccola prefissata (minore di ?). - Il test F permette di comparare modelli
necessariamente nested.
8Procedure operative per la selezione delle
variabili backward elimination, forward
selection, stepwise selection.
- Dal test F suddetto, operando successivamente con
q 1, si ottengono le procedure di selezione
seguenti - Backward Elimination
- Forward Selection
- Stepwise Selection.
- Vedi, ad esempio, Draper and Smith, Applied
Regression Analysis, John Wiley Sons, Inc.
9Un criterio per leliminazione delle variabili
esplicative ridondanti basato sui rapporti di
determinazione tra variabili esplicative.
- In presenza di multicollinearità si può pensare
di determinare le p variabili delle k variabili
esplicative inizialmente considerate che più sono
in grado di spiegare le singole rimanenti k-p
variabili. - Per ogni scelta di p variabili raccolte nel
vettore xp, che, senza perdere in generalità,
possiamo pensare siano le prime p variabili delle
k considerate, si possono considerare i k-p
rapporti di determinazione r2(xj,xp), ottenibili
con j p1,,k, per le singole rimanenti k-p
variabili e fare corrispondere a tale scelta,
delle possibili , il rapporto di
determinazione minimo - Delle scelte possibili di p variabili, si
sceglierà quella per la quale il rapporto di
determinazione minimo è massimo.
10Eliminazione di variabili via analisi delle
componenti principali
- Delle k variabili esplicative, le prime
componenti principali colgono la variabilità
strutturale le ultime componenti principali
costituiscono perturbazione. - Nella scelta delle variabili, si eliminano quelle
variabili che sono più fortemente correlate
(positivamente o negativamente) con le ultime
componenti principali (quelle corrispondenti ad
autovalori poco elevati). Si eliminano cioè le
variabili che presentano i più elevati
coefficienti in valore assoluto che non siano già
state precedentemente eliminate fino alla
riduzione desiderata del numero di variabili.