ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE - PowerPoint PPT Presentation

1 / 10

About This Presentation

Title:

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE

Description:

Title: METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI: Selezione delle variabili nei modelli di regressione lineare Author: Prof. Mantovan Last modified by – PowerPoint PPT presentation

Number of Views:37

Avg rating:3.0/5.0

Slides: 11

Provided by: Prof8309

Category:

more less

Transcript and Presenter's Notes

Title: ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE

1
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE
VARIABILI NEI MODELLI DI REGRESSIONE LINEARE

Ipotesi e proprietà dello stimatore Ordinary
Least Squares (OLS)
Stimatore della varianza comune non nota ?2 e
f.d. dello stimatore OLS
Stimatore della varianza comune non nota ?2 nel
caso di modello nullo
Eliminazione delle variabili statisticamente non
significative
Tests statistici per la selezione delle variabili
Il test F per la selezione delle variabili
Procedure operative per la selezione delle
variabili backward elimination, forward
selection, stepwise selection.
Un criterio per leliminazione delle variabili
esplicative ridondanti
Eliminazione di variabili via analisi delle
componenti principali

2
Ipotesi e proprietà dello stimatore Ordinary
Least Squares (OLS)

Per le variabili risposta yixi, i1,2,,n,
complessivamente considerate nel vettore yX ,
sotto le seguenti ipotesi
1) modello (parametrico) lineare E(yX, ?) X?
2) indipendenza condizionale
3) medesima varianza non dipendente da ?
VAR(yX, ?) ?2In
lo stimatore Ordinary Least Squares ?OLS
(XX)-1Xy, ha valore medio e varianza
rispettivamente
E(?OLS) ?
VAR(?OLS) (?2/n)(XX/n)-1.
Se si assume anche lulteriore aggiuntiva
ipotesi
4) la legge di distribuzione condizionale comune
delle variabili risposta yixi, i1,2,,n, è
Normale (ipotesi di normalità)
lo stimatore ?OLS coincide con lo stimatore di
massima verosimiglianza ?ML ed ha f.d. Normale
k-variata
Diversamente, data la linearità dello stimatore,
per il teorema del limite centrale, esso ha solo
asintoticamente funzione di distribuzione Normale
k-variata in questo caso, per n elevato (grandi
campioni) la sua f.d. sarà approssimativamente
Normale k-variata.

3
Stimatore della varianza comune non nota ?2 e sua
f.d.

Lo stimatore corretto della varianza comune non
nota ?2 è dato da
(1) sk2 (y-X
?OLS) (y-X ?OLS)/(n-k).
Sotto lassunzione di normalità della legge di
distribuzione condizionata comune delle variabili
risposta, la statistica
(2) z
(n-k) sk2/?2,
si distribuisce come un chi-quadrato con n-k
gradi di libertà.
Essendo ?2 non nota, e dunque solo stimabile con
la (1), sempre sotto lassunzione di normalità,
considerando i singoli stimatori ?OLS(j), il loro
valore medio ?(j) e la stima della loro varianza
?j2 diagsk2(XX)-1, j 1,2,,k, la
statistica
?OLS(j)
- ?(j) / ,
ha funzione di distribuzione t di Students con
n-k gradi di libertà, j 1,2,,k.

4
Stimatore della varianza comune non nota ?2 nel
caso di modello nullo

Nel caso di modello nullo (in assenza di
dipendenza delle variabili risposta dalle
covariate (regressori o variabili indipendenti)),
posto m y1n/n, lo stimatore della varianza
comune non nota ?2 è dato da
s02
(y-m1n)(y-m1n)/(n-1).
In questo caso, sotto lassunzione di Normalità
della legge di distribuzione condizionata comune
delle variabili risposta, la statistica
z (n-1) s02/ ?2,
si distribuisce come un (chi-quadrato) con n-1
gradi di libertà.

5
Eliminazione delle variabili statisticamente non
significative

Perché scartare delle variabili?
(i) Per realizzare un modello parsimonioso.
(ii) Per avere un adeguato rapporto tra la
dimensione del campione e il numero di parametri
del modello da stimare.
(iii) Per eliminare variabili esplicative
fortemente correlate con variabili già entrate
nel modello il cui contributo esplicativo
aggiuntivo non può che essere statisticamente
irrilevante (non significativo).
(iv) Per eliminare variabili il cui contributo
esplicativo è comunque statisticamente
irrilevante.
Il problema di scelta del modello migliore
comporta
(1) Prefissato il numero p di variabili da
selezionare, la scelta delle p (1? p ? k)
variabili delle k disponibili con coefficiente di
correlazione multiplo al quadrato (o rapporto di
determinazione) massimo, p1,2,,k. Fissato p (1?
p ? k), si tratta di comparare k!/p!(k-p)!
modelli di regressione. Questa comparazione può
risultare laboriosa per numero di modelli da
considerare. Il migliore modello con p1
variabili non è necessariamente costituito dalle
stesse variabili del migliore modello con p
variabili più una variabile aggiuntiva (i modelli
non sono necessariamente nested).
(2) La scelta del numero p di variabili da
considerare nel modello comparando tra loro i
modelli migliori. Questa scelta è resa non
univoca non essendo i modelli necessariamente
inclusivi (nested).

6
Tests statistici per la selezione delle
variabili tests sui valori dei coefficienti di
regressione stimati (test t e test chi-quadrato)

La selezione delle p variabili (0 ? p ? k), da
ritenere statisticamente significative nella
modellazione lineare della dipendenza della
variabile risposta dalle covariate, sotto ipotesi
di normalità e stima della varianza non nota ?2,
può avvenire nei seguenti modi
1- Con verifica dellipotesi di nullità (H0
?j0, contro H1 ?j?0) di ogni singolo
coefficiente di regressione. In tal caso si fa
riferimento alla statistica determinata sotto
lipotesi nulla ?OLS(j) - 0/sqrt(?j2), che ha
f.d. t di Students con n-k gradi di libertà,
j1,2,,k. Si rifiuta lipotesi nulla per valori
elevati del valore assoluto della statistica (o
per valori piccoli di p-value della statistica in
valore assoluto).
2- Con verifica dellipotesi di nullità (H0
?q0, contro H1 non tutti i singoli ?i di ?q
sono nulli) di un gruppo di coefficienti di
regressione, data la partizione ? (?p, ?q),
con pqk. In tal caso si fa riferimento alla
statistica di Wald (forma quadratica) determinata
sotto lipotesi nulla w (?q-OLS)VAR(?q-OLS)-
1 (?q-OLS), che ha f.d. chi-quadrato con q gradi
di libertà, se ?2 è noto (Mardia et al., teorema
3.2.1) diversamente, sostituendo ?2 con la sua
stima s2pq, risulta solo asintoticamente con
f.d. chi-quadrato con q gradi di libertà.

7
Test sulla variazione della somma dei residui al
quadratoIl test F

3- Considerato un modello lineare con un numero
fissato di variabili già accettate (ritenute
statisticamente significative) xp (1 ? p ? k)
(modello ridotto), si tratta di verificare
lipotesi di decremento non significativo
(ipotesi nulla) della somma dei residui al
quadrato (RSS Residual Sum of Squares)
conseguente allinserimento aggiuntivo di una o
più ulteriori variabili esplicative (ulteriori
covariate) xq (1 ? q ? k-p) (modello esteso). In
questo caso ponendo
xpq (xp, xq)
RSS(xp) (y-Xp?p-OLS)(y-Xp?p-OLS)
RSS(xpq) (y-Xpq?(pq)-OLS)(y-Xpq?(pq)-OLS)
si fa riferimento alla statistica
z RSS(xp) - RSS(xpq)/q
/ RSS(xpq)/(n-p-q),
che, sotto lipotesi di normalità, ha f.d. F di
Snedecor con gradi di libertà q ed n-(pq).
Si rigetta lipotesi nulla per valori di z
maggiori del valore critico F(q,(n-p-q),(1-?)),
con usualmente ?0.05, oppure con p-value minore
di una soglia piccola prefissata (minore di ?).
Il test F permette di comparare modelli
necessariamente nested.

8
Procedure operative per la selezione delle
variabili backward elimination, forward
selection, stepwise selection.

Dal test F suddetto, operando successivamente con
q 1, si ottengono le procedure di selezione
seguenti
Backward Elimination
Forward Selection
Stepwise Selection.
Vedi, ad esempio, Draper and Smith, Applied
Regression Analysis, John Wiley Sons, Inc.

9
Un criterio per leliminazione delle variabili
esplicative ridondanti basato sui rapporti di
determinazione tra variabili esplicative.

In presenza di multicollinearità si può pensare
di determinare le p variabili delle k variabili
esplicative inizialmente considerate che più sono
in grado di spiegare le singole rimanenti k-p
variabili.
Per ogni scelta di p variabili raccolte nel
vettore xp, che, senza perdere in generalità,
possiamo pensare siano le prime p variabili delle
k considerate, si possono considerare i k-p
rapporti di determinazione r2(xj,xp), ottenibili
con j p1,,k, per le singole rimanenti k-p
variabili e fare corrispondere a tale scelta,
delle possibili , il rapporto di
determinazione minimo
Delle scelte possibili di p variabili, si
sceglierà quella per la quale il rapporto di
determinazione minimo è massimo.

10
Eliminazione di variabili via analisi delle
componenti principali

Delle k variabili esplicative, le prime
componenti principali colgono la variabilità
strutturale le ultime componenti principali
costituiscono perturbazione.
Nella scelta delle variabili, si eliminano quelle
variabili che sono più fortemente correlate
(positivamente o negativamente) con le ultime
componenti principali (quelle corrispondenti ad
autovalori poco elevati). Si eliminano cioè le
variabili che presentano i più elevati
coefficienti in valore assoluto che non siano già
state precedentemente eliminate fino alla
riduzione desiderata del numero di variabili.