ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE - PowerPoint PPT Presentation

1 / 10
About This Presentation
Title:

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE

Description:

Title: METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI: Selezione delle variabili nei modelli di regressione lineare Author: Prof. Mantovan Last modified by – PowerPoint PPT presentation

Number of Views:37
Avg rating:3.0/5.0
Slides: 11
Provided by: Prof8309
Category:

less

Transcript and Presenter's Notes

Title: ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE


1
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE
VARIABILI NEI MODELLI DI REGRESSIONE LINEARE
  • Ipotesi e proprietà dello stimatore Ordinary
    Least Squares (OLS)
  • Stimatore della varianza comune non nota ?2 e
    f.d. dello stimatore OLS
  • Stimatore della varianza comune non nota ?2 nel
    caso di modello nullo
  • Eliminazione delle variabili statisticamente non
    significative
  • Tests statistici per la selezione delle variabili
  • Il test F per la selezione delle variabili
  • Procedure operative per la selezione delle
    variabili backward elimination, forward
    selection, stepwise selection.
  • Un criterio per leliminazione delle variabili
    esplicative ridondanti
  • Eliminazione di variabili via analisi delle
    componenti principali

2
Ipotesi e proprietà dello stimatore Ordinary
Least Squares (OLS)
  • Per le variabili risposta yixi, i1,2,,n,
    complessivamente considerate nel vettore yX ,
    sotto le seguenti ipotesi
  • 1) modello (parametrico) lineare E(yX, ?) X?
  • 2) indipendenza condizionale
  • 3) medesima varianza non dipendente da ?
    VAR(yX, ?) ?2In
  • lo stimatore Ordinary Least Squares ?OLS
    (XX)-1Xy, ha valore medio e varianza
    rispettivamente
  • E(?OLS) ?
  • VAR(?OLS) (?2/n)(XX/n)-1.
  • Se si assume anche lulteriore aggiuntiva
    ipotesi
  • 4) la legge di distribuzione condizionale comune
    delle variabili risposta yixi, i1,2,,n, è
    Normale (ipotesi di normalità)
  • lo stimatore ?OLS coincide con lo stimatore di
    massima verosimiglianza ?ML ed ha f.d. Normale
    k-variata
  • Diversamente, data la linearità dello stimatore,
    per il teorema del limite centrale, esso ha solo
    asintoticamente funzione di distribuzione Normale
    k-variata in questo caso, per n elevato (grandi
    campioni) la sua f.d. sarà approssimativamente
    Normale k-variata.

3
Stimatore della varianza comune non nota ?2 e sua
f.d.
  • Lo stimatore corretto della varianza comune non
    nota ?2 è dato da
  • (1) sk2 (y-X
    ?OLS) (y-X ?OLS)/(n-k).
  • Sotto lassunzione di normalità della legge di
    distribuzione condizionata comune delle variabili
    risposta, la statistica
  • (2) z
    (n-k) sk2/?2,
  • si distribuisce come un chi-quadrato con n-k
    gradi di libertà.
  • Essendo ?2 non nota, e dunque solo stimabile con
    la (1), sempre sotto lassunzione di normalità,
    considerando i singoli stimatori ?OLS(j), il loro
    valore medio ?(j) e la stima della loro varianza
    ?j2 diagsk2(XX)-1, j 1,2,,k, la
    statistica
  • ?OLS(j)
    - ?(j) / ,
  • ha funzione di distribuzione t di Students con
    n-k gradi di libertà, j 1,2,,k.

4
Stimatore della varianza comune non nota ?2 nel
caso di modello nullo
  • Nel caso di modello nullo (in assenza di
    dipendenza delle variabili risposta dalle
    covariate (regressori o variabili indipendenti)),
    posto m y1n/n, lo stimatore della varianza
    comune non nota ?2 è dato da
  • s02
    (y-m1n)(y-m1n)/(n-1).
  • In questo caso, sotto lassunzione di Normalità
    della legge di distribuzione condizionata comune
    delle variabili risposta, la statistica
  • z (n-1) s02/ ?2,
  • si distribuisce come un (chi-quadrato) con n-1
    gradi di libertà.

5
Eliminazione delle variabili statisticamente non
significative
  • Perché scartare delle variabili?
  • (i) Per realizzare un modello parsimonioso.
  • (ii) Per avere un adeguato rapporto tra la
    dimensione del campione e il numero di parametri
    del modello da stimare.
  • (iii) Per eliminare variabili esplicative
    fortemente correlate con variabili già entrate
    nel modello il cui contributo esplicativo
    aggiuntivo non può che essere statisticamente
    irrilevante (non significativo).
  • (iv) Per eliminare variabili il cui contributo
    esplicativo è comunque statisticamente
    irrilevante.
  • Il problema di scelta del modello migliore
    comporta
  • (1) Prefissato il numero p di variabili da
    selezionare, la scelta delle p (1? p ? k)
    variabili delle k disponibili con coefficiente di
    correlazione multiplo al quadrato (o rapporto di
    determinazione) massimo, p1,2,,k. Fissato p (1?
    p ? k), si tratta di comparare k!/p!(k-p)!
    modelli di regressione. Questa comparazione può
    risultare laboriosa per numero di modelli da
    considerare. Il migliore modello con p1
    variabili non è necessariamente costituito dalle
    stesse variabili del migliore modello con p
    variabili più una variabile aggiuntiva (i modelli
    non sono necessariamente nested).
  • (2) La scelta del numero p di variabili da
    considerare nel modello comparando tra loro i
    modelli migliori. Questa scelta è resa non
    univoca non essendo i modelli necessariamente
    inclusivi (nested).

6
Tests statistici per la selezione delle
variabili tests sui valori dei coefficienti di
regressione stimati (test t e test chi-quadrato)
  • La selezione delle p variabili (0 ? p ? k), da
    ritenere statisticamente significative nella
    modellazione lineare della dipendenza della
    variabile risposta dalle covariate, sotto ipotesi
    di normalità e stima della varianza non nota ?2,
    può avvenire nei seguenti modi
  • 1- Con verifica dellipotesi di nullità (H0
    ?j0, contro H1 ?j?0) di ogni singolo
    coefficiente di regressione. In tal caso si fa
    riferimento alla statistica determinata sotto
    lipotesi nulla ?OLS(j) - 0/sqrt(?j2), che ha
    f.d. t di Students con n-k gradi di libertà,
    j1,2,,k. Si rifiuta lipotesi nulla per valori
    elevati del valore assoluto della statistica (o
    per valori piccoli di p-value della statistica in
    valore assoluto).
  • 2- Con verifica dellipotesi di nullità (H0
    ?q0, contro H1 non tutti i singoli ?i di ?q
    sono nulli) di un gruppo di coefficienti di
    regressione, data la partizione ? (?p, ?q),
    con pqk. In tal caso si fa riferimento alla
    statistica di Wald (forma quadratica) determinata
    sotto lipotesi nulla w (?q-OLS)VAR(?q-OLS)-
    1 (?q-OLS), che ha f.d. chi-quadrato con q gradi
    di libertà, se ?2 è noto (Mardia et al., teorema
    3.2.1) diversamente, sostituendo ?2 con la sua
    stima s2pq, risulta solo asintoticamente con
    f.d. chi-quadrato con q gradi di libertà.

7
Test sulla variazione della somma dei residui al
quadratoIl test F
  • 3- Considerato un modello lineare con un numero
    fissato di variabili già accettate (ritenute
    statisticamente significative) xp (1 ? p ? k)
    (modello ridotto), si tratta di verificare
    lipotesi di decremento non significativo
    (ipotesi nulla) della somma dei residui al
    quadrato (RSS Residual Sum of Squares)
    conseguente allinserimento aggiuntivo di una o
    più ulteriori variabili esplicative (ulteriori
    covariate) xq (1 ? q ? k-p) (modello esteso). In
    questo caso ponendo
  • xpq (xp, xq)
  • RSS(xp) (y-Xp?p-OLS)(y-Xp?p-OLS)
  • RSS(xpq) (y-Xpq?(pq)-OLS)(y-Xpq?(pq)-OLS)
  • si fa riferimento alla statistica
  • z RSS(xp) - RSS(xpq)/q
    / RSS(xpq)/(n-p-q),
  • che, sotto lipotesi di normalità, ha f.d. F di
    Snedecor con gradi di libertà q ed n-(pq).
  • Si rigetta lipotesi nulla per valori di z
    maggiori del valore critico F(q,(n-p-q),(1-?)),
    con usualmente ?0.05, oppure con p-value minore
    di una soglia piccola prefissata (minore di ?).
  • Il test F permette di comparare modelli
    necessariamente nested.

8
Procedure operative per la selezione delle
variabili backward elimination, forward
selection, stepwise selection.
  • Dal test F suddetto, operando successivamente con
    q 1, si ottengono le procedure di selezione
    seguenti
  • Backward Elimination
  • Forward Selection
  • Stepwise Selection.
  • Vedi, ad esempio, Draper and Smith, Applied
    Regression Analysis, John Wiley Sons, Inc.

9
Un criterio per leliminazione delle variabili
esplicative ridondanti basato sui rapporti di
determinazione tra variabili esplicative.
  • In presenza di multicollinearità si può pensare
    di determinare le p variabili delle k variabili
    esplicative inizialmente considerate che più sono
    in grado di spiegare le singole rimanenti k-p
    variabili.
  • Per ogni scelta di p variabili raccolte nel
    vettore xp, che, senza perdere in generalità,
    possiamo pensare siano le prime p variabili delle
    k considerate, si possono considerare i k-p
    rapporti di determinazione r2(xj,xp), ottenibili
    con j p1,,k, per le singole rimanenti k-p
    variabili e fare corrispondere a tale scelta,
    delle possibili , il rapporto di
    determinazione minimo
  • Delle scelte possibili di p variabili, si
    sceglierà quella per la quale il rapporto di
    determinazione minimo è massimo.

10
Eliminazione di variabili via analisi delle
componenti principali
  • Delle k variabili esplicative, le prime
    componenti principali colgono la variabilità
    strutturale le ultime componenti principali
    costituiscono perturbazione.
  • Nella scelta delle variabili, si eliminano quelle
    variabili che sono più fortemente correlate
    (positivamente o negativamente) con le ultime
    componenti principali (quelle corrispondenti ad
    autovalori poco elevati). Si eliminano cioè le
    variabili che presentano i più elevati
    coefficienti in valore assoluto che non siano già
    state precedentemente eliminate fino alla
    riduzione desiderata del numero di variabili.
Write a Comment
User Comments (0)
About PowerShow.com