CAPTULO 7 MULTICOLINEALIDAD - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

CAPTULO 7 MULTICOLINEALIDAD

Description:

CAPTULO 7 MULTICOLINEALIDAD – PowerPoint PPT presentation

Number of Views:659
Avg rating:3.0/5.0
Slides: 21
Provided by: Fri
Category:

less

Transcript and Presenter's Notes

Title: CAPTULO 7 MULTICOLINEALIDAD


1
CAPÍTULO 7MULTICOLINEALIDAD
  • Edgar Acuña Fernández
  • Departamento de Matemáticas
  • Universidad de Puerto Rico
  • Recinto Universitario de Mayagüez

2
Multicolinealidad
  • Dos predictores X1 y X2 son exactamente
    colineales si existe una relación lineal tal que
    c1X1c2X2c0 para algunas constantes c1, c2 y c0.
  • Un conjunto de predictoras X1, X2,.Xp son
    colineales si para constantes co,c1,..cp, la
    ecuación
  • Si el coeficiente de determinación de la
    regresión de Xk con las otras es cercano a 1 se
    puede concluir tentativamente que hay
    multicolinealidad.

3
Efectos de multicolinealidad
  • Si consideramos el modelo de regresión lineal
    múltiple
  • entonces se puede mostrar que la varianza del
    j-ésimo coeficiente de regresión estimado es
  • Donde, es el coeficiente de Determinación de la
  • regresión lineal de Xj contra todas las demás
  • predictoras.

4
Factor de inflación de la varianza
  • La cantidad es llamado el j-ésimo
    Factor de inflación de la varianza, or VIFj
    (Marquardt, 1970). Si es cercano a 1
    entonces la varianza de aumentará
    grandemente. El VIF representa el incremento en
    la varianza debido a la presencia de
    multicolinealidad.
  • Una variable predictora con un VIF mayor de 10
    (esto es equivalente a aceptar que un R2.90 es
    indicador de una buena relación lineal), puede
    causar multicolinealidad.
  • La mayoría de los programas estadísticos da los
    valores VIF. Los VIF son los elementos que están
    en la diagonal de la matriz C-1, que es la
    inversa de la matríz de correlaciones C .

5
Diagnósticos de Multicolinealidad
  • Besley, et al. (1991)
  • 1) Cotejar si hay coeficientes de regresión con
    valores bien grandes o de signo opuesto a lo que
    se esperaba que ocurriera.
  • 2) Cotejar si las variables predictoras que se
    esperaban sean importantes tienen valores de t
    pequeños para las hipótesis de sus coeficientes.
  • 3) Cotejar si la eliminación de una fila o
    columna de la matriz X produce grandes cambios
    en el modelo ajustado.
  • 4) Cotejar las correlaciones entre todas las
    parejas de variables predictoras para detectar
    las que son bastante altas.
  • 5) Examinar el VIF. Si el VIF es grande, mayor
    que 10, entonces puede haber multicolinealidad.

6
Diagnósticos de Multicolinealidad
  • 6) Usar el número condición de la matriz
    correlación XX, la cual es de la forma
  • donde rij representa la correlación entre las
    variables Xi y Xj La
  • matriz X es obtenida restando a cada columna de
    X la media
  • correspondiente y dividiendo luego entre la raíz
    de la suma de
  • cuadrados corregida por la media de la misma
    columna.

7
NÚMERO CONDICIÓN
  • Sea U una matríz tal que ZXU y que ZZUXXUD
    donde D
  • es una matriz diagonal con elementos positivos
    ?1??2??p. Los
  • ?s son llamados los eigenvalues (valores propios
    de XX y las
  • columnas de U son los eigenvectors (vectores
    propios) de XX.
  • Se puede mostrar que U es ortogonal, es decir
    UUUUI.
  • Las columnas de ZXU son llamados componentes
    principales.
  • El número condición de la matriz X está
    definido por
  • K(mayor eigenvalue /menor eigenvalue)1/2
  • Weisberg sugiere que un Kgt30 indica presencia de
  • multicolinealidad.

8
Medidas remediales al problema de
multicolinealidad
  • Básicamente hay tres propuestas
  • a) Regresión Ridge (Hoerl and Kennard, 1970)
  • b) Componentes principales (Hotelling, 1965)
  • c) Mínimos Cuadrados Parciales (H. Wold, 1975)
  • Sin embargo el problema de multicolinealidad
    también está
  • relacionado con los métodos de selección de
    variables y esto
  • puede ser considerado como una cuarta manera de
    resolver el
  • problema de multicolinealidad.

9
Regresión Ridge
  • Consideremos la suma de las varianzas de los
    coeficientes estimados , dada por E( -?)(
    -?). Hoerl and Kennard (1970) mostraron que
  • E( -?)( -?) EeX(XX)-2Xe
  • ?2Traza(XX)-1
  • ?2
  • Nota, si un valor propio (eigenvalue) es cercano
    a cero la suma de las varianzas se hace muy
    grande.

10
Regresión Ridge
  • Se puede establecer que
  • De donde
  • Es decir, que aún cuando es insesgado,
  • es un estimador
    sesgado.

11
Regresión Ridge
  • La idea en regresión Ridge es encontrar un
    estimador que
  • aunque sea sesgado sea más corto que , es
    decir,
  • El estimador mínimo cuadrático será encogido
    hacia el origen.
  • Hoerl y Kennard (1970 ) propusieron el siguiente
    estimador
  • Donde, k es el parámetro de encogimiento (0ltklt1)
    que
  • debe ser estimado de los datos tomados.

12
Regresión Ridge
  • Si k0 se obtiene el estimador minimo cuadratico
    y a
  • medida que k aumenta el estimador se aleja del
    estimador
  • minimo cuadrático y se hace mas sesgado.
  • Se puede mostrar que el estimador ridge se
    obtiene al
  • resolver
  • MinB (y-XB)(y-XB)
  • Sujeto a B2ltk2
  • Cuando se sustituye la restricción por Bltk se
    obtiene
  • el estimador Lasso (Tibshirani, 1996).

13
Traza Ridge
  • Hay varias propuestas acerca de la elección de k,
    pero lo que más
  • se recomienda consiste en hacer un plot de los
    coeficientes del
  • modelo para varios valores de k (generalmente
    entre 0 y 1) este
  • plot es llamado la Traza Ridge .
  • Para elegir k hay que considerar los siguientes
    aspectos
  • 1. Que los valores de los coeficientes de
    regresión se estabilizen.
  • 2. Que los coefcientes de regresión que tenían un
    valor demasiado grande comienzen a tener valores
    razonables.
  • 3. Que los coeficientes de regresión que
    inicialmente tenían el signo equivocado cambien
    de signo.

14
Traza Ridge para los datos de millaje
15
k óptimo
  • Es un estimado de la razón entre la varianza
    poblacional ?2
  • y la varianza del estimador ridge.
  • Donde p es el número de variables predictoras, s2
    es la
  • estimación de la varianza de los errores del
    modelo de
  • mínimos cuadrados trabajando con las variables
    originales y
  • sin usar ningún tipo de estandarización.
    Finalmente, ,
  • es el cuadrado del i-ésmo coeficiente de la
    regresión por
  • mínimos cuadrados.

16
Aplicación de Regresión Ridge a Selección de
variables
  • Según Hoerl y Kennard la regresión ridge puede
    usarse
  • para seleccionar variables de la siguiente
    manera
  • Eliminar las variables cuyos coeficientes sean
    estables pero
  • de poco valor. Si se trabaja con variables
    previamente
  • estandarizadas, se pueden comparar directamente
    los coeficientes.
  • Eliminar las variables con coeficientes
    inestables que
  • tienden a cero.
  • Eliminar las variables con coeficientes
    inestables.

17
Componentes principales para Regresión
  • El objetivo del análisis por componentes
    principales (Hotelling,
  • 1933) es hacer una reducción de la información
    disponible.
  • Es decir, la información contenida en p variables
  • predictoras X(X1,.,Xp) puede ser reducida a
    Z(Z1,.Zp),
  • con pltp y donde las nuevas variables Zis
    llamadas las
  • componentes principales no están correlacionadas.
  • Los componentes principales de un vector
    aleatorio X son los
  • elementos de una transformación lineal ortogonal
    de X
  • Geométricamente hablando la aplicación de
    componentes
  • principales equivale a hacer una rotación de los
    ejes coordenados.

18
Componentes principales para Regresión
  • Consideremos el modelo de regresión lineal
    múltiple
  • Para determinar los componentes principales hay
    que
  • hallar una matriz ortogonal V tal que ZXV y
    para la
  • cual ZZ(XV)(XV) VXXV

  • diag(?1,.,?p)
  • Donde
  • VVVVI, y
  • los ?j son los valores propios de la matríz de
    correlación XX.

19
Componentes principales para Regresión
  • Luego, la j-ésima componente principal Zj tiene
    desviación
  • estándar igual a y puede ser escrita como
  • donde vj1,vj2,..vjp son los elementos de la
    j-ésima fila de V.
  • La matríz V es llamada la matríz de cargas
    (loadings), y
  • contiene los coeficientes de las variables en
    cada componente
  • principal. Los valores calculados de las
    componentes principales
  • Zj son llamados los valores rotados o simplemente
    scores.

20
Elección del número de componentes principales
  • Por lo general se usan las siguientes dos
    alternativas
  • Elegir el número de compnentes hasta donde se ha
    acumulado por lo menos 75 de la proporción de
    los valores propios.
  • Elegir hasta la componente cuyo valor propio sea
    mayor
  • que 1. Para esto se puede ayudar del
    Scree Plot.
Write a Comment
User Comments (0)
About PowerShow.com