2.%20AN - PowerPoint PPT Presentation

About This Presentation
Title:

2.%20AN

Description:

... AN LISIS DE COMPONENTES PRINCIPALES. Objetivo: Transformar un conjunto de ... Objetivo: ... Objetivo: Obtener nuevos factores m s f ciles de interpretar. ... – PowerPoint PPT presentation

Number of Views:450
Avg rating:3.0/5.0
Slides: 18
Provided by: idafepre
Category:

less

Transcript and Presenter's Notes

Title: 2.%20AN


1
2. ANÁLISIS DE COMPONENTES PRINCIPALES
  • Objetivo
  • Transformar un conjunto de variables en un
    nuevo conjunto, componentes principales,
    incorrelacionadas entre sí. Se consigue una
    representación simplificada, más sencilla y fácil
    de ver.
  • Metodología
  • Los datos se presentan en una tabla
    rectangular con n líneas (individuos) y p
    columnas (variables) (matriz R, nxp). Puede ser
    disimétrica y con variables heterogéneas. Hay dos
    espacios
  • Rp n individuos con los valores que toman para
    cada una de las p variables.
  • Rn p variables para cada individuo.
  • Finalidad
  • Buscar un subespacio Rq, qltp que contenga
    la mayor cantidad posible de información de la
    nube primitiva, y que mejor se ajuste a la nube
    de puntos y la deforme lo menos posible. El
    criterio de ajuste es el de mínimos cuadrados. Se
    obtendrán nuevas variables, combinaciones
    lineales de las variables originales llamadas
    factores o componentes.

2
Gráficamente ui es el vector unitario
o propio y zi es la proyección de xi en Fi. Como
medida de la cantidad de información incorporada
en una componente se utiliza su varianza. Cuanto
mayor sea, mayor es la información incorporada a
dicha componente. La primera componente será la
de mayor varianza. Para obtener los factores o
componentes que diferencian al máximo a los
individuos entre sí, medidos a través de
caracteres métricos, la extracción se realiza
sobre variables tipificadas, con matriz X, para
evitar problemas de escala. La suma de las
varianzas es igual a p, ya que la de cada una de
ellas es igual a 1 y habrá tantas componentes
como número de variables originales.   Mientras
más correlacionadas estén las variables
originales entre sí, más alta será la
variabilidad que se pueda explicar con menos
componentes. Si existiera incorrelación, el ACP
carecería de sentido, ya que las variables
originales y las componentes o nuevas variables
coincidirían.
3
MATRIZ DE DATOS
Cálculo de medias y desviaciones típicas
X MATRIZ DE DATOS TIPIFICADOS
R XX MATRIZ DE CORRELACIONES
Diagonalización de R, cálculo de valores propios,
varianza explicada y correlaciones
COMPONENTES PRINCIPALES
4
Resumen
  • Las componentes principales son combinaciones
    lineales de las variables originales.
  • Los coeficientes de las combinaciones lineales
    son los elementos de los vectores característicos
    asociados a la matriz de covarianzas de las
    variables originales. Por tanto, la obtención de
    componentes principales es un caso típico de
    cálculo de raíces y vectores característicos de
    una matriz simétrica.
  • La primera componente se asocia a la mayor raíz
    característica a que va asociada.
  • Si se tipifican las variables originales, su
    proporción de variabilidad total captada por una
    componente es igual a su raíz característica
    dividida por el número de variables originales.
  • La correlación entre una componente y una
    variable original se determina con la raíz
    característica de la componente y el
    correspondiente elemento del vector
    característico asociado, si las variables
    originales están tipificadas

5
SPSS versión 10.0 para windows
  • Coeficientes Matriz de los coeficientes de
    correlación entre todas las variables analizadas.
  • Niveles de significación Unilaterales para cada
    uno de los coeficientes de correlación.
  • Determinante muestra el determinante de la
    matriz que recoge los coeficientes de
    correlación.
  • KMO y prueba de esfericidad de Bartlett Calcula
    la medida de la adecuación muestral de
    Kaiser-Meyer-Olkin que es el estadístico de
    contraste de la hipótesis de que las
    correlaciones parciales entre las variables son
    pequeñas.
  • Inversa muestra la inversa de la matriz de
    correlaciones.
  • Reproducida Matriz de correlaciones obtenida a
    partir del modelo factorial estimado. Muestra las
    correlaciones residuales como medida del nivel de
    error de estas estimaciones, es decir, las
    diferencias entre las correlaciones observadas de
    las variables originales y las estimadas.
  • Anti-imagen Matriz con los negativos de los
    coeficientes de correlación parcial. Para que el
    modelo factorial sea considerado bueno la mayoría
    de los elementos fuera de la diagonal principal
    deben ser pequeños, mientras que en la diagonal
    principal se muestran los valores de la
    adecuación muestral para cada una de las
    variables consideradas individualmente.

6
  • Como mínimo habrá que pedir la media y la
    desviación típica y los coeficientes de la matriz
    de correlaciones lineal de Pearson entre las
    variables dos a dos. En general, se debería usar
    alguna de las otras opciones, como son
  • Los niveles de significación, obtenidos en un
    test de hipótesis de los coeficientes de
    correlación lineal.
  • El índice KMO (Kaiser-Meyer-Olkin) Se obtendrá
    mediante la siguiente ecuación
  •  
  • donde
  • rij coeficiente de correlación lineal de
    Pearson entre las variables i,j
  • aij coeficiente de correlación parcial entre
    las variables i,j
  • Índice KMO alto, implica que el nivel de
    correlación entre las variables analizadas es
    alto y por tanto tiene sentido el Análisis de
    Componentes Principales, puesto que se podrá
    reducir la dimensionalidad del problema agrupando
    variables con una alta correlación entre ellas.
  • La prueba de esferidad de Bartlett se utiliza
    para verificar si la matriz de correlaciones es
    una matriz de identidad o no. Indica la
    inadecuación del modelo factorial propuesto.

7
Elección del numero de ejes
Criterio de la media aritmética Se seleccionan
las componentes cuya varianza (valor propio) o
inercia asociada a cada componente, exceda de la
media de las raíces características. Por tanto,
se debe verificar que Si las variables
originales están tipificadas, , por lo
que la media de la inercia es igual a 1. Se
retendrán los factores cuya inercia sea mayor que
1.
8
Comando Extracción SPSS
  • Método factorial Análisis de Componentes
    Principales
  • Matriz de correlaciones. Entre las variables.
    Punto muy importante
  • Solución factorial sin rotar Definir cada una de
    las componentes retenidas.
  • Gráfico de sedimentación de los autovalores
    Ayuda a en la elección del número de factores.
    Según el cambio de pendiente del gráfico,
    confirmará a partir de qué factor la cantidad de
    varianza explicada disminuye drásticamente.
  • Extraer Elección del número de componentes. Por
    defecto, las componentes con autovalores mayores
    que 1, siguiendo el criterio de la media
    aritmética.

9
Obtención de las puntuaciones factoriales
  • Guardar las puntuaciones factoriales de cada
    individuo como variables añadidas al fichero de
    datos inicial.
  • Método El más usual es el de Regresión

10
Posicionamiento de países de la U E frente al
cumplimiento de las condiciones de Maastricht
  • Encargo Una asociación de empresarios dedicados
    a la exportación de productos a Europa, encarga
    un estudio del entorno económico europeo.
  • Objetivo 
  • Conocer la situación de cada país de la UE en
    cuanto a las previsiones de entrada en el MUE y
    la similitud o disimilitud entre ellos.
  • Fase cualitativa
  • Se consideraron las cuatro variables para el
    cumplimiento de las condiciones de Maastricht
    Inflación, deuda, déficit y crecimiento.

11
Datos
  • Fuente Informe Previsiones Económicas de
    primavera del año 1997. Club Mediterranée

12
Resultados
13
Valores propios y de variación explicada
14
Correlaciones de las variables con los factores y
coordenadas de países con los factores
15
Rotación de los ejes Procedimientos
  • Objetivo
  • Obtener nuevos factores más fáciles de
    interpretar. Cada variable original tendrá una
    correlación lo más próxima a 1 con uno de los
    factores y lo más próximas a 0 con el resto. Cada
    factor tendrá correlación alta con un grupo de
    variables y baja con el resto.
  • 1. Rotación ortogonal Queda preservada la
    incorrelación entre los factores.
  • VARIMAX. Los ejes de los factores rotados se
    obtienen maximizando la suma de varianzas de las
    cargas factoriales al cuadrado dentro de cada
    factor. Problema Las variables con mayores
    comunalidades tienen mayor influencia en la
    solución final. Para evitarlo normalización de
    Kaiser Cada carga factorial al cuadrado se
    divide por la comunalidad de la variable
    correspondiente (VARIMAX normalizado). Ventaja
    queda inalterada tanto la varianza total
    explicada por los factores como la comunalidad de
    cada una de las variables
  • EQUAMAX y el QUARTIMAX
  • 2. Rotación oblicua Factores no
    incorrelacionados. Se compensarse si se consigue
    una asociación más nítida de cada variable con el
    factor correspondiente.
  • OBLIMIN Se utilizan algoritmos para controlar el
    grado de no ortogonalidad. Tampoco se ve
    modificada la comunalidad en la rotación oblicua

16
Interpretación simultanea Rotación VARIMAX
17
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com