Componentes Principales - PowerPoint PPT Presentation

About This Presentation
Title:

Componentes Principales

Description:

Nos gustar a encontrar nuevas variables Z, combinaci n lineal de ... Ejemplo gastos EPF. Propiedades de los CP. Propiedades. Conservan la varianza generalizada ... – PowerPoint PPT presentation

Number of Views:55
Avg rating:3.0/5.0
Slides: 47
Provided by: Com144
Category:

less

Transcript and Presenter's Notes

Title: Componentes Principales


1
Componentes Principales
2
  • Karl Pearson

3
  • Objetivo dada una matriz de datos de dimensiones
    nxp que representa los valores de p variables en
    n individuos, investigar si es posible
    representar los individuos mediante r variables
    (rltp) con poca (o ninguna si es posible) pérdida
    de información.

4
  • Nos gustaría encontrar nuevas variables Z,
    combinación lineal de las X originales, tales
    que
  • r de ellas contengan toda la información
  • las restantes p-r fuesen irrelevantes

5
Primera interpretación de componentes
principales Representación gráfica óptima de los
datos
6
Proyección de un punto en una dirección
maximizar la varianza de la proyección equivale
a minimizar las distancias
ri
xi
zi
xiT xi riT ri zTi zi
a
7
(No Transcript)
8
Minimizar las distancias a la recta es lo mismo
que maximizar la varianza de los puntos
proyectados (estamos suponiendo datos de media
cero)
9
Segunda interpretación de componentes
Predicción óptima de los datos
Encontrar una variable zi aXi que sea capaz de
prever lo mejor posible el vector de variables
Xi en cada individuo. Generalizando, encontrar
r variables, zi Ar Xi , que permitan prever los
datos Xi para cada individuo lo mejor posible,
en el sentido de los mínimos cuadrados
Puede demostrarse que la solución es que zi aXi
tenga varianza máxima.
10
Tercera interpretación Ejes del elipsoide que
contiene a la nube de puntos
Recta que minimiza las distancias ortogonales,
proporciona los ejes del elipsoide que contiene a
la nube de puntos
Coincide con la idea de regresión ortogonal de
Pearson
11
(No Transcript)
12
(No Transcript)
13
(No Transcript)
14
Ejemplo. Datos de gastos de familias EPF
15
Segundo componente
16
Ejemplo gastos EPF
17
(No Transcript)
18
(No Transcript)
19
Propiedades de los CP
20
Propiedades
  • Conservan la varianza generalizada
  • Conservan la varianza efectiva

21
Propiedades
  • La variabilidad explicada es la proporción del
    valor propio a la suma

22
Propiedades
La covarianza entre los componentes y las
variables es proporcional al vector propio que
define el componente
Y como
23
Propiedades
  • Las covarianzas entre los componentes y las
  • variables son proporcionales al vector propio y
    el factor de proporcionalidad es el valor propio

24
Propiedades
25
Propiedades
26
CP como predictores óptimos
Queremos prever cada fila de la matriz
Mediante un conjunto de variables
Con el mínimo error
27
CP como predictores óptimos
Dado el vector a el coeficiente c se obtiene por
regresión
Con lo que
Para obtener a tenemos que minimizar
28
CP como predictores óptimos
29
CP como predictores óptimos
El resultado de la aproximación es
30
CP como predictores óptimos
Y en general, la mejor aproximación de la matriz
con otra de Rango rltp es
31
  • Los CP son los predictores óptimos de las
    variables originales
  • La aproximación de CP puede aplicarse a cualquier
    matriz aunque tengamos más variables que
    observaciones

32
Propiedades
  • En lugar de trabajar con la matriz de varianzas
    podemos hacerlo con la de correlaciones
  • Esto equivale a trabajar con variables
    estandarizadas

33
CP sobre correlaciones
34
Ejemplo Inves
35
Ejemplo Inves
36
(No Transcript)
37
Ejemplo Medifis
38
(No Transcript)
39
(No Transcript)
40
Ejemplo mundodes
41
Ejemplo Mundodes
42
(No Transcript)
43
Ejemplos para análisis de imagenes
44
(No Transcript)
45
En lugar de tener que transmitir 16 matrices de N2
Pixeles transmitimos un vector 16x3 con los
valores de los componentes y una matriz 3xN2 con
los vectores propios De esta manera ahorramos
Ahorramos el 70 . Si en lugar de 16 imágenes
tenemos 100 el ahorro puede ser del 95
46
Generalización
  • Buscar direcciones de proyección interesantes
    desde algun punto de vista.
  • Esta es la idea de Projection Pursuit. Buscar
    proyecciones que produzcan distribuciones de los
    datos tan alejadas de la normalidad como sea
    posible.
Write a Comment
User Comments (0)
About PowerShow.com