Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hi - PowerPoint PPT Presentation

1 / 76
About This Presentation
Title:

Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hi

Description:

Title: La r gression multiple Author: GROUPE HEC Last modified by: Groupe HEC Created Date: 10/9/1999 1:59:55 PM Document presentation format: Affichage l' cran – PowerPoint PPT presentation

Number of Views:232
Avg rating:3.0/5.0
Slides: 77
Provided by: group16
Category:

less

Transcript and Presenter's Notes

Title: Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hi


1
Analyse en Composantes Principales(avec
SPAD)etClassification Ascendante
HiérarchiqueMichel Tenenhaus
2
Peinture représentant un étang(Tombeau de
Thèbes, 1400 av. J.-C.)extrait de lHistoire de
lArt de Ernst Gombrich
3
1. Enquête FT sur les MBA 2001
  • 100 MBA
  • 12 caractéristiques de lécole
  • Women Faculty, Women Students, Women board,
  • International Faculty, Int. Stud., Int. Board,
    Int. Mobility, Int. Course content,
    Languages, Faculty with PhD,
    PhD grad. Rating, Research rating
  • 2 caractéristiques des diplômés
  • Salary today (weighted), Salary increase

4
Extrait des données de lenquête FT sur les MBA
2001

5
Visualiser
6
Analyse factorielle (ACP)des MBA
X14 Salary increase
. . .
?2
Harvard
?
?

?
?
?
0

?
?1
?
?
?
X2 Women Student
?
?
?
Warwick
X1 Women Faculty
7
Analyse Factorielle des MBA Carte des MBA
Analyse réalisée sur les 67 premiers MBA
8
Analyse Factorielle des MBACarte des
caractéristiques utilisées pour lanalyse
Les variables fléchées en pointillés sont
illustratives.
9
Conclusion HEC premier MBA non anglo-saxon
10
2. Les objectifs de lanalyse en composantes
principales
  • Résumer un tableau individus?variables à laide
    dun petit nombre de facteurs.
  • Visualiser le positionnement des individus les
    uns par rapport aux autres.
  • Visualiser les corrélations entre les variables.
  • Interpréter les facteurs.

11
Visualisation des données

Xj
Cor(Xj,Y2)

Cor(Xj,Y1)
0
Les composantes principales (non corrélées
entre elles)
Le tableau des données
Le carte des variables
12
3. Un exemple de positionnement de produits

13
Graphiques en étoile des voitures
14
4. Résumé des données
Sortie SPSS


Sortie SPAD
15
Variance des variables

Dans SPSS

Dans SPAD
16
Graphique des liaisons inter-variables (la
Ferrari est représentée par un disque plein)
17
Tableau des corrélations
Cylindrée
Puissance
Vitesse
Poids
Largeur
Longueur
Cylindrée
1.000
0.954
0.885
0.692
0.706
0.664
Puissance
0.954
1.000
0.934
0.529
0.730
0.527

Vitesse
0.885
0.934
1.000
0.466
0.619
0.578
Poids
0.692
0.529
0.466
1.000
0.477
0.795
Largeur
0.706
0.730
0.619
0.477
1.000
0.591
Longueur
0.664
0.527
0.578
0.795
0.591
1.000
Toutes les corrélations sont positives.
Toutes les corrélations sont significatives au
risque 5
18
Classification ascendante hiérarchique des
variables
H I E R A R C H I C A L C L U S T E
R A N A L Y S I S Dendrogram using
Single Linkage Rescaled
Distance Cluster Combine C A S E 0
5 10 15 20 25
Label Num -------------------------------
-------------- cylindrée 1 òûòø
puissance 2 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
òòòòòòòòòø vitesse 3 òòò
ùòòòòòø largeur 5
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
ó poids 4 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
òûòòòòòòòòòòòòòòòòò longueur 6
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
19
5. Le nuage de points associé aux données
Xp
?
? FERRARI
?
?
?
?
g
?
? SMART
?
X2
?
0
?
X1
N x1, , xi, , xn Nuage de points associé
aux données Centre de gravité du nuage N
g
20
6. Inertie totale du nuage de points
Xp
?
? FERRARI
?
?
?
?
g
?
? SMART
?
X2
?
0
?
X1
Inertie totale I(N, g)
21
7. Réduction des données
Pour neutraliser le problème des unités on
remplace les données dorigine par les données
centrées-réduites
de moyenne 0 et décart-type 1.
22
Les données centrées-réduites (SPAD)
Outlier si valeur gt 2
23
8. Le nuage de points associé aux données
réduites
Xp
?
? FERRARI
?
?
?
Xi
?
0
?
? SMART
?
X2
?
?
Moyenne
X1
Variance
N x1, , xi , , xn Centre de gravité
g 0, Inertie totale I(N , 0) p
24
9. Premier axe principal ?1
?1
xi
Xp
?
?
?
yi
?
0
?
?
?
?
X2
?
?
X1
Objectif 1 On cherche laxe ?1 passant le mieux
possible au milieu du nuage N. On cherche à
minimiser linertie du nuage N par rapport à
laxe ?1
25
Premier axe principal ?1
?1
xi
Xp
?
?
?
yi
?
0
?
?
?
?
X2
?
?
X1
Objectif 2 On cherche laxe dallongement ?1 du
nuage N. On cherche à maximiser linertie du
nuage N projeté sur laxe ?1
26
Les objectifs 1 et 2 sont atteints simultanément
xi
Xp
?1
yi

0
X2
X1
De on déduit
Inertie totale p
Inertie expliquée par ?1
Inertie résiduelle


Minimiser
Maximiser
27
Résultats
  • Laxe ?1 passe par le centre de gravité 0 du
    nuage de points N.
  • Laxe ?1 est engendré par le vecteur normé u1,
    vecteur propre de la matrice des corrélations R
    associé à la plus grande valeur propre ?1.
  • Linertie expliquée par laxe ?1 est égal à ?1.
  • La part dinertie expliquée par le premier axe
    principal ?1 est égal à ?1/p.

28
Résultat SPAD



29
Résultat SPAD


Les vecteurs propres


Normalisation .462 .442 .382 1
30
10. Première composante principale Y1
xi
?1
Xp
?
yi

?
u1
Smart
0
Y1(i)
?
X2
?
Y1(1) -4.15
X1
Y1 est une nouvelle variable définie pour chaque
individu i par Y1(i) longueur algébrique du
segment 0yi coordonnée de yi sur laxe
?1 produit scalaire entre les vecteurs xi
et u1
Y1
31
Résultats SPAD
Carré de la
DISTO d2(xi , 0)
32
Corrélations entre les variables et les
composantes principales
Dans SPSS Component Matrix
33
Propriétés de la première composante principale Y1
  • Y1 u11X1 u12X2 u1pXp
  • Moyenne de Y1 0
  • Variance de Y1 Inertie expliquée par ?1
    ?1
  • Cor(Xj, Y1)

34
Qualité de la première composante principale
  • Inertie totale 6
  • Inertie expliquée par le premier axe principal
    ?1 4.4113
  • Part dinertie expliquée par le premier axe
    principal
  • La première composante principale explique 73,5
    de la variance totale.

35
11. Deuxième axe principal ?2
?2
?
xi
?
?
Y2(i)
ai
?
?
?
0
?
Y1(i)
?1
?
?
?
?
?
?
36
Résultats
  • On recherche le deuxième axe principal ?2
    orthogonal à ?1 et passant le mieux possible au
    milieu du nuage.
  • Il passe par le centre de gravité 0 du nuage de
    points et est engendré par le vecteur normé u2,
    vecteur propre de la matrice des corrélations R
    associé à la deuxième plus grande valeur propre
    ?2.
  • La deuxième composante principale Y2 est définie
    par projection des points sur le deuxième axe
    principal.
  • La deuxième composante principale Y2 est centrée,
    de variance ?2, et non corrélée à la première
    composante principale Y1.

37
Le premier plan principal
38
Le cercle des corrélations
39
Qualité globale de lanalyse
Inertie totale variance totale p Part de
variance expliquée par la première composante
principale Part de variance expliquée par la
deuxième composante principale Part de
variance expliquée par les deux premières
composantes principales Et ainsi de suite
pour les autres dimensions...
40
12. Le biplot
Les échelles doivent être identiques sur les deux
axes. Le cercle des variables doit être un cercle.
41
Interprétation du biplot
  • La répartition des projections des individus i
    sur laxe variable Xj reflète les valeurs xij
  • Les coordonnées des individus i sont les valeurs
    des composantes principales
  • Y1(i), Y2(i).
  • Les coordonnées des variables Xj sont les
    vecteurs propres multipliés par une certaine
    constante, par exemple 2 (2u1j, 2u2j).

42
Justification la formule de reconstitution
xi
u2
?

ai
Y2(i)
u1
0
Y1(i)
De
xi ? ai Y1(i)u1 Y2(i)u2
on déduit
xij ? Y1(i)u1j Y2(i)u2j
Coordonnée de la projection de lindividu i sur
laxe variable Xj

43
Justification de la lecture du bi-plot
Axe 2
y2i
i
Xj
u2j
Aij
Axe 1
0
u1j
y1i
44
13. Exemple des races canines

45
Le tableau disjonctif complet

xijl 1 si lindividu i possède la modalité
l de la variable j 0 sinon
46
ACP du tableau disjonctif complet
47
14. Utilisation de SPSSLes données
centrées-réduites (SPSS)

Outlier si valeur gt 2
48
Résultats SPSS Les facteurs
49
Propriétés des facteurs de SPSS
Lien entre les composantes principales et les
facteurs de SPSS
Les facteurs de SPSS sont les composantes principa
les réduites.

Calcul des facteurs de SPSS en fonction des
variables (Xj)SPSS
Tableau des wh
50
15. Construction dune typologie des individus
  • Rechercher des groupes dindividus homogènes dans
    la population
  • - Deux individus appartenant au même groupe sont
    proches.
  • - Deux individus appartenant à des groupes
    différents sont éloignés.
  • Construire une partition de la population en
    groupes homogènes et différents les uns des
    autres.
  • On réalise la typologie au choix
  • (1) sur les données centrées-réduites,
  • (2) sur les premières composantes principales
    (SPAD),
  • (3) sur les premières composantes principales
    réduites
  • (les facteurs de SPSS).

51
Construction dune typologie des individus
o
o


o
o
o

o
o

o

o
o
o

o

o
o
o

o

o

o
o



o
o o


























Fabrication de groupes à partir de
données uniformément réparties
Données structurées en trois groupes
52
Dendrogramme
19 groups
18 groups
17 groups
16 groups
15 groups
14 groups
8 groups
9 groups
7 groups
6 groups
5 groups
4 groups
3 groups
2 groups
1 group
Choosing the cutting level
Definition of the clusters
53
Dendrogramme
54
Classification ascendante hiérarchique (Méthode
de Ward)
Xp










X2





X1
Distance de Ward D(Gi, Gj)
ni effectif de la classe Gi
55
Tableau des distances entre les voitures
DWard(Citroën C2, Nissan Micra)
56
Classification Ascendante Hiérarchique
  • Étape initiale
  • Chaque individu forme une classe. On regroupe
    les deux individus les plus proches.
  • Étape courante
  • A chaque étape, on regroupe les deux classes
    Gi et Gj minimisant le critère de Ward D(Gi,
    Gj).

57
H I E R A R C H I C A L C L U S T E R A
N A L Y S I S Dendrogram using Ward Method
26.294
58
Construction de la classification hiérarchique
sur les données centrées-réduites par SPSS

59
Interprétation de la typologie
Toute la population (G47)
D(G45,G46) 64.184
G46 (10)
G45 (14)
D(G43,G44) 26.294
D(G2,G42) 11.012
G44 (3)
G43 (7)
G2 (1)
G42 (13)
D(G2,G42) 10.661
D(G23,G40) 5.403
G23 (1)
G38 (2)
G19 (1)
G40 (6)
60
Décomposition de la somme des carrés totale
Xp





g2





g
X2



g3




X1

Somme des carrés totale (n-1)p
Somme des carrés interclasses
Somme des carrés intraclasses


61
Résultats SPSS Somme des carrés intra-classes


62
Qualité des typologies

distance de Ward entre les groupes fusionnés
? (S.C. Intra) ? (S.C. Inter)
63
Qualité de la typologie en K classes
  • La somme des carrés expliquée par la typologie en
    K classes est égale à la somme des carrés
    inter-classes de la typologie en K classes.
  • La qualité de la typologie est mesurée par la
    proportion de la somme des carrés totale
    expliquée par la typologie.

64
Choix du nombre de groupes
La typologie en 5 groupes explique 81,27 de la
S.C. totale
65
Premier plan factoriel et typologie
3
2
Land Rover Discovery
Jaguar S-Type 2.7 V6
1
Mercedes Classe S
Nissan X-Trail 2.2 d
Peugeot 407 3.0 V6
VW Touran
BMW 745i
Land Rover Defender
BMW 530d
Renault Scenic
Bentley Continental
Mercedes Classe C
Peugeot 307
Audi A3 1.9
0
Citroën C3
Audi TT 1.8T
Nissan Micra
Aston Martin Vanquish
Citroën C2
BMW Z4 2.5i
-1
Mini 1.6 170
Renault Clio 3.0 V6
Smart Fortwo Coupé
-2
Facteur 2
Ferrari Enzo
-3
3
2
1
0
-1
-2
Facteur 1
66
Interprétation des classes
67
16. C.A.H. des variables
Les données de Kendall
68
(No Transcript)
69
Tableau des corrélations
One of the questions of interest here is how the
variables cluster, in the sense that some of the
qualities may be correlated or confused in the
judges mind. (There was no purpose in
clustering the candidates - only one was to be
chosen).
70
Classification Ascendante Hiérarchique des
variables
Méthode des plus proches voisins
A chaque étape, on fusionne les deux groupes Gi
et Gj maximisant
G1
o
o

o
o

G2

o





On fusionne G2 et G3.






G3
71
Classification Ascendante Hiérarchique des
variables
H I E R A R C H I C A L C L U S T E R A
N A L Y S I S Dendrogram using Single
Linkage (VOISINS LES PLUS PROCHES)
72
Classification Ascendante Hiérarchique des
variables
Méthode des voisins les plus éloignés
A chaque étape, on fusionne les deux groupes Gi
et Gj maximisant
G1
o
o

o
o

G2

o





On fusionne G1 et G2.








G3
73
Classification Ascendante Hiérarchique des
variables
H I E R A R C H I C A L C L U S T E R A
N A L Y S I S Dendrogram using Complete
Linkage (VOISINS LES PLUS ELOIGNES)
74
Bloc 1
Les corrélations sont toutes positives.
75
Bloc 2

76
Interprétation des blocs
Bloc 1 Qualités humaines favorables au
poste Appearance, Self-confidence, Lucidity,
Salesmanship, Drive, Ambition, Grasp,
Potential Bloc 2 Qualités de franchise et de
communication Likeability, Honesty, Keenness to
join Bloc 3 Expérience Form of letter of
application, Experience, Suitability Bloc 4
Diplôme Academic ability
Write a Comment
User Comments (0)
About PowerShow.com