Cours 4: Analyse discriminante (AFD) - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Cours 4: Analyse discriminante (AFD)

Description:

... l AFD peut tre vue comme l ACP norm e du nuage des ... 250 1300 600 3 47 160 1150 450 3 38 165 850 370 1 36 175 770 250 1 29 99 450 400 1 ... – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 33
Provided by: lr75
Category:

less

Transcript and Presenter's Notes

Title: Cours 4: Analyse discriminante (AFD)


1
Cours 4 Analyse discriminante (AFD)
  • I- Principes de lAFD
  • II- Données et définitions
  • III- Recherche du premier axe discriminant
  • IV- Recherche des axes de rang supérieur
  • V- AFD à la main
  • VI- AFD sous R

2
I- Principes de lAFD
  • Objectif Discriminer (séparer, caractériser) m
    groupes dindividus préalablement définis,
    décrits par p variables quantitatives.
  • Moyen Rechercher des combinaisons linéaires des
    p variables initiales (axes discriminants)
    permettent de caractériser au mieux les groupes.
  • Dun point de vue technique, lAFD peut être vue
    comme lACP normée du nuage des centres de
    gravités des m groupes dindividus, munis du
    poids des groupes.

3
I- Principes de lAFD
4
II- 1 Les données
  • Tableau X centré (sinon, on le centre)

Groupe Valeurs
E1

Ek
..
Em
5
II-1 Les données
  • Matrices associées
  • matrice des poids
  • ( si poids égaux)



6
II- 1 Les données
  • matrice centrée correspondante
  • effectif du groupe k
  • matrice diagonale des poids des individus
    du groupe k
  • ( si poids
    égaux)
  • centre de gravité du groupe k
  • M matrice diagonale des
    poids des différents groupes (
    si poids égaux)

7
II-2 Définitions
  • Inertie ou variance inter-classes matrice de
    var-cov des p variables calculée sur le nuage des
    centres de gravités des m groupes
  • Inertie ou variance intra-classes
  • Où est la matrice de var-cov des p
    variables calculée sur les individus du
    groupe k
  • Inertie ou variance totale On a

8
II-2 Définitions
  • Cas particulier Les poids sont tous égaux

9
III- Recherche du premier axe discriminant
(P) On cherche u1 tel que en projection sur cet axe Les centres de gravité des différents groupes soient les plus éloignés possibles (inertie INTER-classe élevée ) - Les individus dun même groupe soient concentrés le plus possible autour de leur centre de gravité (inertie INTRA-classes faible )
  •  

10
III- Recherche du premier axe discriminant
  • Inertie du nuage projeté D1 X u1 coordonnées
    du nuage projeté

(P) chercher -Inertie inter-classes maximale -Inertie intra-classes minimale (P) Maximal
11
III- Recherche du premier axe discriminant
  • (P) est le vecteur propre
    unitaire de associé à la plus
    grande valeur propre
  • Définitions
  • est la direction du premier axe
    discriminant
  • D1 X u1 est la première variable
    discriminantevecteur constitué des coordonnées
    des n individus sur laxe 1
  • est le pouvoir discriminant de laxe 1

12
III- Recherche du premier axe discriminant
  • Remarque On peut montrer que
  • (P)
    maximal
  • La solution de ce nouveau problème est le vecteur
    propre unitaire de W-1B associé à la valeur
    propre
  • Il est égal à à une constante près

13
III- Recherche du premier axe discriminant
  • Prop est le
    pouvoir discriminant de laxe 1
  • l1 ? 0,1
  • l1 1 discrimination parfaite
  • l1 0 Les centres de gravité des nuages de
    points sont confondus ( aucune discrimination
    nest possible).

14
IV- Recherche des axes de rang supérieurs
  • LAFD du tableau X sobtient en cherchant les
    vecteurs propres uk et les valeurs propres
    associées de le k axe
    discriminant est le vecteur propre associé à la
    valeur propre de rang k de cette matrice.
  • Le nombre maximum daxes ( nombre de valeurs
    propres non nulles) que lon puisse obtenir en
    effectuant lAFD sur m groupes est ( m-1 ).

15
V- AFD à la main
  • On observe deux variables quantitatives X1 et X2
    sur un ensemble de n5 individus de même poids,
    supposés répartis en deux groupes (M  masculin
    et F  féminin) 

 
Groupe X1 X2
M M M F F 1 3 2 3 6 5 6 4 3 2
16
V- AFD à la main
17
V- AFD à la main
  • Grandeurs dintérêt
  • n13, n22, n5

18
V- AFD à la main
  • Recherche de laxe discriminant
  • Matrice variance totale V XX/n
  • Matrice de variance inter-classes
  • Matrice de variance intra-classes

19
V- AFD à la main
  • Matrice à diagonaliser

20
V- AFD à la main
  • La valeur propre non nulle de V-1B est 0.79,
    qui est le pouvoir de discriminant de laxe (
    rappelons que plus cette valeur est proche de 1
    meilleure est la discrimination)
  • Le vecteur propre unitaire associé à cette valeur
    propre est donné par 
  • Les coordonnées sur cet axe DXu sont

21
V- AFD à la main
  • gtcread.table("cours.txt",headerT)
  • Groupe X1 X2
  • 1 M 1 5
  • 2 M 3 6
  • 3 M 2 4
  • 4 F 3 3
  • 5 F 6 2
  • gtmcmatrix(apply(c,23,2,mean),5,2,byrowT)
  • gtXas.matrix(c,23-mc)
  • gt X1XXGroupe"M",
  • gt X2XXGroupe"F",
  • gtG1apply(X1,23,2,mean)
  • gt G2apply(X2,23,2,mean)
  • gtV(t(X)X)/5
  • gtMdiag(c(3/5,2/5))
  • gtCrbind(G1,G2)
  • gtBt(C)MC
  • gtV1(t(X1)X1)/3-G1t(G1)
  • gt V2(t(X2)X2)/2-G2t(G2)
  • gtW(3V12V2)/5
  • gtIsolve(V)B
  • gt ueigen(I)vector
  • gtlambda eigen(I)values
  • gtDXu

22
VI- AFD sous R
  • On effectue lACP sur le nuage de point des
    centres de gravités du tableau centré.
  • On utilise la fonction lda() de la library MASS
  • On utilise la fonction discrimin() de la library
    ade4

23
VI- AFD sous R
  • Library(MASS)
  • lda(formula, data, ...,)
  • Formula A formula of the form 'groups x1 x2
    ...' That is, the response is the grouping
    factor and the right hand side specifies the
    (non-factor) discriminators.
  • data Data frame from which variables specified
    in 'formula' are preferentially to be taken.
  • prior the prior probabilities of class
    membership. If unspecified, the class
    proportions for the training set are used. If
    present, the probabilities should be specified in
    the order of the factor levels.

24
VI- AFD sous R
25
VI- AFD sous R
  • gtalda(groupeagerevenupatrimoineemprunt,d)
    dDonnées
  • Call
  • lda(groupe age revenu patrimoine emprunt,
    data d)
  • Prior probabilities of groups Coefficients de la
    matrice M
  • 1 2 3
  • 0.3 0.3 0.4
  • Group means moyennes par groupe des variables du
    tableau d
  • age revenu patrimoine emprunt
  • 1 34.33333 146.3333 690.000 340.0
  • 2 31.33333 148.3333 1433.333 230.0
  • 3 45.50000 185.0000 1287.500 372.5

26
VI- AFD sous R
  • Coefficients of linear discriminants
    Coordonnées des vecteurs u1 et u2
  • renormalisées
  • LD1 LD2
  • age 0.048261265 -2.169801e-01
  • revenu 0.025594479 5.976213e-04
  • patrimoine -0.011352863 1.724238e-04
  • emprunt -0.005286007 -5.039816e-05
  • Proportion of trace mu/somme(mu) dinertie
    conservé par chaque axe
  • LD1 LD2
  • 0.8451 0.1549

27
VI- AFD sous R
  • gtnames(a)
  • 1 "prior" "counts" "means" "scaling"
    "lev" "svd" "N"
  • 8 "call" "terms" "xlevels"
  • aprior poids des groupes
  • acounts nombre dindividus dans les groupes
  • ameans moyenne des variables dans les groupes
  • ascaling coordonnées des axes discriminants
    dans lancien repère
  • alev nombre de niveaux du facteur groupe
  • asvd??

28
VI- AFD sous R
  • gtameans
  • age revenu patrimoine emprunt
  • 1 34.33333 146.3333 690.000 340.0
  • 2 31.33333 148.3333 1433.333 230.0
  • 3 45.50000 185.0000 1287.500 372.5
  • Le groupe 1 est un groupe de gens assez jeunes à
    revenus plus faibles que la moyenne dont le
    patrimoine est nettement plus faible que dans les
    autres classes et le taux demprunt plus élevé
    que la moyenne
  • Le groupe 2 est caractérisé par des gens jeunes
    de revenus moyens, mais dont le patrimoine est
    très important et le taux demprunt très faible
  • Le groupe 3 est caractérisé par des gens plus
    agés de revenus confortables et de patrimoine
    assez important, ayant un taux demprunt plus
    élevé que dans les autres classes

29
VI- AFD sous R
  • gtplot(a, col as.numeric(d ,5)) Graphe de
    Xascaling

30
VI- AFD sous R
  • Sur le graphique, on voit que laxe 1 sépare bien
    les 3 groupes, en particulier le groupe 1 des
    deux autres groupes. Le pouvoir discriminant de
    laxe 2 est moindre
  • gtLambdadiag(T(ascaling)Bascaling/T(ascal
    ing)Vascaling)
  • Lambda0.93 0.72
  • Linterprétation des facteurs discriminants peut
    se faire comme en ACP en calculant les
    coordonnées des variables sur les axes
    (corrélations r(Xj,Dk))

31
VI- AFD sous R
  • gtDdascaling
  • gtcor(d,D)
  • LD1 LD2
  • age -0.03673802 -0.9991592
  • revenu -0.13640214 -0.5627526
  • patrimoine -0.96159782 -0.1540505
  • emprunt -0.23596443 -0.4321157
  • Laxe 1 est un effet taille et isole les
    individus ayant des valeurs importantes des
    variables, en particulier à gros patrimoine. Ils
    sopposent aux individus du groupe 1.
  • Laxe 2 est aussi un effet taille et isole les
    individus plus agés que les autres on y trouve
    les individus du groupe 3, qui sopposent à ceux
    des deux autres groupes.

32
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com