PPT – R PowerPoint presentation | free to download

About This Presentation

Title:

R

Description:

R gression logistique et analyse discriminante : comparaisons th oriques et pratiques Gilbert Saporta Conservatoire National des Arts et M tiers – PowerPoint PPT presentation

Number of Views:219

Avg rating:3.0/5.0

Slides: 96

Provided by: Gilbert56

Category:

Tags: logistique

more less

Transcript and Presenter's Notes

Title: R

1
Régression logistique et analyse discriminante
comparaisons théoriques et pratiques

Gilbert Saporta
Conservatoire National des Arts et Métiers
saporta_at_cnam.fr
http//cedric.cnam.fr/saporta

2
Bibliographie

Bardos Analyse discriminante , Dunod, 2001
Celeux, Nakache Analyse discriminante sur
variables qualitatives Polytechnica ,1994
Droesbeke, Lejeune, Saporta (éditeurs) Modèles
statistiques pour données qualitatives Technip,
2005
Hastie, Tibshirani, Friedman The Elements of
Statistical Learning , Springer-Verlag, 2001
Hosmer, Lemeshow Applied logistic regression,
Wiley, 2000
Nakache, Confais Statistique explicative
appliquée , Technip, 2003
Thomas, Edelman,Crook Credit scoring and its
applications , SIAM, 2002

3
Plan

I Lanalyse discriminante
II La régression logistique
III Prédicteurs qualitatifs et scoring
IV Comparaison

4
Objet détude

Observations multidimensionnelles réparties en k
groupes définis a priori. K2 le plus souvent
Exemples dapplication
Pronostic des infarctus (J.P. Nakache)
2 groupes décès, survie (variables médicales)
Iris de Fisher
3 espèces 4 variables (longueur et largeur des
pétales et sépales)
Risque des demandeurs de crédit
2 groupes bons, mauvais (variables
qualitatives)
Autres
Publipostage, reclassement dans une typologie.

5
Quelques dates

Analyse discriminante
Mahalanobis (crâniologie) 1927
Fisher (biométrie) 1936
Régression logistique
Berkson (biostatistique) 1944
Cox 1958
Mc Fadden (économétrie) 1973

6
I Lanalyse discriminante

Aspect géomètrique
Réduction de dimension, axes et variables
discriminantes.
Cas de 2 groupes.
Méthodes géométriques de classement.
AD probabiliste

7
Représentation des données

n points dans ?p appartenant à k groupes.

8
Réduction de dimension. Recherche daxes et de
variables discriminantes.

Dispersion intergroupe et dispersion intra groupe.

W matrice variance intra
W 1/n Sni Vi
B matrice variance inter
B 1/n Sni (gi - g) (gi - g)
V W B variance totale

9
Axes discriminants deux objectifs

Dispersion intraclasse minimale min uWu
Dispersion interclasse maximale max uBu

Simultanéité impossible
Compromis

ACP du nuage des gi avec
Métrique V-1
Métrique W-1 Mahalanobis

12
Nombre daxes discriminants

ACP des groupes dimension de lespace contenant
les groupes gi
Si ngtpgtk (cas usuel), k-1 axes discriminants
Exemple célèbre Iris de Fisher
K 3 Setosa, Versicolor, Virginica
P4 longueur pétale, longueur sépale, largeur
pétale, largeur sépale
n1n2n3 50
Donc deux axes

13

Iris setosa Iris versicolor Iris virginica
14
(No Transcript)
15
(No Transcript)
16
Cas de deux groupes

g1 et g2 sont sur une une droite 1 seul axe
discriminant
RAPPEL en ACP axe a, facteur u M a
Combinaison discriminante proportionnelle à
M (g2 - g1) W-1 (g2 - g1) ou V-1 (g2 - g1)
FONCTION DE FISHER

17
Historique
18
Distance de MAHALANOBIS

Distance au sens de la métrique W-1.
pour p1
p quelconque
Standardisation de chaque composante xj
Décorrélation...

19
Équivalence régression
20
Équivalence régression

MAIS Modèle linéaire usuel non valide
en discriminante cest linverse que lon suppose

21
Conséquences

Pas de test,
pas derreurs standard sur les coefficients
MAIS possibilité dutiliser les méthodes de pas à
pas en régression.
Aussi une source de malentendus

22
Obs C PRONO FRCAR INCAR INSYS
PRDIA PAPUL PVENT REPUL 1
2 SURVIE 90 1.71 19.0 16
19.5 16.0 912 2 1
DECES 90 1.68 18.7 24
31.0 14.0 1476 3 1 DECES
120 1.40 11.7 23 29.0
8.0 1657 4 2 SURVIE 82
1.79 21.8 14 17.5 10.0
782 5 1 DECES 80 1.58
19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1
18 23.5 9.0 1664 7
2 SURVIE 94 2.04 21.7 23
27.0 10.0 1059 8 2
SURVIE 80 1.19 14.9 16
21.0 16.5 1412 9 2 SURVIE
78 2.16 27.7 15 20.5
11.5 759 10 2 SURVIE 100
2.28 22.8 16 23.0 4.0
807 11 2 SURVIE 90 2.79
31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4
15 23.0 9.5 681 13
2 SURVIE 80 2.61 32.6 8
15.0 1.0 460 14 2
SURVIE 61 2.84 47.3 11
17.0 12.0 479 15 2 SURVIE
99 3.12 31.8 15 20.0
11.0 513 16 2 SURVIE 92
2.47 26.8 12 19.0 11.0
615 17 2 SURVIE 96 1.88
19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8
10 14.0 10.5 659 19
2 SURVIE 125 3.37 26.9 18
28.0 6.0 665 20 2
SURVIE 80 2.01 25.0 15
20.0 6.0 796
23
SPAD
FONCTION LINEAIRE DISCRIMINANTE VARIABLES
CORRELATIONS COEFFICIENTS
ECARTS T PROBA ........
VARIABLES FONCTION REGRESSION
TYPES STUDENT NUM LIBELLES
AVEC F.L.D. DISC. (RES.
TYPE REG.)
(SEUIL 0.20) ....................................
..................................................
........ 3 FRCAR
0.232 0.0588 0.0133 0.0092
1.44 0.154 4 INCAR
-0.697 -6.1539 -1.3887 0.4966
2.80 0.006 5 INSYS
-0.673 0.1668 0.0376 0.0374
1.01 0.317 6 PRDIA
0.474 -0.0203 -0.0046 0.0351
0.13 0.897 7 PAPUL
0.431 0.1650 0.0372 0.0271
1.37 0.173 8 PVENT
0.269 0.0469 0.0106 0.0176
0.60 0.549 9 REPUL
0.650 -0.0002 0.0000 0.0002
0.19 0.849 CONSTANTE
-1.604374 -0.367565 0.9373 0.3922
0.6958 ...........................................
..................................................
. R2 0.55759 F 16.74489 PROBA
0.000 D2 4.94213 T2 124.77643
PROBA 0.000 ..............................
..................................................
..............
24
Méthodes géométriques de classement

Échantillon dapprentissage
e observation de groupe inconnu
e classé dans le groupe i tel que
d(e gi) minimal

25
pour deux groupes

On classe dans G1 si
Fonction de Fisher gtc
Score de Fisher

26
Interprétation géométrique

Projection sur la droite des centres avec la
métrique W-1
Dualité axe-frontière plane

frontière
axe discriminant
27
Analyse discriminante probabiliste.
28
La règle bayésienne naïve dans le cadre normal
29
La règle bayésienne

30
Analyse discriminante probabiliste cas de
deux groupes
31
Fonction de score et probabilité

Fonction de score S(x)
Règle affecter au groupe 1 si S(x)gt0
Probabilité dappartenance au groupe 1

32
Probabilité a posteriori
33
S(x)

Probabilité derreur de classement de G2 en G1
On classe en G1 si S(x)gt0

34
Proc discrim SAS
35
II La régression logistique

II.1 Le modèle logistique simple
II.2 Odds ratios
II.3 Interprétation économètrique
II.4 Estimation
II.5 Tests

36
II.1 Le modèle logistique simple

Réponse dichotomique Y 0 / 1
Variable explicative X
Objectif Modéliser

?(x) Prob(Y 1/X x)

Le modèle linéaire ?(x) ?0 ?1x convient mal
lorsque X est continue.
Le modèle logistique est plus naturel

37
Le modèle logistique simple
ou
Fonction de lien Logit
38

Il sagit bien dun probléme de régression
Modélisation de lespérance conditionnelle
E(Y/Xx)f(x)
Choix de la forme logistique en épidémiologie
Sajuste bien
Interprétation de ?1 en termes dodds-ratio

39
II.2 Odds-Ratio

Si X binaire (sujet exposé X1, non exposé X0)

40
Odds-Ratio

Mesure lévolution du rapport des chances
dapparition de lévénement Y1 contre Y0 (la
cote des parieurs) lorsque X passe de x à x1.
Formule générale

41
II.3Interprétation économètrique

Y possession dun bien durable par un ménage
manifestation visible dune variable latente Z
inobservable continue.
Z est l intensité du désir de posséder le
bien
Si Zltseuil Y0, sinon Y1
Le seuil peut être choisi égal à 0

42
Modèle dutilité

pour le ménage i de caractéristiques xi (âge,
sexe, revenu, CSP...), la possession du bien
procure un niveau dutilité U(1,xi), la non
possession U(0,xi).
Yi 1 ? U(1,xi) gt U(0,xi)
Yi 0 ? U(0,xi) gt U(1,xi)
Variable latente Zi U(1,xi) U(0,xi).

43
Modèle dutilité (suite)

Zi xi ? ?i
pi P(Yi1xi) P(Zi gt 0)P(xi ?gt -?i) F(xi?)
F fonction de répartition de -?i
Choix de F
Logistique modèle logit, régression logistique
Normal modèle probit

44
II.4 Estimation des paramètres
Les données
Le modèle
yi 1 si caractère présent, 0 sinon
45
Vraisemblance (conditionnelle!)

Probabilité dobserver les données
(x1,y1), , (xi,yi), , (xn,yn)

46
maximum de vraisemblance

maximisent
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procédures
numériques pas dexpression analytique

47
Précision (asymptotique) des estimateurs

La matrice
est estimée par la matrice

48
(No Transcript)
49
Régression logistique multiple

Généralisation à p variables explicatives X1,,
Xp.

50
(No Transcript)
51
II.5 Tests sur les paramètres

Trois méthodes sont disponibles pour tester
lapport de la variable X au modèle
Le test de Wald
La méthode du rapport de vraisemblance
Le test du score

52
Test de Wald

analogue à un test de Student en régression
usuelle, si lon considère la statistique w
définie par
représente lestimation de
lécart-type de lestimateur de ?1.
Sous lhypothèse H0, w2 suit approximativement
une loi du khi-deux à un degré de liberté .
Rejet de H0 si w2

53
Test du rapport des vraisemblances

Lapport de la variable X est mesuré à laide de
la statistique
G -2 log
sous lhypothèse H0 G suit asymptotiquement une
loi du khi-deux à un degré de liberté.
Vraisemblance sans la variable

54
Test du score

U vecteur des dérivées partielles de la
log-vraisemblance estimées
Le score suit également asymptotiquement sous H0
une loi du khi-deux à un degré de liberté
En régression logistique simple, le score est
égal à nr2 , où r est le coefficient de
corrélation linéaire (abusif!) entre Y et X

55
Comparaison des 3 tests
56
Tests

Tests dabsence deffet de toutes les variables
H0 ?1 ?p 0
Rapport de vraisemblance G
Score test U
Sous H0, suivent tous deux asymptotiquement une
loi du ?2 à p ddl

57
III Discrimination sur variables qualitatives et
scoring
58
Un peu de (pré)histoire

Fisher (1940)
Un seul prédicteur
Equations de lAFC
Scores were introduced

59
(No Transcript)
60
(No Transcript)
61
Cas général p prédicteurs

Quantification optimale
Donner des scores partiels aux catégories pour
maximiser la distance de Mahalanobis dans Rp
Une analyse discriminante où les variables
qualitatives sont remplacées par des indicatrices

X
62

X nest pas de plein rang rank(X)?mi-p
Solution classique éliminer une indicatrice par
prédicteur
Disqual (Saporta, 1975)
ADL effectuée sur une sélection de facteurs de
lACM de X. Analogue de la régression sur
composantes principales

63
DISQUAL 1ère étape

Analyse des correspondances du tableau des
prédicteurs.
k variables numériques garder les coordonnées
factorielles les plus discriminantes

64
2ème étape

Analyse discriminante linéaire (Fisher).
Score combinaison linéaire des coordonnées
factorielles combinaison linéaire des
indicatrices des catégories
Coefficients grille de notation

65
Sélection des axes

Selon lordre de lACM
dinertie
Selon le pouvoir discriminant
Student sur 2 groupes,F sur k groupes

66
Example assurance (SPAD)

1106 contrats automobile belges
2 groupes 1 bons, 2 mauvais
9 prédicteurs 20 catégories
Usage (2), sexe (3), langue (2), age (3), région
(2), bonus-malus (2), puissance (2), durée (2),
age du véhicule (2)

67
ACM
68
ADL de Fisher sur les composantes FACTEURS
CORRELATIONS COEFFICIENTS
.................................................
............................. 1 F 1
0.719 6.9064 2 F 2 0.055
0.7149 3 F 3 -0.078
-0.8211 4 F 4 -0.030
-0.4615 5 F 5 0.083
1.2581 6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169 8 F 8
0.090 1.3133 9 F 9
-0.074 -1.1383 10 F 10
-0.150 -3.3193 11 F 11
-0.056 -1.4830 CONSTANTE
0.093575 ..........................
..................................................
.. R2 0.57923 F 91.35686 D2
5.49176 T2 1018.69159
.................................................
.............................
Score 6.90 F1 - 0.82 F3 1.25 F5 1.31 F8 -
1.13 F9 - 3.31 F10
69

scores normalisés
Echelle de 0 à 1000
Transformation linéaire du score et du seuil

70
Grille de score
71
Scoring et régression logistique

Inclusion aisée de prédicteurs qualitatifs en
introduisant mi-1 indicatrices
Modalité omise modalité de référence. Attention
à linterprétation
Standard de lindustrie bancaire (sauf Banque de
France)

72
(No Transcript)
73
IV Comparaison logistique- discriminante

Avantages proclamés de la logistique
Interprétabilité des coefficients (odds-ratios)
Erreurs standard calculables
Modélisation des probabilités
Hypothèses plus générales quen AD gaussienne
Maximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)
Prise en charge facile des X qualitatifs
(logiciels)

Mais
Erreurs standard asymptotiques , bootstrap en AD
Non convergence en cas de séparation parfaite.
Fisher existe toujours
Maximum de vraisemblance conditionnelnon optimal
dans le cas gaussien standard
LAD peut aussi traiter les variables
qualitatives, et de manière plus robuste grâce
aux contraintes de sous-espace (Disqual)

Querelle largement idéologique (modélisation
versus analyse des données)
LAD est aussi un modèle, mais sur les lois des
X/Y, la logistique sur les lois de Y/X
En pratique différences peu nettes fonctions de
score souvent très proches
It is generally felt that logistic regression
is a safer, more robust bet than the LDA model,
relying on fewer assumptions . It is our
experience that the models give very similar
results , even when LDA is used in
inappropriately, such as with qualitative
variables. Hastie and al.(2001)

76
Variable N Mean
Std Dev Sum Minimum
Maximum scorfish 101 1.00000
1.47644 101.00000 -2.42806
4.21377 scorlog 101 -0.22423
3.68078 -22.64725 -8.76376
7.86074
scorfish
scorlog scorfish
1.00000 0.99881

scorlog 0.99881
1.00000
77

Usages souvent différents AD pour classer,
logistique pour modéliser (facteurs de risque)
Logistique aussi utilisée en scoring
Si lobjectif est de classer
On ne fait plus de la science mais de laide à
la décision
Mieux vaut essayer les deux méthodes.
Mais comment les comparer?
Le vrai critère de choix est la performance en
généralisation

78
Qualité dune règle de classement

Tableau de classement
On classe des observations dont le groupe est
connu
Pourcentage de bien classés
Taux derreur de classement

79
Sur quel échantillon faire ce tableau ?

Échantillon test dindividus supplémentaires.
Si on reclasse léchantillon ayant servi à
construire la règle (estimation des coefficients)
méthode de resubstitution ? BIAIS
surestimation du pourcentage de bien classés.
Solutions pour des échantillons de petite taille
Validation croisée ou bootstrap

80
Seuil et probabilités a posteriori

P(G1/x) dépend des probas a priori p1 et p2
Problèmes de léchantillonnage stratifié
poser priors en discrim ou pevent en
Logistic
sinon probas a posteriori fausses
seul le terme constant ?0 est modifié on
ajoute ln(p2/p1)
Sans importance pour un score

81
Qualité dun score

Quil soit obtenu par Fisher ou logistique
Comparaison des distributions du score sur les
deux groupes
fonctions de répartition

82
Courbe ROC

Groupe à détecter G1 scores élevés
Sensibilité 1-? P(Sgts/G1) de vrais positifs
Spécificité 1-?P(Slts/G2) de vrais négatifs

83
Courbe ROC
84
Courbe ROC

Evolution de 1-? puissance du test en fonction de
?, risque de première espèce lorsque le seuil
varie
Proportion de vrais positifs en fonction de la
proportion de faux positifs
Un site http//www.anaesthetist.com/mnm/stats/roc
/

Courbe ROC invariante pour toute transformation
monotone croissante
Surface sous la courbe mesure de performance
permettant de comparer (partiellement) des
modèles
On tire une obs de G1 et une de G2
AUC estimée par la proportion de paires
concordantes
nc statistique de Wilcoxon-Mann-Whitney
UW n1n20.5n1(n11) AUCU/n1n2

86
Exemple infarctus proc logistic
Association des probabilités prédites et des
réponses observées Pairs 2550
Percent Concordant 94.3 Percent
Discordant 5.7 Percent Tied
0.0 Somers' D 0.886 Gamma 0.886
Tau-a 0.447 c
0.943
87
Infarctus comparaison Fisher et logistique

88
Assurance
89
(No Transcript)
90
Lift chart
of the target
91
Surface sous la courbe de lift