Analyse discriminante sur donn - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse discriminante sur donn

Description:

Travaux r alis s en collaboration avec C.Preda(Univ. Lille2) et D. ... Affectation un groupe (plus proche voisin ou autre) Aplication du mod le local. Se ... – PowerPoint PPT presentation

Number of Views:765
Avg rating:3.0/5.0
Slides: 53
Provided by: gilbert46
Category:

less

Transcript and Presenter's Notes

Title: Analyse discriminante sur donn


1
Analyse discriminante sur données fonctionnelles
Gilbert Saporta Chaire de Statistique Appliquée
CEDRIC Conservatoire National des Arts et
Métiers 292 rue Saint Martin F 75141 Paris Cedex
03 saporta_at_cnam.fr http//cedric.cnam.fr/saporta

2
Plan
  • 1. Introduction 
  • 2. Régression MCO sur données fonctionnelles
  • 3. Régression PLS fonctionnelle
  • 4. Méthodes linéaires de discrimination
  • 5. Régression typologique
  • 6. Prédiction anticipée
  • 7. Conclusion et perspectives
  • Travaux réalisés en collaboration avec
    C.Preda(Univ. Lille2) et D.Costanzo
    (Univ.Calabria)

3
1. Introduction
  • Données fonctionnelles courbes ou trajectoires
    dun processus stochastique Xt
  • Réponse Y
  • Y numérique régression
  • Y catégorielle classification supervisée,
    discrimination
  • Intervalle de temps commun 0T, variables
    centrées

4
  • Régression sur données fonctionnelles
  • Exemple 1 Y récolte
  • Xt température
  • p ?

R.A.Fisher (1924)
5
  • Données de très grande dimension infinité non
    dénombrable (en principe..) de prédicteurs
  • Combinaison linéaire
  • Integral regression
  • Au lieu dune somme finie

6
R.A.Fisher The Influence of Rainfall on the
Yield of Wheat at Rothamsted Philosophical
Transactions of the Royal Society, B, 213, 89-142
(1924)
7
Discrimination sur données fonctionnelles
  • Exemple 2 courbes de pétrissage pour biscuits
    (Danone Vitapole)

8
  • Après lissage par B-splines cubiques (Lévéder
    al, 2004)

Comment prédire la qualité des biscuits?
9
  • Discrimination sur données fonctionnelles
  • Cas particulier de la régression sur données
    fonctionnelles pour deux classes
  • Anticipation
  • déterminer tltT tel que lanalyse sur 0t
    donne des prédictions semblables à lanalyse sur
    0T

10
2. Régression sur données fonctionnelles
  • Y Xt (E(Y)E(Xt) 0 )
  • 2.1 Les mco
  • Equations normales ou de Wiener-Hopf
  • C(t,s) cov(Xt, Xs)E(XtXs)

11
  • 2.2 décomposition de Karhunen-Loeve
  • facteurs
  • Composantes principales
  • Covariance avec une composante principale

12
  • Theorème de Picard ? unique si et seulement si
  • Géneralement faux ... Surtout quand n est fini
    car p gtn. Ajustement parfait en minimisant

13
  • Même quand ? est unique, Léquation de
    Wiener-Hopf nest pas une équation intégrale
    ordinaire mais un accouplement entre fonction et
    distribution dont la solution est plus souvent
    une distribution quune fonction Paul Kree,
    1972
  • Nécessité de contraintes. (cf Green Silverman
    1994, Ramsay Silverman 1997).

14
  • 2.3 Régression sur composantes principales
  • Approximation de rang q

15
  • Résolution numérique
  • Equations intégrales non explicites dans le cas
    général C(t,s) connu point par point
  • Fonctions en escalier nombre fini de variables
    et dindividus opérateurs matriciels mais de
    grande taille
  • Approximations par discrétisation du temps

16
  • Quelles composantes?
  • Les q premières?
  • Les q plus corrélées?
  • Les composantes principales sont calculées sans
    tenir compte de la réponse Y

17
3. Régression PLS fonctionnelle
  • Utiliser les composantes PLS au lieu des
    composantes principales
  • Première composante PLS
  • Puis itération sur les résidus

18
  • Approximation de Y par Xt dordre q
  • Convergence
  • Mais q doit être fini pour avoir une formule!
  • q déterminé par validation croisée
  • (Preda Saporta, 2005)

19
  • Première composante PLS facilement interprétable
    coefficients du même signe que r(yxt)
  • Pas déquation intégrale
  • Meilleur ajustement par PLS que par ACP
  • (De Jong 1993)

20
4. Discrimination linéaire
  • 4.1 ADL fonctionnelle
  • ADL combinaison linéaire
  • maximisant le rapport
  • variance inter/variance intra
  • Pour 2 groupes la FLD de Fisher sobtient en
    régressant Y codé sur Xt
  • eg
  • (Preda Saporta, 2005a)

21
  • La régression PLS avec q composantes donne une
    approximation de ß(t) et du score
  • Pour plus de 2 groupes régression PLS2 entre k-1
    indicatrices de Y et Xt

22
Régression PLS2
  • Y multiple (Y1, Y2, ,Yp)
  • Citère de Tucker
  • Composantes PLS

23
  • Première composante PLS premier vecteur propre
    du produit des opérateurs dEscoufier WxWY
  • Preda Saporta, 2002 2005a Barker Rayens ,
    2003

24
  • Généralisation du critère de Tucker au cas
    fonctionnel
  • Prévision

25
4.2 Régression logistique fonctionnelle
Hypothèse ß(t) et les trajectoires sont dans le
même espace de dimension fini (Ramsay et al.,
1997)
26
  • Doù une régression logistique classique
  • avec
  • Leng and Müller (2006) , Escabias et al. (2004),
    Aguilera et al. (2006) utilisent les composantes
    principales de Xt comme base

27
4.3 Mesures de qualité
  • Pour k2 courbe ROC et AUC
  • Pour un seuil s , x est classé en 1 si dT(x)gts
  • Sensibilité ou taux de vrais positifs
    P(dT(x)gts/Y1)1-ß
  • 1- Spécificité ou 1-taux de vrais négatifs
    P(dT(x)gts/Y0)?

28
Courbe ROC
  • En cas de discrimination parfaite
  • courbe confondue avec les côtés du carré
  • Si distribution conditionnelles identiques,
    courbe confondue avec la diagonale

29
  • Courbe ROC invariante pour toute transformation
    monotone croissante
  • Surface sous la courbe mesure de performance
    permettant de comparer (partiellement) des
    modèles
  • On tire une obs de G1 et une de G2
  • AUC estimée par la proportion de paires
    concordantes
  • nc statistique de Wilcoxon-Mann-Whitney
  • UW n1n20.5n1(n11) AUCU/n1n2

30
5. Régression typologique
  • Un mélange de régression et de classification

31
  • 5.1 Modèle
  • G , variable à K catégories (sousb-populations)

32
  • 5.2 MCO et régression typologique
  • Variances résiduelle de la régression globale
    varaince résiduelle intra cluster variance due
    à la différence entre la régression locale et la
    régression globale (MCO)

33
  • 5.3 Estimation (Charles, 1977)
  • k fixé
  • Moindres carrés alternés
  • Partition connue régressions linéaires dans
    chaque cluster
  • Affecter chaque observation à la droite ou
    surface de régression la plus proche
  • Equivalent au MV pour des régresseurs fixes
    (Hennig, 2000)
  • 5.4 Choix de k
  • AIC, BIC,validation croisée

34
5.5 Régression typologique fonctionnelle PLS
  • Régression MCO fonctionnelle inadéquate pour des
    estimations par groupe
  • Modèles locaux estimés par PLS fonctionnel
  • Lalgorithme est-il consistent?
  • Proof in Preda Saporta, 2005b

35
  • Prédiction
  • Affectation à un groupe (plus proche voisin ou
    autre)
  • Aplication du modèle local
  • Se généralise si Y est un vecteur aléatoire

36
5.6 Application à des données boursières
  • Taux de croissance pendant 1 heure (de 10h à 11h)
    de 84 actions à la Bourse de Paris

37
  • Prédire le comportement de i85 entre 10h55 et 11h
    en utilisant les données relevées entre 10h et
    10h55?

38
  • Calcul exact 1366 variables (nombre
    dintervalles où les courbes restent constantes)
  • Discrétisation en 60 intervalles.
  • Comparaison between RCP et PLS

39
  • Crash de i85 non détecté!

40
  • PLS typologique
  • Quatre clusters (17321025)
  • Nombre de comosantes PLS component par cluster
    1 3 2 2 (cross-validation)

41
  • i85 classée dans le cluster 1

42
4. Prédiction anticipée
  • Chercher tltT tel que lanalyse sur 0tdonne
    des prédictions semblables à lanalyse sur 0T
  • Solution
  • En augmentant s depuis 0 , chercher la première
    valeur telle que AUC(s) ne diffère pas
    significativement de AUC(T)

43
  • Test dégalité via une procédure bootstrap
  • Rééchantillonnage des données, stratifié pour
    conserver les proportions des classes
  • A chaque réplication b on calcule AUCb(s) et
    AUCb(T)
  • Test basé sur les différences (Student ou
    Wilcoxon pour données appariées)
    ?bAUCb(s)- AUCb(T)

44
5.Applications
  • 5.1 Données simulées
  • Deux classes équiprobables
  • W(t) brownien standard

45
(No Transcript)
46
  • Avec B50

47
  • 5.2 Courbes de pétrissage
  • Après un temps T 480 de pétrissage on fabrique
    des biscuits de qualité Y
  • 115 observations dont 50 bonnes , 40
    mauvaises et 25 ajustables
  • 241 points de mesure équidistants
  • Lissage avec B-splines cubiques , 16 nœuds

48
  • Performances pour Ybon,mauvais
  • 100 séparations apprentissage test (60, 30)
  • Taux derreur moyen
  • 0.142 avec composantes principales
  • 0.112 avec composantes PLS
  • AUC moyen 0.746
  • Fonction ß(t)

49
  • Prédiction anticipée
  • Avec B50
  • t186
  • Il est donc possible de réduire de plus de moitié
    la durée détude.

50
6.Conclusions et perspectives
  • La régression PLS permet deffectuer une
    prédiction linéaire de manière simple et efficace
  • Nécessité de prétraitements pour données bruitées
  • Prédiction anticipée via une procédure simple

51
  • En cours
  • Recherche de prédiction on-line adapter t
    pour chaque nouvelle courbe
  • Comparaison avec régression logistique PLS
    fonctionnelle et autres approches

52
Références
  • Aguilera A.M., Escabias, M. ,Valderrama M.J.
    (2006) Using principal components for estimating
    logistic regression with high-dimensional
    multicollinear data, Computational Statistics
    Data Analysis, 50, 1905-1924
  • Barker M., Rayens W. (2003) Partial least squares
    for discrimination. J. of Chemometrics 17166173
  • Charles, C., (1977) Régression typologique et
    reconnaissance des formes. Ph.D., Université
    Paris IX.
  • D. Costanzo, C. Preda , G. Saporta (2006)
    Anticipated prediction in discriminant analysis
    on functional data for binary response . In
    COMPSTAT2006, p. 821-828, Physica-Verlag
  • Hennig, C., (2000) Identifiability of models for
    clusterwise linear regression. J. Classification
    17, 273296.
  • Lévéder C., Abraham C., Cornillon P. A.,
    Matzner-Lober E., Molinari N. (2004)
    Discrimination de courbes de pétrissage.
    Chimiometrie 2004, 3743.
  • Preda C. , Saporta G. (2005a) PLS regression on a
    stochastic process, Computational Statistics
    and Data Analysis, 48, 149-158.
  • Preda C. , Saporta G. (2005b) Clusterwise PLS
    regression on a stochastic process,
    Computational Statistics and Data Analysis, 49,
    99-108.
  • Preda C., Saporta G., Lévéder C., (2007) PLS
    classification of functional data, Computational
    Statistics, 22(2), 223-235
  • Ramsay J.O. , Silverman (1997) Functional data
    analysis, Springer
Write a Comment
User Comments (0)
About PowerShow.com