Application des r - PowerPoint PPT Presentation

About This Presentation
Title:

Application des r

Description:

ii) Moyenne quadratique de l'erreur de pr diction (c'est calcul apr s avoir compl t la valeur censur e du temps en ajoutant la survie r siduelle attendue) ... – PowerPoint PPT presentation

Number of Views:72
Avg rating:3.0/5.0
Slides: 33
Provided by: inr1
Category:

less

Transcript and Presenter's Notes

Title: Application des r


1
Application des réseaux de neurones aux données
censurées
  • Antonio Ciampi Mac Gill University, Canada
  • Yves Lechevallier INRIA, France

2
Problème (1/2)
  • Construire un modèle de prédiction du temps de
    survie à partir dun ensemble de descripteurs ou
    variables
  • Ingénierie
  • Brown, S.F., Branford, A.J., Moran, (1997) On
    the use of Artificial Neural networks for the
    Analysis of Survival Data, IEEE Transacions on
    Neural Networks, 8, 1071-1077
  • Médecine
  • - Faraggi, D., Simon, R. (1995) A Neural
    Network Model for Survival Data, Statistics in
    Medicine, 14, p73-82
  • - Biganzoli, E., Boracchi, P., Mariani, L.,
    Marubini, E. (1998) Feed Forward Neural Networks
    for he analysis of censored survival data  a
    partial logistic regression approach Statistics
    in Medicine, 17, 1169-1186

3
Problème (2/2)
  • Difficultés
  • Comment introduire la notion de censure dans un
    réseau de neurones?
  • Comment entraîner un réseau afin dobtenir des
    bonnes prédictions sur des nouvelles données?

4
Organisation de la présentation
  • Notion de base de lanalyse de survie
  • Utilisation du Perceptron multi-couches
  • Architecture, apprentissage, évaluation
  • Un exemple

5
Analyse de Survie
Lapproche statistique est de construire un
modèle de régression approprié à partir du
tableau de données
Données de survie avec une censure à droite
6
Données de survie
Un échantillon de taille N
(z(i), t(i),?(i)), i 1,,N
Pour chaque observation i nous avons
  • z(i) son vecteur de description
  • t(i) son temps de survie
  • ?(i) lindicateur de censure (1 observé, 0
    censuré)

7
La fonction de survie
Les variables prédictives servent à estimer le
paramètre de la distribution de la fonction de
survie La fonction h(tz) est définie à partir
de la fonction de survie par
Cest le taux de décroissance de la survie en
fonction de z
8
Hypothèses sur la fonction h(tz)
h peut être décomposée comme un produit de deux
fonctions. Lune dépend de t, lautre est liée à
z.
avec j(0)0
On suppose que les variables prédictives sont
centrées et normées.
9
la vraisemblance
Pour une observation (z(i), t(i),?(i)) le log de
la vraisemblance est égal à
Voir Cox et Oakes, 1984
Il faut estimer les fonctions h0 et j à partir
des données
10
Modèle exponentiel
On suppose que le fonction j est linéaire
?(z) wz
et que h0(t) l0constant
doù léquation du log de la vraisemblance
redéfinir
11
Régression
?(zw) wz
12
Architecture du Perceptron Multi-Couches
Sortie calculée Out(zw)
Sortie désirée (t,d)
Couche cachée H neurones
Entrée p1 valeurs
13
La fonction de transfert
  • les variables prédictives sont associées aux
    cellules de la couche dentrée
  • Le couple (t,d) est associé au neurone de la
    couche de sortie

W est un vecteur de matrices
Lapprentissage de ce réseau est supervisé. Il
utilise un algorithme de rétropropagation du
gradient de lerreur
14
Algorithme du gradient stochastique
On choisit un w0 dans l'espace des solutions. à
l'étape t on effectue un tirage aléatoire. On
obtient une réalisation zt on procède à la mise
à jour par la formule suivante
la suite de termes at positifs doit vérifier
15
La mise à jour des pondérations
  • Mesure de lerreur le processus dapprentissage
    du réseau consiste à présenter successivement les
    exemples de lensemble dapprentissage de façon à
    estimer les poids W.
  • On utilise lerreur quadratique moyenne
  • Algorithme de minimisation de lerreur On peut
    écrire quà létape t, le vecteur des matrices
    des pondérations W dépendent de létape t-1 par
    la formule suivante

16
Calcul des pondérations
De manière générale nous avons
Pour le neurone i de la couche de sortie NC il
faut calculer
Cette partie est dépendante de la fonction de
coût J.
17
Calcul des pondérations
car
Doù
Ce calcul est indépendant de la fonction de coût
J.
18
Perceptron multi-couches
Fonction de coût
Avec le modèle exponentiel nous avons
la fonction Out de sortie du réseau représente la
fonction j du modèle de survie
19
Architecture
Le choix le plus simple est dutiliser un réseau
de neurones ayant une couche cachée. Dans ce cas
il faut spécifier le nombre de neurones dans
cette couche.
20
Apprentissage, évaluation
Apprentissage Lobjectif est de déterminer, à
partir des données, le vecteur de pondération w
qui minimise la fonction coût
Évaluation on se propose de comparer la
performance de notre prédiction avec les
approches  classiques 
21
Généralisation
On veut estimer lefficacité de notre prédiction
par rapport à des situations futures. Cette
prédiction a été construite à partir dun
ensemble dapprentissage. Cependant cette
prédiction dépend de larchitecture du réseau et
donc à chaque modification de larchitecture nous
avons une autre fonction de prédiction. Un
troisième ensemble des données (ensemble de
validation) est donc nécessaire pour pouvoir
comparer deux prédictions issues darchitectures
différentes mais construites sur le même ensemble
 dapprentissage .
22
 Early Stopping 
Dans Bishop (1995)  Neural Networks for Pattern
Recognition  de nombreuses solutions sont
proposées pour comparer et évaluer différents
fonctions de prédiction issues darchitectures
neuronales différentes. Dans cette stratégie on
divise lensemble dapprentissage Le en deux
ensembles lensemble dentraînement Tr qui
permet de calculer les pondérations w de réseau,
lensemble de validation Vl qui permet darrêter
le processus dapprentissage. La convergence est
déclarée quand la fonction de coût, évaluée sur
Tr croit sur Vl. Lensemble test Ts mesure la
qualité de la prédiction choisie.
23
Choix de larchitecture
C(wH(A) B) coût global dune architecture avec H
neurones dans la couche cachée, évalué sur
lensemble B mais estimé sur lensemble A. wH(A,
i, r)  pondérations wH à l'itération i de lessai
r (initialisation au hasard) calculées avec A
H nombre de neurones fixé, choisir litération i
et lessai r par (iV(H), rV(H)) argmin
C(wH(Tr, i, r)) Vl) pour  i 1,2,....., et r
1, 2,...R et déterminer le bon choix du nombre
de neurones H par  H argmin C(wH(Tr, iV(H),
rV(H)Vl)  h 1,2,...
24
Un exemple
Treize variables décrivent des rythmes cardiaques
ont été utilisées pour construire une prédiction
de la fonction de survie à partir dun ensemble
de 1550 malades ayant une maladie cardiaque.
Lensemble de données a été divisé en trois
parties lensemble dapprentissage Le (1000
malades) et lensemble test Ts (550 malades).
Lensemble dapprentissage a été divisé en deux
lensemble dentraînement Tr ( 700 malades) et
lensemble de validation Vl (300 malades)
25
Courbes dévaluation sur Vl
H1
H2
26
Courbes dévaluation sur Vl
H8
H10
27
Fonction coût sur Tr, Vl et Ts
 
H4
H8
H3
 
28
Intérêt de lutilisation de Vl
(iTs(H), rTs(H)) argmin C(wH(Le, i, r)) Ts) 
pour i 1,2,....., r 1, 2,...R  H? argmin
C(wH(Le, iTs(H), rTs(H))  h 1,2,.. Biais
lié à lutilisation de lensemble Ts
29
Biais associé à Ts
 
 
30
Mesures pour lévaluation
i) Le coût global ii) Moyenne quadratique de
lerreur de prédiction (c'est calculé après avoir
complété la valeur censurée du temps en ajoutant
la survie résiduelle attendue) iii)
l'adaptation du C-index de Harrel (Harrel et
al.,1984).
31
Évaluation et comparaison de deux réseaux avec la
régression  
 Régression ANN
Ens Apprentissage 8 AN
2 AN Coût 573.73 563.14 563.50 EMS
169.46 137.87 106.13 C-index 0.68
0.70 0.68 Ens test Coût
327.98 294.28 298.29 EMS 178.11 180.28 1
16.98 C-index 0.69 0.70 0.70
32
Conclusion
Lapproche neuronale peut être appliquée avec
succès à l'analyse de données de la survie
Notre approche évite la discretisation de la
variable temps mais suppose un modèle
paramétrique qui est un compromis entre
l'approche semi-paramétrique de Faraggi et Simon
et celle de Biganzoli. Nous avons aussi utilisé
une nouvelle approche qui permet darrêter le
processus dapprentissage et semble bien
fonctionner avec un temps de calcul
raisonnable. La limitation majeure de ce travail
peut être vaincue par le développement de modèles
plus réalistes, par exemples des mélanges de
distributions exponentielles.
Write a Comment
User Comments (0)
About PowerShow.com