Apprentissage MultiTche MTL - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Apprentissage MultiTche MTL

Description:

Utilisation de 3 r seaux simple-t che. Classification multi-classe ... suppl mentaire qui traite cette m me composante sur les m mes attributs aidera ... – PowerPoint PPT presentation

Number of Views:41
Avg rating:3.0/5.0
Slides: 33
Provided by: bash
Category:

less

Transcript and Presenter's Notes

Title: Apprentissage MultiTche MTL


1
Apprentissage Multi-Tâche (MTL)
  • Présentation IFT6390
  • Pascal Bachand 13 avril 2006

2
Plan de présentation
  • Introduction
  • Multi-tâche VS Simple-tâche
  • Les tâches reliées
  • Quand utiliser le MTL
  • Optimisations
  • Conclusion

3
Réseau de neurones
4
Réseau de neurones Simple Tâche
5
Classification multi-classe
Utilisation de 3 réseaux simple-tâche
6
Classification multi-classe
Utilisation dun seul réseau pour lapprentissage
multi-classe
7
Représentation interne des données
Espace des 2 dimensions
cas idéal...
longueur
luminosité
8
Représentation interne des données
Espace des 2 dimensions
cas plus complexe...
longueur
Représentation interne ambiguë
luminosité
9
Apprentissage Multi-Tâche (ou avec indice)
Apprentissage dune tâche supplémentaire reliée
à la tâche principale
Maladie chez saumon?
autres
autres
autres
10
Représentation interne des données
longueur
luminosité
11
Lapprentissage Multi-Tâche
  • Propriétés
  • Ajout de tâches supplémentaires reliées à la
    tâche principale
  • Apprentissage en parallèle des tâches
  • On utilise uniquement les résultats de la tâche
    dintérêt pour nos prédictions
  • Partage des attributs à lentrée
  • Partage de la représentation interne (noeuds
    cachés)
  • Permet une représentation interne plus précise et
    une meilleure performance (gain 10)

12
Tâche reliée?
  • Définie en fonction dun gain en performance
  • Problème on ne sait que 2 tâches sont reliées
    seulement après avoir testé la performance de
    leur apprentissage conjoint...
  • Comment reconnaître une relation a priori?
  • ? Utilisation de règles heuristiques...

13
Quand utiliser le MTL?
  • Plusieurs situations le permettent. 8 cas seront
    présentés ici
  • Attributs exclusifs à lensemble dentraînement
  • Utilisation du futur pour prédire le présent
  • Utilisation dattributs experts ou coûteux
  • Concentrer lattention sur des détails
  • Représentations alternatives
  • Multiple fonctions derreurs
  • Multiple représentation de la sortie
  • Séparation de la catégorie autres
  • Tâches similaires avec des distributions
    différentes
  • Attribut à la sortie au lieu dune entrée

14
1. a) Utilisation du futur pour prédire le présent
Avant maladie
Attributs de base
âge, sexe, tension, ...
Objectif Prédire une maladie...
  • Ces attributs sont disponibles seulement pour un
    séjour prolongé à lhôpital si la malaldie sest
    déclarée.
  • Connus seulement pour lensemble dentraînement.
  • On fait appel aux attributs de la condition
    future pour aider lentraînement sur les
    attributs de bases.

15
1. a) Utilisation du futur pour prédire le présent
Pneumonie?
16
1. b) Utilisation dattributs experts ou coûteux
Attributs nécessitant expert ou trop coûteux
Attributs de base
disponible pour tous les échantillons
disponible pour lensemble dentraînement
seulement
Tâche principale
17
2. Concentrer lattention sur des détails
Encourager le réseau à remarquer des motifs qui
auraient été ignoré, en forçant lapprentissage
dune représentation interne supportant ce motif
Détails à remarquer
Navigation
Attributs de base
image 960 pixels
18
3. a) Multiple fonctions derreurs
Parfois une métrique derreur ne capture pas tous
les aspects dun problème. Il est possible
dintégrer par multi-tâche des métriques
alternatives qui capturent des aspects différents.
métrique2(t, z)
erreur
métrique3(t, z)
objectif t
sortie z
même tâche
19
3. b) Multiple représentations de la sortie
De manière analogue aux multiples fonctions
derreur, il est possible de faire ressortir des
aspects différents en employant des
représentations alternatives des mêmes
informations.
sortie cartésienne
sortie polaire
x
y
a
z
angle
même tâche
20
4. Séparation de la catégorie autres
  • Problème multi-classe catégorie autres
    introduite pour éliminer les exemplaires qui
    nappartiennent pas aux catégories dintérêt.
  • Avantageux de diviser cette classe en plusieurs
    éléments qui la composent pour réduire les
    ambiguïtés.

autres
autres
Image 8X8 pixels
21
5. Tâches similaires avec des distributions
différentes
Souvent on retrouve plusieurs problèmes qui sont
pratiquement identiques, mais dont les résultats
ne pourraient pas sappliquer à lun lautre en
raison dun contexte et dune distribution
différente des données. On peut faire appel au
multi-tâche
Pneumonie?
Hôpital 2
Hôpital 3
Hôpital 4
Hôpital 1
22
6. Attribut à la sortie au lieu dune entrée
Parfois, un attribut utilisé pourrait être une
fonction dautres attributs en entrée.
attributs complexes f(B1... B5)
f(B1 ... B8)
Si une telle situation est soupçonnée ?
comparer la performance en utilisant cet attribut
comme nouvelle tâche du réseau. La
représentation interne apprise pour cette tâche
pourrait bénéficier la tâche principale.
B6
B7
B8
B1 B2 B3 B4 B5 B6 B7 B8
attributs complexes? f(B1... B5)
23
Optimisations
  • Arrêt hâtif de lapprentissage
  • Taux dapprentissage
  • Architecture du réseau

24
1. Arrêt hâtif de lapprentissage
  • Lorsquon optimise en multi-tâche, lerreur de
    test de chaque tâche est rarement optimale au
    même moment...
  • Il faut donc optimiser en fonction de la tâche
    principale

100,000 epochs
75,000 epochs
125,000 epochs
25
2. Taux dapprentissage
  • De manière similaire, utiliser le même taux
    dapprentissage pour toutes les tâches est
    suboptimal.
  • Il est nécessaire doptimiser les taux par
    descente de gradient, en fonction de la
    performance sur la tâche principale.

?1
?2
?3
?4
c 3
...
nH 300
26
3. Architecture du réseau
  • En pratique, on observe 100 noeuds internes par
    tâche

problème interne de sélection dattribut...
Utilisation dune couche cachée privée.
27
Conclusion
  • Lapprentissage Multi-Tâche (ou avec indice) peut
    sappliquer dans énormément de contextes.
  • Permet un gain en performance par amplification
    de la représentation interne.
  • Plusieurs tests empiriques on montré des gains
    allant de 5-10, et jusquà 20 sur un réseau
    optimisé (par rapport à lapprentissage
    simple-tâche).
  • Sapplique bien aux réseaux de rétropropagation,
    mais peut aussi sappliquer aux K-PPV, et à la
    régression de noyau.

28
Référence
  • Caruana, Rich. Multitask Learning, thesis
    submitted at School of Computer Science, Carnegie
    Mellon University, Pittsburgh PA, sept 1997.

29
Questions?
30
Amplification de la représentation interne
  • Données bloquantes. Ce type damplification
    correspond à lexemple vu précédemment sur des
    fonctions booléennes entre les tâches 1 et 2.
  • Dans cet exemple, lapprentissage de la Parité
    est bloqué pour la tâche 1 chaque fois que B1
    1. La tâche 2 complémente donc cet apprentissage
    de la parité en raison de linversion du B1.
  • Amplification déchantillonnage des données. Ce
    type damplification est observé lorsque deux
    tâches possèdent une composante commune
    additionnée dune seconde composante qui leur est
    propre.
  • Dans ce type de situation, le signal pour la
    composante F est amplifié et son apprentissage
    sen trouve considérablement raffiné.
  • Amplification statistique des données. Il sagit
    ici dune généralisation du cas précédent où lon
    retrouve une composante additionnelle de bruit
    aléatoire. Malgré tout, le signal de la
    composante en commun sen trouve précisé.

31
Amplification de la représentation interne
  • Lécoute clandestine (eavesdropping). Cette
    situation est caractérisée par le fait quune
    composante dun signal est si faible que son
    apprentissage devient impossible. Lexemple
    suivant illustre cette situation 
  • Dans cet exemple bien que lapprentissage de F
    cernera bien la tâche à létude, une part
    derreur restera présente en raison de la
    contribution de G qui sera particulièrement
    difficile à capturer. Lécoute clandestine
    consiste donc à introduire une tâche qui est au
    contraire, est fortement influencée par cette
    composante 
  • La sélection dattribut. Dans certaine
    situation, malgré un domaine dattributs élevé,
    la fonction réelle de la tâche à cerner pourrait
    dépendre que dun nombre limité dattributs.
  • Dans cette situation il devient difficile de
    distinguer les attributs pertinents des attributs
    inutiles, et lapprentissage sera donc bruité par
    lensemble des ces attributs superflus. Une
    tâche supplémentaire qui traite cette même
    composante sur les mêmes attributs aidera
    lapprentissage par amplification, et éliminera
    une partie du bruit causé par les attributs
    superflus.

32
Amplification de la représentation interne
  • Biais de représentation. Une manière alternative
    dillustrer lavantage dun apprentissage
    conjoint de tâches reliées, consiste à imaginer
    un diagramme de Venne qui présente les ensembles
    des solutions pour chaque tâche. La combinaison
    de lapprentissage permettra de mieux cerner les
    régularités du domaine communes aux 2 tâches.
Write a Comment
User Comments (0)
About PowerShow.com