Apprentissage MultiTche MTL - PowerPoint PPT Presentation

1 / 32

About This Presentation

Title:

Apprentissage MultiTche MTL

Description:

Utilisation de 3 r seaux simple-t che. Classification multi-classe ... suppl mentaire qui traite cette m me composante sur les m mes attributs aidera ... – PowerPoint PPT presentation

Number of Views:41

Avg rating:3.0/5.0

Slides: 33

Provided by: bash

Category:

more less

Transcript and Presenter's Notes

Title: Apprentissage MultiTche MTL

1
Apprentissage Multi-Tâche (MTL)

Présentation IFT6390
Pascal Bachand 13 avril 2006

2
Plan de présentation

Introduction
Multi-tâche VS Simple-tâche
Les tâches reliées
Quand utiliser le MTL
Optimisations
Conclusion

3
Réseau de neurones
4
Réseau de neurones Simple Tâche
5
Classification multi-classe
Utilisation de 3 réseaux simple-tâche
6
Classification multi-classe
Utilisation dun seul réseau pour lapprentissage
multi-classe
7
Représentation interne des données
Espace des 2 dimensions
cas idéal...
longueur
luminosité
8
Représentation interne des données
Espace des 2 dimensions
cas plus complexe...
longueur
Représentation interne ambiguë
luminosité
9
Apprentissage Multi-Tâche (ou avec indice)
Apprentissage dune tâche supplémentaire reliée
à la tâche principale
Maladie chez saumon?
autres
autres
autres
10
Représentation interne des données
longueur
luminosité
11
Lapprentissage Multi-Tâche

Propriétés
Ajout de tâches supplémentaires reliées à la
tâche principale
Apprentissage en parallèle des tâches
On utilise uniquement les résultats de la tâche
dintérêt pour nos prédictions
Partage des attributs à lentrée
Partage de la représentation interne (noeuds
cachés)
Permet une représentation interne plus précise et
une meilleure performance (gain 10)

12
Tâche reliée?

Définie en fonction dun gain en performance

Problème on ne sait que 2 tâches sont reliées
seulement après avoir testé la performance de
leur apprentissage conjoint...

Comment reconnaître une relation a priori?
? Utilisation de règles heuristiques...

13
Quand utiliser le MTL?

Plusieurs situations le permettent. 8 cas seront
présentés ici
Attributs exclusifs à lensemble dentraînement
Utilisation du futur pour prédire le présent
Utilisation dattributs experts ou coûteux
Concentrer lattention sur des détails
Représentations alternatives
Multiple fonctions derreurs
Multiple représentation de la sortie
Séparation de la catégorie autres
Tâches similaires avec des distributions
différentes
Attribut à la sortie au lieu dune entrée

14
1. a) Utilisation du futur pour prédire le présent
Avant maladie
Attributs de base
âge, sexe, tension, ...
Objectif Prédire une maladie...

Ces attributs sont disponibles seulement pour un
séjour prolongé à lhôpital si la malaldie sest
déclarée.
Connus seulement pour lensemble dentraînement.
On fait appel aux attributs de la condition
future pour aider lentraînement sur les
attributs de bases.

15
1. a) Utilisation du futur pour prédire le présent
Pneumonie?
16
1. b) Utilisation dattributs experts ou coûteux
Attributs nécessitant expert ou trop coûteux
Attributs de base
disponible pour tous les échantillons
disponible pour lensemble dentraînement
seulement
Tâche principale
17
2. Concentrer lattention sur des détails
Encourager le réseau à remarquer des motifs qui
auraient été ignoré, en forçant lapprentissage
dune représentation interne supportant ce motif
Détails à remarquer
Navigation
Attributs de base
image 960 pixels
18
3. a) Multiple fonctions derreurs
Parfois une métrique derreur ne capture pas tous
les aspects dun problème. Il est possible
dintégrer par multi-tâche des métriques
alternatives qui capturent des aspects différents.
métrique2(t, z)
erreur
métrique3(t, z)
objectif t
sortie z
même tâche
19
3. b) Multiple représentations de la sortie
De manière analogue aux multiples fonctions
derreur, il est possible de faire ressortir des
aspects différents en employant des
représentations alternatives des mêmes
informations.
sortie cartésienne
sortie polaire
x
y
a
z
angle
même tâche
20
4. Séparation de la catégorie autres

Problème multi-classe catégorie autres
introduite pour éliminer les exemplaires qui
nappartiennent pas aux catégories dintérêt.
Avantageux de diviser cette classe en plusieurs
éléments qui la composent pour réduire les
ambiguïtés.

autres
autres
Image 8X8 pixels
21
5. Tâches similaires avec des distributions
différentes
Souvent on retrouve plusieurs problèmes qui sont
pratiquement identiques, mais dont les résultats
ne pourraient pas sappliquer à lun lautre en
raison dun contexte et dune distribution
différente des données. On peut faire appel au
multi-tâche
Pneumonie?
Hôpital 2
Hôpital 3
Hôpital 4
Hôpital 1
22
6. Attribut à la sortie au lieu dune entrée
Parfois, un attribut utilisé pourrait être une
fonction dautres attributs en entrée.
attributs complexes f(B1... B5)
f(B1 ... B8)
Si une telle situation est soupçonnée ?
comparer la performance en utilisant cet attribut
comme nouvelle tâche du réseau. La
représentation interne apprise pour cette tâche
pourrait bénéficier la tâche principale.
B6
B7
B8
B1 B2 B3 B4 B5 B6 B7 B8
attributs complexes? f(B1... B5)
23
Optimisations

Arrêt hâtif de lapprentissage
Taux dapprentissage
Architecture du réseau

24
1. Arrêt hâtif de lapprentissage

Lorsquon optimise en multi-tâche, lerreur de
test de chaque tâche est rarement optimale au
même moment...

Il faut donc optimiser en fonction de la tâche
principale

100,000 epochs
75,000 epochs
125,000 epochs
25
2. Taux dapprentissage

De manière similaire, utiliser le même taux
dapprentissage pour toutes les tâches est
suboptimal.
Il est nécessaire doptimiser les taux par
descente de gradient, en fonction de la
performance sur la tâche principale.

?1
?2
?3
?4
c 3
...
nH 300
26
3. Architecture du réseau

En pratique, on observe 100 noeuds internes par
tâche

problème interne de sélection dattribut...
Utilisation dune couche cachée privée.
27
Conclusion

Lapprentissage Multi-Tâche (ou avec indice) peut
sappliquer dans énormément de contextes.
Permet un gain en performance par amplification
de la représentation interne.
Plusieurs tests empiriques on montré des gains
allant de 5-10, et jusquà 20 sur un réseau
optimisé (par rapport à lapprentissage
simple-tâche).
Sapplique bien aux réseaux de rétropropagation,
mais peut aussi sappliquer aux K-PPV, et à la
régression de noyau.

28
Référence

Caruana, Rich. Multitask Learning, thesis
submitted at School of Computer Science, Carnegie
Mellon University, Pittsburgh PA, sept 1997.

29
Questions?
30
Amplification de la représentation interne

Données bloquantes. Ce type damplification
correspond à lexemple vu précédemment sur des
fonctions booléennes entre les tâches 1 et 2.
Dans cet exemple, lapprentissage de la Parité
est bloqué pour la tâche 1 chaque fois que B1
1. La tâche 2 complémente donc cet apprentissage
de la parité en raison de linversion du B1.
Amplification déchantillonnage des données. Ce
type damplification est observé lorsque deux
tâches possèdent une composante commune
additionnée dune seconde composante qui leur est
propre.
Dans ce type de situation, le signal pour la
composante F est amplifié et son apprentissage
sen trouve considérablement raffiné.
Amplification statistique des données. Il sagit
ici dune généralisation du cas précédent où lon
retrouve une composante additionnelle de bruit
aléatoire. Malgré tout, le signal de la
composante en commun sen trouve précisé.

31
Amplification de la représentation interne

Lécoute clandestine (eavesdropping). Cette
situation est caractérisée par le fait quune
composante dun signal est si faible que son
apprentissage devient impossible. Lexemple
suivant illustre cette situation
Dans cet exemple bien que lapprentissage de F
cernera bien la tâche à létude, une part
derreur restera présente en raison de la
contribution de G qui sera particulièrement
difficile à capturer. Lécoute clandestine
consiste donc à introduire une tâche qui est au
contraire, est fortement influencée par cette
composante
La sélection dattribut. Dans certaine
situation, malgré un domaine dattributs élevé,
la fonction réelle de la tâche à cerner pourrait
dépendre que dun nombre limité dattributs.
Dans cette situation il devient difficile de
distinguer les attributs pertinents des attributs
inutiles, et lapprentissage sera donc bruité par
lensemble des ces attributs superflus. Une
tâche supplémentaire qui traite cette même
composante sur les mêmes attributs aidera
lapprentissage par amplification, et éliminera
une partie du bruit causé par les attributs
superflus.

32
Amplification de la représentation interne

Biais de représentation. Une manière alternative
dillustrer lavantage dun apprentissage
conjoint de tâches reliées, consiste à imaginer
un diagramme de Venne qui présente les ensembles
des solutions pour chaque tâche. La combinaison
de lapprentissage permettra de mieux cerner les
régularités du domaine communes aux 2 tâches.

Write a Comment

User Comments (0)