Title: Application d
1Application dune mémoire associative
bidirectionnelle à fonction de sortie chaotique à
la reconnaissance dexpressions faciales
Karima Tabari1, Mounir Boukadoum1, Sylvain
Chartier2,3, Hakim Lounis1 1Université du Québec
à Montréal, 2Université du Québec en Outaouais,
3Institut Philippe-Pinel
de Montréal
2Motivation
- Les émotions de lapprenant sont un facteur
important pour un système tutoriel intelligent - Les émotions sont souvents exprimées à laide
dexpressions faciales - La reconnaissance des expressions faciales
demande habituellement des algorithmes complexes,
dont les résultats ne sont pas parfaits
3Quelques approches
- Transformée en ondelettes de Gabor sur 34 points
- Analyse de corrélation en phase de rappel
- 75-85 de réussite
- Vecteurs propres de regions choisies
- Prétraitement par ACP
- MLP avec 1 couche cachée
- 86 de réussite
4Les mémoire associatives
- Dun grand intérêt théorique pour expliquer les
capacités dassociation du cerveau humain - Un nouveau modèle corrige plusieurs limitations
des mémoires associatives classiques (e.g.
apprentissage binaire). - Architecture récurrente à fonction de sortie
chaotique
5Topologie du modèle
- Les dimensions des couches X et Y nont pas à
être égales - V nest pas la transposée de W
6Règle dapprentissage
7Règle dapprentissage
8Fonction de sortie
9Algorithme dapprentissage
1- Sélection aléatoire dune paire (x0,
y0) 2- Calcul de xt et yt selon la nouvelle
règle de sortie. 3- Mise à jours des poids selon
la règle dapprentissage. 4- Répétition des
étapes 1 to 3 jusquà la convergence de la
matrice des poids.
10Ensemble dapprentissage
- Base de données CAFE (California Facial
Expressions) - Images photographiques des visages de 50 sujets
- 7 images par sujet reflétant les émotions (en
colère, dégoûté, heureux, triste, craintif,
neutre, surpris). - 380x240 pixels par image, 8 bit de profondeur
11Exemple de 5 sujets, 4 émotions
12Méthodologie
- Taille des images réduite à 95x60 pixels
- Tons de gris normalisés entre -1, 1
- Paramètre dapprentissage ?0.1 et ?0.00115
(région non chaotique) - Étude de performance pour des prototypes, face au
bruit gaussien, à inversion de pixels, à la
rotation et aux patrons partiellement masqués
13Bruit gaussien (30dbW)
14Inversion de pixels (20)
15Rotation (20o)
16Résultats
- Convergence après 15-17 époques dapprentissage
(300-340 présentations) pour des vecteurs
dentrée de de 5700 éléments (95x60 pixels)
17Résultats
Bruit Rappel correct ()
Nil 100
Gaussien (30 dBW) 100
Inversion de pixels (20) 100
Inversion de pixels (40) 100
Inversion de pixels (50) 60
Inversion de pixels (60) 15
Inversion de pixels (gt60) 0
Masque 1 100
Masque 2 100
Rotation (10o) 30
Rotation (20o) 35
18Généralisation pour CAFE
19Généralisation pour CAFE
20Généralisation pour CAFE
21Discussion et conclusion
- Pour le bruit gaussien, et le bruit par inversion
de pixels dintensité faible à modérée (lt40), le
taux de reconnaissance est 100 . - Le réseau a pu identifier la bonne lettre à
associer malgré la suppression de la région
oculaire, une région importante pour
l'identification des émotions. - Les résultats pour lensemble complet des
émotions et un nombre plus élevé de sujets
révèlent une excellente capacité de mémoire. - La propriété précédente peut être mise à profit
pour pallier à la faible performance du réseau
pour des images tournées, qui peuvent être
apprises comme des patrons distincts. - Les résultats obtenus sont surprenants en égard à
la simplicité relative de notre architecture.
22Peut-on faire mieux ?