Title: An AutoAssociative Neural Network for Information Retrieval
1Doctorat en informatique cognitiveSoutenance de
thèse
Exploitation des cooccurrences de termes par des
modèles connexionnistes de repérage de
l'information
Guy Desjardins
Université du Québec À Montréal
20 février 2007
2Plan de présentation
- Repérage de linformation
- Objectifs de la thèse
- Modèles de repérage
- Analyse congnitive
- Méthodologie
- Résultats dexpérimentation
- Conclusion
- Futur
3Repérage de linformation
- Appariement requête ? documents
4Repérage de linformation
- Représentation vectorielle
5Objectifs de la thèse
- Étudier les modèles de lapproche classique
- Développer des modèles alternatifs selon une
approche connexionniste ou mixte - Comparer les deux approches cognitives
- Architecture cognitive
- Nature des cooccurrences
- Performance de repérage
- Extensibilité des modèles
6Modèles de repérage
- Approche classique
- Booléen étendu (BX)
- Vectoriel classique (VC - modèle témoin)
- Vectoriel généralisé (VG)
- Ensembles fréquents (EF)
- Ensembles approximatifs (EA)
- Index sémantique latent (ISL)
- Approche connexionniste / mixte
- Modèle génétique (AG)
- RNA auto-organisateur (RAO)
- RNA auto-associatif (RAA)
7Modèles de repérage Booléen étendu (BX)
? corrélation optionnelle ? corrélation
obligatoire
8Modèles de repérage Vectoriel généralisé (VG)
9Modèles de repérage Ensembles fréquents (EF)
10Modèles de repérage Ensembles approximatifs (EA)
11Modèles de repérage Index sémantique latent (ISL)
12Modèles de repérage Modèle génétique (AG)
13Modèles de repérage RNA auto-organisateur (RAO)
14Modèles de repérage RNA auto-associatif (RAA)
15Analyse cognitive
16Méthodologie
- Mesures de linformation
- Binaire
- Fréquences
- Pondérations
- Calcul de similarité
- Mesure du cosinus
17Méthodologie
- Mesures dévaluation
- Courbes rappel-précision (0, 10, , 100)
- Mesures composites pondérées
- Précision-80R
- Précision-M
- Précision-R
- Harmonique maximale
18Méthodologie
- Sauf les modèles ISL et RNA A-A
19Résultats dexpérimentation
- Courbe de rappel-précision CR93H
- BX gt VC (3,61 )
- EF gt VC (2,46 )
20Résultats dexpérimentation
- Courbe de rappel-précision FT943
- VG gt VC (5,35 )
- EF gt VC (3,86 )
- EA gt VC (3,23 )
21Résultats dexpérimentation
- Courbe de rappel-précision ZF109
- EF gt VC (4,96 )
- EA gt VC (3,99 )
- VG gt VC (2,81 )
22Résultats dexpérimentation
- Différentielles des mesures composites de
précision moyenne globale
- VG, EA, AG ? VC
- BX, EF gt VC
- RAO ltlt VC
- AG ? VC
- BX gt VC
- EF, EA gtgt VC
- VG, RAO ltlt VC
- BX, AG ? VC
- VG, EF, EA gt VC
- RAO ltlt VC
23Résultats dexpérimentation
- Ordonnancement des modèles
24Résultats dexpérimentation
- Modèle ISL Courbe de rappel-précision
- FT943 40 documents
- VC gt ISL(SVD Lanczos) gt ISL(SVD Fierro)
25Résultats dexpérimentation
- Modèle RAA Courbe de rappel-précision
- FT943 2 000 documents
- VC gt RAA (rappel gt 40 )
- RAA gtgt VC (rappel ? 40 )
26Résultats dexpérimentation
- Modèle RAA Performance par requête
27Résultats dexpérimentation
- Extensibilité des modèles
1Fi05
28Conclusion
- Amélioration significative
- Surtout aux faibles niveaux de rappel
- Dépendant des collections
- Modèles EF et BX se démarquent
- Extensibilité
- Progression linéaire VC, BX, ISL, AG et RAO
- Progression exponentielle VG, EF, EA et RAA
- Approche cognitive
- Modèles connexionnistes en exploration
- RNA auto-associatif prometteur
29Questions ?
Futur
- Approche récursive (sous-classification)
- AG converge vers le domaine majeur
- RAO cartes hiérarchiques chevauchantes
- RAA converge vers les patrons attracteurs
- Performance
- EF algorithmes plus performants CFPC, Yiu05
- EF ordres ? 2 basés sur les termes de requête
Po05 - Applicable à dautres modèles (EA, AG, RAO)
- Unité de linformation et évaluation
- Explorer dautres mesures de linformation BM25,
Ro99 - Augmenter le volume des collections de test