Indexation et recherche d presentation

About This Presentation

Transcript and Presenter's Notes

Title: Indexation et recherche d

1
FRAGRANCES
Filtrage, Recherche et Annotations dans des
Graphes dInteraction Sociaux
Programme CONTINT de l'Agence Nationale de la
Recherche (ANR)? ANR-08-CORD-008 Paris, le 14
juin 2010
1
2
Plan

Description du consortium
Objectif du projet et présentation des 4 taches
Dates importantes et planning
Aspects scientifiques
Réalisation du consortium FRAGRANCES
Réalisation de chaque partenaire dans FRAGRANCES
Synthèse des résultats
Livrables
Diffusion et valorisation
Perspectives
Aspects non-scientifiques

2
3
Consortium FRAGRANCES

Université Pierre et Marie Curie-Paris 6,
Laboratoire dInformatique ( LIP6)
l'Université Joseph Fourier, Laboratoire
dInformatique de Grenoble (LIG)
Laboratoire TIMC-IMAG de Grenoble (TIM-C)
Exalead
Xerox Research Centre Europe (XRCE)

Coordonnateur XRCE (Boris Chidlovskii)
http//lists.partners.xrce.xerox.com/mailman/list
info/fragrances-project
LIP6 LIG TIM-C EXALEAD XRCE
Sylvain Lamprier Eric Gaussier Gilles Bisson Gregory Grefenstette Jean-Michel Renders
Patrick Gallinari Philippe Mulhem Benoit Lemaire Hugo Zanghi Boris Chidlovskii
Thierry Artieres Ali Mustafa Qamar Fawad Hussain Stéphane Clinchant
Ludovic Denoyer Clément Grimal
3
4
Objectif du projet et présentation des 4 taches
5
Objectif général

Proposer de nouvelles méthodes daccès à
linformation documentaire dans un contexte
relationnel et communautaire
.

5
6
Principaux objectifs scientifiques

Développer dalgorithmes et de modèles pour la
découverte de relations sur les données
sémantiques et communautaires
Déploiement de ces algorithmes sur des problèmes
à large échelle
Intégration des méthodes dans des applications en
vraie grandeur
Validation quantitative et qualitative des
méthodes développées

6
7
Principaux objectifs technologiques

La convergence de recherche dinformation et des
outils collaboratifs dans les réseaux sociaux
La validation des sources et des contenus dans
lapplication dorganisation documentaire
collaborative (annotation, classement et
classification)
Le déploiement de ces deux applications en
situation réelle
Leur validation et leur appropriation par des
utilisateurs.

7
8
Problèmes et défis abordés (1/2)?

Recherche dinformation en contexte social
4 scenarios de la recherche dinformation dans un
contexte social
Identification de communautés au sein dun grand
ensemble dutilisateurs
Filtrage d'information dans les réseaux sociaux
Exploitation simultanée de des fonctionnalités
moteurs de recherche et des réseaux sociaux
dutilisateurs en Recherche dInformation
Annotations et classement de documents multimédia
pour plusieurs communautés dutilisateurs

8
9
Problèmes et défis abordés (2/2)?

Les aspects formels et algorithmiques
Principales directions de recherche envisagées
Les modèles à variables latentes
Les modèles de propagation dans les réseaux bases
sur linférence collective
Les méthodes algébriques et à noyaux pour la
décomposition spectrale, la factorisation et la
réduction de dimension
Les méthodes algébriques de co-classification

9
10
Les 4 taches du projet

Ce projet contient 4 taches principales
WP1 Modes de représentation des informations et
des connaissances
WP2 Algorithmes pour la fouille de données dans
les réseaux de contenu
WP3 Implémentation et déploiement pour deux
applications cibles
WP4 Validation

10
11
WP1

Modes de représentation des informations et des
connaissances
Responsable LIG
Participants LIP6, TIMC-IMAG, XRCE
Objectif proposer un ou plusieurs cadres
formels pour représenter les problèmes qui
sous-tendent les scénarios envisagés
WP1.1 Etat de lart sur laccès à linformation
dans des graphes de contenu
WP1.2 Etablir de cadres formels permettant la
description des graphes de contenu et le
développement dalgorithmes dédiés à leur analyse

11
12
WP2

Algorithmes pour la fouille de données dans les
réseaux de contenu
Responsable LIP6
Participants LIG, TIMC-IMAG, XRCE, Exalead
Objectif développer trois grandes familles
dalgorithmes pour la fouille de données dans les
réseaux de contenu et les réseaux sociaux
WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu
WP2.2 Développer dalgorithmes pour la fouille
dans les réseaux de contenu suivant les trois
grandes classes de familles

12
13
WP3

Implémenation et déploiement pour deux
applications cibles
Responsable XRCE
Participants LIG, TIMC-IMAG, LIP6, Exalead
Objectif déployer et dadapter une partie des
algorithmes dans le cadre de deux applications à
vocation industrielle
WP3.1 Etablir des spécifications du premier
prototype de lapplication Exalead
WP3.2 Etablissement des spécifications du
premier prototype de lapplication XRCE
WP3.3 et WP 3.4 Implémentation des premiers
prototypes

13
14
WP4

Validation
Responsable Exalead
Participants XRCE, LIG, LIP6
Objectif valider expérimentalement et sur le
terrain les algorithmes développés en WP2 et les
applications développées en WP3
WP4.1 Collecte de données pour les deux
applications cibles
WP4.2 Sélection des benchmarks académique et
évaluations quantitatives
WP4.3 Expériences avec des utilisateurs et
évaluation qualitative

14
15
Dates importantes et planning
16
Dates importantes

T0 officiel Février 2009
Notification juin 2009
Versement septembre 2009 -gt mars 2010
Début effectif du projet
T0 septembre 2009
Le projet a donc aujourdhui 9 mois de travail
effectif
3 réunions ont été tenues
Tous les partenaires ont participé à toutes les
réunions

16
17
Explication du planning des livrables

A T06
WP1.1 Etat de lart sur laccès à linformation
dans des graphes de contenu
WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu
A T012
WP3.1 Spécifications du premier prototype de
lapplication Exalead
WP3.2 Spécifications du premier prototype de
lapplication dorganisation documentaire
collaborative XRCE

17
18
Explication du planning des livrables

A T018
WP1.2 Etablissement de cadres formes (Rapport,
LIG)
WP2.2 Algorithmes (Rapport Articles
scientifiques, LIP6)
WP4.1 Collecte des données (Rapport, Exalead)
WP4.2 Benchmarks académiques (Rapport, LIP6)

18
19
Les livrables dans le planning
T06 T06 T06
WP1.1 WP2.1 Rapport Etat de lart sur laccès à linformation dans des graphes de contenu et sur les algorithmes pour les réseaux de contenu Livré début 2010
T012 T012 T012
WP3.1 Spécifications du premier prototype de lapplication Exalead Livré mi-2010
WP3.2 Spécifications du premier prototype de lapplication Xerox Livré mi-2010
19
20
Aspects scientifiques et technologiques
21
Résumé des réalisations de chaque partenaire dans
FRANGANCES
22
LIP6 dans Fragrances(1)

Etat de lart Tâche 2
Classification collective dans les réseaux
sociaux
Modèles relationnels
Inférence collective
Méthodes régularisées
Contributions
Annotation Images méthode régularisée
mono-relationnel - ICWSM 2010, CORIA 2010
Annotation Images multilabel multi-relations
Asonam 2010
Prediction Liens Tenseurs Reiso 2010

23
Image annotation méthode régularisée
mono-relationnel Problématique
Le LIP6 dans Fragrances(2)

Contexte transductif généraliser un étiquetage
partiel dans le réseau social
Analyser importance des relations implicites
(contenu) et explicites (sociales)

24
Le LIP6 dans Fragrances(3)

Modèle proposé
Modèle basé sur deux idées clefs
Il ordonne correctement les étiquettes des images
étiquetées
Deux images connectées par une relation auront
tendance à avoir les mêmes scores (Hypothèse de
régularité)
Exploite
Contenu
Relations

25
Résultats 3 corpus issus de Flickr
26
Le LIP6 dans Fragrances (4)

Annotation dimages par classification collective
Modèle pour lannotation dimage qui étend les
méthodes de classification collective
Complexité plus faible que les méthodes
transductives
Prise en compte de relations multiples
Tests sur données Flickr
Première méthode dannotation par prise en compte
de relations multiples
Méthodes tensorielles pour la classification de
liens
Problématique générale
détection de relations dans un réseau social
Problématique générique avec de nombreuses
applications
Détection de liens multiples
Formulation du problème sous forme tensorielle
Prise en compte simultanée de relations multiples
Algorithme dapprentissage
Tests sur 3 ensembles de données et comparaisons
Première méthode de prédiction de liens multiples

26
27
LIG dans Fragrances (1)

Nouvelles méthodes proposées
WP1 Modèles de représentation des informations
et des connaissances
Collaboration (LIG/XRCE) sur la modélisation du
phénomène de rafale, appelé burstiness dans la
communauté texte et preferential attachment dans
la communauté réseau
Définition formelle de la notion de rafale pour
les lois de probabilité discrètes et continues
Proposition de modèles permettant de rendre
compte de ce phénomène dans les collections
textuelles
Application à la recherche dinformation ad hoc
Publications Journal of Information Retrieval et
SIGIR 2010

28
LIG dans Fragrances (2)

WP2 Algorithmes pour la fouille de données dans
les réseaux de contenu
Développement (LIG) dun modèle de diffusion de
linformation au sein de réseaux
Problèmes abordés
A partir de quel(s) nœud(s) est-il préférable de
diffuser une information donnée pour garantir un
taux de diffusion minimum ?
Au bout de combien de temps linformation aura
atteint au moins n des nœuds du réseau, avec une
probabilité dau moins 1-? ?
Au bout de combien une information diffusée dun
nœud donné atteindra tel autre nœud avec une
probabilité dau moins 1-? ?
Prise en compte de la topologie du réseau mais
aussi du contenu de linformation diffusée et du
profil de chaque utilisateur
Prise en compte dune dynamique à différents
niveaux global, par classes dutilisateurs, par
utilisateur
Modèle généralise des modèles standard de
diffusion généralisation passe par prise en
compte du contenu

29
XRCE dans Fragrances (1)

WP 2 Analyse de réseaux sociaux
Mesures de centralité
de degré, d'intermédiarité, proximité, prestige,
etc.
Degré de cohésion, de densité
Équivalence structurale, multiplexité
Les cliques, l'effet du petit monde
Autorités, hubs, communautés
L'exploitation conjointe du lien et le contenu
des informations
Passage a léchelle
Evaluation sur les collections différents
Emails (Enron, CLEF Track-Legal, e-discovery)
INEX Wikipedia

30
XRCE dans Fragrances (2)

Inex Wikipedia
50,000 pages, multi-classe multi-étiquettes, 27
étiquettes
Agrégation label expansion avec fusion tardif
Gain par rapport a baseline 3
Enron Corpus
600K emails, 115K acteurs, classification avec 1
etiquettes (responsiveness)
Combiner le contenu et le réseaux sociale
Agrégation par fusion tardif avec RBF kernels
Gain par rapport a baseline 10
E-discovery
1 million d'emails,100.000 sont marqués,
catégorisation privilégiés/non-privilégié
Extension de documents non-mail (via informations
sur l'auteur)
Extension multi-vues de la variable latente
commune
Une exigence légale de 95 de rappel
Gain par rapport a baseline 5

31
XRCE dans Fragrances (3)

WP 2 Les modèles à variables latentes LDA
LDA (Latent Dirichlet allocation) est un modèle
génératif qui permet à expliquer de séries
d'observations par des groupes non observées
Dans les observations documents-mots, le principe
est que chaque document est un mélange d'un petit
nombre de sujets et que la création de chaque mot
est attribuable à l'un des sujets du document
Ordre des entités n'est pas important (BOW)
Extension bayésienne de PLSA

3
32
XRCE dans Fragrances (4)

La détection des alias
Un participant peut être représenté par les
e-mails dans lequel il/elle a participé
Une personne peut avoir plusieurs
identités/e-mails
100K documents, vocabulaire 250K , 36K
participants
Modèle LDA pour la détection des alias
Générer un modèle LDA sur tous les documents
Les e-mails échangés entres les participants
Obtenir une distribution des sujets pour chaque
document
Générer le profil moyen d'un participant par
l'agrégation de la distribution de sujets de tous
les documents dans lequel il / elle a participé
Pour une identité a de-dupliquer, compare sa
distribution de sujets aux les distributions des
tous les participants
Les modèles LDA pour le contenu et les
informations relatives aux participants
On peut pas utiliser les deux en même temps
La fusion tardive pour fusionner les scores
obtenus à partir des deux modèles LDA
Amélioration de 5 les performances par rapport
à la performance des systèmes individuels

33
Exalead dans Fragrances (1)

WP2.1 Etat de lart sur les algorithmes pour
les réseaux de contenu
Exalead contribue Modèlisation de graphes par
mélanges de distribution des connexion
WP2.2 Développer dalgorithmes pour la fouille
dans les réseaux de contenu suivant les trois
grandes classes de familles
Exalead Publications Pattern Recognition Letters
et The Annals of Applied Statistics
WP3.1 Etablir des spécifications du premier
prototype de lapplication Exalead
Exalead a produit le cahier de charges pour
Constellations, une application de détection et
visualisation des communautés
un service en ligne destiné au moteur de
recherche dExalead, qui est en mesure de révéler
les informations de connectivité induite par
hyperliens entre les résultats dune requête
utilisateur.

33
34
Exalead dans Fragrances (2)

WP3.3 Implémentation du premier prototype
Exalead
En avance sur le planning, Exalead a sorti un
premier prototype de Constellations
Premier prototype ne traite que le connectivité
liens (sans prendre en compte le contenu des
sites)
Un premier sous-graphe extrait suite à une
requête sur le Web
Calcul de communautés basé sur liens dans
sous-graphe
Architecture ouverte
Pouvant accueillir les algorithmes de détection
de communautés dautres partenaires Fragrances
A venir, prise en compte du contenu des noeuds
dans la reconnaissance des communautés

34
35
Exalead dans Fragrances (3)
WP3.3 Implémentation du premier prototype
Exalead
35
36
Exalead dans Fragrances (4)
WP3.3 Implémentation du premier prototype
Exalead
36
37
Livrables
37
38
Gestion du projet portail Codendi (XRCE)

Page de projet
fragrances-project_at_lists.partners.xrce.xerox.com
http//lists.partners.xrce.xerox.com/mailman/listi
nfo/fragrances-project
Group de lecture
fragrances-reading-groups_at_lists.partners.xrce.xero
x.com
http//lists.partners.xrce.xerox.com/mailman/listi
nfo/fragrances-reading-groups

38
39
Livrables à T06 février 2010
Numéro Désignation Forme / Support
WP.1.1 Etat de lart sur laccès à linformation dans des graphes de contenu Rapport
WP.2.1 Etat de lart sur les algorithmes pour les réseaux de contenu Rapport
39
40
Livrables à T012 mi-2010
Numéro Désignation Forme / Support
WP 3.1 Spécifications du premier prototype de lapplication Exalead Rapport
WP.3.2 Spécifications du premier prototype de lapplication XRCE Rapport
WP 3.3 Implémentation du premier prototype Exalead En avance sur le planning
40
41
Diffusion et Valorisation
41
42
Publications

C. Grimal, G. Bisson. Classification à partir
dune collection de matrices. Actes de lAtelier
REcherche et REcommandation d'information dans
les RESeaux sociaux (REiSO), INFORSID 2010.
S. Clinchant, E. Gaussier. Information-Based
Models for Ad Hoc IR. Proceedings of 33rd Annual
ACM SIGIR Conference, SIGIR, 2010.
S. F. Hussain, G. Bisson. Text Categorization
Using Word Similarities Based on Higher Order
Co-occurrences. Proceedings of the Tenth SIAM
International Conference on Data Mining, SDM,
2010.
S. Clinchant, E. Gaussier. Retrieval Contraints
and Word Frequency Distributions A Log-Logistic
Model for IR. Journal of Information Retrieval,
Special Issue on Theoretical Models, 2010 (to
appear).
S. F. Hussain, G. Bisson. Co-clasification
méthode et validation. Actes de la XIième
Conférence Francophone sur lApprentissage
Artificiel, CAp, 2009.
Denoyer L., Gallinari P., A ranking based model
for automatic image annotation in a social
network, AIII ICWSN, 2010.
Peters S., Denoyer L., Gallinari P., Iterative
annotation of multi-relational social networks,
ASONAM 2010.
Denoyer L., Gallinari P. Modèles
d'Ordonnancement pour l'Annotation Automatique
d'Images dans les Réseaux Sociaux. CORIA 2010
115-129
Gao S., Denoyer L., Gallinari P., Prédiction de
motifs relationnels par décomposition tensorielle
dans les réseaux sociaux, Atelier REISO
conférence Inforsid, 2010.
Julien Ah-Pine, Stéphane Clinchant , Gabriela
Csurka Comparison of Several Combinations of
Multimodal and Diversity seeking Methods for
Multimedia Retrieval, Proc CLEF 2009.
M. Hovelynck, B. Chidlovskii Multi-modality in
one-class classification. Proc. WWW Conference,
2010, pp. 441-450.
Zanghi, H. and Volant, S. and Ambroise, C.
Clustering based on random graph model embedding
vertex features, Pattern Recognition Letters,
2010.()
Zanghi, H. and Picard, F. and Miele, V. and
Ambroise, C., Strategies for Online Inference of
Model-Based Clustering in large Networks, The
Annals of Applied Statistics, 2010, to appear

42
43
Valorisation et Dissémination

Présentations
Nationales
Cap 2009, CORIA 2010, REiSO 2010
Internationales
ACM SIGIR 2010, WWW 2010, SIAM DM 2010, ASONAM
2010, ICWSN 2010, CLEF 2010
Organisation de workshop
G. Grefensette dExalead et E. Gaussier du LIG
ont co-organisé, avec la collaboration de IRIT,
le premier atelier sur la recherche et la
recommandation dinformation dans les réseaux
sociaux (http//www.irit.fr/REISO/)

44
Faits marquants

Proposition de nouvelles techniques pour la
recherche dinformation dans le contexte social
Proposition de nouvelles méthodes dapprentissage
Exalead et LIG ont co-organisé le premier atelier
REISO
Participation à la compétition internationale
INEX XML Mining
Participation à la compétition internationale
ImageCLEF
3 revues à comité de lecture, donc 1
multipartenaires
5 articles de conférences publiés, donc 1
multipartenaires
1 brevet est déposé (XRCE), en cours de
validation

44
45
Perpectives
45
46
Perpectives

Remarque sur les ensembles de données et des
collections
Collections publiques bien connu sont disponible,
ex. IMDB, Wikipédia
Les vraies (life) données des réseaux sociaux
(ex. Flickr avec son API)
Les données propriétaires (e-discovery avec Xerox
et Exalead)
Première série d'algorithmes et d'expériences a
bien renforcé un intérêt mutuel et la
collaboration entre les équipes
Souhait daméliorer les méthodes proposées
Développer de nouvelles méthodes
Tester les algorithmes sur de nouvelles données
Des exemples concrets
Apprendre avec les relations multiples dans les
données (TIM-C et LIP6)
L'annotation et la catégorisation d'images sur
des données type Flickr (Xerox, LIP6, Exalead)
Analyse visuelle de résultats (Exalead et Xerox)
Passage a léchelle des algorithmes
d'apprentissage (tous)

47
Aspects non scientifiques
47
48
Accord de consortium

Une première version de laccord a été envoyé à
tous les partenaires
Chaque partenaire a envoyé ces premières
remarques
La deuxième version est signée par tous les
partenaires

48
49
Aspects non scientifiques

CDD recrutés
LIP6
Casas Garriga Gemma, le poste dingénieur (début
du contrat novembre 2009, pour 5 mois)
Ali Fakeri-Tabrizi, doctorant (début du contrat
avril 2010, pour 6 mois)
LIG-TIMC
Grimal Clément, doctorant (début du contrat
octobre 2009, pour 36 mois)

49
50
Aspects non scientifiques

Equipements achetés aucun
Crédits consommés entre le 01/09/2009 et le
31/05/2010

LIP6 LIG TIM-C Exalead XRCE
Crédits consommés (en ) 50 missions 20 personnels 60 5 58 40
Les dépenses sont conformes ou inférieures à
celles prévues
50
51
Merci de votre attention

Questions ?

Write a Comment

User Comments (0)

About PowerShow.com

Indexation et recherche d PowerPoint PPT Presentation