Title: Support de Formation Enrichissement de la base de connaissance avec 2MakeSense
1Mise en place dun portail de veille avec
ActiveWatch
Première journée
Cédric Simard - février 2001
2Objectifs de la formation
- Acquérir une vision globale dActiveWatch
- Comprendre le rôle de chaque module dans le
processus de traitement dinformation - Prendre la mesure de lanalyse sémantique selon
Arisem - Identifier les facteurs clés de succès pour le
lancement dun premier arbre de veille - Prendre en main ActiveWatch
3Place de cette formation parmi les autres
4Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
5Présentation générale
Présentation générale
- Des informations diverses et variées dans et à
lextérieur de lentreprise - Une couverture et une granularité différentes
dune même information pour une tâche donnée - Le besoin dun référentiel commun
- La solution OpenPortal4U
6OpenPortal
Présentation générale
- Valoriser votre système dinformation en
fournissant des contextes dans lesquels
linformation existante présente un sens pour
lutilisateur.
7Présentation générale
Verticalisations
OpenPortal4U Web Edition
OpenPortal4U Enterprise Edition
ActiveWatch
Dynamic Knowledge
CorporateMedia
e-commerce
Sites Web documentaires
Marketplaces e-catalogs
OpenPortal4U
8Présentation générale
9ActiveWatch
Présentation générale
- - recherche, collecte (orientée) et surveillance
de linformation sur Internet - analyse et pré-qualification de cette
information - classification des documents
- publication de cette information (à venir)
10Présentation générale
11Présentation générale
Les modules fonctionnels dAW
2Crawl
- Conserver
- les documents
- pertinents
- Relations entre
- les idées
Constituer un corpus
Définir un univers textuel
- Expression des
- idées dans le texte
- Assurer
- le suivi des
- documents
- dans le temps
Expliciter une thématique
- Décomposer la thématique
- dans un arbre de classement
Publier dans un portail
- Mettre à la disposition linformation structurée
12Présentation générale
La sémantique selon Arisem
juriste?
Document (extrait)
Parmi les fruits les plus riches avocat,
banane, cassis, raisin noir
L information textuelle nest pas une suite de
caractères sans signification, mais lexpression
didées et de concepts ayant une signification
propre dans un contexte donné.
13Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
14La démarche de veille avec AW en 4 étapes
La démarche de veille avec AW en 4 étapes
Définition des objectifs et de la problématique
- quels sont les tenants et aboutissants de
mon projet ? - quels sont les acteurs de ce
projet ? - quel est le lexique utilisé par ces
acteurs ? - quels sont les éléments de réponse
que jattends ?
Préparation du travail à effectuer dans la base
de connaissance - formaliser lexpertise à
travers le passage par lécriture - lister le
lexique professionnel relatif au projet -
mettre en évidence les concepts justes et justes
nécessaires
15La démarche de veille avec AW en 4 étapes
Transfert de connaissances vers loutil danalyse
- mise en évidence du niveau de connaissance
de la base - inscription des concepts
fondamentaux pour le projet - définition du
projet par lattribution de relations sémantiques
- rattachement à la réalité par
létablissement dun lexique métier.
- Rendre loutil expert pour effectuer lanalyse
automatiquement - capitaliser les connaissances internes
- compléter les thèmes métiers
- - désambiguïser des termes spécialisés.
16La démarche de veille avec AW en 4 étapes
Lheuristique de crawling - recherche de
documents à lintérieur dun tunnel sémantique -
progression des agents sur larchitecture
hypertexte - accès au Web non indexé -
rapatriement des documents pertinents
La surveillance automatique des documents
découverts - ré-accès programmé de lensemble
du corpus - signalisation des modifications
2Crawl
17La démarche de veille avec AW en 4 étapes
Déterminer la vue logique, espace de
représentation et dorganisation du corpus.
Quelle navigation dans le corpus ? - objectif
documentaire ou de veille ? - vision
partagée par lentreprise ou personnelle ? -
degré de complexité du projet ?
Maturité du projet - arbre de classement
évolutif ou figé ? - public utilisateur de
larbre de classement ?
18Méthodologie de mise en oeuvre
Quelques questions incontournables
- pourquoi souhaitez-vous effectuer une veille sur
ce thème ? - à qui sont destinées les informations de cette
veille ? - quel est le thème générique sur lequel est axée
votre veille ? - quels en sont les sous-domaines identifiés ?
- quels sont les résultats attendus ?
Des éléments de réponses efficaces, pour définir
- la cohérence de larbre de classement (2Class)
- la spécialisation et actualisation du langage
danalyse (2MS) - - la finesse et lexhaustivité des
WebSources (2Crawl)
Une parfaite maîtrise des objectifs et une
problématique clairement définie ... pour une
mise en uvre technique rapidement opérationnelle
et efficace
19Méthodologie de mise en oeuvre
Quelques outils pour initier la démarche
- Progress4U, un espace dexplicitation
- Un tableau dexplication et dargumentation
littéraire des principaux axes (notions,
expressions) de la thématique (concepts clés et
termes de la langue illustrant les divers enjeux
du thème) - Une décomposition progressive de
chaque idée pour extraire les concepts
principaux, le vocabulaire (pour confronter ce
premier capital à lexistant de la base de
connaissance en vue de son enrichissement.)
- GoOn4U, un espace dagencement
des items de couleurs, représentatifs des nuds
de différents niveaux dun arbre de classement, à
agencer, par copier/coller sur un espace de
travail, et à intituler aux thèmes de la
problématique générale traitée par larbre
20Méthodologie de mise en oeuvre
Mais aussi
- Collecte de lexistant
- Documents illustrant la thématique
- (Thesaurus)
- Sources spécialisées identifiées (documents,
Urls, )
21Méthodologie de mise en oeuvre
Comment sera utilisé loutil ?
Enrichir la base de connaissance Mettre en oeuvre
des WebSources de veille Internet Construire des
arbres de classement thématiques
Lanimateur Ladministrateur
A pour charge
Permet de
Mise à jour de la base de connaissance Alimentatio
n des WebSources de veille Repérage et
intégration des sources internes Mise en ligne
des arbres de classement Audit et maintenance de
la solution
Explication des thèmes de veille Expression des
besoins en information Production d information
interne spécialisée Surveillance qualité du fond
informationnel Commentaire du fond informationnel
ont pour charge
Permet de
Les experts
Accéder à linformation pertinente Identifier les
compétences internes Rester au contact des
évolutions Etre informé de façon
ponctuelle Rendre compte de la diversité
22Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
23e-commerce
Composants fonctionnels
L4U
Modèle Objet
24Présentation générale
Introduction à lanalyse sémantique
Lutilisation de la sémantique est au cur des
produits Arisem.
- L4U ( Language for you ), le moteur danalyse
sémantique - 2MakeSense, léditeur de base de
connaissance
Le moteur danalyse sémantique fournit une
représentation conceptuelle dun document et le
qualifie
Une base de connaissance multilingue (Français,
Anglais, Allemand, Espagnol) permet didentifier
le contenu dun document
25Génération dun méta-texte à partir dun texte
(document, requête)
Texte
Métatexte
échecéchec échec Echouer µNom Problème
ChoseAbstraite Chose du du µArticle tir tir
tir inaugural
L'échec traumatisant du vol inaugural du 4 juin
1996 ? Assimilé, digéré. Les problèmes techniques
du deuxième lancement ? Réglés. Les modifications
apportées au moteur Vulcain de l'étage principal
cryotechnique ajoutées?
Le Métatexte une représentation désambiguïsée
du contenu dun texte
26Le rôle de L4U lanalyseur sémantique
L4U élabore le Métatexte du document (D) et de la
question (Q) et les compare
3- Comparaison Métatextes
4- Évaluation recouvrement
Note de pertinence
75/10
5 Calcul de pertinence
2- Écriture métatextes
L4U
1- Lectures Q / D
27La note de pertinence
Qualité
Densité
75/10
Une note en 2 indices
le degré de précision avec lequel le thème est
exprimé dans le document
Qualité
Comment ?
le degré de présence du thème dans le document,
par rapport à lensemble des autres thèmes ou
sujets contenus dans le document
Densité
Combien ?
28Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
29e-commerce
Espaces personnels des Utilisateurs Sécurité Admin
istration des agents
Composants fonctionnels
L4U
Modèle Objet
30Utilisateur et son espace personnel
- Tout utilisateur est représenté par un agent dans
le système - Chaque utilisateur a son environnement de travail
- Il contrôle ses propres objets de travail
- Arbres de classement,
- Sources dinformation, listes dUrls
31Les utilisateurs du système
Espace personnel de lutilisateur
Espace commun de tous les utilisateurs
32Objets des utilisateurs
- Lutilisateur a un espace privilégié pour
déposer ses documents. - Il peut en plus créer ses objets de travail à
base de ces documents (recherches sur le web,
arbre de classement)
33Bookmark
BookmarkList
Un Bookmark
34Poubelle
Note Si lobjet contenu dans la poubelle nest
pas détruit, le nouvel objet crée (au même
emplacement) de même nom, sincrémentera dun
(1), (2), (3), etc selon le nombre dobjet
existant de même nom.
35Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
36Les Agents
Zoom sur les outils / Les agents
- Un agent gère lactivité dun process
- Un objet du système peut avoir un agent
- Un agent permet dattribuer un comportement
dynamique à un objet du système. - Puissance répartie travail en tâche de fond
37Les agents
Zoom sur les outils / Les agents
- 2 types dagents
- Agent simple qui travaille (col bleu).
- Exemple un Feeder
- Agent-manager gère lactivité des autres
agents (col blanc) - Exemple lAgent dun User
38Agent ? (2)
Zoom sur les outils / Les agents
Un exemple avec les arbres de classement
39Architecture des agents
Zoom sur les outils / Les agents
- Le système (openportal.exe) coordonne des
différents Agents.
Recyclage des documents
Classement des documents
Alimentation des sources
40Hiérarchie des Agents
Zoom sur les outils / Les agents
- Les agents sont hiérarchisés
- Un agent
- est contrôlé par un Agent père
- contrôle un Agent fils
41Puissance des Agents
Zoom sur les outils / Les agents
- Pour chaque Agent est définie une puissance
(power) - Cette puissance dépend de son agent père et de
ses frères
42Calcul de la puissance
Zoom sur les outils / Les agents
Universe
KMCommunity 10000 (90)
11100
UrlAccess 1000 (9)
KMUser 100 ( 0,9)
Fred 5000 (45 de 0.9)
Cat 6000 (55 de 0.9)
43En détails
Zoom sur les outils / Les agents
44Interface dadministration
Zoom sur les outils / Les agents
45Questions
Zoom sur les outils / Les agents
- Si le fils a une puissance supérieure au père que
se passe-t-il ? - Question-piège. La puissance est relative (par
rapport à celle du père considérée comme 100) - Quelle est la puissance maximale possible ?
- 10.000
46Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
472Crawl
Zoom sur les outils / 2Crawl
2Crawl est le module dexploration du web, qui
découvre et surveille les documents provenant de
lInternet. Il est piloté par lAgent
CrawlSequencer.
- Lutilisateur établit des profils de recherche
les WebSources - - Ces WebSources sont composés
- De points de départ vers des sites/moteurs les
gateways - Une question sémantique (query) pour filtrer les
résultats pertinents - des agents dexploration du Web (Feeders), basés
sur les URL
- Un ensemble de page valides et pertinentes,
stockées en local, disponibles pour être
ventilées dans un arbre de classement.
48Zoom sur les outils / 2Crawl
- La découverte de documents est optimisée par la
capacité de crawling de loutil
Le crawling consiste à suivre les liens
hypertextes contenus dans les pages de résultat
identifiées comme pertinentes
Le crawling est interrompu
Simultanément N documents
Le web non indexé par les moteurs de recherche
est ainsi couvert et exploré de manière efficace
(exploration pilotée par la pertinence)
49Paramétrage dune WebSource
Zoom sur les outils / 2Crawl
sappuie sur
sappuie sur
- Objet personnel actif
- Est composé de
- query (requête)
- keywords (mots-clés)
- feeder
- Objet personnel actif
- Est composé de
- gateway
- On peut suivre son activité
Objet standard passif
- Est composé de
- URL ( paramètres)
- Types de gateway
- ParamURL (moteur)
- One URL (URL simple)
- serveur de mails (à venir)
- serveur de news (à venir)
50Zoom sur les outils / 2Crawl
La question sémantique pour filtrer les réponses
renvoyées par les moteurs
Les pages réponses pour la WebSource triées par
pertinence
Des Mots-clés pour obtenir des pages réponses
Une gateway à attaquer
(moteur Altavista)
51Zoom sur les outils / 2Crawl
2 questions sémantiques (query) différentes
Query du feeder
- pour crawler (suivre les liens)
Query de la WebSource
- pour garder les documents
La query du feeder peut être moins exigeante.
52Zoom sur les outils / 2Crawl
Paramétrage dune WebSource (2)
Query Keywords de la websource VS Query
Keyword des feeders
- - Si rien nest mis au niveau du feeder pas de
keywords et pas de query de crawling - ? reprise des keyword de la websource
- ? reprise de la query de la websource avec seuils
divisés par deux. -
- - Si query au niveau du feeder mais pas de
keyword - query affectée comme keyword.
- Attention les keyword définis au niveau de la
Websource ne sont pas repris au niveau du feeder,
cest la query du feeder qui fait office de
keyword. - - Si des keywords spécifiques sont déclarés au
niveau des Feeders et quil existe des keyword au
niveau WebSource, les keywords déclarés au niveau
du feeder sont bien pris en compte ( pas de cumul
avec les keyword de la WebSource).
53Administration du crawling
Zoom sur les outils / 2Crawl
Pour lancer le crawling
- paramétrer la WebSource
- allumer lagent de la WebSource
- allumer lagent du feeder
- allumer lagent de votre User
- allumer lagent de Crawl Sequencer
- vérifier quOP est allumé.
54Administration du crawling (2)
Zoom sur les outils / 2Crawl
Pour privilégier lanalyse à la recherche
- Si vous êtes seul à travailler sur le serveur
- Pour accélérer le traitement des Urls déjà
téléchargées (downloaded) et freiner ou arrêter
le recensement de candidates en attente (waiting)
il faut arrêter le Crawl Sequencer. - Une fois que la pile des URL téléchargées
(downloaded) aura été entièrement dépilée, il
faut relancer le Sequencer pour réactiver le
passage des downloading et dowloaded.
Note le nombre de candidats en chargement
(downloading) est limité à 100.
55Administration du crawling (3)
Zoom sur les outils / 2Crawl
Pour privilégier lanalyse à la recherche
- Si vous êtes plusieurs à travailler sur le même
serveur - Accélérer le traitement des URLs déjà
téléchargées (downloaded) - ? augmenter la puissance de la Websource
(puissance maximale dun worker 10 000) - ? augmenter la puissance des Agents pères User
(ex 5000) / KMUserFolder (ex 10 000)
(dépendances des agents un agent père contrôle
ses agents fils) -
- 2. Ralentir lentrée de candidats
(waiting/downloading) - ? baisser la puissante de chaque feeder
collecteur de candidats
56Créer sa gateway
Pour créer une gateway de type OneURL - La
créer dans un bookmark (http)
- Pour créer une gateway de type ParamURL
- La créer dans sa WebSource
- ? être positionné sur un Folder
57Créer sa gateway (2)
- Pour créer une gateway de type ParamURL
- Faire plusieurs recherches sur le moteur en
question - Noter les URL résultantes
- Répérer la partie commune des URL
- Remplacer le mot-clé par keyword.
58Global URLFilter to crawl
Zoom sur les outils / 2Crawl
Objectif ne pas retenir les pages des sites
polluants .
59Global URLFilter to keep
Zoom sur les outils / 2Crawl
Objectif ne pas retenir les pages de résultats
des moteurs (mais les pages finales des sites
dédiés à la thématique).
60URLFilter
Zoom sur les outils / 2Crawl
Faire le choix
3 niveaux
Cela sapplique t-il seulement à ma
websource ? ex voila/chaines/chat/..
Cela peut-il sappliquer au feeder en
général ? ex voila/chaine/
Cela peut-il sappliquer à plusieurs Websources
(Global) ? ex moteur.voila.fr/S/.
61Réaccès No 404
Zoom sur les outils / 2Crawl
- La fraîcheur des URLs est contrôlée
périodiquement grâce au ré-accès
WebSource
SITE WEB
Changements sémantiques
Ré-accès périodique
62Réaccès No 404 (2)
Zoom sur les outils / 2Crawl
- Lactivité de reaccess est piloté par lAgent
No 404 - Par défaut, toutes les Websources actives voient
leurs URLS soumises au reaccess, si lagent
No404 est démarré. - Le reaccess sapplique à toutes les Websources.
- Lancienne version du document dans le Mirror
est écrasée par la plus récente. - Le Span time (écart entre 2 reaccess sur un
document mise à jour dans X temps) est à fixer
en secondes pour chaque WebSource (onglet
Reaccess de la WebSource).
- Astuce pour metre une WebSource en réaccès sans
crawling - démarrer lagent de la WebSource,
- démarrer lagent No404 ,
- arrêter le feeder de la WebSource.
63Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
642Class
Zoom sur les outils / 2Class
- Représentation Arborescente Arbre de Classement
- Organisation par raffinement
- Les nuds ou catégories définissent le mode de
sélection des documents
65Classification des documents
Zoom sur les outils / 2Class
- Le processus automatique de classification
(percolation) - Placer les documents dans une ou plusieurs
catégories (au besoin) - Qualifier les documents classés
66Zoom sur les outils / 2Class
2Class permet de construire un espace
dinformation qualifié, en proposant des
arborescences daccès à la Yahoo sur un fond
dinformation.
- Lutilisateur construit son arbre dinformation
- Des sources dinformation sont branchées sur
larbre et alimentent en continu larbre de
classement - Les documents sont répartis automatiquement et
de manière non exclusive dans chaque partie et
sous-partie de larbre en fonction des
contraintes dentrées/sorties définies au niveau
de chaque nud de larbre. - Ce classement est fait grâce à une analyse
sémantique multilingue des textes.
- Les utilisateurs partagent et accèdent, depuis
leur navigateur, à linformation utile sur le
thème donné, selon une vision structurée
67Terminologie
Zoom sur les outils / 2Class
Nud Fils Nud de niveau inférieur Nud
Père Nud de niveau supérieur contenant un
fils Nud Racine Nud dentrée de larbre de
classement Nud Terminal Nud collecteur de
document qui ne contient pas de nud
fils Schéma de percolation Ensemble des
contraintes posées au niveau de chacun des nuds
de larbre de classement qui vont déterminer le
routage et le classement final des documents
68Zoom sur les outils / 2Class
Un arbre de classement est une succession
arborescente logique de thèmes et sous-thèmes
Un thème est un nud en soit. Un thème générique
par rapport à des sous-thèmes est dit nud père,
par rapport à des nuds fils.
Ex nud père - Mammifère nuds fils - Chien
Chat
Cette appellation est relative le nud
Mammifère est en même temps un nud fils par
rapport au nud Animaux.
69Zoom sur les outils / 2Class
Le classement automatique des documents se fait
en fonction des contraintes posées au niveau de
chaque nud de larbre (configuration des nuds)
- Les contraintes sont de type
- sémantique (contenu)
- requête conceptuelle
- booléene
- langue du document
- date (à venir)
- autres (champs)
70Paramétrage de larbre
Zoom sur les outils / 2Class
Wizard de création de nuds
2 options simple et avancée
Plusieurs étapes, la question sémantique est
précisée explicitement, ainsi que la stratégie de
percolation.
La description sert de mot-clé
Note Il est conseillé au début de suivre le
mode simple, le paramétrage pouvant être ajusté
ensuite.
71Zoom sur les outils / 2Class
Dabord ? Ensuite
- La commande Fonctionnement pilote les 2 activités
dun nud, composée dun - Pour Garder
- Pour Passer
Un nud effectue toujours 2 traitements Pour
Garder / Pour Passer. Lun Dabord, lautre
Ensuite !
72Zoom sur les outils / 2Class
1
2
3
Conservation des URL pertinentes pour le nud
1
3
Les documents sont soumis au nud
Ces pages sont ensuite analysées et filtrées à la
lumière de la question sémantique du nud
2
73Zoom sur les outils / 2Class
Pour chaque nud de larbre, ladministrateur du
système définit également les contraintes de
circulation des documents entre les noeuds
Il décide du rapport de dépendance devant exister
entre les différents nuds de larbre (ex
préfiltrage dun fils par le père isoler les
documents non classés)
Dans tous les cas il organise le système de
percolation de manière à retenir des documents au
niveau des nuds spécifiques (dits nuds fils)
74Illustration de la percolation
Essayer de garder dabord
Configuration courante dun nud terminal
75Illustration de la percolation
Essayer de passer dabord
Nud Père
Nud Fils
Les documents qui nont pu être classés au niveau
du fils remontent pour être soumis au père
76Illustration de la percolation
Essayer de passer et de garder
B
C
Distribution du document
A
Nud Père
A
A
1
1
Nud Fils
A
Les documents admis dans les nuds fils sont
également classés dans les nuds pères
A
77Illustration de la percolation
Parcours dun document dans larbre
f
Les documents refusés ou conservés au niveau dun
nud sont également soumis aux autres nuds de
larbre
A
en percolant dans larbre selon les critères de
circulation et de filtrage définis
ce qui permet quun document soit classé dans
plusieurs nuds de larbre
A
78Test de la question sémantique
Zoom sur les outils / 2Class
Test directement à partir de linterface de
paramétrage de noeud
Note il est conseillé de toujours tester sa
question sémantique dans la base de connaissance
79Administration de percolation
Zoom sur les outils / 2Class
Pour lancer la percolation
- paramétrer larbre
- allumer lagent de larbre
- allumer lagent de votre User
- allumer lagent OPclass.exe
- vérifier quOP est allumé.
80TreeCross
2 arbres, les documents appartenant aux 2
catégories, 2 extraits pertinents, 2 notes de
pertinence
81Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
822MakeSense léditeur de base de connaissance
Zoom sur les outils / 2MS
Une base évolutive propre à la culture de
lentreprise, ses projets, son environnements
(concurrents, technologies,)
Une représentation des objets de la langue
encodée sous forme de concepts et de relations de
sens entre ces concepts
KB Knowledge Base la base de connaissance
83Zoom sur les outils / 2MS
2MakeSense propose un modèle de représentation
sémantique de la connaissance, autour de
Concepts
Lexicalisés (les différentes formes dexpressions
de lidée dans un texte) concept
voilier lexicalisation bateau à voile, voilier
Fléchis (singulier, pluriel, masculin, féminin,
conjugaisons)
Relations entre les concepts
Hyperonymes (est une sorte de) un chat est
une sorte danimal
Idée associée le miaulement est une idée
associée au chat
84Zoom sur les outils / 2MS
85Place de la KB dans ActiveWatch
2Crawl
2MakeSense
Constituer un corpus
Définir un univers textuel
Expliciter une thématique
Publier dans un portail
86Prise en compte des mises à jour de la KB par
2Crawl
Il existe actuellement 2 modes
- 2Crawl fait appel à un fichier KB.k4u
(AdressType 0)
1. exporter la base de connaissance à chaque fois
quelle a été modifiée
2. Arrêter / redémarrer OP
- 2Crawl fait appel à la base SQL directement
(AdressType 1)
1. Bouton Refresh KB
2. Arrêter / redémarrer OP
87Prise en compte des mises à jour de la KB par
2Class
- Pour que les modifications effectuées dans la KB
soient prises en compte par 2Class, il est
nécessaire - dexporter la base de connaissance à chaque fois
quelle a été modifiée (à la fin de la journée,
par exemple) - arrêter / redémarrer 2Class
- réinjecter les documents précédemment classés.
88Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
89Plan de la partie
- Identification auprès du système
- Sécurité
- Présentation générale
- La visibilité sur les objets
- Les rôles
- Création dutilisateurs, de groupes
90Sécurité
- Ne se log pas qui veut
- Droits daccès différents en fonction des types
dutilisateurs - Gestion par rôles
- Si un acteur du système ne rentre pas dans un
rôle précis, il ne peut effectuer certaines
tâches dans OpenPortal4U
91La sécurité
Utilisateur
Groupes
Visibilité
Rôle
Visibilité
Objet
92La visibilité
System
Dev
Admin
EndUser
Anonymous
93La visibilité (2)
Visibilité de lutilisateur
Visibilité dun objet
94Les rôles
- Les utilisateurs peuvent réaliser certaines
actions sur les objets du système. - Ces actions sont matérialisées par des rôles.
- Pour chaque Objet il y a 3 rôles
- Viewer (consulter)
- Destructor (détruire)
- Editor (modifier)
- Un utilisateur ne pourra réaliser une action sur
un objet que sil est enregistré dans un rôle de
cet objet. - Exemple pour donner droit à M.X de voir votre
arbre, il faut aller sur cet arbre.
95Les rôles (2)
96Les rôles (3)
97Création dutilisateurs
- Création dun compte utilisateur
98Création dutilisateurs (2)
- Paramétrage du compte utilisateur
99Les groupes
- Les utilisateurs appartiennent à des groupes
- Des rôles particuliers sont associés à un groupe
donné - Les groupes sont hiérarchisés
100(No Transcript)
101Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
102Traitement dun cas concret
Réalisation dun portail de veille sur le
Commerce Electronique
Chronologie des différentes étapes de réalisation
Travail préliminaire
- Définition du Thème (aspects à aborder,
documents attendus) - Définition des différents sous-thèmes
(structuration et vocabulaire) - Construction dun arbre de classement à partir
du travail de définition
1
2
3
Utilisation des outils
4
Évaluation de lexistant et 1er niveau de
renseignement de la base de connaissance Repérage
et collecte dinformation (paramétrage dune
WebSource) Paramétrage du classement automatique
des documents Évaluation des résultats Affinage,
optimisation
5
6
7
8
103Traitement dun cas concret
1
Un travail de définition/délimitation du thème de
recherche, de lobjectif du portail, des
documents attendus Objectif de ce travail
cerner clairement la problématique, isoler les
idées clés, définir des sous-thèmes
Un travail utile POUR
1- définir la structure globale de larbre de
classement (cohérence et adéquation aux
besoins) 2- orienter les WebSources (finesse et
exhaustivité mots-clés, sources) 3- évaluer et
affiner les résultats selon laxe attendu
104Traitement dun cas concret
2
Quatre grandes idées clés
- Secteurs concernés (grande consommation,
finances, immobilier, services à domicile) - Modalités Enchères en ligne / Achats groupés /
payement sécurisé - Législation (confidentialité, protection du
consommateur) - Acteurs (net-compagnies)
105Traitement dun cas concret
2
Un travail de redéfinition de idées clés du plan
(grands thèmes) Objectif de ce travail lister
le lexique professionnel relatif au projet
Définition des différents sous-thèmes / Mots-clés
retenus
Secteurs / Modalités / Législation
- Grande consommation
- Modalités
- Réglementation
- Net-compagnies
Alimentation, Hi-Fi, voyages Payement
électronique, achats groupés Ministère
déconomie, CEE net-compagnie
Un travail utile POUR
- tester lexistant dans la base de connaissance
et identifier les nouveaux concepts clés à
introduire - définir les mots-clés pour la WebSource
OCE observatoire du commerce électronique ATI
accord sur les technologies de linformation
106Traitement dun cas concret
3
Construction dune arborescence structurée à
partir du travail de définition de la recherche
(thème, sous-thèmes)
Le travail de définition permet de définir
lossature de larbre de classement
Celui-ci peut être entièrement pré-défini dans sa
structure fine (ensemble des sous-thèmes précis)
ET/OU déroulé en fonction du corpus
Limportant étant de valider cette structure
auprès des utilisateurs finaux afin de couvrir
correctement leurs besoins
Définition de larbre puis mise en uvre avec
2Class
107Traitement dun cas concret
4
Le thème de la recherche est-il déjà défini dans
la base de connaissance ?
108Traitement dun cas concret
4
Concepts associés au Commerce électronique
109Traitement dun cas concret
4
Dans cet exemple le 1er niveau de connaissance
est assuré. Il nest pour linstant pas
nécessaire daffiner plus avant. La base sera
complétée en fonction des résultats produits par
le système.
Note Si cela navait pas été le cas, il aurait
été nécessaire dexpliciter et désambiguïser à un
premier niveau la notion de commerce électronique
(convoquer ou créer les idées de net-compagnie,
de marketing Online, etc )
110Traitement dun cas concret
5
3
2
1
111Traitement dun cas concret
6
Un travail de paramétrage de larbre de
classement pour exploiter le corpus de
documents Objectif de ce travail obtenir une
première grille de consultation des documents
(documents de la WebSource ventilés dans un arbre)
112Traitement dun cas concret
6
Paramétrage de chaque nud de larbre
Organiser le système de percolation pour retenir
en priorité les documents au niveau des noeuds
spécialisés , dits nuds fils. La plupart du
temps il sagit des nuds du fond de larbre de
classement.
113Méthodologie de paramétrage de percolation
pour garder
- Nud terminal (garder les documents au dernier
niveau) - Nud intermédiaire (donner laccès aux documents
à partir du niveau 2-3) - Nud racine (temporairement, nud-piège pour
identifier de nouvelles catégories)
pour passer
Tout passer noeud structurant, pas de
filtre Pays Europe - pas de filtre, tout
passer France Allemagne Passer en
filtrant - affiner le tri, pré-filtrage par le
nud-père.
114- identifier des sources spécialisées
- le focus de la WebSource (sources spécialisées,
nouveaux mots-clés)
2Crawl
Collecte
- évaluer les besoins denrichissement de la base
de connaissance (ajouts)
- ajouts de lexicalisations, de concepts, de
liens,
2MS
Analyse
- enrichir et ajuster la requête sémantique (OR,
AND, NEAR) - rejets manuels
- ajuster la requête sémantique / nettoyer
manuellement
Analyse
2Class
- envisager des sous-thèmes intéressants à
développer /affiner
- ajouts de nuds, réorganisation partielle,
création de nuds pièges
Classification
- réajuster les seuils les niveaux de filtrage
(pré-filtrage inutile par le père direct)
- régler le volume de résultats
Classification
l affinage des réglages boucle sur les trois
outils Class4U, IM4U et MoreSense4U
115Peaufinage du classement
- Trop de documents dans un nud
- Query trop large gt affiner
- Seuils trop bas gt augmenter
- Définition dans la KB trop large (réseau) gt
corriger - Pas de filtre au niveau du père gt mettre un
filtre
116- 0 ou pas assez de documents dans un nud
- vérifier que le nud-père nest pas paramétré en
Ne rien passer - La thématique du nud nest pas couverte pas les
sources gt créer une Source spécialisée - Query trop restrictive gt élargir
- seuils trop hauts gt baisser la densité
- rien dans la KB ne correspond à la Query gt
renseigner la KB
117Plan de la formation
- Présentation générale (OP4U, ActiveWatch,
sémantique, modules) - La démarche de veille avec AW en 4 étapes
- Le mécanisme danalyse de contenu
- Présentation des outils mis en oeuvre (fonctions,
terminologie) - Espace personnel utilisateurs Arbres,
WebSources, Bookmark - Administration des Agents
- 2Crawl gestion des WebSources
- 2Class Arbres de classement
- Présentation de la Base de la Connaissances, son
rôle dans ActiveWatch - Gestion de sécurité visibilité, rôles
- Traitement dun cas concret le commerce
électronique - Best practices
118Best Practices
Définition du thème de recherche (idées clés,
thèmes, sous-thème, vocabulaire)
119Best Practices
120Best Practices
Définir une WebSource
Les Mots-clés
- concernent le thème associé
- pas trop restrictifs
- - tester sur quelques moteurs
La question sémantique (query)
- générique, représentative du thème
- vérifier la validité de la question dans la KB
(copier/coller)
Sources
- Choisir des sources appropriées en rapport avec
les thèmes du projet ou le type dinformations
attendues (sources spécialisées, sources sur les
entreprises, news éco, news techniques,)
Note une recherche sur des moteurs généralistes
peut savérer suffisante ou complémentaire
(découverte de sources spécialisées)
121Best Practices
122Fin de la partie théorique Administration
dActiveWatch Pour les travaux pratiques
réfléchir à la thématique de votre portail
! Vous avez des questions ?