Support de Formation Enrichissement de la base de connaissance avec 2MakeSense - PowerPoint PPT Presentation

About This Presentation
Title:

Support de Formation Enrichissement de la base de connaissance avec 2MakeSense

Description:

Espace personnel utilisateurs : Arbres, WebSources, Bookmark ... 2Class : Arbres de classement. Pr sentation de la Base de la Connaissances, son r le dans ... – PowerPoint PPT presentation

Number of Views:130
Avg rating:3.0/5.0
Slides: 123
Provided by: nadiai
Category:

less

Transcript and Presenter's Notes

Title: Support de Formation Enrichissement de la base de connaissance avec 2MakeSense


1
Mise en place dun portail de veille avec
ActiveWatch
Première journée
Cédric Simard - février 2001
2
Objectifs de la formation
  • Acquérir une vision globale dActiveWatch
  • Comprendre le rôle de chaque module dans le
    processus de traitement dinformation
  • Prendre la mesure de lanalyse sémantique selon
    Arisem
  • Identifier les facteurs clés de succès pour le
    lancement dun premier arbre de veille
  • Prendre en main ActiveWatch

3
Place de cette formation parmi les autres
4
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

5
Présentation générale
Présentation générale
  • Des informations diverses et variées dans et à
    lextérieur de lentreprise
  • Une couverture et une granularité différentes
    dune même information pour une tâche donnée
  • Le besoin dun référentiel commun
  • La solution OpenPortal4U

6
OpenPortal
Présentation générale
  • Valoriser votre système dinformation en
    fournissant des contextes dans lesquels
    linformation existante présente un sens pour
    lutilisateur.

7
Présentation générale
Verticalisations
OpenPortal4U Web Edition
OpenPortal4U Enterprise Edition
ActiveWatch
Dynamic Knowledge
CorporateMedia
e-commerce
Sites Web documentaires
Marketplaces e-catalogs
OpenPortal4U
8
Présentation générale
9
ActiveWatch
Présentation générale
  • - recherche, collecte (orientée) et surveillance
    de linformation sur Internet
  • analyse et pré-qualification de cette
    information
  • classification des documents
  • publication de cette information (à venir)

10
Présentation générale
11
Présentation générale
Les modules fonctionnels dAW
2Crawl
  • Rechercher
  • Idées
  • Conserver
  • les documents
  • pertinents
  • Relations entre
  • les idées

Constituer un corpus
Définir un univers textuel
  • Expression des
  • idées dans le texte
  • Assurer
  • le suivi des
  • documents
  • dans le temps

Expliciter une thématique
  • Décomposer la thématique
  • dans un arbre de classement
  • Classer

Publier dans un portail
  • Mettre à la disposition linformation structurée

12
Présentation générale
La sémantique selon Arisem
juriste?
Document (extrait)
 Parmi les fruits les plus riches avocat,
banane, cassis, raisin noir 
L information textuelle nest pas une suite de
caractères sans signification, mais lexpression
didées et de concepts ayant une signification
propre dans un contexte donné.
13
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

14
La démarche de veille avec AW en 4 étapes
La démarche de veille avec AW en 4 étapes
Définition des objectifs et de la problématique
- quels sont les tenants et aboutissants de
mon projet ? - quels sont les acteurs de ce
projet ? - quel est le lexique utilisé par ces
acteurs ? - quels sont les éléments de réponse
que jattends ?
Préparation du travail à effectuer dans la base
de connaissance - formaliser lexpertise à
travers le passage par lécriture - lister le
lexique professionnel relatif au projet -
mettre en évidence les concepts justes et justes
nécessaires
15
La démarche de veille avec AW en 4 étapes
Transfert de connaissances vers loutil danalyse
- mise en évidence du niveau de connaissance
de la base - inscription des concepts
fondamentaux pour le projet - définition du
projet par lattribution de relations sémantiques
- rattachement à la  réalité  par
létablissement dun lexique métier.
  • Rendre loutil expert pour effectuer lanalyse
    automatiquement
  • capitaliser les connaissances internes
  • compléter les thèmes métiers
  • - désambiguïser des termes spécialisés.

16
La démarche de veille avec AW en 4 étapes
Lheuristique de crawling - recherche de
documents à lintérieur dun tunnel sémantique -
progression des agents sur larchitecture
hypertexte - accès au Web non indexé -
rapatriement des documents pertinents
La surveillance automatique des documents
découverts - ré-accès programmé de lensemble
du corpus - signalisation des modifications
2Crawl
17
La démarche de veille avec AW en 4 étapes
Déterminer la vue logique, espace de
représentation et dorganisation du corpus.
Quelle navigation dans le corpus ? - objectif
 documentaire  ou  de veille  ? - vision
partagée par lentreprise ou personnelle ? -
degré de complexité du projet ?
Maturité du projet - arbre de classement
évolutif ou figé ? - public utilisateur de
larbre de classement ?
18
Méthodologie de mise en oeuvre
Quelques questions incontournables
  • pourquoi souhaitez-vous effectuer une veille sur
    ce thème ?
  • à qui sont destinées les informations de cette
    veille ?
  • quel est le thème générique sur lequel est axée
    votre veille ?
  • quels en sont les sous-domaines identifiés ?
  • quels sont les résultats attendus ?

Des éléments de réponses efficaces, pour définir
  • la cohérence de larbre de classement (2Class)
  • la spécialisation et actualisation du langage
    danalyse (2MS)
  • - la finesse et lexhaustivité des
    WebSources (2Crawl)

Une parfaite maîtrise des objectifs et une
problématique clairement définie ... pour une
mise en uvre technique rapidement opérationnelle
et efficace
19
Méthodologie de mise en oeuvre
Quelques outils pour initier la démarche
  • Progress4U, un espace dexplicitation

- Un tableau dexplication et dargumentation
littéraire des principaux axes (notions,
expressions) de la thématique (concepts clés et
termes de la langue illustrant les divers enjeux
du thème) - Une décomposition progressive de
chaque idée pour extraire les concepts
principaux, le vocabulaire (pour confronter ce
premier capital à lexistant de la base de
connaissance en vue de son enrichissement.)
  • GoOn4U, un espace dagencement

des items de couleurs, représentatifs des nuds
de différents niveaux dun arbre de classement, à
agencer, par copier/coller sur un espace de
travail, et à intituler aux thèmes de la
problématique générale traitée par larbre
20
Méthodologie de mise en oeuvre
Mais aussi
  • Collecte de lexistant
  • Documents illustrant la thématique
  • (Thesaurus)
  • Sources spécialisées identifiées (documents,
    Urls, )
  • Définition des rôles

21
Méthodologie de mise en oeuvre
Comment sera utilisé loutil ?
Enrichir la base de connaissance Mettre en oeuvre
des WebSources de veille Internet Construire des
arbres de classement thématiques
Lanimateur Ladministrateur
A pour charge
Permet de
Mise à jour de la base de connaissance Alimentatio
n des WebSources de veille Repérage et
intégration des sources internes Mise en ligne
des arbres de classement Audit et maintenance de
la solution
Explication des thèmes de veille Expression des
besoins en information Production d information
interne spécialisée Surveillance qualité du fond
informationnel Commentaire du fond informationnel
ont pour charge
Permet de
Les experts
Accéder à linformation pertinente Identifier les
compétences internes Rester au contact des
évolutions Etre informé de façon
ponctuelle Rendre compte de la diversité
22
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

23
e-commerce
Composants fonctionnels
L4U
Modèle Objet
24
Présentation générale
Introduction à lanalyse sémantique
Lutilisation de la sémantique est au cur des
produits Arisem.
- L4U ( Language for you ), le moteur danalyse
sémantique - 2MakeSense, léditeur de base de
connaissance
Le moteur danalyse sémantique fournit une
représentation conceptuelle dun document et le
qualifie
Une base de connaissance multilingue (Français,
Anglais, Allemand, Espagnol) permet didentifier
le contenu dun document
25
Génération dun méta-texte à partir dun texte
(document, requête)
Texte
Métatexte
échecéchec échec Echouer µNom Problème
ChoseAbstraite Chose du du µArticle tir tir
tir inaugural
L'échec traumatisant du vol inaugural du 4 juin
1996 ? Assimilé, digéré. Les problèmes techniques
du deuxième lancement ? Réglés. Les modifications
apportées au moteur Vulcain de l'étage principal
cryotechnique ajoutées?
Le Métatexte une représentation désambiguïsée
du contenu dun texte
26
Le rôle de L4U lanalyseur sémantique
L4U élabore le Métatexte du document (D) et de la
question (Q) et les compare
3- Comparaison Métatextes
4- Évaluation recouvrement
Note de pertinence
75/10
5 Calcul de pertinence
2- Écriture métatextes
L4U
1- Lectures Q / D
27
La note de pertinence
Qualité
Densité
75/10
Une note en 2 indices
le degré de précision avec lequel le thème est
exprimé dans le document
Qualité
Comment ?
le degré de présence du thème dans le document,
par rapport à lensemble des autres thèmes ou
sujets contenus dans le document
Densité
Combien ?
28
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

29
e-commerce
Espaces personnels des Utilisateurs Sécurité Admin
istration des agents
Composants fonctionnels
L4U
Modèle Objet
30
Utilisateur et son espace personnel
  • Tout utilisateur est représenté par un agent dans
    le système
  • Chaque utilisateur a son environnement de travail
  • Il contrôle ses propres objets de travail
  • Arbres de classement,
  • Sources dinformation, listes dUrls

31
Les utilisateurs du système
Espace personnel de lutilisateur
Espace commun de tous les utilisateurs
32
Objets des utilisateurs
  • Lutilisateur a un espace privilégié pour
    déposer ses documents.
  • Il peut en plus créer ses objets de travail à
    base de ces documents (recherches sur le web,
    arbre de classement)

33
Bookmark
BookmarkList
Un Bookmark
34
Poubelle
Note Si lobjet contenu dans la poubelle nest
pas détruit, le nouvel objet crée (au même
emplacement) de même nom, sincrémentera dun
(1), (2), (3), etc selon le nombre dobjet
existant de même nom.
35
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

36
Les Agents
Zoom sur les outils / Les agents
  • Un agent gère lactivité dun process
  • Un objet du système peut avoir un agent
  • Un agent permet dattribuer un comportement
    dynamique à un objet du système.
  • Puissance répartie travail en tâche de fond

37
Les agents
Zoom sur les outils / Les agents
  • 2 types dagents
  • Agent simple qui travaille (col bleu).
  • Exemple un Feeder
  • Agent-manager gère lactivité des autres
    agents (col blanc)
  • Exemple lAgent dun User

38
Agent ? (2)
Zoom sur les outils / Les agents
Un exemple avec les arbres de classement
39
Architecture des agents
Zoom sur les outils / Les agents
  • Le système (openportal.exe) coordonne des
    différents Agents.

Recyclage des documents
Classement des documents
Alimentation des sources
40
Hiérarchie des Agents
Zoom sur les outils / Les agents
  • Les agents sont hiérarchisés
  • Un agent
  • est contrôlé par un Agent père
  • contrôle un Agent fils

41
Puissance des Agents
Zoom sur les outils / Les agents
  • Pour chaque Agent est définie une puissance
    (power)
  • Cette puissance dépend de son agent père et de
    ses frères

42
Calcul de la puissance
Zoom sur les outils / Les agents
Universe
KMCommunity 10000 (90)
11100
UrlAccess 1000 (9)
KMUser 100 ( 0,9)
Fred 5000 (45 de 0.9)
Cat 6000 (55 de 0.9)
43
En détails
Zoom sur les outils / Les agents
44
Interface dadministration
Zoom sur les outils / Les agents
45
Questions
Zoom sur les outils / Les agents
  • Si le fils a une puissance supérieure au père que
    se passe-t-il ?
  • Question-piège. La puissance est relative (par
    rapport à celle du père considérée comme 100)
  • Quelle est la puissance maximale possible ?
  • 10.000

46
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

47
2Crawl
Zoom sur les outils / 2Crawl
2Crawl est le module dexploration du web, qui
découvre et surveille les documents provenant de
lInternet. Il est piloté par lAgent
CrawlSequencer.
  • Lutilisateur établit des profils de recherche
    les WebSources
  • - Ces WebSources sont composés
  • De points de départ vers des sites/moteurs les
    gateways
  • Une question sémantique (query) pour filtrer les
    résultats pertinents
  • des agents dexploration du Web (Feeders), basés
    sur les URL

- Un ensemble de page valides et pertinentes,
stockées en local, disponibles pour être
ventilées dans un arbre de classement.
48
Zoom sur les outils / 2Crawl
- La découverte de documents est optimisée par la
capacité de crawling de loutil
Le crawling consiste à suivre les liens
hypertextes contenus dans les pages de résultat
identifiées comme pertinentes
Le crawling est interrompu
Simultanément N documents
Le web non indexé par les moteurs de recherche
est ainsi couvert et exploré de manière efficace
(exploration pilotée par la pertinence)
49
Paramétrage dune WebSource
Zoom sur les outils / 2Crawl
sappuie sur
sappuie sur
  • Objet personnel actif
  • Est composé de
  • query (requête)
  • keywords (mots-clés)
  • feeder
  • Objet personnel actif
  • Est composé de
  • gateway
  • On peut suivre son activité

Objet standard passif
  • Est composé de
  • URL ( paramètres)
  • Types de gateway
  • ParamURL (moteur)
  • One URL (URL simple)
  • serveur de mails (à venir)
  • serveur de news (à venir)

50
Zoom sur les outils / 2Crawl
La question sémantique pour filtrer les réponses
renvoyées par les moteurs
Les pages réponses pour la WebSource triées par
pertinence
Des Mots-clés pour obtenir des pages réponses
Une gateway à attaquer
(moteur Altavista)
51
Zoom sur les outils / 2Crawl
2 questions sémantiques (query) différentes
Query du feeder
  • pour crawler (suivre les liens)

Query de la WebSource
  • pour garder les documents

La query du feeder peut être moins exigeante.
52
Zoom sur les outils / 2Crawl
Paramétrage dune WebSource (2)
Query Keywords de la websource VS Query
Keyword des feeders
  •  - Si rien nest mis au niveau du feeder  pas de
    keywords et pas de query de crawling
  • ? reprise des keyword de la websource
  • ? reprise de la query de la websource avec seuils
    divisés par deux.
  •  
  • - Si query au niveau du feeder mais pas de
    keyword 
  • query affectée comme keyword.
  • Attention les keyword définis au niveau de la
    Websource ne sont pas repris au niveau du feeder,
    cest la query du feeder qui fait office de
    keyword.
  • - Si des keywords spécifiques sont déclarés au
    niveau des Feeders et quil existe des keyword au
    niveau WebSource, les keywords déclarés au niveau
    du feeder sont bien pris en compte ( pas de cumul
    avec les keyword de la WebSource).

53
Administration du crawling
Zoom sur les outils / 2Crawl
Pour lancer le crawling
  • paramétrer la WebSource
  • allumer lagent de la WebSource
  • allumer lagent du feeder
  • allumer lagent de votre User
  • allumer lagent de Crawl Sequencer
  • vérifier quOP est allumé.

54
Administration du crawling (2)
Zoom sur les outils / 2Crawl
Pour privilégier lanalyse à la recherche
  • Si vous êtes seul à travailler sur le serveur
  • Pour accélérer le traitement des Urls déjà
    téléchargées (downloaded) et freiner ou arrêter
    le recensement de candidates en attente (waiting)
    il faut arrêter le Crawl Sequencer.
  • Une fois que la pile des URL téléchargées
    (downloaded) aura été entièrement dépilée, il
    faut relancer le Sequencer pour réactiver le
    passage des downloading et dowloaded.

Note le nombre de candidats en chargement
(downloading) est limité à 100.
55
Administration du crawling (3)
Zoom sur les outils / 2Crawl
Pour privilégier lanalyse à la recherche
  • Si vous êtes plusieurs à travailler sur le même
    serveur
  • Accélérer le traitement des URLs déjà
    téléchargées (downloaded)
  • ? augmenter la puissance de la Websource
    (puissance maximale dun worker 10 000)
  • ? augmenter la puissance des Agents pères  User
    (ex  5000) / KMUserFolder (ex  10 000)
    (dépendances des agents  un agent père contrôle
    ses agents fils)
  •  
  • 2. Ralentir lentrée de candidats
    (waiting/downloading)
  • ? baisser la puissante de chaque feeder
    collecteur de candidats

56
Créer sa gateway
Pour créer une gateway de type OneURL - La
créer dans un bookmark (http)
  • Pour créer une gateway de type ParamURL
  • La créer dans sa WebSource
  • ? être positionné sur un Folder

57
Créer sa gateway (2)
  • Pour créer une gateway de type ParamURL
  • Faire plusieurs recherches sur le moteur en
    question
  • Noter les URL résultantes
  • Répérer la partie commune des URL
  • Remplacer le mot-clé par keyword.

58
Global URLFilter to crawl
Zoom sur les outils / 2Crawl
Objectif ne pas retenir les pages des sites
 polluants .
59
Global URLFilter to keep
Zoom sur les outils / 2Crawl
Objectif ne pas retenir les pages de résultats
des moteurs (mais les pages finales des sites
dédiés à la thématique).
60
URLFilter
Zoom sur les outils / 2Crawl
Faire le choix
3 niveaux
  • WebSource URLFilter

Cela sapplique t-il seulement à ma
websource ? ex  voila/chaines/chat/..
Cela peut-il sappliquer au feeder en
général ? ex  voila/chaine/
  • Feeder URLFilter

Cela peut-il sappliquer à plusieurs Websources
(Global) ? ex  moteur.voila.fr/S/.
  • Global URLFilter

61
Réaccès No 404
Zoom sur les outils / 2Crawl
- La fraîcheur des URLs est contrôlée
périodiquement grâce au ré-accès
WebSource
SITE WEB
Changements sémantiques
Ré-accès périodique
62
Réaccès No 404 (2)
Zoom sur les outils / 2Crawl
  • Lactivité de reaccess est piloté par lAgent
     No 404 
  • Par défaut, toutes les Websources actives voient
    leurs URLS soumises au reaccess, si lagent
     No404  est démarré.
  • Le reaccess sapplique à toutes les Websources.
  • Lancienne version du document dans le Mirror
    est écrasée par la plus récente.
  • Le Span time (écart entre 2 reaccess sur un
    document mise à jour dans X temps) est à fixer
    en secondes pour chaque WebSource (onglet
    Reaccess de la WebSource).
  • Astuce pour metre une WebSource en réaccès sans
    crawling
  • démarrer lagent de la WebSource,
  • démarrer lagent  No404 ,
  • arrêter le feeder de la WebSource.

63
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

64
2Class
Zoom sur les outils / 2Class
  • Représentation Arborescente Arbre de Classement
  • Organisation par raffinement
  • Les nuds ou catégories définissent le mode de
    sélection des documents

65
Classification des documents
Zoom sur les outils / 2Class
  • Le processus automatique de classification
    (percolation)
  • Placer les documents dans une ou plusieurs
    catégories (au besoin)
  • Qualifier les documents classés

66
Zoom sur les outils / 2Class
2Class permet de construire un espace
dinformation qualifié, en proposant des
arborescences daccès  à la Yahoo  sur un fond
dinformation.
  • Lutilisateur construit son arbre dinformation
  • Des sources dinformation sont  branchées  sur
    larbre et alimentent en continu larbre de
    classement
  • Les documents sont répartis automatiquement et
    de manière non exclusive dans chaque partie et
    sous-partie de larbre en fonction des
    contraintes dentrées/sorties définies au niveau
    de chaque nud de larbre.
  • Ce classement est fait grâce à une analyse
    sémantique multilingue des textes.

- Les utilisateurs partagent et accèdent, depuis
leur navigateur, à linformation utile sur le
thème donné, selon une vision structurée
67
Terminologie
Zoom sur les outils / 2Class
Nud Fils  Nud de niveau inférieur   Nud
Père  Nud de niveau supérieur contenant un
fils   Nud Racine  Nud dentrée de larbre de
classement   Nud Terminal  Nud collecteur de
document qui ne contient pas de nud
fils Schéma de percolation  Ensemble des
contraintes posées au niveau de chacun des nuds
de larbre de classement qui vont déterminer le
routage et le classement final des documents
68
Zoom sur les outils / 2Class
Un arbre de classement est une succession
arborescente logique de thèmes et sous-thèmes
Un thème est un nud en soit. Un thème générique
par rapport à des sous-thèmes est dit nud père,
par rapport à des nuds fils.
Ex nud père - Mammifère nuds fils - Chien
Chat
Cette appellation est relative le nud
Mammifère est en même temps un nud fils par
rapport au nud Animaux.
69
Zoom sur les outils / 2Class
Le classement automatique des documents se fait
en fonction des contraintes posées au niveau de
chaque nud de larbre (configuration des nuds)
  • Les contraintes sont de type
  • sémantique (contenu)
  • requête conceptuelle
  •  booléene 
  • langue du document
  • date (à venir)
  • autres (champs)

70
Paramétrage de larbre
Zoom sur les outils / 2Class
Wizard de création de nuds
2 options simple et avancée
Plusieurs étapes, la question sémantique est
précisée explicitement, ainsi que la stratégie de
percolation.
La description sert de mot-clé
Note Il est conseillé au début de suivre le
mode simple, le paramétrage pouvant être ajusté
ensuite.
71
Zoom sur les outils / 2Class
Dabord ? Ensuite
  • La commande Fonctionnement pilote les 2 activités
    dun nud, composée dun
  • Pour Garder
  • Pour Passer

Un nud effectue toujours 2 traitements Pour
Garder / Pour Passer. Lun Dabord, lautre
Ensuite !
72
Zoom sur les outils / 2Class
1
2
3
Conservation des URL pertinentes pour le nud
1
3
Les documents sont soumis au nud
Ces pages sont ensuite analysées et filtrées à la
lumière de la question sémantique du nud
2
73
Zoom sur les outils / 2Class
Pour chaque nud de larbre, ladministrateur du
système définit également les contraintes de
circulation des documents entre les noeuds
Il décide du rapport de dépendance devant exister
entre les différents nuds de larbre (ex
préfiltrage dun fils par le père isoler les
documents non classés)
Dans tous les cas il organise le système de
percolation de manière à retenir des documents au
niveau des nuds spécifiques (dits nuds fils)
74
Illustration de la percolation
Essayer de garder dabord
Configuration courante dun nud terminal
75
Illustration de la percolation
Essayer de passer dabord
Nud Père
Nud Fils
Les documents qui nont pu être classés au niveau
du fils remontent pour être soumis au père
76
Illustration de la percolation
Essayer de passer et de garder
B
C
Distribution du document
A
Nud Père
A
A
1
1
Nud Fils
A
Les documents admis dans les nuds fils sont
également classés dans les nuds pères
A
77
Illustration de la percolation
Parcours dun document dans larbre
f
Les documents refusés ou conservés au niveau dun
nud sont également soumis aux autres nuds de
larbre
A
en percolant dans larbre selon les critères de
circulation et de filtrage définis
ce qui permet quun document soit classé dans
plusieurs nuds de larbre
A
78
Test de la question sémantique
Zoom sur les outils / 2Class
Test directement à partir de linterface de
paramétrage de noeud
Note il est conseillé de toujours tester sa
question sémantique dans la base de connaissance
79
Administration de percolation
Zoom sur les outils / 2Class
Pour lancer la percolation
  • paramétrer larbre
  • allumer lagent de larbre
  • allumer lagent de votre User
  • allumer lagent OPclass.exe
  • vérifier quOP est allumé.

80
TreeCross
2 arbres, les documents appartenant aux 2
catégories, 2 extraits pertinents, 2 notes de
pertinence
81
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

82
2MakeSense léditeur de base de connaissance
Zoom sur les outils / 2MS
Une base évolutive propre à la culture de
lentreprise, ses projets, son environnements
(concurrents, technologies,)
Une représentation des objets de la langue
encodée sous forme de concepts et de relations de
sens entre ces concepts
KB Knowledge Base la base de connaissance
83
Zoom sur les outils / 2MS
2MakeSense propose un modèle de représentation
sémantique de la connaissance, autour de
Concepts
Lexicalisés (les différentes formes dexpressions
de lidée dans un texte) concept
voilier lexicalisation bateau à voile, voilier
Fléchis (singulier, pluriel, masculin, féminin,
conjugaisons)
Relations entre les concepts
Hyperonymes (est une sorte de) un chat est
une sorte danimal
Idée associée le miaulement est une idée
associée au chat
84
Zoom sur les outils / 2MS
85
Place de la KB dans ActiveWatch
2Crawl
2MakeSense
Constituer un corpus
Définir un univers textuel
Expliciter une thématique
Publier dans un portail
86
Prise en compte des mises à jour de la KB par
2Crawl
Il existe actuellement 2 modes
  • 2Crawl fait appel à un fichier KB.k4u
    (AdressType 0)

1. exporter la base de connaissance à chaque fois
quelle a été modifiée
2. Arrêter / redémarrer OP
  • 2Crawl fait appel à la base SQL directement
    (AdressType 1)

1. Bouton Refresh KB
2. Arrêter / redémarrer OP
87
Prise en compte des mises à jour de la KB par
2Class
  • Pour que les modifications effectuées dans la KB
    soient prises en compte par 2Class, il est
    nécessaire
  • dexporter la base de connaissance à chaque fois
    quelle a été modifiée (à la fin de la journée,
    par exemple)
  • arrêter / redémarrer 2Class
  • réinjecter les documents précédemment classés.

88
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

89
Plan de la partie
  • Identification auprès du système
  • Sécurité
  • Présentation générale
  • La visibilité sur les objets
  • Les rôles
  • Création dutilisateurs, de groupes

90
Sécurité
  • Ne se  log  pas qui veut
  • Droits daccès différents en fonction des types
    dutilisateurs
  • Gestion par rôles
  • Si un acteur du système ne rentre pas dans un
    rôle précis, il ne peut effectuer certaines
    tâches dans OpenPortal4U

91
La sécurité
Utilisateur
Groupes
Visibilité
Rôle
Visibilité
Objet
92
La visibilité
System
Dev
Admin
EndUser
Anonymous
93
La visibilité (2)
Visibilité de lutilisateur
Visibilité dun objet
94
Les rôles
  • Les utilisateurs peuvent réaliser certaines
    actions sur les objets du système.
  • Ces actions sont matérialisées par des rôles.
  • Pour chaque Objet il y a 3 rôles
  • Viewer (consulter)
  • Destructor (détruire)
  • Editor (modifier)
  • Un utilisateur ne pourra réaliser une action sur
    un objet que sil est enregistré dans un rôle de
    cet objet.
  • Exemple pour donner droit à M.X de voir votre
    arbre, il faut aller sur cet arbre.

95
Les rôles (2)
96
Les rôles (3)
97
Création dutilisateurs
  • Création dun compte utilisateur

98
Création dutilisateurs (2)
  • Paramétrage du compte utilisateur

99
Les groupes
  • Les utilisateurs appartiennent à des groupes
  • Des rôles particuliers sont associés à un groupe
    donné
  • Les groupes sont hiérarchisés

100
(No Transcript)
101
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

102
Traitement dun cas concret
Réalisation dun portail de veille sur le
Commerce Electronique
Chronologie des différentes étapes de réalisation
Travail préliminaire
  • Définition du Thème (aspects à aborder,
    documents attendus)
  • Définition des différents sous-thèmes
    (structuration et vocabulaire)
  • Construction dun arbre de classement à partir
    du travail de définition

1
2
3
Utilisation des outils
4
Évaluation de lexistant et 1er niveau de
renseignement de la base de connaissance Repérage
et collecte dinformation (paramétrage dune
WebSource) Paramétrage du classement automatique
des documents Évaluation des résultats Affinage,
optimisation
5
6
7
8
103
Traitement dun cas concret
1
Un travail de définition/délimitation du thème de
recherche, de lobjectif du portail, des
documents attendus Objectif de ce travail
cerner clairement la problématique, isoler les
idées clés, définir des sous-thèmes
Un travail utile POUR
1- définir la structure globale de larbre de
classement (cohérence et adéquation aux
besoins) 2- orienter les WebSources (finesse et
exhaustivité mots-clés, sources) 3- évaluer et
affiner les résultats selon laxe attendu
104
Traitement dun cas concret
2
Quatre grandes idées clés
  • Secteurs concernés (grande consommation,
    finances, immobilier, services à domicile)
  • Modalités Enchères en ligne / Achats groupés /
    payement sécurisé
  • Législation (confidentialité, protection du
    consommateur)
  • Acteurs (net-compagnies)

105
Traitement dun cas concret
2
Un travail de redéfinition de idées clés du plan
(grands thèmes) Objectif de ce travail lister
le lexique professionnel relatif au projet
Définition des différents sous-thèmes / Mots-clés
retenus
Secteurs / Modalités / Législation
  • Grande consommation
  • Modalités
  • Réglementation
  • Net-compagnies

Alimentation, Hi-Fi, voyages Payement
électronique, achats groupés Ministère
déconomie, CEE net-compagnie
Un travail utile POUR
  • tester lexistant dans la base de connaissance
    et identifier les nouveaux concepts clés à
    introduire
  • définir les mots-clés pour la WebSource

OCE observatoire du commerce électronique ATI
accord sur les technologies de linformation
106
Traitement dun cas concret
3
Construction dune arborescence structurée à
partir du travail de définition de la recherche
(thème, sous-thèmes)
Le travail de définition permet de définir
lossature de larbre de classement
Celui-ci peut être entièrement pré-défini dans sa
structure fine (ensemble des sous-thèmes précis)
ET/OU déroulé en fonction du corpus
Limportant étant de valider cette structure
auprès des utilisateurs finaux afin de couvrir
correctement leurs besoins
Définition de larbre puis mise en uvre avec
2Class
107
Traitement dun cas concret
4
Le thème de la recherche est-il déjà défini dans
la base de connaissance ?
108
Traitement dun cas concret
4
Concepts associés au Commerce électronique
109
Traitement dun cas concret
4
Dans cet exemple le 1er niveau de connaissance
est assuré. Il nest pour linstant pas
nécessaire daffiner plus avant. La base sera
complétée en fonction des résultats produits par
le système.
Note Si cela navait pas été le cas, il aurait
été nécessaire dexpliciter et désambiguïser à un
premier niveau la notion de commerce électronique
(convoquer ou créer les idées de net-compagnie,
de marketing Online, etc )
110
Traitement dun cas concret
5
3
2
1
111
Traitement dun cas concret
6
Un travail de paramétrage de larbre de
classement pour exploiter le corpus de
documents Objectif de ce travail obtenir une
première grille de consultation des documents
(documents de la WebSource ventilés dans un arbre)
112
Traitement dun cas concret
6
Paramétrage de chaque nud de larbre
Organiser le système de percolation pour retenir
en priorité les documents au niveau des noeuds
spécialisés , dits nuds fils. La plupart du
temps il sagit des nuds du fond de larbre de
classement.
113
Méthodologie de paramétrage de percolation
 pour garder 
  • Nud terminal (garder les documents au dernier
    niveau)
  • Nud intermédiaire (donner laccès aux documents
    à partir du niveau 2-3)
  • Nud racine (temporairement, nud-piège pour
    identifier de nouvelles catégories)

 pour passer 
 Tout passer  noeud structurant, pas de
filtre Pays Europe - pas de filtre, tout
passer France Allemagne  Passer en
filtrant  - affiner le tri, pré-filtrage par le
nud-père.
114
- identifier des sources spécialisées
- le focus de la WebSource (sources spécialisées,
nouveaux mots-clés)
2Crawl
Collecte
- évaluer les besoins denrichissement de la base
de connaissance (ajouts)
- ajouts de lexicalisations, de concepts, de
liens,
2MS
Analyse
  • enrichir et ajuster la requête sémantique (OR,
    AND, NEAR)
  • rejets manuels

- ajuster la requête sémantique / nettoyer
manuellement
Analyse
2Class
- envisager des sous-thèmes intéressants à
développer /affiner
- ajouts de nuds, réorganisation partielle,
création de nuds pièges
Classification
- réajuster les seuils les niveaux de filtrage
(pré-filtrage inutile par le père direct)
- régler le volume de résultats
Classification
 l affinage des réglages boucle sur les trois
outils Class4U, IM4U et MoreSense4U
115
Peaufinage du classement
  • Trop de documents dans un nud
  • Query trop large gt affiner
  • Seuils trop bas gt augmenter
  • Définition dans la KB trop large (réseau) gt
    corriger
  • Pas de filtre au niveau du père gt mettre un
    filtre

116
  • 0 ou pas assez de documents dans un nud
  • vérifier que le nud-père nest pas paramétré en
     Ne rien passer 
  • La thématique du nud nest pas couverte pas les
    sources gt créer une Source spécialisée
  • Query trop restrictive gt élargir
  • seuils trop hauts gt baisser la densité
  • rien dans la KB ne correspond à la Query gt
    renseigner la KB

117
Plan de la formation
  • Présentation générale (OP4U, ActiveWatch,
    sémantique, modules)
  • La démarche de veille avec AW en 4 étapes
  • Le mécanisme danalyse de contenu
  • Présentation des outils mis en oeuvre (fonctions,
    terminologie)
  • Espace personnel utilisateurs Arbres,
    WebSources, Bookmark
  • Administration des Agents
  • 2Crawl gestion des WebSources
  • 2Class Arbres de classement
  • Présentation de la Base de la Connaissances, son
    rôle dans ActiveWatch
  • Gestion de sécurité visibilité, rôles
  • Traitement dun cas concret le commerce
    électronique
  • Best practices

118
Best Practices
Définition du thème de recherche (idées clés,
thèmes, sous-thème, vocabulaire)
119
Best Practices
120
Best Practices
Définir une WebSource
Les Mots-clés
  • concernent le thème associé
  • pas trop restrictifs
  • - tester sur quelques moteurs

La question sémantique (query)
  • générique, représentative du thème
  • vérifier la validité de la question dans la KB
    (copier/coller)

Sources
- Choisir des sources appropriées en rapport avec
les thèmes du projet ou le type dinformations
attendues (sources spécialisées, sources sur les
entreprises, news éco, news techniques,)
Note une recherche sur des moteurs généralistes
peut savérer suffisante ou complémentaire
(découverte de sources spécialisées)
121
Best Practices
122
Fin de la partie théorique Administration
dActiveWatch Pour les travaux pratiques
réfléchir à la thématique de votre portail
! Vous avez des questions ?
Write a Comment
User Comments (0)
About PowerShow.com