Title: Panorama des volutions de la recherche dinformation sur Internet
1- Panorama des évolutions de la recherche
dinformation sur Internet - Marie-Laure MALINGRE
- Alexandre SERRESCo-responsables URFIST Rennes
- Février 2005
2PLAN
- 7/ Gestion des requêtes
- 8/ Méthodes de classement et de traitement
- 9/ Présentation des résultats
- 10/ Personnalisation
- 11/ Autres évolutions métadonnées
- 1/ Introduction grandes évolutions de la RI
- 2/ Panorama, typologies des outils
- 3/ Evolutions économiques
- 4/ Evolutions technologiques
- 5/ La collecte des données
- 6/ Lindexation, les méthodes de TAL
3Information préalable
- Ce support Power Point est complété par un
support HTML, à consulter librement - Panorama de la recherche d'information sur
Internet approfondissement des aspects
théoriques et techniques - Disponible sur http//www.uhb.fr/urfist/Supports
/Rechinfo2/Rechinfo2_cadre.htm
41/ Introduction les 7 grandes tendances de la
recherche dinformation
- Repères historiques
- 60s la recherche en différé
- 70s mode conversationnel
- 80s micro et minitel
- 90s la révolution Internet
- 2000s explosion du web
- Voir Chronologie des outils de recherche
- Difficultés de létat des lieux de la recherche
dinformation - Abondance, explosion des outils
- Rapidité des évolutions
- Hybridation des outils
- Changement déchelle de la RI
- 7 tendances de fond, selon les composants de la
RI
51/ Introduction les 7 grandes tendances de la
recherche dinformation
- Du côté des usagers
- De la dépendance totale (recherche médiatisée
documentaliste informaticien) à lautonomie
relative - Du côté de loffre dinformation
- De lexplosion documentaire au déluge
informationnel - Triple changement
- déchelle
- de support
- de système éditorial
61/ Introduction les 7 grandes tendances de la
recherche dinformation
- Du côté de la chaîne de linformation
- De la validation a priori à la validation a
posteriori - Du côté des outils de recherche
- De la rareté à lexplosion, de la distinction à
lhybridation des outils, de la complexité à la
simplification - Du côté des processus de recherche
- Du retrouvage booléen à la sérendipité
71/ Introduction les 7 grandes tendances de la
recherche dinformation
- Du côté des modèles de la recherche dinformation
- Du paradigme de laccès à celui du traitement
- Du côté de léconomie de la RI
- De la gratuité à la vente des mots-clés
82/ Panorama et typologies des outils 2.1
Contexte et spécificités de linformation et de
la RII
- surabondance, déluge informationnel
- structuration encore majoritairement faible
- hétérogénéité formats, langues, supports,
technologies, sources, etc. - instabilité de l information
- multiplicité des espaces dinformation web
visible / invisible, intranet/extranet,
ouverts/fermés, gratuits/marchands - coexistence contenus statiques/dynamiques (PHP)
92.1 Les blogs
- Définition
- Weblog journal de bord du web
- Site web, régulièrement mis à jour, comportant
des liens, des appels à commentaires - Très nombreuses applications
- journaux personnels adolescents
- Tribunes politiques Dominique Strauss-Khan
- Outils journalistiques blogs du Monde
- Outils collaboratifs de veille blog de
lUrfist - Explosion du phénomène des blogs
- Evolution du web ?
102/ Panorama et typologies des outils 2.2 Quelles
typologie des outils aujourdhui ?
- Les difficultés de la typologie classique
- Par type doutils
- Annuaires de recherche Il présente, dans une
hiérarchie de domaines et de sous-domaines
divers, le contenu du Web au travers de ses sites
décrits par un nom et un commentaire de quelques
mots rédigés par un documentaliste de l'outil de
recherche. - Moteurs
- Métamoteurs
- Agents intelligents un outil logiciel qui
accomplit des tâches sur Internet de façon
automatisée, en fonction de ce que vous lui
demandez
112/ Panorama et typologies des outils 2.2 Quelles
typologie des outils aujourdhui ?
- Les difficultés de la typologie classique
- Par type doutils
- Portails
- Moteurs humains
- Agrégateurs de fils RSS
- Sa validité nest plus aussi évidente en raison
de la convergence de outils.
122/ Panorama et typologie des outils 2.2 Quelles
typologies aujourdhui ?
- Différents critères permettent denvisager
dautres typologies possibles - Selon le référentiel internet
- Outils généralistes
- Outils spécialisés
- Diversité des spécialisations supports,
formats, géographiques, disciplinaires, web
invisiblegt Evolution vers la spécialisation - Selon le mode dindexation
- indexation des documents web (tout ou partie)
- indexation sur le contenu d une classification
132/ Panorama et typologie des outils 2.2 Quelles
typologies aujourdhui ?
- Selon le contenu des ressources indexées
- Articles de presse / dépêches d actualité
- Littérature grise (Lancement de Google Scholar)
- Blogs Technorati, Daypop
- Flux RSS Savoirs CDI...
- Wiki Wikipédia
142/ Panorama et typologie des outils 2.3.1 Les
moteurs de recherche
- Quelques typologies possibles des moteurs
- selon le référentiel Internet
- moteurs généralistes
- moteurs spécialisés
- par domaines disciplinaires Spinoo
- par type de données, de ressources
- par type d objets Internet
- selon le classement des résultats
- Indice de pertinence Exalead
- Indice de popularité Google
- Selon le degré de traitement
- recherche exclusivement
- traitement, gestion et exploitation des résultats
152/ Panorama de loffre 2.4 Métamoteurs
- Repères
- outils interrogeant en parallèle plusieurs outils
(moteurs et annuaires) - possibilité de fusion et de tri des résultats
- diversité des métamoteurs
- Evolutions
- amélioration des performances techniques fusion
et synthèse des résultats - spécialisation
- présentation graphique des résultats
- personnalisation et services de veille
exploitation des résultats
162/ Panorama de loffre 2.5 Portails
- Définition
- "Ressource accessible via Internet, constituant
un point d'accès unique, simplifié, facile
d'emploi et unifié, pour un public cible, à des
ressources (services, produits) électroniques
distantes, variées et hétérogènes". (Sylvie
Dalbin, Instruments de recherche sur le Web, in
La Recherche d'information sur les réseaux, cours
INRIA 2002) - Dispositif
- documentaire (ressources informationnelles),
communicationnel, éditorial, technique... - Diversité des ressources et services
- recherche d information, achats/ventes,
informations générales, spécialisées,
personnalisation, messagerie, forums, services
dalerte - Portails généralistes / spécialisés
- Exemples Yahoo.fr, ConnectSciences, Ploteus,
BusinessCom, Fabula, Culture.fr, Educlic
172/ Panorama de loffre 2.6 La syndication de
contenus
- Définition
- Agrégation de contenus divers sur un même
navigateur - possibilité de publier automatiquement sur un
site web des informations issues dautres sites
web - Outils
- Agrégateur de fils RSS en lecture
- Editeur de fils RSS pour lédition
- Très nombreuses applications, liens avec les
blogs - Nombreux enjeux et questions
- Explosion du phénomène du RSS
182/ Panorama de loffre 2.6 Les agrégateurs de
fils RSS
- Outils personnalisables
- Permettent la réception automatique de fils RSS
de diverses sources - Presse ex. de Libération
- Blogs ex. de UrfistInfo
- Sites web Savoirs CDI
- Deux types doutils
- Outils autonomes FeedReader, FeedDemon
- Agrégateurs intégrés dans le navigateur Firefox
- Deux possibilités dutilisation
- En ligne NewsIsFree
- Hors ligne FeedReader
- Beaucoup doutils gratuits
192/ Panorama de loffre 2.7 Les moteurs de bureau
(desktop search)
- Définition
- Outils dindexation et de recherche de fichiers
sur disque dur - Développement de ces solutions par les moteurs de
recherche en complément de la recherche sur le
web - Recherche sur le PC dun document Word, dun
e-mail, dune vidéo, dun fichiers PDF, etc. - Outils
- Yahoo Desktop Search (sous Windows XP et 2000,
recherche sur 200 types de fichiers) - Copernic Desktop Search (recherche des formats
les plus courants Microsoft Office,
WordPerfect, PDF, fichiers texte et RTF) - Google Desktop Search (recherche sur les fichiers
Word, Excel, Powerpoint, les e-mails) - Autres Lycos, Ask Jeeves, HotBot
203/ Evolutions économiques
- Concurrence des outils taille dindex, services
- Concentration du marché (Yahoo) / fragilisation
- Passage du tout gratuit au payant
- Marchandisation croissante de la recherche
dinformation - bannières publicitaires sur les outils
- soumissionnement payant des sites Nomade,
Voila, Alta Vista mais retour de Yahoo au
principe du référencement gratuit ! A voir - positionnement payant dans les lots de résultats
- présence en tête des résultats, avec ou sans
signe distinctif - liens sponsorisés placés dans une zone
distincte, insertions contextuelles
213/ Evolutions économiques
- Vente de mots-clés
- pour le positionnement payant, système de vente
aux enchères de mots-clés, par sociétés
spécialisées (Overture, Espotting) - sites classés selon système de mise aux enchères
des mots-clés site ayant eu plus forte enchère
classés en tête - achat des mots-clés
- par CPM (coût pour mille affichages) nombre
d affichages de liens, cliqués ou non - par CPC (coût par clic) paiement au clic, a
largement remplacé le CPM
224/ Panorama des évolutions technologiques des
moteurs et métamoteurs
- Définition outil automatisé dindexation et de
recherche des ressources du web - Fonctionnement
- 3 modules autonomes
- robot collecteur collecte des données
- module dindexation base de données du moteur
- module de requête gestion des requêtes et des
résultats - principes communs entre les moteurs
- parfois utilisation commune du même robot
- mais nombreuses spécificités
234/ Panorama des évolutions problèmes posés aux
moteurs de recherche
- Le web opaque
- récupération des pages "orphelines"
- difficulté de récupération des pages liées à une
indexation partielle - Le web privé
- pages interdisant le référencement par les
moteurs (fichier robots.txt) - Le web propriétaire
- pages à accès contrôlé (par logon), non
collectées (plateforme Phare) - Le vrai web invisible
- prise en compte de formats autres que html (ex
base Mémofiches) - prise en compte de protocoles internet autres que
celui du web - difficultés d'indexation face aux frames,
scripts, technologies propriétaires comme Flash,
etc. - difficultés de recherche sur les pages dynamiques
(.asp, php) - ? pas d'exhaustivité des outils de recherche
244/ Panorama des évolutions technologiques
- Interfaces de recherche
- simplification, aide
- Fonctionnalités de recherche
- Possibilités de filtrage
- Enrichissement des requêtes
- Collecte des données
- Élargissements de la collecte
- Indexation des données
- traitements linguistiques
- Indexation sémantique
254/ Panorama des évolutions technologiques
- Présentation des résultats
- Cartographie
- Moteur parlant
- Personnalisation
- Profils de requête
- Sauvegarde, partage des résultats
- Classement des résultats
- Indice de popularité
- Clusterisation (rangement des liens en dossiers
thématiques), catégorisation - Traitement des résultats
- Résumés automatiques
- Géolocalisation
265/ La collecte des données fonctionnement
- Principes du robot collecteur
- Partage du même robot par plusieurs outils
- Modalités dexploration du web
- exploration initiale
- soumission manuelle par les webmestres,
référencement payant - sélection des meilleurs sites
- explorations aléatoires
- parcours des liens
- en largeur
- en profondeur
276/ Lindexation des données 6.1 Fonctionnement,
évolutions...
- Principes
- base de données index principal et fichiers
inverses - index cur du moteur de recherche
- 4 éléments pour l indexation
- taille de lindex
- objets de lindexation
- nature des ressources indexées
- méthodes de traitement des données
286/ Lindexation des données 6.1 Fonctionnement,
évolutions...
- Taille de lindex
- Nombre de pages indexées
- course à lindex le plus grand
- Google passage brusque à un index de 8
milliards de pages - Yahoo Search Technology 4 milliards
- Exalead un milliard de pages
- Objets de l indexation
- quels champs indexés ? titre, URL, métadonnées,
frames Différences entre moteurs. - Nature des ressources
- développement de lindexation des documents
images, sonores...
29 6.2 Lindexation Les techniques de traitement
linguistique
- TAL (Traitement Automatique des Langues) au
fondement de lindexation automatisée - Différences indexation manuelle / indexation
automatisée - indexation documentaire manuelle les concepts
- indexation automatisée les mots, texte intégral
- Méthodes de TAL
- issues de travaux et de problématiques différents
de ceux de la RI - traitement en local , pour lanalyse de corpus
de textes
306.2 Lindexation Les techniques de traitement
linguistique
- Evolution majeure des moteurs de recherche
intégration des techniques du TAL, notamment dans
la gestion des requêtes - Différents types de traitements linguistiques
- Présence des méthodes de TAL à la fois dans les
modules dindexation et de requête différences
difficiles à établir - Enjeu majeur de développement de la RI
- quelles techniques de TAL pour lindexation,
notamment avec le web sémantique ?
316.4 Indexation Méthodes de traitement
statistique
- Principale méthode dindexation sur le web
traitement statistique des mots (pour
lestimation de pertinence) - Problème localisation des traitements
statistiques - dans le module dindexation (sur la base de
données) ? - Ou dans le module de requêtes (sur les lots de
résultats) (cf plus loin) ?gt les deux à la fois
identification difficile des méthodes
statistiques utilisées
327/ La gestion des requêtes et des résultats
- Généralités
- partie visible du moteur de recherche trois
grandes fonctions - gestion des requêtes fonctions de recherche en
mode simple et avancé, différentes options de
filtrage, affinement... - gestion des résultats catégorisation,
classement, question des critères de pertinence - gestion de la présentation des résultats
linéaire, graphique
337/ Gestion des requêtes 7.1 Fonctionnalités de
recherche
- Simplification des procédures, éclatement des
formulaires - diversification des options de recherche en mode
simple et avancé - 4 types doptions linguistiques, recherche
booléenne, filtrage, affinement - options linguistiques gt innovations requêtes
en langage naturel, correction orthographique,
lemmatisation... - options de recherche booléenne gt innovations
généralisation du ET implicite, utilisation
(encore rare) de lopérateur de proximité
347.2 Développement des technologies de filtrage
- Innovation majeure et la plus répandue
nombreuses possibilités de filtrage - géographique du web mondial, francophone
- linguistique choix de la langue des ressources
- des types de ressources images, audio
- des ressources internet web, forum, messagerie,
weblogs - des formats HTML, PDF, DOC, PPT, XLS, RTF
- des dates nombreuses options
- des champs titre, URL, host, domaine
- thématique choix du domaine de recherche (Alta
Vista) - du contenu filtrage parental (Alta Vista)
357.3 Les fonctionnalités daffinement des requêtes
- possibilité daffiner une requête à partir dun
premier lot de résultats - reposent sur plusieurs techniques, - spécifiques
aux moteurs différents niveaux d affinement - affinement simple restriction de la
recherche à un lot de résultats, à un site... - affinement/extension propositions de pages
similaires (similar pages) - techniques de classification automatique (cf plus
loin)
368/ Méthodes de classement des résultats autre
typologie
- Méthodes de classement fondées sur le contenu des
documents - indice de pertinence
- classifications automatiques
- Méthodes de classement fondées sur
linfrastructure hypertextuelle du web - exploitation des liens des auteurs / éditeurs de
sites web indice de popularité de Google,
navigation dans les résultats - exploitation des activités des utilisateurs
mesure daudience, mesure des parcours
378.1 Classement des résultats indice de
pertinence
- Principes
- classement fondé sur la fréquence dapparition et
la localisation des termes de la requête dans une
page web (cf. réponses dans BCDI) - attribution dune valeur aux pages indexées
- absolue indépendante des requêtes (module
d index) - relative dépendante des recherches (module de
requête) - affichage des résultats à partir du calcul dun
score pour chaque réponse - Utilisation
- première méthode de classement utilisée sur le
web, la plus répandue - Problèmes
- détournement par le spamdexing
388.1 Classement des résultats indice de
pertinence
- Critères destimation automatique de pertinence
- pondération calcul du poids dun mot selon
- sa position sur la page poids plus
important dans le titre, en début de texte, en
majuscules... - sa fréquence dans la base calcul des
occurrences du mot dans la base dindex mots
rares favorisés, mots fréquents sous-évalués,
mots-vides éliminés... - sa densité calcul des occurrences du mot par
rapport à la taille du document poids supérieur
pour les documents plus petits - similarité appariement entre mots de la requête
et du document
398.2 Classement des résultats indice de
popularité
- Principes, origines
- Utilisation de la nature hypertextuelle du web
prise en compte des liens entre sites, considérés
comme des liens de parenté sémantique - calcul de la notoriété dun site en fonction du
nombre de liens pointant vers le site - principes scientométriques, pratiques de citation
entre articles - Utilisation
- indice de popularité lancé par Google en 98
- originalité et succès de Google et de son
PageRank - Projet Clever, Teoma
408.2 Classement des résultats indice de
popularité
- Critères de calcul de popularité
- classement des pages par combinaison de plusieurs
facteurs deux niveaux de pondération - 1ère pondération plus forte
- des pages pivots listes de liens,
sélections de ressources - des pages de référence pages recevant de
nombreux liens - 2ème pondération plus forte
- des pages de référence fréquemment citées par
pages pivots
418.2 Classement des résultats indice de
popularité
- Avantages de l indice de popularité
- renforcement de la pertinence
- élimination du spamming
- Problèmes et limites
- renforcement de la notoriété effet
Saint-Matthieu (favorise les sites jouissant
déjà dune certaine notoriété) - problème des sites peu connus, des ressources
nouvelles... - problème des liens artificiels, pas toujours
éliminés - exemple de requêtes sur Google sur la psychiatrie
- Nouvelles pratiques de spamdexing
428.3 Classement classification automatique des
résultats
- Concerne à la fois les technologies daffinement
des requêtes et le classement des résultats - Technologies les plus complexes domaine des
innovations les plus importantes des moteurs cf
Exalead - Principes
- organisation dun lot de résultats pour donner
possibilité daffiner ou étendre la requête - répartition des objets dans des classes
- deux méthodes
- classifications a priori
- classification a posteriori
438.3 Classement classification automatique des
résultats
- Principes
- classement des informations par sujets
- gt traitement sémantique
- modélisation des domaines de connaissance
- automatisation du classement des informations
- enjeu essentiel mise en ordre du chaos
informationnel
448.3 Classement classification automatique des
résultats
- Classification a priori
- classification par apprentissage supervisé
classement des éléments dans des classes
préétablies problème de l élaboration et du
suivi des classes - exemple Voilà et ses domaines prédéfinis
(sports, arts..) - principe des annuaires, avec classification
préétablie
458.3 Classement classification automatique des
résultats
- Classification a posteriori
- classification par apprentissage non
supervisé , clustering regroupement des
résultats par comparaison sur la base de
similarités trouvées dans les documents - analyse des caractéristiques statistiques,
linguistiques, sémantiques du corpus - processus automatisé
- création de groupes
- répartition des documents dans les groupes et
attribution d un nom à la classe - tri par pertinence au sein des groupes
468.3 Classement classification automatique des
résultats
- Classification a posteriori (suite)
- Intérêt pour la recherche
- aide à la sélection dun mot-résultat
- aide à lélimination des corrélations
inintéressantes, évidentes ou connues - suggestion didées et de pistes nouvelles
- Complémentarité avec les techniques de
représentation graphique de linformation - exemples Exalead, Vivisimo, AllTheWeb
478.4 Traitement des résultats la
géolocalisation
- Innovation récente
- Sur Yahoo, Google (USA), FindWhat
- Principes
- Identification de lemplacement géographique de
linternaute - Fourniture de résultats, de services locaux,
proches de lui - Liste dadresses proches (hôtels,
professionnels) - Visualisation des résultats sur une carte
- Itinéraires routiers
- Enjeux financiers importants
- Lutte pour les marchés locaux des annonceurs
489/ Présentation et traitement des résultats
- Evolutions dans la présentation des résultats
deux modèles - listes
- cartographies
- Enrichissement de la structure et du contenu des
listes - structure des pages identification plus claire
des différentes parties (rappel de requête, liste
des résultats naturels et liens sponsorisés) - représentation des documents enrichissement de
la description (titre, catégorie, taille du
fichier, date, extrait ou résumé, pages en
cache) - gt cf Google
499.1 Présentation graphique des résultats
- Principale innovation dans la présentation
utilisation des techniques de cartographie de
l information - Technologie ancienne (veille) mais difficile à
mettre en uvre sur Internet ressources
techniques importantes - Pionniers les métamoteurs Kartoo, MapStan,
Vivisimo - Principes
- présentation des résultats sous forme de carte de
nuds et de liens - nuds documents
- liens relations entre documents
- représentation en réseau de sphères (Kartoo), en
plans de quartiers avec places et rues
(Mapstan), en arborescence (Vivisimo)
509.1 Présentation graphique des résultats
- Valeur des nuds
- document (Kartoo) taille variable selon degré
de pertinence - ensemble de documents (cluster) sur Mapstan
- Valeur des liens
- liens sémantiques, de similarité des thèmes
- Intérêt
- vision synthétique des résultats
- mise en évidence des relations entre sites
519.2. Présentation des résultats évolutions
récentes
- La lecture orale des résultats
- Cf le moteur qui parle Speegle (lancé par la
société écossaise CEC Systems)Speegle utilise
la catalogue web de Google 1 logiciel de
reconnaissance vocale pour lire les notices. - 3 formats pour la lecture
- méta-titre et méta-description
- url et méta-description
- url, méta-titre et méta-description
- comprend aussi un catalogue dactualités
529.3 Synthèse des présentations de résultats
(d après S. Dalbin)
- Mots-clés, listes de référence
- Indicateurs de contenu d un document
- Regroupement de références
- Indicateurs de thèmes
- Cartes
- Indicateur du positionnement des documents
- par rapport aux autres
- par rapports aux thèmes
539.5 Traitement des résultats extraits et
résumés automatiques
- Extraits automatiques
- présentation dun extrait dun document sur les
pages de résultats (Exalead) - correspond soit aux mots recherchés, soit aux
premières lignes du documentgt pas de véritable
résumé , car pas de reformulation - Résumés automatiques
- Développement encore limité des technologies de
résumé automatique sur le web système
Pertinence - extraction dune liste de phrases représentant
idées essentielles d un texte - techniques danalyse de discours, système de
marqueurs linguistiques, affectation dune valeur
aux tournures linguistiques
5410. Personnalisation10.1 Des interfaces
- Tendance lourde de la recherche dinformation
- Personnalisation des interfaces proposées par les
outils - barre doutils téléchargeable et personnalisable
(Google, HotBot, Voilà, Mapstan) - extension du formulaire de requête (Alta Vista)
- services d aide à la recherche
5510. Personnalisation10.2 De la recherche et des
résultats
- Plusieurs fonctionnalités de personnalisation des
requêtes - systèmes d alerte et de veille (Alta Vista,
Kartoo) - Google Alert alerte des changements dans les
pages de résultats pour des mots-clés favoris - exploitation des résultats envoi, sauvegarde,
classement dans des catégories, annotations
(AskJeeves, My Yahoo Search) - historique des recherches
- prise en compte des préférences de linternaute,
mémorisation et utilisations des requêtes
précédentes (Ujiko, Eurekster)
5612/ Autres évolutions de la recherche
d information le web sémantique
- Evolution du côté de la structuration et de
lindexation de linformation - travaux du web sémantique, généralisation de XML,
des métadonnées - gt mutations peut-être les plus profondes,
conditionnant toutes les autres - touchent à la structuration du document numérique
5712.1 Evolutions à venir le web sémantique
- Définition du Semantic Web
- chantier de recherche du W3C
- Constat des insuffisances du web actuel
- absence de description et dindexation des
ressources, etc - hétérogénéité des formats
- pas de structure explicite du web
- Objectifs
- meilleure structuration du web, exploitation
sémantique de la nature du web...
5812.1 Evolutions à venir le web sémantique
- Projet du Web sémantique (daprès P. Laublet)
- Introduction dune couche sémantique
permettant - la description des ressources
- La description des contenus (métadonnées)
- La structuration des ressources, avec un certain
niveau de formalisation - gt permettre la recherche dinformations à partir
des concepts, des notions, et non plus de simples
chaînes de caractères (mots-clés) - Web sémantique
- (ré) introduction des problématiques
documentaires de catalogage (avec les
métadonnées) et dindexation (avec les
ontologies), MAIS - de manière totalement automatisée
- sur les connaissances et plus seulement sur les
documents
5912.1 Evolutions à venir le web sémantique
- Principes et outils du web sémantique
- quadruple normalisation nécessaire, quatre
directions de recherche - identification des ressources numériques le DOI
- description des ressources systèmes de
métadonnées - structuration des documents numériques XML
- indexation des ressources langages de
description, thésaurus, ontologies,
classifications - principe fondamental du web sémantique
- séparation du contenu des documents de
lorganisation de ce contenu
6012. Evolutions 12.2. Les métadonnées
- Ancienneté du principe catalogage
- Données à propos dautres données
- informations pour la description des ressources
enjeu important pour l indexation et la
recherche - Resource Description Framework (préconisation du
W3C). - Diversité des formats, standards, normes de
métadonnées
6112.2 Evolutions Les métadonnées
- Quels apports des métadonnées ?
- Structures plus stables que HTML
- amélioration des performances des moteurs de
recherche - exemple d application utilisation des
métadonnées par Google dans le cadre de son
projet avec les universités américaines et le
MIT. - description plus fine des contenus et des
relations entre documents - facilitation du classement des contenus
- meilleure visibilité des droits de propriété
intellectuelle - information sur la gestion du document
- partage des informations plus facile
6212.2 Les métadonnées le LOM
- LOM (Learning Object Metadata )
- Pour les productions sur les web liées aux objets
dapprentissage - Métadonnées sur les objets d'apprentissage
- Norme permettant de décrire les objets
d'enseignement. - A partir des métadonnées du Dublin Core en les
détaillant davantage - structure de l'objet (structure, niveau
d'agrégation), - gestion de versions (version, état),
- gestion plus fine des contributeurs (rôle),
- description fine des métadonnées utilisées,
description de l'implémentation technique au-delà
du format taille, localisation, prérequis
techniques, - gestion plus fine des droits (
- gestion plus fine du sujet (par mots-clés ou
classification) type et niveau d'interactivité,
type de ressource densité sémantique , type
d'utilisateur - Le document LOM va probablement être repris par
l'ISO. Si l'on souhaite faire de la veille sur
les métadonnées et le web sémantique, l'IEEE est
l'institut dont il faut suivre les travaux.
6312.4 Quelles conséquences du web sémantique sur
la documentation ?
- Une menace ?
- Vers lautomatisation complète de la recherche
dinformation? - Une chance ?
- Travail en profondeur dans la trame des
documents, notion de granularité de
linformation - Possibilités inédites de recherche intelligente
sur le contenu - Une revanche ?
- Généralisation des concepts documentaires
organisation documentaire du web.
64- MERCI DE VOTRE ATTENTION !