Panorama des volutions de la recherche dinformation sur Internet - PowerPoint PPT Presentation

1 / 64
About This Presentation
Title:

Panorama des volutions de la recherche dinformation sur Internet

Description:

Ce support Power Point est compl t par un support HTML, consulter librement : ... par CPM (co t pour mille affichages) : nombre d 'affichages de liens, cliqu s ou non. par ... – PowerPoint PPT presentation

Number of Views:126
Avg rating:3.0/5.0
Slides: 65
Provided by: Fre9164
Category:

less

Transcript and Presenter's Notes

Title: Panorama des volutions de la recherche dinformation sur Internet


1
  • Panorama des évolutions de la recherche
    dinformation sur Internet
  • Marie-Laure MALINGRE
  • Alexandre SERRESCo-responsables URFIST Rennes
  • Février 2005

2
PLAN
  • 7/ Gestion des requêtes
  • 8/ Méthodes de classement et de traitement
  • 9/ Présentation des résultats
  • 10/ Personnalisation
  • 11/ Autres évolutions métadonnées
  • 1/ Introduction grandes évolutions de la RI
  • 2/ Panorama, typologies des outils
  • 3/ Evolutions économiques
  • 4/ Evolutions technologiques
  • 5/ La collecte des données
  • 6/ Lindexation, les méthodes de TAL

3
Information préalable
  • Ce support Power Point est complété par un
    support HTML, à consulter librement
  • Panorama de la recherche d'information sur
    Internet approfondissement des aspects
    théoriques et techniques
  • Disponible sur http//www.uhb.fr/urfist/Supports
    /Rechinfo2/Rechinfo2_cadre.htm

4
1/ Introduction les 7 grandes tendances de la
recherche dinformation
  • Repères historiques
  • 60s la recherche en différé 
  • 70s  mode conversationnel 
  • 80s micro et minitel
  • 90s  la révolution Internet 
  • 2000s explosion du web
  • Voir Chronologie des outils de recherche
  • Difficultés de létat des lieux de la recherche
    dinformation
  • Abondance, explosion des outils
  • Rapidité des évolutions
  • Hybridation des outils
  • Changement déchelle de la RI
  • 7 tendances de fond, selon les composants de la
    RI

5
1/ Introduction les 7 grandes tendances de la
recherche dinformation
  • Du côté des usagers
  • De la dépendance totale (recherche médiatisée
    documentaliste informaticien) à lautonomie
    relative
  • Du côté de loffre dinformation
  • De lexplosion documentaire au déluge
    informationnel
  • Triple changement
  • déchelle
  • de support
  • de système éditorial

6
1/ Introduction les 7 grandes tendances de la
recherche dinformation
  • Du côté de la chaîne de linformation
  • De la validation a priori à la validation a
    posteriori
  • Du côté des outils de recherche
  • De la rareté à lexplosion, de la distinction à
    lhybridation des outils, de la complexité à la
    simplification
  • Du côté des processus de recherche
  • Du retrouvage booléen à la sérendipité

7
1/ Introduction les 7 grandes tendances de la
recherche dinformation
  • Du côté des modèles de la recherche dinformation
  • Du paradigme de laccès à celui du traitement
  • Du côté de léconomie de la RI
  • De la gratuité à la vente des mots-clés

8
2/ Panorama et typologies des outils 2.1
Contexte et spécificités de linformation et de
la  RII 
  • surabondance,  déluge informationnel 
  • structuration encore majoritairement faible
  • hétérogénéité formats, langues, supports,
    technologies, sources, etc.
  • instabilité de l information
  • multiplicité des espaces dinformation web
    visible / invisible, intranet/extranet,
    ouverts/fermés, gratuits/marchands
  • coexistence contenus statiques/dynamiques (PHP)

9
2.1 Les blogs
  • Définition
  • Weblog journal de bord du web
  • Site web, régulièrement mis à jour, comportant
    des liens, des appels à commentaires
  • Très nombreuses applications
  • journaux personnels adolescents
  • Tribunes politiques Dominique Strauss-Khan
  • Outils journalistiques blogs du Monde
  • Outils collaboratifs de veille blog de
    lUrfist
  • Explosion du phénomène des blogs
  • Evolution du web ?

10
2/ Panorama et typologies des outils 2.2 Quelles
typologie des outils aujourdhui ?
  • Les difficultés de la typologie classique
  • Par type doutils
  • Annuaires de recherche Il présente, dans une
    hiérarchie de domaines et de sous-domaines
    divers, le contenu du Web au travers de ses sites
    décrits par un nom et un commentaire de quelques
    mots rédigés par un documentaliste de l'outil de
    recherche.
  • Moteurs
  • Métamoteurs
  • Agents intelligents un outil logiciel qui
    accomplit des tâches sur Internet de façon
    automatisée, en fonction de ce que vous lui
    demandez

11
2/ Panorama et typologies des outils 2.2 Quelles
typologie des outils aujourdhui ?
  • Les difficultés de la typologie classique
  • Par type doutils
  • Portails
  • Moteurs humains
  • Agrégateurs de fils RSS
  • Sa validité nest plus aussi évidente en raison
    de la convergence de outils.

12
2/ Panorama et typologie des outils 2.2 Quelles
typologies aujourdhui ?
  • Différents critères permettent denvisager
    dautres typologies possibles
  • Selon le référentiel internet
  • Outils généralistes
  • Outils spécialisés
  • Diversité des spécialisations supports,
    formats, géographiques, disciplinaires, web
    invisiblegt Evolution vers la spécialisation
  • Selon le mode dindexation
  • indexation des documents web (tout ou partie)
  • indexation sur le contenu d une classification

13
2/ Panorama et typologie des outils 2.2 Quelles
typologies aujourdhui ?
  • Selon le contenu des ressources indexées
  • Articles de presse / dépêches d actualité
  • Littérature grise (Lancement de Google Scholar)
  • Blogs Technorati, Daypop
  • Flux RSS Savoirs CDI...
  • Wiki Wikipédia

14
2/ Panorama et typologie des outils 2.3.1 Les
moteurs de recherche
  • Quelques typologies possibles des moteurs
  • selon le référentiel Internet
  • moteurs généralistes
  • moteurs spécialisés
  • par domaines disciplinaires Spinoo
  • par type de données, de ressources
  • par type d objets Internet
  • selon le classement des résultats
  • Indice de pertinence Exalead
  • Indice de popularité Google
  • Selon le degré de traitement
  • recherche exclusivement
  • traitement, gestion et exploitation des résultats

15
2/ Panorama de loffre 2.4 Métamoteurs
  • Repères
  • outils interrogeant en parallèle plusieurs outils
    (moteurs et annuaires)
  • possibilité de fusion et de tri des résultats
  • diversité des métamoteurs
  • Evolutions
  • amélioration des performances techniques fusion
    et synthèse des résultats
  • spécialisation
  • présentation graphique des résultats
  • personnalisation et services de veille
    exploitation des résultats

16
2/ Panorama de loffre 2.5 Portails
  • Définition
  • "Ressource accessible via Internet, constituant
    un point d'accès unique, simplifié, facile
    d'emploi et unifié, pour un public cible, à des
    ressources (services, produits) électroniques
    distantes, variées et hétérogènes". (Sylvie
    Dalbin, Instruments de recherche sur le Web, in
    La Recherche d'information sur les réseaux, cours
    INRIA 2002)
  • Dispositif
  • documentaire (ressources informationnelles),
    communicationnel, éditorial, technique...
  • Diversité des ressources et services
  • recherche d information, achats/ventes,
    informations générales, spécialisées,
    personnalisation, messagerie, forums, services
    dalerte
  • Portails généralistes / spécialisés
  • Exemples Yahoo.fr, ConnectSciences, Ploteus,
    BusinessCom, Fabula, Culture.fr, Educlic

17
2/ Panorama de loffre 2.6 La syndication de
contenus
  • Définition
  • Agrégation de contenus divers sur un même
    navigateur
  • possibilité de publier automatiquement sur un
    site web des informations issues dautres sites
    web
  • Outils
  • Agrégateur de fils RSS en lecture
  • Editeur de fils RSS pour lédition
  • Très nombreuses applications, liens avec les
    blogs
  • Nombreux enjeux et questions
  • Explosion du phénomène du RSS

18
2/ Panorama de loffre 2.6 Les agrégateurs de
fils RSS
  • Outils personnalisables
  • Permettent la réception automatique de fils RSS
    de diverses sources
  • Presse ex. de Libération
  • Blogs ex. de UrfistInfo
  • Sites web Savoirs CDI
  • Deux types doutils
  • Outils autonomes FeedReader, FeedDemon
  • Agrégateurs intégrés dans le navigateur Firefox
  • Deux possibilités dutilisation
  • En ligne NewsIsFree
  • Hors ligne FeedReader
  • Beaucoup doutils gratuits

19
2/ Panorama de loffre 2.7 Les moteurs de bureau
(desktop search)
  • Définition
  • Outils dindexation et de recherche de fichiers
    sur disque dur
  • Développement de ces solutions par les moteurs de
    recherche en complément de la recherche sur le
    web
  • Recherche sur le PC dun document Word, dun
    e-mail, dune vidéo, dun fichiers PDF, etc.
  • Outils
  • Yahoo Desktop Search (sous Windows XP et 2000,
    recherche sur 200 types de fichiers)
  • Copernic Desktop Search (recherche des formats
    les plus courants Microsoft Office,
    WordPerfect, PDF, fichiers texte et RTF)
  • Google Desktop Search (recherche sur les fichiers
    Word, Excel, Powerpoint, les e-mails)
  • Autres Lycos, Ask Jeeves, HotBot

20
3/ Evolutions économiques
  • Concurrence des outils taille dindex, services
  • Concentration du marché (Yahoo) / fragilisation
  • Passage du tout gratuit au payant
  •  Marchandisation  croissante de la recherche
    dinformation
  • bannières publicitaires sur les outils
  • soumissionnement payant des sites Nomade,
    Voila, Alta Vista mais retour de Yahoo au
    principe du référencement gratuit ! A voir
  • positionnement payant dans les lots de résultats
  • présence en tête des résultats, avec ou sans
    signe distinctif
  •  liens sponsorisés  placés dans une zone
    distincte,  insertions contextuelles 

21
3/ Evolutions économiques
  • Vente de mots-clés
  • pour le positionnement payant, système de vente
    aux enchères de mots-clés, par sociétés
    spécialisées (Overture, Espotting)
  • sites classés selon système de mise aux enchères
    des mots-clés site ayant eu plus forte enchère
    classés en tête
  • achat des mots-clés
  • par CPM (coût pour mille affichages) nombre
    d affichages de liens, cliqués ou non
  • par CPC (coût par clic) paiement au clic, a
    largement remplacé le CPM

22
4/ Panorama des évolutions technologiques des
moteurs et métamoteurs
  • Définition outil automatisé dindexation et de
    recherche des ressources du web
  • Fonctionnement
  • 3 modules autonomes
  • robot collecteur collecte des données
  • module dindexation base de données du moteur
  • module de requête gestion des requêtes et des
    résultats
  • principes communs entre les moteurs
  • parfois utilisation commune du même robot
  • mais nombreuses spécificités

23
4/ Panorama des évolutions problèmes posés aux
moteurs de recherche
  • Le web opaque
  • récupération des pages "orphelines"
  • difficulté de récupération des pages liées à une
    indexation partielle
  • Le web privé
  • pages interdisant le référencement par les
    moteurs (fichier robots.txt)
  • Le web propriétaire
  • pages à accès contrôlé (par logon), non
    collectées (plateforme Phare)
  • Le vrai web invisible
  • prise en compte de formats autres que html (ex
    base Mémofiches)
  • prise en compte de protocoles internet autres que
    celui du web
  • difficultés d'indexation face aux frames,
    scripts, technologies propriétaires comme Flash,
    etc.
  • difficultés de recherche sur les pages dynamiques
    (.asp, php)
  • ? pas d'exhaustivité des outils de recherche

24
4/ Panorama des évolutions technologiques
  • Interfaces de recherche
  • simplification, aide
  • Fonctionnalités de recherche
  • Possibilités de filtrage
  • Enrichissement des requêtes
  • Collecte des données
  • Élargissements de la collecte
  • Indexation des données
  • traitements linguistiques
  • Indexation sémantique

25
4/ Panorama des évolutions technologiques
  • Présentation des résultats
  • Cartographie
  • Moteur parlant
  • Personnalisation
  • Profils de requête
  • Sauvegarde, partage des résultats
  • Classement des résultats
  • Indice de popularité
  • Clusterisation (rangement des liens en dossiers
    thématiques), catégorisation
  • Traitement des résultats
  • Résumés automatiques
  • Géolocalisation

26
5/ La collecte des données fonctionnement
  • Principes du robot collecteur
  • Partage du même robot par plusieurs outils
  • Modalités dexploration du web
  • exploration initiale
  • soumission manuelle par les webmestres,
    référencement payant
  • sélection des meilleurs sites
  • explorations aléatoires
  • parcours des liens
  • en largeur
  • en profondeur

27
6/ Lindexation des données 6.1 Fonctionnement,
évolutions...
  • Principes
  • base de données index principal et fichiers
    inverses
  • index  cur  du moteur de recherche
  • 4 éléments pour l indexation
  • taille de lindex
  • objets de lindexation
  • nature des ressources indexées
  • méthodes de traitement des données

28
6/ Lindexation des données 6.1 Fonctionnement,
évolutions...
  • Taille de lindex
  • Nombre de pages indexées
  •  course à lindex le plus grand 
  • Google passage brusque à un index de 8
    milliards de pages
  • Yahoo Search Technology 4 milliards
  • Exalead un milliard de pages
  • Objets de l indexation
  • quels champs indexés ? titre, URL, métadonnées,
    frames Différences entre moteurs.
  • Nature des ressources
  • développement de lindexation des documents
    images, sonores...

29
6.2 Lindexation Les techniques de traitement
linguistique
  • TAL (Traitement Automatique des Langues) au
    fondement de lindexation automatisée
  • Différences indexation manuelle / indexation
    automatisée
  • indexation documentaire manuelle les concepts
  • indexation automatisée les mots, texte intégral
  • Méthodes de TAL
  • issues de travaux et de problématiques différents
    de ceux de la RI
  • traitement en  local , pour lanalyse de corpus
    de textes

30
6.2 Lindexation Les techniques de traitement
linguistique
  • Evolution majeure des moteurs de recherche
    intégration des techniques du TAL, notamment dans
    la gestion des requêtes
  • Différents types de traitements linguistiques
  • Présence des méthodes de TAL à la fois dans les
    modules dindexation et de requête différences
    difficiles à établir
  • Enjeu majeur de développement de la RI
  • quelles techniques de TAL pour lindexation,
    notamment avec le web sémantique ?

31
6.4 Indexation Méthodes de traitement
statistique
  • Principale méthode dindexation sur le web
    traitement statistique des mots (pour
    lestimation de pertinence)
  • Problème localisation des traitements
    statistiques
  • dans le module dindexation (sur la base de
    données) ?
  • Ou dans le module de requêtes (sur les lots de
    résultats) (cf plus loin) ?gt les deux à la fois
    identification difficile des méthodes
    statistiques utilisées

32
7/ La gestion des requêtes et des résultats
  • Généralités
  • partie visible du moteur de recherche trois
    grandes fonctions
  • gestion des requêtes fonctions de recherche en
    mode simple et avancé, différentes options de
    filtrage, affinement...
  • gestion des résultats catégorisation,
    classement, question des critères de pertinence
  • gestion de la présentation des résultats
    linéaire, graphique

33
7/ Gestion des requêtes 7.1 Fonctionnalités de
recherche
  • Simplification des procédures, éclatement des
    formulaires
  • diversification des options de recherche en mode
    simple et avancé
  • 4 types doptions linguistiques, recherche
    booléenne, filtrage, affinement
  • options linguistiques gt innovations requêtes
    en langage naturel, correction orthographique,
    lemmatisation...
  • options de recherche booléenne gt innovations
    généralisation du ET implicite, utilisation
    (encore rare) de lopérateur de proximité

34
7.2 Développement des technologies de filtrage
  • Innovation majeure et la plus répandue
    nombreuses possibilités de filtrage
  • géographique du web mondial, francophone
  • linguistique choix de la langue des ressources
  • des types de ressources images, audio
  • des ressources internet web, forum, messagerie,
    weblogs
  • des formats HTML, PDF, DOC, PPT, XLS, RTF
  • des dates nombreuses options
  • des champs titre, URL, host, domaine
  • thématique choix du domaine de recherche (Alta
    Vista)
  • du contenu filtrage  parental  (Alta Vista)

35
7.3 Les fonctionnalités daffinement des requêtes
  • possibilité daffiner une requête à partir dun
    premier lot de résultats
  • reposent sur plusieurs techniques, - spécifiques
    aux moteurs différents niveaux d affinement
  • affinement  simple  restriction de la
    recherche à un lot de résultats, à un site...
  • affinement/extension propositions de pages
    similaires (similar pages)
  • techniques de classification automatique (cf plus
    loin)

36
8/ Méthodes de classement des résultats autre
typologie
  • Méthodes de classement fondées sur le contenu des
    documents
  • indice de pertinence
  • classifications automatiques
  • Méthodes de classement fondées sur
    linfrastructure hypertextuelle du web
  • exploitation des liens des auteurs / éditeurs de
    sites web indice de popularité de Google,
    navigation dans les résultats
  • exploitation des activités des utilisateurs
    mesure daudience, mesure des parcours

37
8.1 Classement des résultats indice de
pertinence
  • Principes
  • classement fondé sur la fréquence dapparition et
    la localisation des termes de la requête dans une
    page web (cf. réponses dans BCDI)
  • attribution dune valeur aux pages indexées
  • absolue indépendante des requêtes (module
    d index)
  • relative dépendante des recherches (module de
    requête)
  • affichage des résultats à partir du calcul dun
    score pour chaque réponse
  • Utilisation
  • première méthode de classement utilisée sur le
    web, la plus répandue
  • Problèmes
  • détournement par le spamdexing

38
8.1 Classement des résultats indice de
pertinence
  • Critères destimation automatique de pertinence
  • pondération calcul du  poids  dun mot selon
  • sa position sur la page  poids  plus
    important dans le titre, en début de texte, en
    majuscules...
  • sa fréquence dans la base calcul des
    occurrences du mot dans la base dindex mots
    rares favorisés, mots fréquents sous-évalués,
    mots-vides éliminés...
  • sa densité calcul des occurrences du mot par
    rapport à la taille du document poids supérieur
    pour les documents plus petits
  • similarité appariement entre mots de la requête
    et du document

39
8.2 Classement des résultats indice de
popularité
  • Principes, origines
  • Utilisation de la nature hypertextuelle du web
    prise en compte des liens entre sites, considérés
    comme des liens de parenté sémantique
  • calcul de la notoriété dun site en fonction du
    nombre de liens pointant vers le site
  • principes scientométriques, pratiques de citation
    entre articles
  • Utilisation
  • indice de popularité lancé par Google en 98
  • originalité et succès de Google et de son
    PageRank
  • Projet Clever, Teoma

40
8.2 Classement des résultats indice de
popularité
  • Critères de calcul de popularité
  • classement des pages par combinaison de plusieurs
    facteurs deux niveaux de pondération
  • 1ère pondération plus forte
  • des  pages pivots  listes de liens,
    sélections de ressources
  • des  pages de référence  pages recevant de
    nombreux liens
  • 2ème pondération plus forte
  • des pages de référence fréquemment citées par
    pages pivots

41
8.2 Classement des résultats indice de
popularité
  • Avantages de l indice de popularité
  • renforcement de la pertinence
  • élimination du spamming
  • Problèmes et limites
  • renforcement de la notoriété  effet
    Saint-Matthieu  (favorise les sites jouissant
    déjà dune certaine notoriété)
  • problème des sites peu connus, des ressources
    nouvelles...
  • problème des liens artificiels, pas toujours
    éliminés
  • exemple de requêtes sur Google sur la psychiatrie
  • Nouvelles pratiques de spamdexing

42
8.3 Classement classification automatique des
résultats
  • Concerne à la fois les technologies daffinement
    des requêtes et le classement des résultats
  • Technologies les plus complexes domaine des
    innovations les plus importantes des moteurs cf
    Exalead
  • Principes
  • organisation dun lot de résultats pour donner
    possibilité daffiner ou étendre la requête
  • répartition des objets dans des classes
  • deux méthodes
  • classifications a priori
  • classification a posteriori

43
8.3 Classement classification automatique des
résultats
  • Principes
  • classement des informations par sujets
  • gt traitement sémantique
  • modélisation des domaines de connaissance
  • automatisation du classement des informations
  • enjeu essentiel mise en ordre du  chaos
    informationnel 

44
8.3 Classement classification automatique des
résultats
  • Classification a priori
  •  classification par apprentissage supervisé 
    classement des éléments dans des classes
    préétablies problème de l élaboration et du
    suivi des classes
  • exemple Voilà et ses domaines prédéfinis
    (sports, arts..)
  • principe des annuaires, avec classification
    préétablie

45
8.3 Classement classification automatique des
résultats
  • Classification a posteriori
  •  classification par apprentissage non
    supervisé ,  clustering  regroupement des
    résultats par comparaison sur la base de
    similarités trouvées dans les documents
  • analyse des caractéristiques statistiques,
    linguistiques, sémantiques du corpus
  • processus automatisé
  • création de groupes
  • répartition des documents dans les groupes et
    attribution d un nom à la classe
  • tri par pertinence au sein des groupes

46
8.3 Classement classification automatique des
résultats
  • Classification a posteriori (suite)
  • Intérêt pour la recherche
  • aide à la sélection dun mot-résultat
  • aide à lélimination des corrélations
    inintéressantes, évidentes ou connues
  • suggestion didées et de pistes nouvelles
  • Complémentarité avec les techniques de
    représentation graphique de linformation
  • exemples Exalead, Vivisimo, AllTheWeb

47
8.4 Traitement des résultats la
géolocalisation
  • Innovation récente
  • Sur Yahoo, Google (USA), FindWhat
  • Principes
  • Identification de lemplacement géographique de
    linternaute
  • Fourniture de résultats, de services locaux,
    proches de lui
  • Liste dadresses proches (hôtels,
    professionnels)
  • Visualisation des résultats sur une carte
  • Itinéraires routiers
  • Enjeux financiers importants
  • Lutte pour les marchés locaux des annonceurs

48
9/ Présentation et traitement des résultats
  • Evolutions dans la présentation des résultats
    deux modèles
  • listes
  • cartographies
  • Enrichissement de la structure et du contenu des
    listes
  • structure des pages identification plus claire
    des différentes parties (rappel de requête, liste
    des résultats  naturels  et liens sponsorisés)
  • représentation des documents enrichissement de
    la description (titre, catégorie, taille du
    fichier, date, extrait ou résumé, pages en
    cache)
  • gt cf Google

49
9.1 Présentation graphique des résultats
  • Principale innovation dans la présentation
    utilisation des techniques de cartographie de
    l information
  • Technologie ancienne (veille) mais difficile à
    mettre en uvre sur Internet ressources
    techniques importantes
  • Pionniers les métamoteurs Kartoo, MapStan,
    Vivisimo
  • Principes
  • présentation des résultats sous forme de carte de
    nuds et de liens
  • nuds documents
  • liens relations entre documents
  • représentation en réseau de sphères (Kartoo), en
     plans de quartiers  avec places et rues
    (Mapstan), en arborescence (Vivisimo)

50
9.1 Présentation graphique des résultats
  • Valeur des nuds
  • document (Kartoo) taille variable selon degré
    de pertinence
  • ensemble de documents (cluster) sur Mapstan
  • Valeur des liens
  • liens sémantiques, de similarité des thèmes
  • Intérêt
  • vision synthétique des résultats
  • mise en évidence des relations entre sites

51
9.2. Présentation des résultats évolutions
récentes
  • La lecture orale des résultats
  • Cf le moteur qui parle Speegle (lancé par la
    société écossaise CEC Systems)Speegle utilise
    la catalogue web de Google 1 logiciel de
    reconnaissance vocale pour lire les notices.
  • 3 formats pour la lecture
  • méta-titre et méta-description
  • url et méta-description
  • url, méta-titre et méta-description
  • comprend aussi un catalogue dactualités

52
9.3 Synthèse des présentations de résultats
(d après S. Dalbin)
  • Mots-clés, listes de référence
  • Indicateurs de contenu d un document
  • Regroupement de références
  • Indicateurs de thèmes
  • Cartes
  • Indicateur du positionnement des documents
  • par rapport aux autres
  • par rapports aux thèmes

53
9.5 Traitement des résultats extraits et
résumés automatiques
  • Extraits automatiques
  • présentation dun extrait dun document sur les
    pages de résultats (Exalead)
  • correspond soit aux mots recherchés, soit aux
    premières lignes du documentgt pas de véritable
     résumé , car pas de reformulation
  • Résumés automatiques
  • Développement encore limité des technologies de
    résumé automatique sur le web système
    Pertinence
  • extraction dune liste de phrases représentant
    idées essentielles d un texte
  • techniques danalyse de discours, système de
    marqueurs linguistiques, affectation dune valeur
    aux tournures linguistiques

54
10. Personnalisation10.1 Des interfaces
  • Tendance lourde de la recherche dinformation
  • Personnalisation des interfaces proposées par les
    outils
  • barre doutils téléchargeable et personnalisable
    (Google, HotBot, Voilà, Mapstan)
  • extension du formulaire de requête (Alta Vista)
  • services d aide à la recherche

55
10. Personnalisation10.2 De la recherche et des
résultats
  • Plusieurs fonctionnalités de personnalisation des
    requêtes
  • systèmes d alerte et de veille (Alta Vista,
    Kartoo)
  • Google Alert alerte des changements dans les
    pages de résultats pour des mots-clés favoris
  • exploitation des résultats envoi, sauvegarde,
    classement dans des catégories, annotations
    (AskJeeves, My Yahoo Search)
  • historique des recherches
  • prise en compte des préférences de linternaute,
    mémorisation et utilisations des requêtes
    précédentes (Ujiko, Eurekster)

56
12/ Autres évolutions de la recherche
d information le web sémantique
  • Evolution du côté de la structuration et de
    lindexation de linformation
  • travaux du web sémantique, généralisation de XML,
    des métadonnées
  • gt mutations peut-être les plus profondes,
    conditionnant toutes les autres
  • touchent à la structuration du document numérique

57
12.1 Evolutions à venir le web sémantique
  • Définition du  Semantic Web 
  • chantier de recherche du W3C
  • Constat des insuffisances du web actuel
  • absence de description et dindexation des
    ressources, etc
  • hétérogénéité des formats
  • pas de structure explicite du web
  • Objectifs
  • meilleure structuration du web, exploitation
    sémantique de la nature du web...

58
12.1 Evolutions à venir le web sémantique
  • Projet du Web sémantique (daprès P. Laublet)
  • Introduction dune couche sémantique
    permettant
  • la description des ressources
  • La description des contenus (métadonnées)
  • La structuration des ressources, avec un certain
    niveau de formalisation
  • gt permettre la recherche dinformations à partir
    des concepts, des notions, et non plus de simples
    chaînes de caractères (mots-clés)
  • Web sémantique
  • (ré) introduction des problématiques
    documentaires de catalogage (avec les
    métadonnées) et dindexation (avec les
    ontologies), MAIS
  • de manière totalement automatisée
  • sur les connaissances et plus seulement sur les
    documents

59
12.1 Evolutions à venir le web sémantique
  • Principes et outils du web sémantique
  • quadruple normalisation nécessaire, quatre
    directions de recherche
  • identification des ressources numériques le DOI
  • description des ressources systèmes de
    métadonnées
  • structuration des documents numériques XML
  • indexation des ressources langages de
    description, thésaurus, ontologies,
    classifications
  • principe fondamental du web sémantique
  • séparation du contenu des documents de
    lorganisation de ce contenu

60
12. Evolutions 12.2. Les métadonnées
  • Ancienneté du principe catalogage
  • Données à propos dautres données
  • informations pour la description des ressources
    enjeu important pour l indexation et la
    recherche
  • Resource Description Framework (préconisation du
    W3C).
  • Diversité des formats, standards, normes de
    métadonnées

61
12.2 Evolutions Les métadonnées
  • Quels apports des métadonnées ?
  • Structures plus stables que HTML
  • amélioration des performances des moteurs de
    recherche
  • exemple d application utilisation des
    métadonnées par Google dans le cadre de son
    projet avec les universités américaines et le
    MIT.
  • description plus fine des contenus et des
    relations entre documents
  • facilitation du classement des contenus
  • meilleure visibilité des droits de propriété
    intellectuelle
  • information sur la gestion du document
  • partage des informations plus facile

62
12.2 Les métadonnées le LOM
  • LOM (Learning Object Metadata )
  • Pour les productions sur les web liées aux objets
    dapprentissage
  • Métadonnées sur les objets d'apprentissage
  • Norme permettant de décrire les objets
    d'enseignement.
  • A partir des métadonnées du Dublin Core en les
    détaillant davantage
  • structure de l'objet (structure, niveau
    d'agrégation),
  • gestion de versions (version, état),
  • gestion plus fine des contributeurs (rôle),
  • description fine des métadonnées utilisées,
    description de l'implémentation technique au-delà
    du format taille, localisation, prérequis
    techniques,
  • gestion plus fine des droits (
  • gestion plus fine du sujet (par mots-clés ou
    classification) type et niveau d'interactivité,
    type de ressource densité sémantique , type
    d'utilisateur
  • Le document LOM va probablement être repris par
    l'ISO. Si l'on souhaite faire de la veille sur
    les métadonnées et le web sémantique, l'IEEE est
    l'institut dont il faut suivre les travaux.

63
12.4 Quelles conséquences du web sémantique sur
la documentation ?
  • Une menace ?
  • Vers lautomatisation complète de la recherche
    dinformation?
  • Une chance ?
  • Travail en profondeur dans la  trame  des
    documents, notion de  granularité  de
    linformation
  • Possibilités inédites de recherche intelligente
    sur le contenu
  • Une revanche ?
  • Généralisation des concepts documentaires
    organisation documentaire du web.

64
  • MERCI DE VOTRE ATTENTION !
Write a Comment
User Comments (0)
About PowerShow.com