Moteur de recherche multilingue et cartographique NeuroWeb - PowerPoint PPT Presentation

About This Presentation
Title:

Moteur de recherche multilingue et cartographique NeuroWeb

Description:

Moteur de recherche multilingue et cartographique NeuroWeb Pr sent par: MAAROUFI Aymen – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 19
Provided by: MAAR151
Category:

less

Transcript and Presenter's Notes

Title: Moteur de recherche multilingue et cartographique NeuroWeb


1
Moteur de recherche multilingue et
cartographiqueNeuroWeb
  • Présenté par
  • MAAROUFI Aymen

2
PLAN
  • Cadre de la recherche
  • État de lart
  • Pré requis
  • Architecture
  • Application interactive
  • Programme serveur
  • Conclusion

3
Cadre de la recherche
  • Développer des méthodes d'exploration de corpus
    àpartir de cartographies textuelles.
  • Possibilité de supporter des langues et des
    écritures différentes,  techniques des
    N-grammes .

4
État de lart
  • Limites des moteurs de recherche
  • Basés sur la notion de chaînes de caractères.
  • Absence danalyses morpho-syntaxique (même
    graphisme dans la même langue ou dans des langues
    différentes)
  • Approximations de la notion de mot par une
    chaînes de caractères (conjugaison, origines des
    langues, orthographes)

5
État de lart
  • Méthodes de recherche sur le Web
  • _ Un mode de recherche fine Recherche
    dinformations précises, ciblée sur un objectif
    bien cerné.
  • Résultat aléatoire
  • _ Une démarche exploratoire
  • Se faire une idée de ce que le web recèle sur
    certain sujet dintérêt
  • gt Seul Altavista/Refine et Simiomap donne /- de
    bons résultats.

6
État de lart
  • Projet NeuroWeb
  • Fournir des réponses améliorées, cohérentes et
    complémentaires par la mise en place dun
    prototype de moteur de recherche donnant accès à
    des pages web multilingues (FR/CN).

7
Pré requis
  • HYPERMAP
  • Environnement dassistances à lindexation de
    corpus volumineux
  • Détections statiques des mots composés
  • Filtrage des lemmes rares ou fréquents
  • MAJ incrémentale de lindexation et de la B. doc.
  • NEURONAV
  • Interface de navigation cartographique dans une
    base textuelle indexée manuellement ou avec
    HYPERMAP
  • MAJ dynamique de lindexation et du corpus.

8
Pré requis
  • ENGRAMMES
  • Logiciel de cartographie de corpus textuels
    (indépendant langue et écriture) codage des
    documents sous forme de profils de fréquences de
    N-grammes et de visualisation des résultats.
  • PROXILEX
  • Recherche rapide (mots simples et composés) plus
    proche lexicalement du mot clé en entrée.

9
Architecture  administration des données 
  • Module agent web de collationnement et de
    filtrage des pages
  • Explore et repartie les pages des sites donnèes
  • Suppression des balises HTML
  • Établi des stats nombres de caractères hors
    balises, nombre de lien externes, internes
  • Module type web de catégorisation automatique des
    pages web

10
Architecture
  • Module type web de catégorisation automatique des
    pages web (neuronad)
  • Détermine le degré de  typicité 
  • 5 classe!
  • Module Hypermap-Web dindexation lemmatisée par
    mots simples et composés
  • Éliminer des termes composés selon nature
    grammaticale ou sur un critère statistique
  • Module Engrammes-Web multilingue et multi
    écritures
  • - algo. de classification basé sur le hachage et
    le filtrage des page web

11
Application interactive  Interface utilisateur 
12
Application interactive
  • Liste des requêtes
  • Requête de proximité lexicale
  • Requête mot vers pages
  • Requête page vers mots
  • Requête dexpansion dun mot
  • Requête dexpansion dune page
  • Requête de cartographie

13
Navigation dans une cartographie textuelle
14
Programme serveur
  • Communications client/serveur

Serveur IIS Traitement des formulaires Interface
avec les CGI
Poste client (interface graphique) Soumission des
formulaires
Protocole HTTP
Serveur Web
Navigateur web
Pages HTML générées dynamiquement par le serveur
15
Programme serveur
  • Le serveur environnement collaboratif

Moteur relationnel (SQL Server)
Moteur de recherche
cartographie
Serveur web IIS
Approx. lex
Expansion requêtes
N-grammes
Serv txt integ (index Server)
16
Programme serveur
  • Une organisation optimale de la mémoire
  • - Segmentation de la mémoire partagée pour
    optimiser le temps de la recherche
  • Interface avec les scripts CGI
  • - Module du moteur recherche commandé par
    lesapplets à des scripts CGI (VB, Perl, API)
    géré au moyen dune file dattente (spooler).

17
Conclusion
  • Recherche monolingue sur la base dune indexation
    par mots lemmatisés et expressions composés
  • Recherche rapide dans la liste des termes à
    partir de proximité lexicale basées sur les
    N-grammes
  • Recherche dans des corpus de langues et écritures
    exotiques à partir de N-grammes
  • Cartographie des thèmes extraits dun
    sous-ensemble de pages issues dune requête de
    lutilisateur

18
Bibliographie
  • Art. NeuroWeb
  • http//hypermedia.univ-paris8.fr/Hypertexte20dyna
    mique/h2ptm1999.pdf
  • Démo
  • http//hypermedia.univ-paris8.fr/equipe
Write a Comment
User Comments (0)
About PowerShow.com