Convergence de produits logiciels et dinformation en Fouille de Donnes Data Mining et Extraction de - PowerPoint PPT Presentation

Loading...

PPT – Convergence de produits logiciels et dinformation en Fouille de Donnes Data Mining et Extraction de PowerPoint presentation | free to view - id: 2a32ac-ZDc1Z



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

Convergence de produits logiciels et dinformation en Fouille de Donnes Data Mining et Extraction de

Description:

Le point de vue adopt (en Fayyad et al., 1996) est que 'KDD' d signe l'ensemble du processus d'extraction de connaissances utiles partir des donn es ... – PowerPoint PPT presentation

Number of Views:31
Avg rating:3.0/5.0
Slides: 35
Provided by: ini53
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: Convergence de produits logiciels et dinformation en Fouille de Donnes Data Mining et Extraction de


1
Convergence de produits logiciels et
dinformation en Fouille de Données (Data Mining)
et Extraction de Connaissance à partir de Bases
de Données (Knowledge Discovery in Databases)
  • Xavier Polanco
  • URI-INIST-CNRS
  • polanco_at_inist.fr
  • Séminaire ADEST - 15 février 2000

2
Plan
  • Distinction et concept Fouille de données (DM)
    et Extraction de Connaissance à partir de BD
    (KDD)
  • Fouille de textes (Text Mining)
  • Données factuelles versus bibliographiques et
    textuelles
  • Applications et produits
  • Références utiles

3
Emergence du domaine
  • Workshops
  • 1991, 1993, 1994
  • International Conf. on KDD and DM
  • 1995, 1996, 1997, 1998, 1999
  • European Symposiums
  • 1997, 1998, 1999
  • Data Mining and Knowledge Discovery Journal (1997)

4
SIGKDD est créé en 1999
  • Special Interest Group Knowledge Discovery in
    Databases (1999) de lAssociation for Computing
    Machinery (ACM)
  • SIGMOD (Database Research), SIGIR (Information
    Retrieval), and SIGART (artificial intelligence)
  • http//www.acm.org/sigkdd/charter.html

5
Distinction et concept
  • 1

6
Expressions synonymes
  • Knowledge Discovery in Databases (KDD), also
    known as Data Mining, has emerged in the last
    decade
  • in reponse to the challenge of turning large and
    ubiquitous databases into knowledge that can be
    used in practice
  • (Second European Symposium, PKDD98)

7
Tâche commune
  • A partir de données brutes (raw data), il sagit
    de produire de la connaissance utile (useful
    knowledge)
  • The notion of finding useful patterns (or
    nuggest of knowledge) in raw data has been given
    various names, including knowledge discovery in
    data bases, data mining, knowledge extraction,
    information discovery, information harvesting,
    data archaeology, and data pattern processing
  • (Fayyad et al., 1996, p. 3)

8
Extraction de Connaissances à partir de Bases de
Données (KDD)
  • Le terme knowledge discovery in databases, (KDD),
    est utilisé depuis 1989
  • pour signifier le processus dextraire de la
    connaissance à partir des données, et
  • pour souligner le high-level dans
    lapplication de méthodes de fouille de données
    (data mining)
  • (Fayyad et al., 1996, p. 1-34)

9
Distinction
  • Le terme data mining, ou fouille de données,
    a été habituellement utilisé par les
    statisticiens, les analystes de données, et la
    communauté de systèmes de gestion de
    linformation
  • Tandis que KDD a été principalement utilisé par
    les chercheurs en intelligence artificielle et
    apprentissage automatique

10
Pour signifier lensemble du processus
  • Le point de vue adopté (en Fayyad et al., 1996)
    est que KDD désigne lensemble du processus
    dextraction de connaissances utiles à partir des
    données
  • Tandis que data mining se réfère
  • à lapplication dalgorithmes pour lextraction
    de formes à partir des données,
  • sans considérer les étapes où il est question
    dincorporer la connaissance du domaine et
  • de linterprétation des résultats

11
Concept
  • Le processus total de trouver et dinterpréter
    des formes (patterns) à partir des données, est
    reconnu sous le nom de ECBD (KDD)
  • un processus homme-machine interactif et
    itératif, basé sur des algorithmes de data
    mining,
  • et qui suppose linterprétation des formes
    générées par ces algorithmes

12
Convergence de domaines
  • ECBD est le résultat de la convergence de
    recherches en
  • apprentissage automatique
  • reconnaissance de formes
  • bases de données
  • statistique
  • intelligence artificielle
  • visualisation de données
  • Les systèmes de ECBD sont donc basés sur de
  • méthodes
  • algorithmes
  • techniques
  • provenant de ces différents domaines

13
Etapes du processus
  • 1. Compréhension du domaine dapplication
  • 2. Création du fichier cible (target data set)
  • 3. Traitement des données brutes (data cleaning
    and preprocessing)
  • 4. Réduction des données (data reduction and
    projection)
  • 5. Définition des tâches de fouille de données
  • 6. Choix des algorithmes appropriés de fouille de
    données
  • 7. Fouille de données (data mining)
  • 8. Interprétation des formes extraites (mined
    patterns)
  • 9. Validation des connaissances extraites
  • (source Fayyat et al., 1996, p. 1-34)

14
Text-Mining Fouille de textes et/ou données
textuelles
  • 2

15
Data Mining et Text Mining
  • Lexpression Data Mining est en général
    utilisée quand on travaille sur des données
    structurées dans des bases relationnelles
  • On parle de Text Mining lorsquil sagit de
    données textuelles (textual data)
  • Text Mining est lextraction dinformation
    utile à partir des formes non manifestes (hidden
    patterns) dans des grands corpus de textes
  • (Feldman et al. 1998)

16
Fouille de données textuelles
  • Text Mining est un nouveau domaine de recherche
    qui essaye de résoudre le problème de la
    surabondance dinformation textuelle
  • utilisant des techniques de data mining,
    machine learning, information retrieval,
    natural-language understanding, case-based
    reasoning, statistics, and knowledge
    management
  • le but est daider les personnes à gagner de la
    connaissance à partir de grandes quantités de
    textes semi-structurés ou non-structurés
  • (source IJCAI99 - Text Mining Workshop)

17
Processus de la fouille de textes(IJCAI99 Text
Mining Workshop)
  • Les processus que la fouille de textes implique
    sont
  • Pré-traitements de la collection de documents
  • (p. ex. catégorisation des textes ou extraction
    de termes)
  • Stockage et Indexation des documents
  • Analyse des représentations intermédiaires
  • (via p. ex. analyse de distribution,
    classification automatique (clustering), analyse
    de tendances, découverte de règles dassociation)
  • Visualisation des résultats.

18
Etapes de la fouille de textes
  • 1. Sélection du corpus (data selection)
  • 2. Extraction terminologique
  • extraction des termes
  • filtrage des termes extraits
  • 3. Classification
  • automatique (clustering)
  • taxonomie (classement)
  • 4. Visualisation des données cartographie
    (graphes, ...)
  • 5. Interprétation des résultats

19
Au niveau inter-document
  • Les opérations de Text mining ont pour objet la
    distribution de concepts au niveau inter-document
  • Le but est de découvrir les concepts et leurs
    rapports tels quils se trouvent dans la
    collection considérée comme un tout
  • (Feldman et al. 1998)

20
Relations conceptuelles
  • Un instrument central de la fouille de données
    textuelles est lanalyse des relations
    conceptuelles (concept relationships)
  • Une collection déléments séparés (documents)
  • Chaque document représente un ensemble de
    concepts (termes)

21
Analyse des relations conceptuelles
  • Lanalyse des relations conceptuelles cherche à
    découvrir les rapports entre concepts, tels que
    nous pouvons les dégager de la totalité du corpus
    disponible

22
Exemple
  • Un nombre croissant de documents (articles,
    brevets) à propos de la société Y et le produit Z
    peut indiquer un changement dorientation
    concernant les intérêts de la firme
  • Il faut voir que linformation nest pas fournie
    par un seul document isolé, mais par lensemble
    de la collection

23
Marché et Produits
  • 3

24
Evaluation de lACM (1)
  • Le domaine de lExtraction de Connaissances et de
    la Fouille de Données se trouve aujourdhui au
    niveau où était 15 ans auparavant le domaine des
    bases de données
  • Il y a plus dune centaine de sociétés
    fournissant des outils de fouille de données, des
    applications, de conseil (consulting), de la
    formation et des séminaires, et même de
    hardware spécialisé

25
Evaluation de lACM (2)
  • Le domaine se trouve au début de la phase
    dadoption par le marché, et lon prévoit que
    dans 3 à 5 ans, la phase de produits commerciaux
    passera à létat de maturité
  • Dans les prochains 10 ans, la technologie de la
    Fouille de Données et de lExtraction de
    Connaissance à partir de Données deviendra une
    partie intégrante des technologies de
    linformation dans le monde des entreprises

26
Produits et Sociétés
  • 109 produits logiciels (12 européens)
  • http//www.kdnuggets.com/companies/products.html
  • 67 sociétés consultant et formation
  • http//www.kdnuggets.com/companies/consulting.html
  • voir aussi Yahoo List of Data Mining Companies

27
Exemples de produits dinformation
  • IST
  • space sur des données de lobservatoire Palomar
    (SKICAT), et sur des images des volcans de Venus
    (clustering)
  • chimie fouille de données sur des articles et
    des brevets en chimie (CLARIT, IBM)
  • biologie sur la séquence des protéines

28
Exemples de produits dinformation
  • Santé
  • sur des données de santé (KEFIR), pour la
    détection de fraudes dans lassurance maladie
    (arbres de décisions)
  • Marchés financiers
  • prédiction de risques en crédit (arbres de
    décisions)
  • Marketing
  • pour lanalyse de consommateurs (facturation,
    code barre)

29
Références utiles
  • 4

30
Sites dans la Toile
  • Knowledge Discovery NuggetsÔ Directory Data
    Mining and Knowledge Discovery Ressources
  • http//www.kdnuggets.com/index_kdm.htm
  • ACM Special Interest Group (SIGKDD) home page
  • http//www.acm.org/sigkdd
  • Data Mining and Knowledge Discovery Journal
  • http//www.wkap.nl/jrnltoc.htm
  • Pour les deux derniers symposiums européens
  • http//www.sciences.univ-nantes.fr/pkdd98/
  • http//lisp.vse.cz/pkdd99/

31
Définitions et Terminologie
  • Data Mining Glossary
  • http//www.twocrows.com/glossary.htm
  • Glossary of Data Mining Terms
  • http//www.pilotsw.com/r_and_t/whtpaper/datamine/d
    mglos.htm
  • Glossary of Machine Learning and KDD Terms
  • http//orgwis.gmd.de/projects/explora/terms.html
  • Data Warehouse Terminology
  • http//www.credata.com/research/terminology.html

32
Bibliographie
  • Fayyad et al., Advances in Knowledge Discovery
    and Data Maning. Menlo Park, Calif., AAAI Press /
    The MIT Press, 1996 (611 p.)
  • IEEE Expert, 1996, vol. 11, n 5, numéro consacré
    au data mining
  • Y. Kodratoff LExtraction de Connaissances à
    partir de Données, Reveu Electronique sur
    lApprentissage par les Données, vol. 1, n 1,
    juin 1997, p. 1-28
  • http//chirouble.univ-lyon2.fr/gtra/numero1/Kodrat
    off_Mai97_fr.htm

33
Bibliographie (suite)
  • Principles of Data Mining and Knowledge Discovery
    (J.M. Zytkow et M. Quafafou, eds). Berlin,
    Springer Verlag, 1998 (482 p.)
  • Sur text mining, voir Feldman et al. in
    Principles (ci-dessus)
  • Sur visualisation, voir Polanco et al. in
    Principles (ci-dessus)
  • Carla E. Brodley et al. Knowledge Discovery and
    Data Mining, American Scientist, vol. 87,
    January-February 1999, p. 54-61

34
Bibliographie (suite)
  • IEEE Computer, Special Issue on Data Mining, vol.
    32, n 8, 1999
About PowerShow.com