Data Mining PowerPoint PPT Presentation

presentation player overlay
1 / 99
About This Presentation
Transcript and Presenter's Notes

Title: Data Mining


1
Data MiningText Mining
  • B. Dousset (I.R.I.T.) dousset_at_irit.fr
  • http//atlas.irit.fr

2
I. La veille stratégique
3
Observer et analyser l'environnement
  • Des organismes publics
  • Recherche
  • Administration, ...
  • Des entreprises privées
  • PME/PMI
  • Grands Comptes, ...
  • Des équipes de RD, des décideurs,
  • Depuis
  • Les bases en lignes, les CD/Rom,
  • Internet, la Presse, ...

4
Détecter
  • L'évolution des divers secteurs d'activité
  • Scientifique Technique
  • Economique Financier
  • Juridique Réglementaire
  • Les nouveaux centres dintérêt (signaux faibles)
  • Les nouveaux acteurs
  • Les impacts économiques actuels ou potentiels
  • La concurrence et les menaces
  • Les opportunités de développement

5
Réaliser le Suivi
  • Des marchés
  • Des coopérations
  • Des alliances
  • Des participations
  • De l'innovation
  • Des ruptures
  • Des modes
  • Des implantations
  • Des transferts de technologie
  • Des dépôts de brevets
  • Des équipes de recherche
  • De la terminologie
  • Des bases documentaires
  • Des publications
  • De la publicité
  • Des appels d'offres

6
  • Contexte

Secteurs dactivité publics ou privés
7
II. Méthodologies Identification du besoin
8
III. Les traitements Le réseau de compétences
9
III. Les traitements Le processus de découverte
10
II. Les outils de la découverte
11
Historique du développement
  • 1983 Visualisation 3D dune ACP (DEA)
  • 1985-87 Espace paramétrique en 3D T. Benjamaà
    (Thèse)
  • 1987 Trilogie 3D (ACP, AFC, CAH, CPP)
  • 1989-93 Analyse textuelle, évolution T. Dkaki
    (Thèse)
  • 1993 Tétralogie 4D
  • 1998 Visualisation interactive de CAH (DEA),
  • Réduction de la terminologie (DEA),
    signaux faibles (Stage)
  • 1999 Conception de système dIE M. Salle
    (Thèse et Medesiie)
  • Visualisation de liens en 4D (DEA)
  • 2002 Ingénierie du besoin en IE T. Zid (Thèse
    et Medesiie)
  • 2003 Grands graphes, géostratégie S. Karouach
    (Thèse)

12
Gérer les corpus d'informations
  • Gestion arborescente des applications
  • Héritage des connaissances sur les bases
  • Description des structures par des Méta données
  • Gestion des descripteurs et des outils
  • Correction des données sources
  • Recherche et harmonisation du vocabulaire
  • Génération de filtres, de dictionnaires
  • Génération automatique des matrices
    présences/absences, contingences, cooccurrences

13
Gérer les matrices (Tableur 3D)
  • Epuration matrice
  • Dédoublonage
  • Extractions
  • Relinéarisation
  • Normalisation
  • Comparaisons
  • Carte de matrices
  • Zoom Panoramique
  • Zoom 3D
  • Tris
  • Alphabétique
  • De consistance
  • De connexité
  • Absolu par blocs
  • Relatif par blocs
  • Histogrammes
  • Pré classifications
  • Import/Export

14
Les méthodes danalyse
  • Analyse en Composantes Principales (ACP)
  • Analyse Factorielle des Correspondances (AFC)
  • Visualisations des cartes factorielles (2D, 3D,
    4D)
  • Méthodes de classifications (CAH, CPP)
  • Etude de lévolution
  • absolue (trajectoires par AFM)
  • différentielle (vitesse et accélération)
  • relative (rotations procustéennes)
  • Dessins de graphes relationnels
  • Cartes géostratégiques

15
II. Méthodologies La synthèse de linformation
16
II. Méthodologies Les niveaux de linformation
  • linformation explicite (exogène)
  • linformation implicite (endogène)
  • Maturité de l information
  • Linformation consciente collective (CC)
  • Linformation consciente individuelle (CI)
  • Linformation inconsciente collective (IC)
  • Linformation inconsciente individuelle (I I)
  • La terminologie émergente
  • Les concepts émergents
  • cohérence, simultanéité, consensus

17
III. La préparation des données
18
Décrire le format des données
19
Procéder aux dénombrements
  • Choix des champs
  • Coupure
  • sur fréquence
  • sur
  • Filtres
  • positifs
  • négatifs
  • Synonymes
  • Fichiers produits
  • .ind, .indA, .indF

20
Nécessité dhomogénéiser
  • Exemple des adresses extrait de 146 adresses du
    même organisme
  • ECOLE-NATL-VET-TOULOUSE, 23 CH CAPELLES, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE 03, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ASSOCIE INRA
    PHYSIOPATHOL TOXICOL EXPTL LAB, 23 CHEMIN
    CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, BIOCHIM LAB, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, CTR NATL INFORMAT
    TOXICOL VET, 23 CHEMIN CAPELLES, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23 CHEM
    CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23
    CHEMIN DES CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, ENV
    MICROBIOL MOLEC, INRA LAB, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
    UNITE MICROBIOL MOLEC, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
    UNITE MICROBIOL MOLEC, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
    CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
    CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL,
    TOULOUSE, FRANCE

21
Proposer des synonymies
  • Différentes stratégies
  • Fichier .Syn
  • Propositions
  • Validation
  • Fusion
  • Recomptage
  • Restitution
  • listes doublons
  • classes
  • documents

22
  • Croisements 2D

Exemple Auteurs Journaux (AU JN)
23
  • Croisements 3D

Exemple Auteurs Auteurs Dates (AU AU DP)
24
IV. La découverte par les méthodes de tris
25
Le Tri de Consistance
  • Tri des lignes et colonnes
  • Tri dune seule ligne
  • Tri dune seule colonne
  • Recherche
  • dEquipe
  • de Leader
  • de typologie
  • Emergence
  • de Terme
  • de Concept
  • de Revue
  • dAuteur
  • de Lien

26
Les réseaux de liens
  • avec une ligne
  • avec une colonne
  • coloration
  • fonction du lien
  • linéaire
  • non linéaire
  • noms
  • longs
  • courts
  • niveau de coupure
  • en du max

27
Zooms de matrices en 2D
28
Visualisation des matrices en 3D
  • Vue simultanée
  • de l'amplitude
  • de la répartition
  • des liens
  • Zoom
  • Rotations en 3D
  • Visualisation des classes
  • Sélection de sous matrices
  • Importation de rotations
  • Exportation de rotations

29
Le Tri de Connexité
  • Matrice non connexe
  • Classes connexes

30
La Suppression de Liens Faibles
  • Déconnexion partielle
  • Tri de connexité
  • Détection
  • des sous groupes
  • du nombre de classes
  • des liens faibles
  • Confrontation avec
  • Valeurs propres
  • AFC vue en 4D
  • Classifications

31
Le Tri par Blocs Diagonaux
  • Utilisé lorsque la matrice est carrée et connexe
  • Détecte les clusters (groupes homogènes)
  • Les place le long de la diagonale
  • Le zoom du tableur permet
  • Leur mise en évidence
  • La navigation le long de la diagonale
  • Extraction possible des clusters
  • Analyse descendante par AFC
  • Confrontation avec les classifications
  • Détail du contenu des lignes et des colonnes

32
  • Utilisation des tris diagonaux

Tri par classes de connexité
33
Exemple Co-citations de Brevets
Brevets qui citent les mêmes références
34
  • Détection des multi-termes

35
Révéler les Concepts émergents
36
V. La découverte par la théorie des graphes
37
  • Dessins de graphes

Placement initial aléatoire
Placement circulaire en fonction dun tri
Convergence rapide du placement des sommets
.

?Algorithme de Fruchterman91 Attraction
Répulsion





38
  • Choix ergonomiques

Icônes colorés en fonction des classes
Icônes en bâtons
Icônes proportionnels
39
  • Sélection dun sommet

Graphe local
40
  • Navigation dans les grands graphes

Graphe des plus proches voisins
Graphe initial
Elimination progressive des liens faibles
Masquage des sommets au dessous du seuil
Affichage de la valeur de chaque arête du graphe
41
Partitionnement par Markov Clustering
42
Convergence vers les classes MCL
43
  • Extraction des classes MCL

Graphe des classes
Extraction des classes
44
Réseaux sémantiques
  • Démarche
  • Recherche des clusters sémantiques
  • Utilisation de plusieurs mesures
  • liens absolus
  • liens relatifs
  • équivalences
  • seuillages

45
Visualisation du graphe de clusters
46
Visualisation du graphe partitionné
47
Liens extérieurs à la classe
  • Coloration
  • Nuds internes en bleu
  • Nuds externes colorés

48
Exploration par transitivité
49
Exploration par transitivité
50
Structure des équipes
Equipe Degen co
Equipe Etienne
51
Réseau auteurs-pays
52
Réseau auteurs-villes
Liens caraïbes
53
VI. La découverte par l'analyse
multidimensionnelle
54
LAnalyse en Composantes Principales
  • Sapplique aux données quantitatives
  • Nuage des lignes dans lespace des colonnes
  • Recherche des axes principaux de ce nuage
  • Meilleure Visualisation de ce nuage en 2D, 3D, 4D
  • Représentation du cercle de corrélation des
    colonnes
  • Confrontation des 2 vues pour trouver des
    relations
  • Mise en évidence par Sélections et Liens
  • Analyse descendante des autres axes factoriels

55
Observatoire de la qualité des lanalyses
56
Visualisations en 2D et en 3D
  • 2D Visualisation
  • 3D Visualisation

57
Nuage des individus en 4D
58
Cercle de corrélation des variables
59
Synchronisation des deux cartes
60
LAnalyse Factorielle des Correspondances
  • Qualité de lAnalyse
  • Paramètres associés
  • Valeurs Propres
  • Vecteurs Propres
  • Inerties
  • Valeurs Cumulées
  • Corrélations
  • Densités
  • Contributions
  • relatives et absolues
  • ACP sur les profils
  • Données qualitatives
  • Données binaires
  • Tableaux de contingence
  • Une seule carte
  • Lignes (individus)
  • Colonnes (variables)
  • Analyse de la typologie
  • La proximité a un sens

61
Choix dun azimut par rotation
62
Exportation de rotations choix dazimut
  • Variables (colonnes)
  • Individus et Variables

63
Carte factorielle 4D Thèmes - Auteurs
64
Sélection Multiple Classe dIcônes
  • Garder
  • la Sélection
  • le Reste
  • Extraire
  • les Noms
  • les Notices
  • Classer
  • La Sélection

65
Analyse des sources dinformation
Pascal SCI
Pascal
50 Sources
138 Sources
Web of Science
Pascal CC
SCI CC
Current-Contents
59 Sources
66
VII. La découverte par les méthodes de
classification
67
La Classification Ascendante Hiérarchique
  • Décomposition en Classes Imbriquées
  • Plusieurs Types de Critères
  • Distance Euclidienne
  • Distance Maximum
  • Distance Minimum
  • Distance Moyenne
  • Représentation sous forme dArbre Planaire
  • Exportation des Classes vers Vues 4D

68
Navigation dans une Classification
LAAS (Toulouse) Classes thématiques
Equipe
Ligne de coupure
69
Exportation dune Classification
Classes superposées
Ligne de coupure
Le plan principal nest pas la bon choix
70
La Classification Par Partitions
  • Méthode non hiérarchique
  • Sélection préalable du nombre de classes
  • Distance Inter Classe Maximum
  • Distance Intra Classe Minimum
  • Processus Itératif
  • Deux Méthodes
  • Les Centres Mobiles
  • Les Nuées Dynamiques

71
Principe de la méthode
  • Méthode des centres mobiles
  • supervisée
  • k classes
  • 1 représentant
  • choix en 3D
  • coloration
  • icônes

72
VIII. La découverte par analyse chronologique et
spatiale
73
La Matrice des Cooccurrences Multiples (2 à 4
plans)
74
Analyse factorielle des correspondances multiples
(AFCM)
75
La Notion de Trajectoire
76
  • Analyse procustéenne (de Procuste ou Procrustes)
  • Celui qui allonge en tirant, devenu le symbole de
    luniformité
  • "Dans la légende grecque ,
  • Procruste est un bandit qui hante la route près
    d'Eleusis.
  • Il invite des voyageurs, quil étend sur un des
    deux lits qui meublent son logis,
  • l'un très long, l'autre très court.
  • Si l'hôte est trop grand pour le petit lit,
    Procuste lui ampute les jambes,
  • s'il occupe l'autre, Procuste l'étire jusqu'à ce
    quil cadre avec le lit."

77
Principe de lanalyse
  • Evolution dun nuage de points
  • Enlever
  • la translation moyenne
  • la rotation moyenne
  • lhomothétie moyenne

78
Cartes géostratégiques
SOUTH-KOREA SPAIN SRI-LANKA SUDAN SURINAME
SWAZILAND SWEDEN SWITZERLAND SYRIA TAIWAN
TAJIKSTAN TANZANIA THAILAND TOGO
TRINIDAD-TOBAGO TUNISIA TURKEY UK UAE
UGANDA UKRAINE URUGUAY USA UZBEKISTAN VENEZUELA
VIETNAM YEMEN YUGOSLAVIA ZAMBIA ZIMBABWE
BULGARIA BURKINA-FASO BURUNDI CAMBODGE CAMEROON
CANADA CTRL-AFRICAN-REP CHAD CHILE CHINA
COLOMBIA CONGO CONGO-PEOPL-REP
COOK-ISLAND COSTA-RICA COTE-IVOIRE CROATIA
CUBA CYPRUS CZECHOSLOVAKIA CZECH-REPUBLIC
DENMARK DJIBOUTI DOMINIQUE ECUADOR EGYPT
ERITREA ESTONIA ETHIOPIA FIJI FINLAND
FR-POLYNESIA FRANCE FR-GUIANA GABON
GAMBIA GEORGIA GERMANY GHANA GREECE GROENLAND
GUADELOUPE GUATEMALA GUINEA GUINE-B GUINE-E GUY
ANA HAITI HONG-KONG HUNGARY ICELAND INDIA
INDONESIA IRAN IRAQ IRELAND ISRAEL ITALY
JAMAICA JAPAN JORDAN KAZAKHSTAN
KENYA KIRIBATI-ISLANDS KUWAIT KYRGYZSTAN LAOS LAT
VIA LEBANON LESOTHO LIBERIA LIBYA LITHUANIA
LUXEMBOURG MADAGASCAR MAKEDONIA
MALAWI MALAYSIA MALDIVE-ISLANDS MALI
MARTINIQUE MAURITANIA MAURITIUS MEXICO
MOLDOVA MONGOLIA MOROCCO MOZAMBIQUE MYANMAR NAM
IBIA NEPAL NETHERLANDS NEW-CALEDONIA
NEW-ZEALAND NIGER NIGERIA NIUE NORTH-KOREA NORW
AY OMAN UZBEKISTAN PAKISTAN PANAMA
PAPUA-NEW-GUINEA PARAGUAY PERU PHILIPPINES
POLAND PORTUGAL PUERTO-RICO QATAR REUNION
ROMANIA RUSSIA RWANDA SALVADOR SAUDI-ARABIA
SENEGAL SERBIA SIERRA LEONE SINGAPORE
SLOVAKIA SLOVENIA SOMALIA SOUTH-AFRICA
Dictionnaire des noms standards des
pays AFGHANISTAN ALBANIA ALGERIA
ANGOLA ANTIGUA-BARBUDA ARGENTINA
ARMENIA AUSTRALIA AUSTRIA AZERBAIJAN BAHRAIN BA
NGLADESH BARBADOS BELARUS BELGIUM BELIZE BENIN
BHOUTAN BOLIVIA BOSNIA BOTSWANA BRAZIL BRUNEI
79
Echelle de coloration



80
Application de pondérations

Carte en valeurs absolues

81
Zones géographiques


82
Segmentation automtique
Segmentation
83
Importation de classifications
Importation dune classification

Niveau de coupure
Effectifs des classes

84
Etude de lévolution par animation
  • Caractéristiques de lanimation
  • en fonction du temps matrice PA-DP
  • par défilement de chaque variable
  • par sélection de groupes de variables
  • en mode absolu ou relatif
  • en fonction du codage
  • en fonction du niveau de coupure (CAH)


85
Evolution relative entre deux périodes
Pays non présents dans la dernière période
.




Pays en récession
Pays en forte croissance
Carte en mode relatif étude de tendances
86
IX. Possibilités Actuelles et Perspectives
87
Réalisations dEtudes Ponctuelles
  • Etat de l'art dans un domaine de recherche
  • Suivi de l'évolution d'un domaine
  • technique,
  • économique,
  • juridique, ...
  • Etude du positionnement
  • d'un organisme,
  • d'une société, ...
  • Evaluation de composantes stratégiques
  • Veille automatique

88
Collaboration avec les Experts
  • Mise au point de scénarios d'analyse pour chaque
    type de base
  • Elaboration doutils spécifiques
  • filtres,
  • dictionnaires de synonymes, ...
  • Interrogations multibases
  • Veille en continu (sentinelles)
  • Qualification d'experts Tétralogie,
  • Accords de prestations de service en VT

89
Collaboration avec les Utilisateurs
  • Mise en place de serveurs plus puissants
  • à l' IRIT (développement)
  • à la BU (exploitation CD et bases en ligne)
  • chez des utilisateurs ayant suivi la formation
  • Mise à jour automatique du Logiciel
  • Mise en commun des outils sur les serveurs
  • Descripteurs de bases
  • Reformatage, filtrage, dictionnaires
  • Club des utilisateurs de Tétralogie

90
Perspectives
  • Extension de la norme "ATLAS" avec nos
    partenaires
  • Amélioration des méthodes existantes
  • Ajout de nouvelles méthodes danalyse
  • Recherche et filtrage de l'information
  • Extension vers le traitement du langage naturel
    (Texte intégral, Multilinguisme)
  • Extension vers des systèmes "sentinelles" de
    veille automatique

91
Secteurs potentiels
  • L'optimisation de la définition des filières
    d'emplois
  • L'aide à la décision dans les choix
  • technologiques
  • mercantiques
  • gestionnaires des entreprises
  • Un meilleur positionnement en matière de
    propriété industrielle
  • La résistance à la concurrence
  • Les études de marchés, ...

92
X. Diffusion
93
Le Serveur TétraWeb
  • Lexique de la veille
  • Documentation en ligne
  • Dates, lieux et contenu des cours de formation
  • Liste des utilisateurs
  • Mode d'accès aux serveurs
  • Coordonnées des experts pour chaque domaine
  • Liste des manifestations sur la veille
  • Nouveaux outils et leur mode d'utilisation
  • Conseils pour les analyses

94
http//atlas.irit.fr
95
Présentation dune macro analyse
96
Accès aux fichiers et aux graphiques
97
Portail pour les micro analyses
98
Visualisations Interactives
99
Cartographie Interactive
Write a Comment
User Comments (0)
About PowerShow.com