Le Data Warehousing: challenge ou mode - PowerPoint PPT Presentation

1 / 64
About This Presentation
Title:

Le Data Warehousing: challenge ou mode

Description:

Repr sentation de la structure de l'H tel Couvent Royal ou du complexe monastique ... m me ferme doivent appartenir au m me propri taire et tre adjacents ... – PowerPoint PPT presentation

Number of Views:84
Avg rating:3.0/5.0
Slides: 65
Provided by: LBD7
Category:

less

Transcript and Presenter's Notes

Title: Le Data Warehousing: challenge ou mode


1
stefano.spaccapietra_at_epfl.ch Laboratoire de bases
de données (LBD) Ecole Polytechnique Fédérale
Lausanne (EPFL), Suisse
2
Modélisation informationnelle espace, temps,
contexte-une approche conceptuelleMADS
Stefano Spaccapietrahttp//lbd.epfl.ch
3
Introduction besoin de - modélisation
(représentation) - décision - échange
4
Modélisation et information géographique
  • Représentation de la structure urbaine de
    St.Maximin
  • Par exemple, pour des analyses socio-économiques
  • Représentation de la structure de l'Hôtel Couvent
    Royal ou du complexe monastique
    (basiliquecouvent)
  • Par exemple, pour létude des procédures
    dévacuation
  • Représentation de la montagne St.Victoire (espace
    géographique)
  • Par exemple, pour établir une cartographie
  • Représentation dune région (Provence), dun pays
    (France)
  • Par exemple, pour des études d'aménagement
  • Représentation dun réseau de transport (routes,
    trains, fluvial, électrique, gaz, etc.)
  • Par exemple, pour la planification de son
    évolution

5
Décision et information géographique
  • Gestion du trafic faut-il doubler une autoroute
    ?
  • Gestion des transports faut-il renforcer une
    ligne ou créer une ligne nouvelle
  • Gestion des risques naturels sait-on faire face
    à une tempête ?
  • Gestion des villes quels sont les
    investissements prioritaires ?
  • Gestion des risques industriels organisation des
    secours ?
  • Gestion de lenvironnement comment choisir les
    bons              indicateurs ?
  • Etudes archéologiques quels types de bâti sont
    compatibles avec les ruines existantes ?
    (simulation)

6
Echanger un besoin incontournable
  • Rarement une base de données contient toutes les
    informations nécessaires
  • L'accès à des données dans d'autres bases de
    données nécessite des solutions humaines (accord
    de partage) et des solutions techniques
    (protocoles d'exportation et d'importation).
  • Les standards cherchent à faciliter la définition
    de ces protocoles. Ils règlent les problèmes de
    syntaxe.
  • La solution des problèmes de sémantique
    (compréhension correcte des informations
    échangées) s'oriente aujourd'hui vers le recours
    aux ontologies (super-dictionnaire métier)

7
Les solutions informatiques
  • Mémorisation des informations
  • Bases de données géographique
  • Bases de données spatiales ou spatio-temporelles
  • Systèmes type SIG/GIS ou SGBD/DBMS étendu
  • Support à la décision
  • Entrepôts de données spatiales ou
    spatio-temporelles
  • Systèmes Data Warehouse
  • Interopérabilité - Echange
  • Protocoles standards
  • Ontologies

8
Les entrepôts de données
Extraction des données

9
Ontologies
  • Un moyen de partager linformation, entre humains
    comme entre ordinateurs
  • Une spécification explicite dune
    conceptualisation" (Gruber)
  • Constituée par
  • un vocabulaire spécifique utilisé pour décrire
    les concepts pertinents pour un certain domaine
    du savoir, et
  • un ensemble de descriptions formelles de la
    signification de ces concepts

10
Les bases de données
  • Modélisation conceptuelle

11
Modélisation conceptuelle
  • Objectif représenter la réalité telle qu'elle
    est perçue par les utilisateurs
  • Avantages
  • Attention portée sur les applications
  • Indépendante des technologies
  • Portabilité
  • Longévité
  • Orientée utilisateur
  • Facilité de compréhension
  • Support du dialogue concepteurs / utilisateurs
  • Permet la collaboration et la validation par les
    utilisateurs

12
Autres avantages
  • Spécifications formelles, non ambiguës
  • Puissance descriptive des concepts
  • Support dinterfaces visuelles (lisibilité)
  • Diagrammes de structure des données
  • Manipulation de données
  • Facilite les échanges dinformations entre SGBD
    différents (interopérabilité)

13
Comment structurer les informations
14
Conception dune BD
  • analyse de la réalité
  • partielle
  • subjective
  • infidèle
  • représentation (modèle)
  • contenu
  • structure
  • règles
  • dynamique
  • description (langage de définition des données -
    LDD)

15
Concepts de base d'un modèle conceptuel
  • Les concepts de base (correspondent aux concepts
    dabstraction de la réalité)
  • entité   ltgt  objet
  • lien  ltgt  association ("relationship")
  • propriété  ltgt attribut 
  • la représentation multiple

16
Des objets complexes
17
Des associations entre objets
  • Association représentation d'un lien non
    orienté entre plusieurs entités (qui jouent un
    rôle déterminé)

Achète
Personne
Maison
"achète" lt 1 personne, 1 maison gt
18
Les objets dans le temps
  • qu'est qu'un client ???
  • Toute personne qui a une commande en cours
  • Toute personne qui a fait une commande dans les
    six derniers mois
  • Toute personne qui a fait une commande dans le
    passé ou qui est susceptible de faire une
    commande dans le futur

19
Les associations dans le temps
Emprunte
Personne
Livre
  • Quels emprunts veut-on dans la BD?
  • Seulement les emprunts en cours
  • Les emprunts des trois derniers mois
  • Aussi les emprunts à venir (réservations)
  • .

20
Les attributs
  • Décrivent linformation (les propriétés) à
    conserver sur
  • un objet
  • une association
  • un attribut

FEMME
Marié à
Personne
MARI
Date_mariage
nom
prénom
salaire
jour
mois année
Domaine 1,31
21
Associations Ternaires
3 objets liés
Achète
Client
Produit
Fournisseur
  • "achète" lt 1 client, 1 produit, 1 fournisseur gt

22
Identifiants
  • Pour désigner un objet (une association) de façon
    univoque
  • Identifiant fixé par l'application clé
  • Ensemble minimal d'attributs tel qu'il n'existe
    pas deux objets (ou deux associations) qui aient
    la même valeur pour ces attributs (exemple
    numéro sécurité sociale)
  • Dans les bases de données relationnelles, toute
    table doit avoir un identifiant
  • Identifiant fixé par le système object
    identifier
  • Valeur discriminante attribuée à chaque objet
    (association) pour la différencier de toutes les
    autres

23
Contraintes de cardinalité
  • Une personne peut ne pas avoir de voiture, en
    avoir 1, 2, n (pas de contrainte)
  • Une voiture a un et un seul propriétaire

24
Contraintes d'intégrité
  • âge ? 0 130 0 âge 130
  • SI mois ? 4, 6, 9, 11 ALORS jour ? 130 ,
  • SINON SI mois2 ALORS jour ? 129,
  • SINON jour ? 131
  • " x,y ? Personne, ltx,ygt ? Mariage
  • gt x.état-civil "marié"
    y.état-civil "marié
  • " x ? Personne, " y ? Voiture, ltx,ygt ? Conduit

  • gt x.âge gt18
  • " x ? Personne,
  • (x.sexeF OR x.agelt18) gt
    x.statut_militaireNULL

25
Représentation multiple
  • Un objet peut avoir plusieurs représentations

Bâtiment
Habitation
Civique
Religieux
Eglise
Synagogue
  • Plusieurs points de vue
  • un bâtiment
  • un bâtiment religieux
  • une église

Couvent
26
Lien de Généralisation / Spécialisation (Is-a)
Raffinement de classification

Bâtiment
Un bâtiment religieux est un bâtiment
Lien IS_A
Bâtiment civique
Bâtiment habitation
Bâtiment religieux
Eglise
Synagogue
Couvent
27
Clusters de spécialisation
Etudiant
Et.garçon
Et.fille
Et.info
Et.archi
Et.3ème
Et.4ème
critère sexe critère
discipline critère année
28
Exemple avec multi-instanciation
overlapping
Moyen de Transport
Accessoire Cinéma
disjoint
disjoint
Véhicule
Avion
Bicyclette
overlapping
Voiture
Objet de collection
29
Spécialisation d'associations
Premier Auteur
  • Dans certaines applications on souhaite savoir
    lequel des auteurs d'un article apparaît en
    premier auteur.

30
Spécialisation de TA avec liens supplémentaires
  • Des liens (comme des attributs) peuvent être
    ajoutés à une association spécialisée

31
Des associations aux multi-associations
  • Une association lie un objet de chaque type
    d'objet lié
  • Une personne possède un logement
  • Parfois, on a besoin de lier des groupes
    d'objets, plutôt que des objets individuels
  • Un groupe de parcelles est restructuré pour
    donner un autre groupe de parcelles
    (remembrement)
  • En modélisation traditionnelle, ceci force la
    création d'un objet "groupe de parcelles" (objet
    artificiel)

32
La multi-association
5 bâtiments 110000 (1,2,3,4,5) représentés par 3
bâtiments 150000 (a,b,c)
  • Pas de correspondance 1-1 ou n-1 entre les
    batiments des deux types
  • Association N-M

t ( 1,2,3,4,5 , a,b,c )
33
Sémantique des (multi-)associations
  • Les associations et multi-associations peuvent
    être enrichies avec une ou plusieurs sémantiques
    prédéfinies
  • Agrégation
  • Transition
  • Génération
  • Et d'autres, dans le domaine spatial, temporel,
    multi-représentation,

34
Agrégation (ou composition)
  • Noms des rôles
  • composant, composé
  • Règle de dérivation
  • Ferme.geometry SpatialUnion (Champ.geometry,Bâti
    ment.geometry)
  • Contrainte
  • les champs et les bâtiment d'une même ferme
    doivent appartenir au même propriétaire et être
    adjacents

35
Transition
  • Décrit l'évolution des objets par rapport à leur
    classification

Personne
Etudiant
Alumnus
Promotion
36
Génération
  • Un ensemble d'objets source génère un ensemble
    d'objets cible

0n cible 1n
Parcelle
0n source 1n
37
Au delà des structures espace, temps, contexte
38
Modélisation multidimensionnelle
  • Décrire la structure des données est fondamental,
    mais il y a beaucoup plus à décrire
  • La localisation dans l'espace des phénomènes qui
    nous intéressent
  • Leur localisation dans le temps
  • Les contextes multiples qui déterminent une
    modélisation particulière
  • Le degré de certitude/incertitude de
    l'information
  • Etc.

39
Espace de représentation multidimensionnel
Classification
deux représentations du même objet selon le même
point de vue à des résolutions spatiales
différentes
Point de vue
Espace (granularité)
40
Un instantané de BD
Classification
Point de vue
Temps
41
Orthogonalité des dimensions de modélisation
réservoirs
rivières
bassins versants
42
Exemple structure des données / espace
ou
Objets spatiaux ou attributs spatiaux ?
Rivière
nom réservoirs
R nom localisation
ou les deux ?
43
Ajouter des annotations spatiales
Dans
Rivière
BassinVersant
nom
C
Sur
Réservoir
R
nom
Rivière
B surface
nom
bassinVersant
réservoirs
Dans
Rivière
BassinVersant
nom
B
réservoirs
44
Ajouter des annotations temporelles
attribut date (user defined time)
Attribut variable dans le temps
numéro nom
nom dateNais adresse f( ) téléphones
rue ville codePostal pays
Personne
Cycle de vie
nom budget
Département
Employé
salaire f( )
Projet
budget
nom présentations
speaker lieu durée
45
Modélisation de l'espace
  • Vue discrète et vue continue
  • Vue discrète
  • objets spatiaux
  • et attributs spatiaux
  • Rivière avec bassins versant, digues, réservoirs
  • ZoneAvalanche avec point de départ, corridors
  • Associations à contraintes spatiales
  • Intersection routière feux, signalisation,
    nombre de collisions
  • topologiques, métriques, d'orientation
  • Vue continue
  • Attributs variables dans l'espace (space-varying
    attributes)
  • Fonction étendue spatiale ? valeurs
  • Exemples altitude, hauteur de pluie, couverture
    du sol, type de sol,

46
Vue discrète et vue continue
  • Vue continue
  • grille (une valeur par cellule)
  • Vue discrète
  • points, lignes ou surfaces (délimitées par des
    lignes)
  • Monde réel

47
Attributs spatiaux
Lac
Type d'objet spatial
nom km2 iles (0,n) profondeur f( ) ports
(0,n) nom localisation capacité
Attribut spatial (surface)
Attribut variable dans l'espace
Attribut spatial (point)
  • UNE IMPLEMENTATION RELATIONNELLE
  • Lac (Lnom, geometry, km2)
  • Island (Lnom, numéro-Ile, surface)
  • Profondeur (Lnom, point, prof)
  • Port (Lnom, nom-port, localisation, capacité)

48
Types spatiaux en MADS
49
Modélisation du temps
  • Mémoriser quand un objet était (est, sera) actif
  • Cycle-de-vie des objets et des associations
  • Validité des valeurs d'attribut
  • Mémoriser l'évolution (passée et future) des
    valeurs des attributs
  • Attributs variables dans le temps
  • Fonction intervalle de temps --gt valeurs
  • Associations à contrainte temporelle
  • Imposer une contrainte temporelle sur le cycle de
    vie des objets liés
  • Associations de synchronisation
  • Ex. Mariage gt les deux personnes vivent au même
    moment
  • Ex. PèreDe gt le père est né avant son enfant

50
Cycle de vie
  • Différentes possibilités
  • un intervalle de temps, ex. Personne
  • un instant, ex. EtoileFilante
  • Un ensemble d'intervalles
  • gt état actif et suspendu
  • ex. un professeur est en sabbatique
  • L'ensemble des états possibles et leurs
    propriétés dépendent des applications

51
Concepts spatio-temporels
  • Variabilité dans l'espace et dans le temps
  • ex. occupation du sol
  • fonction (domaine spatial X domaine temporel)
    --gt valeurs
  • Implémentation ensemble de (point, instant,
    valeur)
  • Objets spatiaux mobiles
  • Point mobile
  • Ex. personne, voiture
  • fonction Temps --gt Point
  • trajectoires
  • Surface mobile tempête, nappe de pollution
  • fonction Temps --gt Surface
  • Avec déformations possibles

52
Les contextes perception et représentations
multiples
53
Multi-Représentation points de vue multiples
Monde Réel
Gestionnaire de risques
Constructeur
Pont
Avalanche
Lac
Bâtiment
Parcelle
Parcelle
Bâtiment
Route
geometry
geometry
no-bât
no-parcelle
Lac
Route
geometry nom
Route
geometry no-route materiau
geometry no-route type nbDeVoies
Lac Léman
Lac de Genève
54
Résolution multiples
moins précise
plus précise
ltN11947, Durandgt
occupation-du-sol surface cultivée, foret,
surface construite
ltN11947, 1987, Durand, 600m2, 2 étagesgt
occupation-du-sol verger, vigne, céréales,
pré, foret
55
Géométrie multiples
Rivière décrite comme surface ou comme ligne
résolution plus précise
résolution moins précise
56
Valeurs multiples d'attributs
  • Décrire la même propriété à différents niveaux
    d'abstraction
  • même idée que les hiérarchies de classification
    pour les objets

occupation du sol
surface cultivée forêt
verger
céréales
oléagineux
vignes
poiriers
citronniers
pommiers
mais
blé
colza
tournesol
57
La solution MADS
  • Identification des perceptions
  • ex. BD Risques naturels
  • Résolutions 1/1000, 1/5000, 1/25000
  • Points de vue Technicien, Gestionnaire, Public
  • gt  T1, T5, T25, G1, G5, G25, P1, P5, P25
  • Chaque objet ou lien du monde réel peut avoir
    dans la BD une ou plusieurs représentations
  • Souvent une par perception
  • Estampillage de chaque élément de la BD et du
    schéma avec l'identifiant des perceptions
    auxquelles il appartient

58
Principes de la solution
  • Deux usages d'une BD "PRM" (perceptions et
    représentations multiples)
  • mono-perception gt BD normale
  • multi-perception gt un nouveau genre de BD
  • Nouvelles règles de cohérence
  • Deux façons de modéliser une BD PRM
  • Intégration
  • Toutes les représentations du même objet sont
    réunies en un seul type d'objet
  • Liens inter-représentation
  • un type d'objet par représentation

59
Des types mono-repr. aux types multi-repr.
Route
Perceptions
numéro (11) integer nom (11) string
f(P) classAdm (11) integer dpt (11)
integer type (11) enum (locale, régionale,
nationale) string
60
Modélisations séparées
61
Ouverture d'une BD PRM
Ouverture avec les perceptions rouge et bleu
toutes les instances
Ouverture avec la perception bleu
Ouverture avec la perception rouge
Road
Route

numéro (11) integer name (11)
string classAdm (11) integer type (11) enum
(locale, régionale, nationale)
numéro (11) integer nom (11) string dpt
(11) integer type (11) string
toutes les instances rouges, rougebleu
toutes les instances bleues, rougebleu
62
Manipulation dans une BD PRM
  • Utilisateur rouge
  • InsertInto Route (numéro D506, nom
    Départementale Paris-Aubervilliers, dpt 78,
    type locale, geometry list-of-coordinates)
  • Utilisateur bleu
  • AddRepresentationTo Route Where (numéro
    D506)(classAdm 3, type route secondaire,
    geometry new-list-of-coordinates)

63
Conclusion
  • Les concepts pour la modélisation conceptuelle de
    l'espace et du temps existent.
  • Une modélisation par dimensions orthogonales est
    préférable.
  • Les outils correspondants ne sont qu'au stade de
    prototypes.
  • Des outils de traduction d'une modélisation
    conceptuelle en spécifications logiques
    (compréhensibles par les systèmes type GIS
    actuels) sont en cours de développement.
  • La représentation multiple est un besoin
    incontournable.
  • L'interopérabilité reste pauvre.

64
Pour en savoir plus
  • Les publications du laboratoire
    http//lbd.epfl.ch
  • Mon email stefano.spaccapietra_at_epfl.ch
  • Un livre
  • Christine Parent, Stefano Spaccapietra, Esteban
    Zimán?yiConceptual Modeling for Traditional and
    Spatio-Temporal Applications
  • Springer2006, 466 p. 115 Illus. 11 Tables.
    Hardcover

Merci pour votre attention
Write a Comment
User Comments (0)
About PowerShow.com