DataGRAAL DataGRid pour Animation et Applications Large chelle - PowerPoint PPT Presentation

1 / 28
About This Presentation
Title:

DataGRAAL DataGRid pour Animation et Applications Large chelle

Description:

T che 1 : Besoin applicatif. CEA , CESR , IN2P3 ' Retour ' d'exp rience de DataGrid ... Applicatif (type de fautes, nombre de fautes, temps de recouvrement) ... – PowerPoint PPT presentation

Number of Views:68
Avg rating:3.0/5.0
Slides: 29
Provided by: yvesden
Category:

less

Transcript and Presenter's Notes

Title: DataGRAAL DataGRid pour Animation et Applications Large chelle


1
DataGRAALDataGRid pour Animation et
Applications à Large échelle
  • Yves Denneulin IMAG-ID
  • Pierre Sens LIP6 - INRIA

2
Partenaires
  • Communauté bases de données
  • PRISM SMIS (INRIA Univ. Versailles St
    Quentin)
  • LIRMM (Univ. Montpellier)
  • LSR-IMAG (Grenoble)
  • LISI (INSA Lyon)
  • Communauté système
  • PARIS (IRISA)
  • LRI - Equipe Cluster (Université Paris 11)
  • REMAP (LIP - ENS Lyon)
  • LIP6 (Université Paris 6)
  • Apache ID IMAG
  • HP Labs
  • Applications
  • CERS
  • IN2P3

3
Contexte
Problématique
Caractéristiques des nuds
Grands sites de calcul, Clusters
  • lt1000
  • Stables
  • Identification
  • individuelle
  • Confiance

Les Grilles de calcul ou  GRID 
2 types de grands systèmes distribués
Les systèmes distribués à grande échelle
  • 100 000
  • Volatiles
  • Pas dident
  • individuelle
  • Pas de
  • confiance

PC
Les systèmes de Calcul Global
Les systèmes Pair à Pair
4
Problèmes ouverts dans la gestion des données
Problématique
  • Qualité de service dans laccès aux données
  • Efficacité des accès
  • Disponibilité
  • Tolérance aux fautes
  • Hétérogénéité des sources
  • Persistance
  • Modèles de partage
  • Ecritures multiples
  • Protocoles de cohérence

5
DataGRAAL Les objectifs
Objectifs
  • Gestion des données à très large échelle?
    exploratoire
  • Multi-communautaire Profiter/confronter les
    expériences des BD, système, applications ?
    animation
  • Identification de thématiques/concepts communs
  • Maquettes dexpérimentation

6
DataGRAAL les applications
Objectifs
  • Stockage
  • Grande quantité
  • Dispersion des données
  • Hétérogénéité

7
Coopération entre communautés
Complémentarité
  • Communauté système
  • Issus des expérience des systèmes répartis et
    pair-a-pair
  • Protocole de localisation
  • Placement, déploiement
  • Protocole de cohérence
  • Détection et gestion des fautes
  • Communauté bases de données
  • Gestion de grandes quantités de données
  • Hétérogénéité
  • Mobilité
  • Médiation
  • traditionnellement, architecture faiblement
    distribué

8
Coopération (2)
Complémentarité
  • Applications
  • physique des particules
  • physique des plasmas
  • simulation de grands systèmes physiques
  • Idée de la coopération
  • faire se rencontrer des communautés différentes
  • contexte stockage distribué de grandes
    quantités de données

9
Atouts des partenaires
Complémentarité
  • PRiSM/INRIA
  • langage de requêtes, fouille de données
  • exploitation de grandes quantités de données
  • LSR
  • Eclatement d un SGBD en un ensemble de services
    (persistance, duplication, )
  • Connaissance approfondie des architectures de
    SGBD
  • LISI
  • Systèmes dinformation à large échelle
  • LIRMM
  • médiation, exploitation de résultats venant de
    nombreuses sources

BD
10
Atouts des partenaires (2)
Complémentarité
  • IRISA / PARIS
  • Maîtrise des mémoires partagées
  • Partage de mémoire pair-è-pair
  • Expérimentations avec JXTA
  • LRI
  • Calcul haute performance sur P2P
  • Tolérance aux fautes
  • LIP6
  • Modèle de cohérence hiérarchiques
  • Gestion des fautes dans environnement asynchrone
  • Systèmes multi-agents
  • LIP ReMaP
  • Environnement de type grille
  • Traitement de grande masses de données
  • Redistribution dynamique des données et tolérance
    aux pertes

Système
11
Atouts des partenaires (3)
Complémentarité
  • HP Labs
  • environnement de grappe virtuelle
  • forte volatilité
  • Laboratoire ID
  • expérience architecture grande grappes
  • administration, gestion
  • déploiement efficace d applications sur un grand
    nombre de nuds

Infrastructures
12
Atouts des partenaires (4)
Complémentarité
  • IN2P3
  • expérience dans la gestion de grandes quantités
    de données
  • élément central de Datagrid
  • CESR
  • fusion de plusieurs grandes bases en une seule
  • requêtes hétérogènes à traiter, stockage réparti
  • CEA
  • expériences grandeur nature
  • modélisation du climat, de la terre
  • forte complexité des données
  • grand nombre de sites

Applications
13
Identification des tâches (provisoire)
Axes
  • Tâche 1 Besoins applicatifs (Tâche
    transversale)
  • Moteurs CEA / CESR / IN2P3
  • Tâche 2 Déploiement de données
  • Moteurs LRI / LIP / LIP6 / LISI
  • Tâche 3 Accès efficace aux données
  • Moteurs PRISM / LIRMM / LIP / LSR
  • Tâche 4 Partage de données
  • Moteurs IRISA / LIP / LIP6 / PRISM / LSR
  • Tâche 5 Modèle de cohérence
  • Moteurs IRISA/ LIP6 / PRISM / LSR
  • Tâche 6 Tolérance aux fautes
  • Moteurs LIP6 / LRI / LIP
  • Tâche 7 Apport des approches multi-agents
  • Moteurs LIP6 / IRISA

14
Tâche 1 Besoin applicatif
Axes
  • CEA , CESR , IN2P3
  •  Retour  dexpérience de DataGrid
  • Capacité de stockage
  • 5-8 PetaOctects / année
  • 10 PetaOctects de disque
  • Puissance de calcul
  • 200 000 PC rapides
  • Répartition du volume ? Grain.
  • Quelles disponibilités, persistance ?
  • Mode de partage ?

15
Tâche 2 Déploiement
Axes
  • LRI
  • XtremWeb
  • LISI
  • Technique de cache Web
  • LIP6
  • Algorithmes de placement de données / observation
  • LIP
  • DIETIBP - Redistribution, Placement

16
Tâche 2 déploiement (2)
Axes
  • Constat Placement de données très statique
  • Exploration 1 vers plus de dynamicité
  • Nécessité de contrôler lenvironnement
  • Ressources disponibles
  • Détection de fautes en environnement asynchrone
    (pb algorithmique)
  • Transport dinformation de contrôle à large
    échelle (filtrage, propagation épidemique)
  • Accumulation de données pertinentes (vision
    partielle)
  • Prise de décision
  • Problème de validité des informations
  • Exploration 2 Lien avec le placement des tâches

17
Tâche 3 Accès
  • PRISM
  • Accès efficace en fonction du profil
  • LIRMM
  • Adaptation dynamique des vues
  • LIP
  • Distribution de requêtes
  • Co-ordonnancement

18
Tâche 4 Partage
Axes
  • PRISM
  • Mode de partage transactionnelle
  • IRISA / LIP6 / LISI
  • Partage à grain fin (page / objet)
  • LIP
  • Gestion de versions de données immutables

19
Tâche 4 partage (2)
Axes
  • Versionning vs. données modifiables
  • Limite du partage en lecture dans P2P
  • Approche de partage  volontaire  limitée
  • Le partage avec de nombreux écrivains
  • Augmenter la complexité - Quelles applications ?
  • Des tendances récentes 
  • Partage (en lecture) forcé (ex. Edonkey)
  • Partage avec un nombre réduit décrivains (Ivy )

20
Tâche 5 Cohérence
Axes
  • Modèle de cohérence sur mémoire partagée répartie
    (IRISA / LIP6 / LISI)
  • LISI
  • DosMos
  • IRISA
  • Cohérence au relâchement
  • Cohérence multi-thread (DSM-PM2)
  • LSR
  • Réplication
  • LIP6
  • Modèle hiérarchique (CLRC)

21
Tâche 5 Cohérence (2)
Axes
  • Avenir des mémoires partagées réparties ?
  • Application à large échelle
  • Travail coopératif, couplage de code
  • Hétérogénéité
  • Tolérance aux fautes

22
Tâche 6 Tolérance aux fautes
Axes
  • PRISM
  • Redondance dynamique
  • LIP6
  • Détection de fautes hiérarchique (RTT-FD)
  • Réplication dynamique (DARX)
  • LRI
  • Journalisation de messages mémoire de canal
    MPICH-V
  • LIP
  • Code redondant
  • Reconstruction dynamique
  • LSR

23
Tâche 6 Tolérance aux fautes (2)
Axes
  • Gestion de lincertitude des informations
  • vers un système  indulgent  ?
  • Choisir la bonne stratégie (types de réplication,
    point de reprise, journalisation) en fonction de
    plusieurs critères
  • Applicatif (type de fautes, nombre de fautes,
    temps de recouvrement)
  • Environnemental surcoût, charge des machines et
    du réseau, MTBF

24
Tâche 7 Approche multi-agent
Axes
  • LIP6
  • Plate-forme DARX http//www-src.lip6.fr/darx
  • Fiabilité des agents, réplication
  • Dynamicité
  • IRISA/LIP6
  • Service de partage de mémoire sur DARX

25
Tâche 7 Approche multi-agent (2)
Axes
  • Un agent est une entité physique ou virtuelle
  • capable dagir sur elle-même et sur son
    environnement,
  • capable de percevoir son environnement, mais ne
    dispose que dune représentation partielle de cet
    environnement (et parfois aucune),
  • peut communiquer avec dautres agents,
  • poursuit un objectif individuel,
  • qui possède des compétences et peut offrir des
    services,
  • Propriétés dun agent autonomie, proactivité,
    adaptabilité, sociabilité, mobilité,
  • Agent une alternative pour le large échelle ?

26
Organisation
Organisation
  • Réunions régulières
  • Plénières (2 par an)
  • Par tâche (5 par an)
  • Site Web http//datagraal.lip6.fr
  • Suivi des réunions (transparents)
  • Lien vers les projets du domaine
  • Mailing list datagraal_at_imag.fr

27
Déroulement
Organisation
  • Première réunion de suivi 10/02/03 Paris
  • Retour positif (M. Cosnard, P. Fraigniaud)
  • Importance de lACI (thématique, nb de
    partenaires)
  • Animation primordiale gt importance du site Web
  • Identifier des thématiques avec des moteurs forts
  • Attention à la dispersion
  • Lien avec lACI GRID2 (éviter les doublons)
  • Publier
  • Séminaire de jours (30-31/01/03)
  • Définition de thèmes de travail
  • Responsables
  • Définition dun échéancier (future réunion
    technique avec thème)

28
Déroulement
Organisation
  • 22 avril journée ACI Grid à IPDPS
  • Préparation dun Poster 1 recto-verso (anglais)
  • Fin de laction
  • Écriture d un document commun (Livre)
  • École sur la gestion de données à grande
    échelle(formation permanente CNRS) Mai 2004

Bretagne (Port aux Rocs)
Write a Comment
User Comments (0)
About PowerShow.com