Title: DataGRAAL DataGRid pour Animation et Applications Large chelle
1DataGRAALDataGRid pour Animation et
Applications à Large échelle
- Yves Denneulin IMAG-ID
- Pierre Sens LIP6 - INRIA
2Partenaires
- Communauté bases de données
- PRISM SMIS (INRIA Univ. Versailles St
Quentin) - LIRMM (Univ. Montpellier)
- LSR-IMAG (Grenoble)
- LISI (INSA Lyon)
- Communauté système
- PARIS (IRISA)
- LRI - Equipe Cluster (Université Paris 11)
- REMAP (LIP - ENS Lyon)
- LIP6 (Université Paris 6)
- Apache ID IMAG
- HP Labs
- Applications
- CERS
- IN2P3
3Contexte
Problématique
Caractéristiques des nuds
Grands sites de calcul, Clusters
- lt1000
- Stables
- Identification
- individuelle
- Confiance
Les Grilles de calcul ou GRID
2 types de grands systèmes distribués
Les systèmes distribués à grande échelle
- 100 000
- Volatiles
- Pas dident
- individuelle
- Pas de
- confiance
PC
Les systèmes de Calcul Global
Les systèmes Pair à Pair
4 Problèmes ouverts dans la gestion des données
Problématique
- Qualité de service dans laccès aux données
- Efficacité des accès
- Disponibilité
- Tolérance aux fautes
- Hétérogénéité des sources
- Persistance
- Modèles de partage
- Ecritures multiples
- Protocoles de cohérence
5DataGRAAL Les objectifs
Objectifs
- Gestion des données à très large échelle?
exploratoire - Multi-communautaire Profiter/confronter les
expériences des BD, système, applications ?
animation - Identification de thématiques/concepts communs
- Maquettes dexpérimentation
6DataGRAAL les applications
Objectifs
- Stockage
- Grande quantité
- Dispersion des données
- Hétérogénéité
7Coopération entre communautés
Complémentarité
- Communauté système
- Issus des expérience des systèmes répartis et
pair-a-pair - Protocole de localisation
- Placement, déploiement
- Protocole de cohérence
- Détection et gestion des fautes
- Communauté bases de données
- Gestion de grandes quantités de données
- Hétérogénéité
- Mobilité
- Médiation
- traditionnellement, architecture faiblement
distribué
8Coopération (2)
Complémentarité
- Applications
- physique des particules
- physique des plasmas
- simulation de grands systèmes physiques
- Idée de la coopération
- faire se rencontrer des communautés différentes
- contexte stockage distribué de grandes
quantités de données
9Atouts des partenaires
Complémentarité
- PRiSM/INRIA
- langage de requêtes, fouille de données
- exploitation de grandes quantités de données
- LSR
- Eclatement d un SGBD en un ensemble de services
(persistance, duplication, ) - Connaissance approfondie des architectures de
SGBD - LISI
- Systèmes dinformation à large échelle
- LIRMM
- médiation, exploitation de résultats venant de
nombreuses sources
BD
10Atouts des partenaires (2)
Complémentarité
- IRISA / PARIS
- Maîtrise des mémoires partagées
- Partage de mémoire pair-è-pair
- Expérimentations avec JXTA
- LRI
- Calcul haute performance sur P2P
- Tolérance aux fautes
- LIP6
- Modèle de cohérence hiérarchiques
- Gestion des fautes dans environnement asynchrone
- Systèmes multi-agents
- LIP ReMaP
- Environnement de type grille
- Traitement de grande masses de données
- Redistribution dynamique des données et tolérance
aux pertes
Système
11Atouts des partenaires (3)
Complémentarité
- HP Labs
- environnement de grappe virtuelle
- forte volatilité
- Laboratoire ID
- expérience architecture grande grappes
- administration, gestion
- déploiement efficace d applications sur un grand
nombre de nuds
Infrastructures
12Atouts des partenaires (4)
Complémentarité
- IN2P3
- expérience dans la gestion de grandes quantités
de données - élément central de Datagrid
- CESR
- fusion de plusieurs grandes bases en une seule
- requêtes hétérogènes à traiter, stockage réparti
- CEA
- expériences grandeur nature
- modélisation du climat, de la terre
- forte complexité des données
- grand nombre de sites
Applications
13Identification des tâches (provisoire)
Axes
- Tâche 1 Besoins applicatifs (Tâche
transversale) - Moteurs CEA / CESR / IN2P3
- Tâche 2 Déploiement de données
- Moteurs LRI / LIP / LIP6 / LISI
- Tâche 3 Accès efficace aux données
- Moteurs PRISM / LIRMM / LIP / LSR
- Tâche 4 Partage de données
- Moteurs IRISA / LIP / LIP6 / PRISM / LSR
- Tâche 5 Modèle de cohérence
- Moteurs IRISA/ LIP6 / PRISM / LSR
- Tâche 6 Tolérance aux fautes
- Moteurs LIP6 / LRI / LIP
- Tâche 7 Apport des approches multi-agents
- Moteurs LIP6 / IRISA
14Tâche 1 Besoin applicatif
Axes
- CEA , CESR , IN2P3
- Retour dexpérience de DataGrid
- Capacité de stockage
- 5-8 PetaOctects / année
- 10 PetaOctects de disque
- Puissance de calcul
- 200 000 PC rapides
- Répartition du volume ? Grain.
- Quelles disponibilités, persistance ?
- Mode de partage ?
15Tâche 2 Déploiement
Axes
- LRI
- XtremWeb
- LISI
- Technique de cache Web
- LIP6
- Algorithmes de placement de données / observation
- LIP
- DIETIBP - Redistribution, Placement
16Tâche 2 déploiement (2)
Axes
- Constat Placement de données très statique
- Exploration 1 vers plus de dynamicité
- Nécessité de contrôler lenvironnement
- Ressources disponibles
- Détection de fautes en environnement asynchrone
(pb algorithmique) - Transport dinformation de contrôle à large
échelle (filtrage, propagation épidemique) - Accumulation de données pertinentes (vision
partielle) - Prise de décision
- Problème de validité des informations
- Exploration 2 Lien avec le placement des tâches
17Tâche 3 Accès
- PRISM
- Accès efficace en fonction du profil
- LIRMM
- Adaptation dynamique des vues
- LIP
- Distribution de requêtes
- Co-ordonnancement
18Tâche 4 Partage
Axes
- PRISM
- Mode de partage transactionnelle
- IRISA / LIP6 / LISI
- Partage à grain fin (page / objet)
- LIP
- Gestion de versions de données immutables
19Tâche 4 partage (2)
Axes
- Versionning vs. données modifiables
- Limite du partage en lecture dans P2P
- Approche de partage volontaire limitée
- Le partage avec de nombreux écrivains
- Augmenter la complexité - Quelles applications ?
- Des tendances récentes
- Partage (en lecture) forcé (ex. Edonkey)
- Partage avec un nombre réduit décrivains (Ivy )
20Tâche 5 Cohérence
Axes
- Modèle de cohérence sur mémoire partagée répartie
(IRISA / LIP6 / LISI) - LISI
- DosMos
- IRISA
- Cohérence au relâchement
- Cohérence multi-thread (DSM-PM2)
- LSR
- Réplication
- LIP6
- Modèle hiérarchique (CLRC)
21Tâche 5 Cohérence (2)
Axes
- Avenir des mémoires partagées réparties ?
- Application à large échelle
- Travail coopératif, couplage de code
- Hétérogénéité
- Tolérance aux fautes
22Tâche 6 Tolérance aux fautes
Axes
- PRISM
- Redondance dynamique
- LIP6
- Détection de fautes hiérarchique (RTT-FD)
- Réplication dynamique (DARX)
- LRI
- Journalisation de messages mémoire de canal
MPICH-V - LIP
- Code redondant
- Reconstruction dynamique
- LSR
23Tâche 6 Tolérance aux fautes (2)
Axes
- Gestion de lincertitude des informations
- vers un système indulgent ?
- Choisir la bonne stratégie (types de réplication,
point de reprise, journalisation) en fonction de
plusieurs critères - Applicatif (type de fautes, nombre de fautes,
temps de recouvrement) - Environnemental surcoût, charge des machines et
du réseau, MTBF
24Tâche 7 Approche multi-agent
Axes
- LIP6
- Plate-forme DARX http//www-src.lip6.fr/darx
- Fiabilité des agents, réplication
- Dynamicité
- IRISA/LIP6
- Service de partage de mémoire sur DARX
25Tâche 7 Approche multi-agent (2)
Axes
- Un agent est une entité physique ou virtuelle
- capable dagir sur elle-même et sur son
environnement, - capable de percevoir son environnement, mais ne
dispose que dune représentation partielle de cet
environnement (et parfois aucune), - peut communiquer avec dautres agents,
- poursuit un objectif individuel,
- qui possède des compétences et peut offrir des
services, -
- Propriétés dun agent autonomie, proactivité,
adaptabilité, sociabilité, mobilité, - Agent une alternative pour le large échelle ?
26Organisation
Organisation
- Réunions régulières
- Plénières (2 par an)
- Par tâche (5 par an)
- Site Web http//datagraal.lip6.fr
- Suivi des réunions (transparents)
- Lien vers les projets du domaine
- Mailing list datagraal_at_imag.fr
-
27Déroulement
Organisation
- Première réunion de suivi 10/02/03 Paris
- Retour positif (M. Cosnard, P. Fraigniaud)
- Importance de lACI (thématique, nb de
partenaires) - Animation primordiale gt importance du site Web
- Identifier des thématiques avec des moteurs forts
- Attention à la dispersion
- Lien avec lACI GRID2 (éviter les doublons)
- Publier
- Séminaire de jours (30-31/01/03)
- Définition de thèmes de travail
- Responsables
- Définition dun échéancier (future réunion
technique avec thème)
28Déroulement
Organisation
- 22 avril journée ACI Grid à IPDPS
- Préparation dun Poster 1 recto-verso (anglais)
- Fin de laction
- Écriture d un document commun (Livre)
- École sur la gestion de données à grande
échelle(formation permanente CNRS) Mai 2004 -
Bretagne (Port aux Rocs)