Title: XtremWeb : Une plateforme dtude des systmes de Global Computing
1 XtremWeb Une plate-forme d étudedes
systèmes de Global Computing
Equipe Architectures Parallèles Groupe Cluster
and Grid F. Cappello, C. Germain, V.Neri, G.
Bosilca, G. Fedak Présentation Gilles
Fedak LRI, Université Paris XI
2Sommaire
- Introduction
- Global Computing
- Motivations pour XtremWeb
- L'architecture d'XtremWeb
- Premières Applications
- Conclusion
3Global Computing
Global Computing vol de cycles sur un très
grand nombre de machines (PCs) connectées sur
Internet
- Applications actuelles (connues)
- craquer des clés de cryptage RC5 et DES
- trouver des nombres premiers de Mersenne
- Seti_at_home, Folding _at_Home
- Success stories
- 35 K personnes sur la Mailing list SETI_at_Home
4Global Computing Actuellement
- Projets internationaux
- SETI_at_home Distributed.net (applicatif)
- Entropia (infrastructure) US
- Andrew Chien, Larry Smarr, Ian Foster
- COSM (Open Source)
- Nimrod-G (vol de cycles) Australie
- XtremWeb (infrastructure) France voir Europe
- Nombre typique de machines 100 K, 1M
5Motivation pour le Global Computing
- Aujourdhui
- Un très grand nombre de ressources sont
connectées en permanence sur Internet de l ordre
du Million. - Les ressources ne sont pas toujours disponibles.
- Demain
- Post PC area un très grand nombre d objets
(devices) mobiles (téléphone, PDA, GSM, etc.).
Ordre de grandeur évoqué 1 Milliard de ressources - Les objets mobiles sont accessibles en
permanence par des connexions sans fil.
Assembler les ressources inutilisées pour
construire un Very Large Parallel Computers
6Motivation pour le Global Computing 2
- Un nouveau type darchitectures parallèles
- Un très grand nombre de ressources (gtgt machines
parallèles) - Des capacités de communication très faibles
- Problématique commune avec les systèmes
distribués - Répartition de charge
- Tolérance aux pannes
- Nouveaux Problèmes
- Comment programmer ces architectures ?
- Domaine d applications
- Evaluation de Performance
- Nouvelle algorithmique
- Modèle économique
7Architecture de XtremWeb
Utiliser les PCs connectés sur Internet pendant
leur périodedinactivité
Serveurs de Taches
X 1000 PCs volontaires
Internet
Collecteurs de Résultats
8Propriétés générales dun système de Global
Computing
- Extensibilité jusqu à 100 k voir 1 M machines
- Hétérogénéité
- Dynamicité
- Disponibilité
- Tolérance aux pannes
- Utilisabilité
- Sécurité pour les workers, les serveurs et
l applications. - Intégrité des résultats des applications.
9Propriétés spécifiques d XtremWeb
- Multi-applications
- Hautes performances
10Architecture générale
Performance monitor
Install 1 computer
Binary code repository
data repository
Worker central control
Worker monitor
Install LAN
Checkpoint
Application download
Worker communication layer
Worker system upgrade
GUI
Worker
Internet
Server communication layer
Result database
Server
Futur Task selection
Server Central control
Server GUI
System Upgrade
Current Task control
Modules
Parameter database
Application download
Binary code repository
11Protocole Multiple Workers
hostRegister
Worker
Dispatcher
WorkRequest
workResult
Transactions à l initiative du worker RPC
depuis le worker 1) Le worker émet une requête
host Register 2) Le serveur enregistre le
worker et retourne un ensemble de serveurs 3) Le
worker émet une requête Get Work 4) Le
serveur retourne les paramètres de la tâche et
éventuellement une adresse pour le stockage des
résult ats 5) Le worker exécute la tâche sur les
paramètres reçus 6) Le worker émet régulièrement
un signal alive vers le serveur 7) Time-out
sur le signal alive -gt le worker est
considéré comme mort 8) A la fin du calcul,
le worker émet une requète work finished et
transfert le résultat
12Vol de cycles activation en fonction de
lactivité
1 thread
2 threads
5 threads
- Transition de modes
- Screen saver pour les machines utilisateurs
- Activité CPU pour les machines de production de
calcul
13Hautes performances et Multi-applications
- Multi-applications exige de pouvoir charger
dynamiquement une application sur le worker - Re-utilisation de codes existant (C ou Fortran)
- Exécution de codes natifs
- Sécurisation du worker
- Seules des institutions connues peuvent proposer
un code - Authentification du serveur (clé public / clé
privé) - Cryptage des transactions avec les serveurs
- Lancement de l 'application sur un ensemble de
worker dédiés - A terme étude d un environnement d exécution
sur le worker de type isolation de fautes
logicielles .
14Un premier prototype en Java
-
- Ecrit en Java
- Facilité de prototypage, portabilité.
- API riche SSL, JDBC.
- Multithread.
- Communication worker -gt server utilise RMI.
- Performance ?
- Communication layer écrit en C.
- Multi-protocol (UDP,SSL).
- Scalable servers.
15Le problème de la charge des serveurs
Rythme de création de threads en fonction du
nombre de threads déjà actifs
Progression de la latence RMI en fonction du
nombre de threads déjà actifs
threads/s
1000
ms
20
100
15
10
10
5
1
0
0.1
0
5
10
0
20
40
60
80
100
Background threads
threads
Ultra Sparc II 300MHz - Solaris 2.7 - Java
1.2.1
Pentium III 500MHz - Linux 2.2.13 - libc 2.1.2
- Jdk1.2.2
16Application 1 Auger
Projet AUGER Comprendre lorigine des Particules
à très haute énergie (1020 ev) Impossible de
recréer ces particules sur terre Evénement très
rare 1 particule tous Les 100 ans par Km2 Origine
possible collision de galaxies Détection de
limpact sur les particules à la surface de la
terre. Simuler de façon informatique un très
grand nombre de cas de pénétration de particules
et comparaison avec les détections
Application très large à parallélisme trivial
17Auger 2
- Aires AIR showers Extended Simulation
- Simulation de type Monte-Carlo.
- Application séquentielle.
- Multi-parametres.
- Résultat fichier de 10 Mb.
- Temps pour une simulation 10 heures.
- Décomposer le simulation.
18Déploiement
- Mécanismes de déploiement du Worker
- Installation individuelle à partir dun site Web
- portage Linux (ix86), Windows, Solaris
- Installation sur un parc de machines
(environnement d installation, upgrade,
désinstallation, sélection de machines, etc.) - Mise à jour automatique
- des applications embarquées
- de la partie du système existante sur le Worker
19Plan de travail
- Développement
- Cluster de 8 noeuds serveurs
- - dual PentiumIII 733 Mhz.
- - chipset ServerWorks. 256 Mo Registred SRDAM.
- - SCSI 160
- - Gigabit Ethernet
- 25 noeuds clients.
- Croissance
- LRI (département informatique) -gt 200
Machines --gt Fin 2000 - Université Paris sud -gt 2 000 Machines --gt 1/2
2001 - Autres Universités/Ecoles Françaises -gt 10 K
Machines --gt Fin 2001 - Universités étrangères -gt 20 000 Machines --gt
??? - PCs volontaires -gt 100 000 Machines --gt des
fin 2000
20Travaux futurs
- Un ensemble d'outils de benchmarking et
monitoring des machines et réseaux - Instrumentation des Workers pour obtenir des
informations de performance - Performance des machines connectées (processeur,
mémoire, disque) - Profil de disponibilité des ressources de la
machine - Performance de communication avec le (les)
serveur(s)(latence d accès, débit de
communication) - Stabilité de la connexion et des performances
réseau - MTBF des machines et de leur connexion
- Activité de calcul par zone géographique
- Utilisation du réseau par zone géographique
- Instrumentation des serveurs (nombre de
transactions par seconde, taille de la file des
requêtes en attente, etc.)
Nouvelles applications POVRAY
21Conclusion
- Etude et lexploitation du Global Computing
- Objectif 100 000 Machines
- Recherche de grandes applications
- Recherche de partenaires nationaux et
internationnaux (offrant les ressources de leurs
machines pendant leur période de disponibilité)
www.XtremWeb.net