Title: A dynamic data replication strategy using accessweights in data grids'
1- A dynamic data replication strategy using
access-weights in data grids. - Autores
- Ruay-Shiung Chang
- Hui-Ping Chang
- Publicado en 26 Enero 2008
Diseño de Sistemas Distribuidos. Máster en
Ciencia y Tecnología Informática
Luis Miguel Álvarez Santana UC3M
2LALW Dynamic Replication Algorithm
Introducción
- Data Grids hacen uso de un gran número de
recursos de almacenamiento y computación
distribuidos. - Requieren de estrategias que garanticen una
eficiencia en los accesos a estos recursos. Dos
servicios de gestión - GridFTP. Extensión de FTP. Proporciona
transferencia eficiente y accesos a ficheros
grandes - Gestión de replicas. Mecanismo que abarca la
creación, inventario y posterior búsqueda de
nuevas réplicas de ficheros compartidos. - Por qué Gestión de Réplicas?
- Reduce la latencia y el consumo de ancho de banda
de la red - Mecanismo de réplicas tres importantes
decisiones - QUÉ fichero debe replicar
- CUÁNDO debe ejecutarse la réplica
- DÓNDE debe situarse la nueva réplica
- Dos métodos de replicación
- Estática No se adapta a los cambios en el modelo
de acceso o de la red - Dinámica Permite cambiar la ubicación de las
réplicas o la creación de nuevas réplicas
adaptándose a los cambios en los ficheros o los
recursos
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
3LALW Dynamic Replication Algorithm
Otros estudios
- Existen numerosos estudios y trabajos
relacionados con la gestión de réplicas. Abarcan
distintos aspectos - Gran número de ellos se basan en el concepto de
localidad temporal - Localidad Temporal Propiedad según la cual los
ficheros considerados más populares (más
accedidos) en el pasado, serán más accedidos en
el futuro. - Ello nos lleva a determinar el fichero más
popular en base al número de accesos realizados
por los clientes - Problema No se tiene en cuenta la validez
temporal de los registros de accesos - Un fichero muy accedido en el pasado y que
acumule un gran numero de accesos, seguirá siendo
el más popular (y por lo tanto replicado)
mientras ese número de accesos sea el mayor a
pesar de que recientemente no se le acceda en
absoluto - Cómo podemos solucionar ese problema?
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
4LALW Dynamic Replication Algorithm
Abstract
- LALW (Latest Access Largest Weight) es un
mecanismo de gestión de réplicas dinámico que
selecciona un fichero popular y calcula cuántas
replicas debe hacer de él y dónde debe ubicarlas - Recoge información acerca de
- QUÉ ficheros son accedidos en cada nodo del Grid
- CUÁNTAS VECES son accedidos esos ficheros
- QUIÉN accede a esos ficheros
- Tratamiento de la información. Asignación de un
sistema de pesos en función del tiempo
transcurrido desde que se realizó cada acceso
(lifetime del registro almacenado) - En base a esos cálculos determinará
- Fase 1 QUÉ fichero es el más popular y por lo
tanto el que va a replicar - Fase 2 CUÁNTAS réplicas deberá realizar de ese
fichero - Fase 3 DÓNDE deberán situarse las nuevas réplicas
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
5LALW Dynamic Replication Algorithm
Arquitectura
- Se propone una arquitectura jerárquica que
soporte el mecanismo de replicación LALW
Se refiere a los Grid sites como Cluster
- Site
- Ubicaciones de cliente
- Mantiene registro de accesos a ficheros en él
contenidos - Los registros contienen los campos
- Timestamp (registro temporal)
- File Id (fichero accedido)
- Cluster Id (desde el que se accede)
- Los registros son enviados a los Cluster header
periódicamente - Cluster header
- Gestiona la información del cluster y realiza
operaciones necesarias - Agrega accesos realizados desde otros cluster a
los ficheros de sus sites - No considera accesos intra-cluster (consumen
mucho menos tiempo que los inter-cluster) - Intercambia registros con otros cluster
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
6LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Recolección de
registros
- Site
- Mantiene registro de accesos a ficheros
- Los registros contienen los campos
- Timestamp
- FileId
- ClusterId
- Los registros son enviados a los Cluster header
periódicamente
Se refiere a los Grid sites como Cluster
Fichero A
Fichero B
Registro
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
7LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Agregación y envío
de registros
- Cluster header
- Gestiona la información del cluster y realiza las
operaciones necesarias - Agrega accesos realizados desde otros cluster a
los ficheros de sus sites
Se refiere a los Grid sites como Cluster
- Intercambia registros con otros cluster
- Los registros recibidos de otros cluster header
son sumarizados
Registros de los site de su cluster
Los agrega obteniendo un registro que enviará al
resto de cluster header
Después de agregar todos los registros recibidos,
se obtiene un registro como este en cada cluster
header
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
8LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Recepción y
tratamiento de registros
- Cada cierto tiempo (intervalo T constante) cada
cluster header obtiene información del resto de
cluster headers - A la información recolectada se le aplica un
determinado peso en función del momento en que se
haya recolectado - Este peso decrementa la importancia de los
registros recogidos en función del tiempo
transcurrido desde que se produjo - Aplica el concepto de half-life
- Tiempo requerido para que un valor disminuya a la
mitad de su valor inicial - Ejemplo
- 1er ciclo Peso de la tabla 1 recogida
ValorTabla1 - 2º ciclo Peso de la tabla 2 recogida
ValorTabla2 - Peso de la tabla 1 almacenada
ValorTabla1/2 - 3er ciclo Peso de la tabla 3 recogida
ValorTabla3 - Peso de la tabla 2 almacenada ValorTabla2/2
- Peso de la tabla 1 almacenada ValorTabla1/2
- Etc.
- Da solución al problema que existía en otros
métodos que no consideraban la validez temporal
de los registros de accesos
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
9LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Cálculo de Access
Frequency
- Con la información recolectada y aplicando la
idea vista antes se calcula la Frecuencia de
Acceso (Access Frequency)
- NT el número de intervalos transcurridos
- F el conjunto de ficheros solicitados
- Atf son los accesos al fichero f en el intervalo
de tiempo t
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
10LALW Dynamic Replication Algorithm
Fase 2 Cálculo del número de Réplicas.
- Una vez obtenido el fichero más popular (p)
iniciamos las acciones para calcular el número de
replicas de ese fichero - Para ello
- Se calcula la media de AF por intervalo del
fichero más popular (p) - Se calcula la media de AF
- Se calcula el número de réplicas en base a la
siguiente fórmula - El número de réplicas obtenido permitirá mejorar
el rendimiento y el balanceo de carga
(distribuyendo el tráfico más eficientemente)
- NT el número de intervalos transcurridos
- AF(p) es la AF para el fichero más popular
- NT el número de intervalos transcurridos
- NF el número de ficheros solicitados
- (AF(f))sum es el sumatorio de AF para todos los
ficheros solicitados
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
11LALW Dynamic Replication Algorithm
Fase 2 Cálculo del número de Réplicas.
- Veamos cómo se realiza el cálculo de número de
réplicas en el ejemplo anterior
- NT el número de intervalos transcurridos
- AF(p) es la AF para el fichero más popular
- NT el número de intervalos transcurridos
- NF el número de ficheros solicitados
- (AF(f))sum es el sumatorio de AF para todos los
ficheros solicitados
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
12LALW Dynamic Replication Algorithm
Fase 3 Ubicación de las Réplicas.
- En qué cluster debemos ubicar las replicas
creadas? - Ordenamos en orden descendente los registros de
acceso al fichero más popular una vez aplicados
los pesos (weighted access times)
t1
- En el periodo t1 el orden de preferencia para
ubicar las réplicas será primero C3 y luego C2 - Como sólo se crea una réplica, ésta irá a C3
t2
- En el periodo t2 el orden de preferencia para
ubicar las réplicas será primero C3, luego C2 y
por último C4 - Como sólo se crea una réplica, ésta irá a C3
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
13LALW Dynamic Replication Algorithm
Fase 3 Ubicación de las Réplicas.
- Orden de replicación
- Las réplicas se asignan a los cluster uno a uno,
de acuerdo al orden establecido previamente - Misma información compartida por todos
- Dado que todos los cluster cuentan con la misma
información agregada, todos llegarán a la misma
conclusión acerca de la ubicación de las réplicas - Elección de la mejor conexión
- El/los cluster que vayan a acoger una réplica,
chequeará/n el ancho de banda disponible contra
cada cluster y elegirá el mejor para descargarse
el fichero - Disponibilidad de espacio
- Si no hay suficiente memoria para ubicar el
fichero replicado, se aplicará el algoritmo Least
Frequently Used (LRU) para liberar espacio
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
14LALW Dynamic Replication Algorithm
Simulación. Conceptos generales
- Evaluación de la estrategia de replicación
dinámica LALW mediante OptorSim. - Elementos de una simulación Grid
- Ficheros implicados en la simulación
- Grid configuration file. Define la topología y
los contenidos de los sites - Job configuration file .Contiene información de
los trabajos simulados - Parameter File .entre otros define
- Algoritmo de planificación de RB
- Algoritmo de replicación de RO
- Patrón de acceso a ficheros del trabajo en
ejecución - Distribución inicial de los ficheros
- Etc.
- Algoritmo de planific. de RB QAC (Queue access
cost scheduling) - Considera el coste de acceso a los ficheros y el
de los trabajos en la cola en cada CE
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
15LALW Dynamic Replication Algorithm
Simulación. Parámetros utilizados
- Parámetros de simulación
- Espacio de almacenamiento por site 50GB
- Bandwidth intra-cluster100Mbit/s
- Bandwidth inter-cluster10Mbit/s
- Número de trabajos de la simulación100
- Nuevo trabajo cada 25 segundos (T)
- Intervalo de half-life25 segundos
- Número total de ficheros 150
- Tamaño del fichero 1GB
- Otras consideraciones
- No se tiene en cuenta la consistencia de las
réplicas - Datos sólo read-only (típico en replic. Strateg
en grids) - Cada T se entrega un nuevo trabajo al gestor de
recursos (RB), el cual se envía a CE (comput.
elem.) según QAC - Cada trabajo requiere un conjunto X de ficheros
para su ejecución, leyendo esos ficheros de uno
en uno. El número de ficheros es elegido
aleatoriamente - Al comienzo de la simulación los ficheros son
distribuidos aleatoriamente entre los site
obteniendo 150 ficheros/12sites 12.5 ficheros
por site
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
16LALW Dynamic Replication Algorithm
Simulación. Resultados obtenidos
- Algoritmos comparados
- Simple Optimizer No utiliza replicación y todos
los ficheros son accedidos remotamente - LFU (Least Frequently Used) Siempre replica.
Borra ficheros menos usados si no hay espacio - LALW. Replica de manera regular en función de un
algoritmo en base a pesos temporales
- Datos de partida
- Tres fases (3 instantes en la ejecución) Inicial
(gt parte de fichs en remoto), Middle y Final
(para LFU se han ido produciendo sucesivas
réplicas) - Ejemplo Un trabajo necesita acceder a 30
ficheros - Los fich accedidos local o remotamente son un
ejemplo - En tabla no se considera la replicación regular
de LALW - Presunciones
- Acceder a un fichero en local cluster tarda
0.1seg - Tiempo de acceso remotoT transferenc T de
procesam - Y en base a esas presunciones propone un ejemplo
- Transferir 1/2 de datos de un fich
(50MB?)-gt40-400seg - Tiempo de acceso remoto 50-420seg
- Replicar un fichero 80-800seg (descarga
inter-cluster) - (en negrita los valores elegidos para el estudio)
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
17LALW Dynamic Replication Algorithm
Simulación. Resultados obtenidos
Fig 10. Muestra que LALW es 15 más rápido que
Simple Optimizer, pero similar a LFU (a pesar de
replicar menos) Fig 11 demuestra que ENU
(Effective Network Usage) de LALW es 12 menor
que el de LFU (un lt valor indica que uso de BW es
eficiente) Fig 12 ilustra que el
aprovechamiento del espacio disponible va
íntimamente ligado al nº de replicas.
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
18LALW Dynamic Replication Algorithm
Conclusiones y trabajo futuro
- LALW observa mejores prestaciones
- Ahorra recursos de almacenamiento, mejora el uso
efectivo de la red (ENU menor) y presenta un
tiempo de ejecución de los trabajos aceptable
comparado con LFU - Considera que LALW dispone de un modo más preciso
de averiguar el fichero más popular y para
determinar cuántas réplicas son precisas y dónde
ubicarlas - Posible mejora Reducir el tiempo de ejecución de
los trabajos - Variando la longitud del periodo de tiempo T
- Variando la base del decrecimiento exponencial
(exponential decay)
Si la base utilizada para decrementar el valor de
los registros, la acercamos a 1, el decremento
será cada vez más lento La información acerca de
los datos de acceso históricos tendrá más peso a
la hora de encontrar el fichero más popular
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
19LALW Dynamic Replication Algorithm
Puntos oscuros
- Cómo afectaría a las medidas considerar
consistencia en las réplicas? - Uno de los parámetros considerados para
considerar LALW como método más óptimo fue su
valor más bajo de ENU (effective network usage).
Considerando consistencia de las réplicas la
diferencia entre LALW y LFU se vería reducida - No se describe cómo se realizaría la elección de
la mejor conexión - Cuál sería el mecanismo empleado para elegir el
mayor ancho de banda disponible contra el cluster
header desde el cual se descargará la réplica? - Los cálculos realizados en el ejemplo contienen
presuntamente algunas incorrecciones - La mitad de los datos de un fichero de 1GB son
50MB? - Suponiendo que eso sea correcto, si tiempo de
transferencia son 40 a 400 seg (1-10Mbps para un
fichero de 50MB), por qué asume que el tiempo de
acceso remoto serán entre 50 y 420 seg (10 para
el menor BW y 20 para el mayor BW) - Toma estos datos como punto de partida
- 50 segundos para acceso remoto
- 80 segundos para tiempo de réplica
- Compara LALW con dos algoritmos extremos (Simple
optimizerNunca replica y LFUsiempre replica).
Soportaría la comparación con estrategia de
replicación no extrema?
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
20Diseño de Sistemas Distribuidos. Máster en
Ciencia y Tecnología Informática
Luis Miguel Álvarez Santana UC3M