A dynamic data replication strategy using accessweights in data grids' - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

A dynamic data replication strategy using accessweights in data grids'

Description:

Data Grids hacen uso de un gran n mero de recursos de almacenamiento y computaci n distribuidos. ... using access-weights in data grids. ... Strateg en grids) ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 21
Provided by: T108145
Category:

less

Transcript and Presenter's Notes

Title: A dynamic data replication strategy using accessweights in data grids'


1
  • A dynamic data replication strategy using
    access-weights in data grids.
  • Autores
  • Ruay-Shiung Chang
  • Hui-Ping Chang
  • Publicado en 26 Enero 2008

Diseño de Sistemas Distribuidos. Máster en
Ciencia y Tecnología Informática
Luis Miguel Álvarez Santana UC3M
2
LALW Dynamic Replication Algorithm
Introducción
  • Data Grids hacen uso de un gran número de
    recursos de almacenamiento y computación
    distribuidos.
  • Requieren de estrategias que garanticen una
    eficiencia en los accesos a estos recursos. Dos
    servicios de gestión
  • GridFTP. Extensión de FTP. Proporciona
    transferencia eficiente y accesos a ficheros
    grandes
  • Gestión de replicas. Mecanismo que abarca la
    creación, inventario y posterior búsqueda de
    nuevas réplicas de ficheros compartidos.
  • Por qué Gestión de Réplicas?
  • Reduce la latencia y el consumo de ancho de banda
    de la red
  • Mecanismo de réplicas tres importantes
    decisiones
  • QUÉ fichero debe replicar
  • CUÁNDO debe ejecutarse la réplica
  • DÓNDE debe situarse la nueva réplica
  • Dos métodos de replicación
  • Estática No se adapta a los cambios en el modelo
    de acceso o de la red
  • Dinámica Permite cambiar la ubicación de las
    réplicas o la creación de nuevas réplicas
    adaptándose a los cambios en los ficheros o los
    recursos

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
3
LALW Dynamic Replication Algorithm
Otros estudios
  • Existen numerosos estudios y trabajos
    relacionados con la gestión de réplicas. Abarcan
    distintos aspectos
  • Gran número de ellos se basan en el concepto de
    localidad temporal
  • Localidad Temporal Propiedad según la cual los
    ficheros considerados más populares (más
    accedidos) en el pasado, serán más accedidos en
    el futuro.
  • Ello nos lleva a determinar el fichero más
    popular en base al número de accesos realizados
    por los clientes
  • Problema No se tiene en cuenta la validez
    temporal de los registros de accesos
  • Un fichero muy accedido en el pasado y que
    acumule un gran numero de accesos, seguirá siendo
    el más popular (y por lo tanto replicado)
    mientras ese número de accesos sea el mayor a
    pesar de que recientemente no se le acceda en
    absoluto
  • Cómo podemos solucionar ese problema?

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
4
LALW Dynamic Replication Algorithm
Abstract
  • LALW (Latest Access Largest Weight) es un
    mecanismo de gestión de réplicas dinámico que
    selecciona un fichero popular y calcula cuántas
    replicas debe hacer de él y dónde debe ubicarlas
  • Recoge información acerca de
  • QUÉ ficheros son accedidos en cada nodo del Grid
  • CUÁNTAS VECES son accedidos esos ficheros
  • QUIÉN accede a esos ficheros
  • Tratamiento de la información. Asignación de un
    sistema de pesos en función del tiempo
    transcurrido desde que se realizó cada acceso
    (lifetime del registro almacenado)
  • En base a esos cálculos determinará
  • Fase 1 QUÉ fichero es el más popular y por lo
    tanto el que va a replicar
  • Fase 2 CUÁNTAS réplicas deberá realizar de ese
    fichero
  • Fase 3 DÓNDE deberán situarse las nuevas réplicas

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
5
LALW Dynamic Replication Algorithm
Arquitectura
  • Se propone una arquitectura jerárquica que
    soporte el mecanismo de replicación LALW

Se refiere a los Grid sites como Cluster
  • Site
  • Ubicaciones de cliente
  • Mantiene registro de accesos a ficheros en él
    contenidos
  • Los registros contienen los campos
  • Timestamp (registro temporal)
  • File Id (fichero accedido)
  • Cluster Id (desde el que se accede)
  • Los registros son enviados a los Cluster header
    periódicamente
  • Cluster header
  • Gestiona la información del cluster y realiza
    operaciones necesarias
  • Agrega accesos realizados desde otros cluster a
    los ficheros de sus sites
  • No considera accesos intra-cluster (consumen
    mucho menos tiempo que los inter-cluster)
  • Intercambia registros con otros cluster

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
6
LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Recolección de
registros
  • Site
  • Mantiene registro de accesos a ficheros
  • Los registros contienen los campos
  • Timestamp
  • FileId
  • ClusterId
  • Los registros son enviados a los Cluster header
    periódicamente

Se refiere a los Grid sites como Cluster
Fichero A
Fichero B
Registro
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
7
LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Agregación y envío
de registros
  • Cluster header
  • Gestiona la información del cluster y realiza las
    operaciones necesarias
  • Agrega accesos realizados desde otros cluster a
    los ficheros de sus sites

Se refiere a los Grid sites como Cluster
  • Intercambia registros con otros cluster
  • Los registros recibidos de otros cluster header
    son sumarizados

Registros de los site de su cluster
Los agrega obteniendo un registro que enviará al
resto de cluster header
Después de agregar todos los registros recibidos,
se obtiene un registro como este en cada cluster
header
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
8
LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Recepción y
tratamiento de registros
  • Cada cierto tiempo (intervalo T constante) cada
    cluster header obtiene información del resto de
    cluster headers
  • A la información recolectada se le aplica un
    determinado peso en función del momento en que se
    haya recolectado
  • Este peso decrementa la importancia de los
    registros recogidos en función del tiempo
    transcurrido desde que se produjo
  • Aplica el concepto de half-life
  • Tiempo requerido para que un valor disminuya a la
    mitad de su valor inicial
  • Ejemplo
  • 1er ciclo Peso de la tabla 1 recogida
    ValorTabla1
  • 2º ciclo Peso de la tabla 2 recogida
    ValorTabla2
  • Peso de la tabla 1 almacenada
    ValorTabla1/2
  • 3er ciclo Peso de la tabla 3 recogida
    ValorTabla3
  • Peso de la tabla 2 almacenada ValorTabla2/2
  • Peso de la tabla 1 almacenada ValorTabla1/2
  • Etc.
  • Da solución al problema que existía en otros
    métodos que no consideraban la validez temporal
    de los registros de accesos

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
9
LALW Dynamic Replication Algorithm
Fase 1 Fichero más Popular. Cálculo de Access
Frequency
  • Con la información recolectada y aplicando la
    idea vista antes se calcula la Frecuencia de
    Acceso (Access Frequency)
  • NT el número de intervalos transcurridos
  • F el conjunto de ficheros solicitados
  • Atf son los accesos al fichero f en el intervalo
    de tiempo t
  • Ejemplo

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
10
LALW Dynamic Replication Algorithm
Fase 2 Cálculo del número de Réplicas.
  • Una vez obtenido el fichero más popular (p)
    iniciamos las acciones para calcular el número de
    replicas de ese fichero
  • Para ello
  • Se calcula la media de AF por intervalo del
    fichero más popular (p)
  • Se calcula la media de AF
  • Se calcula el número de réplicas en base a la
    siguiente fórmula
  • El número de réplicas obtenido permitirá mejorar
    el rendimiento y el balanceo de carga
    (distribuyendo el tráfico más eficientemente)
  • NT el número de intervalos transcurridos
  • AF(p) es la AF para el fichero más popular
  • NT el número de intervalos transcurridos
  • NF el número de ficheros solicitados
  • (AF(f))sum es el sumatorio de AF para todos los
    ficheros solicitados

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
11
LALW Dynamic Replication Algorithm
Fase 2 Cálculo del número de Réplicas.
  • Veamos cómo se realiza el cálculo de número de
    réplicas en el ejemplo anterior
  • Recordemos
  • NT el número de intervalos transcurridos
  • AF(p) es la AF para el fichero más popular
  • NT el número de intervalos transcurridos
  • NF el número de ficheros solicitados
  • (AF(f))sum es el sumatorio de AF para todos los
    ficheros solicitados

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
12
LALW Dynamic Replication Algorithm
Fase 3 Ubicación de las Réplicas.
  • En qué cluster debemos ubicar las replicas
    creadas?
  • Ordenamos en orden descendente los registros de
    acceso al fichero más popular una vez aplicados
    los pesos (weighted access times)

t1
  • En el periodo t1 el orden de preferencia para
    ubicar las réplicas será primero C3 y luego C2
  • Como sólo se crea una réplica, ésta irá a C3

t2
  • En el periodo t2 el orden de preferencia para
    ubicar las réplicas será primero C3, luego C2 y
    por último C4
  • Como sólo se crea una réplica, ésta irá a C3

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
13
LALW Dynamic Replication Algorithm
Fase 3 Ubicación de las Réplicas.
  • Orden de replicación
  • Las réplicas se asignan a los cluster uno a uno,
    de acuerdo al orden establecido previamente
  • Misma información compartida por todos
  • Dado que todos los cluster cuentan con la misma
    información agregada, todos llegarán a la misma
    conclusión acerca de la ubicación de las réplicas
  • Elección de la mejor conexión
  • El/los cluster que vayan a acoger una réplica,
    chequeará/n el ancho de banda disponible contra
    cada cluster y elegirá el mejor para descargarse
    el fichero
  • Disponibilidad de espacio
  • Si no hay suficiente memoria para ubicar el
    fichero replicado, se aplicará el algoritmo Least
    Frequently Used (LRU) para liberar espacio

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
14
LALW Dynamic Replication Algorithm
Simulación. Conceptos generales
  • Evaluación de la estrategia de replicación
    dinámica LALW mediante OptorSim.
  • Elementos de una simulación Grid
  • Ficheros implicados en la simulación
  • Grid configuration file. Define la topología y
    los contenidos de los sites
  • Job configuration file .Contiene información de
    los trabajos simulados
  • Parameter File .entre otros define
  • Algoritmo de planificación de RB
  • Algoritmo de replicación de RO
  • Patrón de acceso a ficheros del trabajo en
    ejecución
  • Distribución inicial de los ficheros
  • Etc.
  • Algoritmo de planific. de RB QAC (Queue access
    cost scheduling)
  • Considera el coste de acceso a los ficheros y el
    de los trabajos en la cola en cada CE

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
15
LALW Dynamic Replication Algorithm
Simulación. Parámetros utilizados
  • Topología simulada.
  • Parámetros de simulación
  • Espacio de almacenamiento por site 50GB
  • Bandwidth intra-cluster100Mbit/s
  • Bandwidth inter-cluster10Mbit/s
  • Número de trabajos de la simulación100
  • Nuevo trabajo cada 25 segundos (T)
  • Intervalo de half-life25 segundos
  • Número total de ficheros 150
  • Tamaño del fichero 1GB
  • Otras consideraciones
  • No se tiene en cuenta la consistencia de las
    réplicas
  • Datos sólo read-only (típico en replic. Strateg
    en grids)
  • Cada T se entrega un nuevo trabajo al gestor de
    recursos (RB), el cual se envía a CE (comput.
    elem.) según QAC
  • Cada trabajo requiere un conjunto X de ficheros
    para su ejecución, leyendo esos ficheros de uno
    en uno. El número de ficheros es elegido
    aleatoriamente
  • Al comienzo de la simulación los ficheros son
    distribuidos aleatoriamente entre los site
    obteniendo 150 ficheros/12sites 12.5 ficheros
    por site

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
16
LALW Dynamic Replication Algorithm
Simulación. Resultados obtenidos
  • Algoritmos comparados
  • Simple Optimizer No utiliza replicación y todos
    los ficheros son accedidos remotamente
  • LFU (Least Frequently Used) Siempre replica.
    Borra ficheros menos usados si no hay espacio
  • LALW. Replica de manera regular en función de un
    algoritmo en base a pesos temporales
  • Datos de partida
  • Tres fases (3 instantes en la ejecución) Inicial
    (gt parte de fichs en remoto), Middle y Final
    (para LFU se han ido produciendo sucesivas
    réplicas)
  • Ejemplo Un trabajo necesita acceder a 30
    ficheros
  • Los fich accedidos local o remotamente son un
    ejemplo
  • En tabla no se considera la replicación regular
    de LALW
  • Presunciones
  • Acceder a un fichero en local cluster tarda
    0.1seg
  • Tiempo de acceso remotoT transferenc T de
    procesam
  • Y en base a esas presunciones propone un ejemplo
  • Transferir 1/2 de datos de un fich
    (50MB?)-gt40-400seg
  • Tiempo de acceso remoto 50-420seg
  • Replicar un fichero 80-800seg (descarga
    inter-cluster)
  • (en negrita los valores elegidos para el estudio)

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
17
LALW Dynamic Replication Algorithm
Simulación. Resultados obtenidos
Fig 10. Muestra que LALW es 15 más rápido que
Simple Optimizer, pero similar a LFU (a pesar de
replicar menos) Fig 11 demuestra que ENU
(Effective Network Usage) de LALW es 12 menor
que el de LFU (un lt valor indica que uso de BW es
eficiente) Fig 12 ilustra que el
aprovechamiento del espacio disponible va
íntimamente ligado al nº de replicas.
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
18
LALW Dynamic Replication Algorithm
Conclusiones y trabajo futuro
  • LALW observa mejores prestaciones
  • Ahorra recursos de almacenamiento, mejora el uso
    efectivo de la red (ENU menor) y presenta un
    tiempo de ejecución de los trabajos aceptable
    comparado con LFU
  • Considera que LALW dispone de un modo más preciso
    de averiguar el fichero más popular y para
    determinar cuántas réplicas son precisas y dónde
    ubicarlas
  • Posible mejora Reducir el tiempo de ejecución de
    los trabajos
  • Variando la longitud del periodo de tiempo T
  • Variando la base del decrecimiento exponencial
    (exponential decay)

Si la base utilizada para decrementar el valor de
los registros, la acercamos a 1, el decremento
será cada vez más lento La información acerca de
los datos de acceso históricos tendrá más peso a
la hora de encontrar el fichero más popular
A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
19
LALW Dynamic Replication Algorithm
Puntos oscuros
  • Cómo afectaría a las medidas considerar
    consistencia en las réplicas?
  • Uno de los parámetros considerados para
    considerar LALW como método más óptimo fue su
    valor más bajo de ENU (effective network usage).
    Considerando consistencia de las réplicas la
    diferencia entre LALW y LFU se vería reducida
  • No se describe cómo se realizaría la elección de
    la mejor conexión
  • Cuál sería el mecanismo empleado para elegir el
    mayor ancho de banda disponible contra el cluster
    header desde el cual se descargará la réplica?
  • Los cálculos realizados en el ejemplo contienen
    presuntamente algunas incorrecciones
  • La mitad de los datos de un fichero de 1GB son
    50MB?
  • Suponiendo que eso sea correcto, si tiempo de
    transferencia son 40 a 400 seg (1-10Mbps para un
    fichero de 50MB), por qué asume que el tiempo de
    acceso remoto serán entre 50 y 420 seg (10 para
    el menor BW y 20 para el mayor BW)
  • Toma estos datos como punto de partida
  • 50 segundos para acceso remoto
  • 80 segundos para tiempo de réplica
  • Compara LALW con dos algoritmos extremos (Simple
    optimizerNunca replica y LFUsiempre replica).
    Soportaría la comparación con estrategia de
    replicación no extrema?

A dynamic data replication strategy using
access-weights in data grids.
Luis Miguel Álvarez Santana
20
  • Preguntas?

Diseño de Sistemas Distribuidos. Máster en
Ciencia y Tecnología Informática
Luis Miguel Álvarez Santana UC3M
Write a Comment
User Comments (0)
About PowerShow.com