Title: Experiencia con IBM IDS 9.3 en el Instituto de F
1Experiencia con IBM IDS 9.3 en el Instituto de
Física de Cantabria (IFCA)
David Rodríguez Universidad de Cantabria Jesús
Marco Consejo Superior de Investigaciones
Científicas IBM FORUM Madrid, 31 de Octubre de
2001
2El Instituto de Física de Cantabria
- Instituto de Investigación, centro mixto
- Universidad de Cantabria
- CSIC (Consejo Superior de Investigaciones
Científicas) - Tres líneas principales de investigación
- Astrofísica (Misión XMM, Planck...)
- Física Estadística (Laseres, fractales caos...)
- Física de Partículas Elementales
- Fuertes necesidades de computación
- Toma de datos en Laboratorios/Observatorios
- Procesado de los mismos
- Análisis para obtener resultados de física
- Requerimientos especiales
- Data Management
- Técnicas avanzadas de análisis de datos
- Evolución necesaria...
3Computing en Física de Partículas
- Experiencia inicial de nuestro grupo
- FAENET (RedIris), WEB desde 1992
- Simulación por métodos de Monte Carlo
- RPC (remote procedure call) software on-line
- Software de análisis físico de la colaboración
DELPHI - Redes neuronales de análisis
- Portal de búsqueda de partículas (boson de
Higgs)
- El grupo de Física de Partículas del IFCA
colabora con el Laboratorio Europeo de Física de
Partículas, CERN , situado en Ginebra (Suiza) - where the WEB was born
4Laboratorio Europeo de Física de Partículas CERN
5Detectores de partículas
- DEtector with Lepton, Photon and Hadron
Identification - Diámetro 10 m, Peso 3500 Tm, Bz 1.2 T
6Colisión electrón-positrón
7Procesado de Datos
detector
filtrado (seleccion reconstruccion)
DATOS PROCESADOS
EVENT SUMMARY DATA
RAW DATA
analisis fisico batch
reprocesado
OBJETOS DE ANALISIS FISICO (EXTRAIDOS SEGUN EL
CANAL)
simulacion
analisis fisico interactivo
les.robertson_at_cern.ch
8Modelo clásico
- Código desarrollado por físicos,
- en lenguaje Fortran77 o C
- Datos en ficheros binarios con estructuras árbol
- Análisis interactivo
- Muestras tras preselección
- n-tuplasmultidimensionales
- o(103) variables / suceso
- o(100 GB) para entrenar Neural Network
9Próximo acelerador LHC (Large Hadron Collider)
CMS
ATLAS
Almacenamiento Datos directos de un
experimento 0.1 1 Gb/segundo Datos
acumulados anualmente 5-8 PetaBytes
Necesidades de disco 10 PetaBytes (10.000.000
Gb) Procesado Equivalente a una granja de
200,000 PCs
LHCb
10El desafío del computing en LHC
Investigadores distribuidos por todo el mundo !
Europa 267 institutos, 4603 usuariosResto
208 institutos, 1632 usuarios
11LHC Computing Review
- Informe Hoffmann (CERN/LHCC/004, Feb 2001)
- Modelo global/mundial de análisis/computing
- Modelo Jerárquico con uso de tecnología GRID
- Almacenamiento de datos 10-50 Petabytes
- (1 Petabyte 1000 Terabytes)
- Ancho de banda entre centros 0.5-10 Gbps
- Proyecto de software
- Software común, comercial en lo posible
- Transición a programación OO
- Realizar tests de complejidad y tamaño creciente
- Estimación del costo del hardware
- (25.000 Mptas)
12Proyecto de Software para LHC
- Tópicos en Data Management
- Persistencia en el contexto de software OO
- bases de datos puramente OO (Objectivity)
- Recursos distribuidos
- Sistemas de almacenamiento masivo
- Impacto del entorno GRID
- Iniciativas en el IFCA
- Uso de bases de datos O/R DBMS en LHC
- Proyecto FEDER con partner Semicrol Informix
- Tecnología GRID
- Proyecto ID europeo
- CCLHC (Computing para LHC en España)
- Proyecto Plan Nacional de Altas Energías
13Proyecto FEDER uso de bases de datos O/R DBMS
en Fisica de Particulas
- Objetivo analizar alternativa para la
persistencia en entorno OO (programas en C) a
las bases de datos puramente OO (ODMG,
Objectivity) - 2000-2001, equipo de 3-5 personas, 20 Mptas
- Partner SEMICROL SL (Santander)
- Amplia experiencia con Informix
- Contacto directo con Informix / IBM DMS
- Participacion en beta IDS9.3, Object Translator
- Topicos considerados
- Posibilidades de persistencia
- Acceso desde aplicaciones de usuarios
- Replicas y entorno distribuido
- Ejemplos realistas
14Persistencia via bases de datos O/R DBMS
- Clave desacoplar DBMS de aplicacion
- Sacrificio en flexibilidad frente a
estandarizacion - Descripcion de los datos mediante estructuras XML
- Utilizar XML Schema
- Utilizar correspondencia XML lt-gt Object View
- Arquitectura de aplicaciones
- Classical Three-tier
- Cliente ligero servlet (sobre Apache)
- Queries/ResultSets en XML
- Ejemplo analisis interactivo en DELPHI
15El siguiente pasoentorno GRID y O/R DBMS
- La metafora GRID
- Analogia con la red de distribucion electrica
- Objetivos
- computing distribuido ilimitado y ubicuo
- acceso transparente a bases de datos distribuidas
multi-petabyte
- Que permite el entorno GRID?
- El usuario define su trabajo, y GRID
- Localiza los recursos disponibles de calculo
- Organiza un acceso eficiente a los datos
(Caching, migration, replication) - Se ocupa de autenticacion, certificacion, etc
- Y del interfase a los recursos locales
- Ejecuta el trabajo, lo monitoriza y se
autorecupera de problemas - .. y .. envia el resultado final al usuario
16Development of GRID environment for interactive
applications
17Proyecto CROSSGRID
- Proyecto Europeo 2002-2004 (800 Mptas)
- Iniciativa España-Alemania-Polonia con el apoyo
del CERN - Objetivos
- Extender GRID en Europa
- Multidisciplinar aplicaciones interactivas en
- Medio Ambiente(meteorología/contaminación,inundaci
ones) - Física de partículas
- Medicina (Simulación de procesos quirúrgicos)
- Retos
- Acceso a bases de datos distribuidas O/R DBMS
- Data-mining redes neuronales distribuidas
(paralelizacion distribuida mediante MPI/SOAP) y
reglas de asociación - Organización del testbed distribuido sobre la red
Geant en 11 países europeos
18CROSSGRID testbed
TCD Dublin
PSNC Poznan
UvA Amsterdam
ICM IPJ Warsaw
FZK Karlsruhe
CYFRONET Cracow
II SAS Bratislava
USC Santiago
CSIC Santander
LIP Lisbon
Auth Thessaloniki
UAB Barcelona
UAM CSIC Madrid
CSIC Valencia
UCY Nikosia
DEMO Athens
19Centros de computing
- Basados en clusters de PC / workstations
conectados por switches de alta velocidad - Sistema operativo Linux / Solaris
- Servidores de datos y de aplicaciones
diferenciados - Tamaño típico
- Centro de nivel 1 (tier-1) gt1000 PC
- Centro de nivel 2 (tier-2) gt100 PC
20Participación IFCA
- Acceso a bases de datos distribuidas
- Esquema three-tier
- Replicacion
- Prototipo sobre IDS 9.3
- Multiplataforma Linux Solaris
- Comparativa con IBM DB2, Oracle 9i, mySQL
- Data mining
- Redes neuronales distribuidas via MPI (SOAP?)
- Calculo sobre clusters de servidores versus
- Calculo distribuido sobre nodos replicacion
- Aplicaciones
- Meteorologia (bases de datos a mesoescala)
- Fisica de Particulas
21Portal de aplicacion
22Puntos fuertes de IDS 9.3
- Instalacion y mantenimiento al alcance de un
grupo de investigacion - Estabilidad magnifica!
- Buena escalabilidad y esquema de replicacion!!
- Atencion a las diversas plataformas (Linux,
Solaris, WNT/2000) incluyendo interoperabilidad
en las replicas distribuidas - Herramientas interesantes
- Object Translator
- soporte para XML
- Exploracion de posibilidades en
- R-trees espaciales
- Soporte excelente (nuestra experiencia como
beta-testers)
23Como conclusion general...
- La experiencia con IDS 9.3 en IFCA ha sido muy
positiva - Ofrece una solucion O/R DBMS completa y adecuada
para las aplicaciones estudiadas - La integracion en el entorno GRID es el siguiente
paso clave, un orden extra de complejidad - Es un producto muy competitivo, dentro de la
consideracion de sistemas O/R DBMS, en los
proyectos descritos - Agradecemos la colaboracion con IBM DMS, y con
Semicrol SL, y esperamos prolongarla.
24Experiencia con IBM IDS en el Instituto de
Física de Cantabria (IFCA)
David Rodríguez Universidad de Cantabria IBM
FORUM Madrid, 31 de Octubre de 2001
25Introducción
- Qué es la persistencia de objetos?
- Operaciones que se realizan sobre objetos de
aplicaciones para conseguir que su estado se
conserve entre ejecuciones - Para ello se almacena la información de los
atributos de los objetos ya sea en ficheros,
bases de datos (OO o relacionales)...
26Problemas de la persistencia
- Se denomina impedance mismatch a las
dificultades que surgen al acoplar aplicaciones
orientadas a objeto con un almacenamiento de
información en una base de datos relacional - Provoca que, o bien el diseño de la aplicación OO
o el de la base de datos no sea óptimo - Dos casos
- Base de datos preexistente (80 de los casos)
- Aplicación preexistente (20 de los casos)
27Bases de datos objeto relacionales
- Extension del modelo relacional con
características de OO - Herencia
- Polimorfismo
- Definición de tipos de datos complejos (UDTs)
- Definición de rutinas (UDRs)
28XML
- Formato universal para datos estructurados.
- Como HTML se deriva del SGML, pero está centrado
en la información. - Uso a través de parsers
- Independiente de lenguajes y plataformas, y libre
de licencia. - XSL permite realizar filtrados y transformaciones
de los documentos
29XML Schema
- Sirve para definir la estructura, la semántica, y
el contenido de los documentos. - Estándar W3C recomendation desde mayo.
- Tres partes
- XML Schema Part 0 Primer.
- XML Schema Part 1 Structures.
- XML Schema Part 2 Datatypes.
- Remplaza a la DTD.
- Define varios tipos de datos divididos en simples
y complejos. - Extensibilidad se pueden definir nuevos tipos.
30Aplicación de tres capas
- Base de datos IBM IDS 9.20 ? 9.30.
- Middle-tier
- Capa de persistencia clases para el mapping
JDBC - Servlets y otras clases correspondientes a la
aplicación - Servidor de servlets (Tomcat 3.1?TomCat 4)
- Clientes
- Browsers HTML applets
- Aplicación Java
31Mapping de objetos
- Los objetos se mapean bien a tablas completas,
o a un subconjunto de una, o a una combinación de
tablas - Estrategias de herencia
- Vertical
- Horizontal
- Filtrado
- Las relaciones se mapean usando foreign keys
32Casos de mapping
- Caso I (de relaciones a objetos)
- A partir del esquema relacional se crean una
serie de clases que encapsulen el acceso a dichos
datos conexiones, SQL, etc - Luego se utilizarán dichas clases en la
construcción de la aplicación
- Caso II (de objetos a relaciones)
- A partir de la jerarquía de objetos se diseña una
base de datos relacional - Luego se crearán las clases que conecten los
objetos de la aplicación a dicha base de datos,
conteniendo todo lo necesario para ello
33Qué es un programa de Mapping objeto relacional?
- Una aplicación que automatiza la generación de
una interfaz que se encargue del mapping entre la
base de datos y los objetos de la aplicación - Genera objetos correspondientes a las tablas (o a
vistas) de la base de datos - IBM Informix Object Translator
34Objet Translator 1.x
- La versión 1.1 es parte de IBM Informix
Foundation 2000 9.21. - Generación de objetos Java (JDK 1.2 y 1.1) o
Visual Basic 6.0 basados en un esquema relacional - Soporte de las mas importantes funcionalidades de
acceso a datos de las bases de datos Informix - Hemos participado en el beta-test de OT 1.1 y 1.2
35(No Transcript)
36Object Translator 1.x
- Se pueden mapear procedimientos almacenados a
métodos de los objetos generados - Soporte de colecciones de objetos y de objetos
embebidos - Soporte de XML
- Movimiento de datos en formato XML desde y hacia
la base de datos - Generación automática de servlets para aprovechar
el intercambio de datos en XML - Wizards para generar templates XML a partir
tanto de una DTD como de documentos HTML
37Object Translator 2.0
- Mejoras en rendimiento y escalabilidad para
construir aplicaciones centradas en
web/middle-tiers - Soporta nuevas características
- J2EE/EJB
- SOAP
- Generación de documentos (plantillas) XML basados
en la jerarquía de objetos - Soporte de SOAP para la funcionalidad XML
- Soporte de transformaciones de documentos XML.
Dos métodos - XSL
- Multiple mapping
38Informix Foundation.2000
Slide by Soumitro Tagore (IUC Florida 2000)
Client
Foundation Solutions Frameworks
JAVA
XML
Extensibility UDTs/UDRs, VTI
Image
Video
Text
Geo Spatial
Time Series
Web
Foundation.2000
Data Management
39Participación en beta IDS 9.30
- La facilidad de uso se ha visto incrementada
notablemente - Bundle installer
- ISA 1.40 interesantes novedades introducidas
durante el periodo de beta testing - Facilita la configuración de nuevas instancias
(Server Setup). - Permite pasar a los ISA de otras maquinas (Remote
monitoring) - Enterprise Replication
- Agrupación lógica (replsets)
- Serial primary keys
- Dynamic logging.
40Enterprise Replication
- Mixed environment
- 9.30 (Solaris 8) con 9.30 (Solaris 7)
- 9.30 (Solaris 8) con 9.20 (Linux 2.2.16-smp)
- Diferentes esquemas de replicación
- Primary-target
- Update anywhere
41Aplicaciones ejemplo CMS Hits
- Almacenamiento de información generada con OSCAR
(programa OO de simulación del detector CMS) - Hits describen la trayectoria espacial de las
partículas generadas en una colisión - Se transforma la información de los objetos en
XML que es luego cargado en la base de datos por
medio del middle-tier. - Esta última transformación se hace con las clases
Java generadas por OT.
42Ejemplo II análisis en DELPHI
- Exportamos datos de análisis del experimento
DELPHI a IBM IDS. - Con un programa FORTRAN leemos los bancos de
datos y generamos ficheros XML para cargar la
base de datos. - Three tier application, componentes
- JDBC
- Servlets
- XML
43Consultas interactivas
- Desde un cliente Java se seleccionan los
parámetros de los sucesos que nos interesa
analizar. - Este programa crea un documento XML que se envía
al middleware. - El XML se utiliza para crear una consulta XML que
se lanza contra la base de datos utilizando JDBC. - El resultset obtenido se formatea de nuevo en XML
antes de enviarlo de vuelta al cliente que
presenta los resultados al usuario.
44Ejemplo Four-jet ntuples
- XML Schema
- ltelement nameeventgt
- ltcomplexTypegt
- ltsequencegt
- ltelement nameiseq typeinteger/gt
- ltelement namench typeinteger/gt
- ltelement namenneu typeinteger/gt
- ltelement namenvtx4 typeinteger/gt.....
- lt/sequencegt
- ltattribute namenrun typeinteger
userequired/gt - ltattribute namenevt typeinteger
userequired/gt - lt/complexTypegt
- lt/elementgt
- XML File
- ltevent nrun113405 nevt2141gt
- ltiseqgt1lt/iseqgt
- ltnchgt33lt/nchgt
- ltnneugt0lt/nneugt
- ltnvtx4gt0lt/nvtx4gt.....
- lt/eventgt
- ltevent nrun113458 nevt3498gt
- ltiseqgt1lt/iseqgt
- ltnchgt39lt/nchgt
- ltnneugt0lt/nneugt
- ltnvtx4gt0lt/nvtx4gt.....
- lt/eventgt
45(No Transcript)
46Conclusiones
- Experiencia en la integracion de O/R DBMS XML
gracias a la participacion en las betas de Object
Translator e IDS 9.3 - Dos aplicaciones tipo desarrolladas para
demostrar la posibilidad de utilizar una base de
datos O/R (IDS9.3) en Fisica de Particulas,
presentadas en colaboraciones CMS y DELPHI del
CERN - Resultados satisfactorios en replicacion en
entornos heterogeneos, la consideracion en el
entorno GRID es el siguiente paso - Tecnicamente compite muy favorablemente, en
consideracion como sistema O/R DBMS, para los
proyectos descritos una comparativa detallada es
necesaria dentro del entorno distribuido (share
nothing vs tightly coupled) - Esperamos continuar la colaboracion con IBM DMS,
y con Semicrol SL de cara a nuestras aplicaciones
finales