Title: Administracin de la data: data, base de datos y almacenaje
1Administración de la data data, base de datos y
almacenaje
- Dra. María G. Rosa-Rosario
- BADM 5060
Turban, L., McLean, W. Information Technology
For Management 6th Edition. Lecture Slides by L.
Beaubien, Providence College, John Wiley Sons,
Inc.
2OBJETIVOS
- Reconocer la importancia de los datos de los
asuntos administrativos y del ciclo vida. - Describir las fuentes de datos, colección y
calidad. - Conocer Database Management System.
- Describir DBMS, sus beneficios y asuntos.
- Describir los Data Warehousing y procesamiento
analítico. - Entender los datos conceptuales, lógicos y
físicos. - Analizar el diagrama de entidad relación (ERD).
- Describir la importancia del mercadeo y la
Internet.
3Administración de recursos de datos
- Actividad administrativa que aplica tecnologías
de sistemas de información a la tarea de
administrar los recursos de datos de una
organización, con el fin de satisfacer las
necesidades de información de los participantes
de negocio.
4Continuación Administración de recursos de datos
Las aplicaciones de tecnología de información no
pueden ser ejecutadas sin utilizar alguna clase
de los datos que está en el centro de operaciones
administrativas y de mercadeo.
- Sin embargo, manejar los datos es difícil por
varias razones. - La cantidad de datos aumenta de manera sustancial
con el tiempo. - Los datos están dispersas a través de las
organizaciones. - Los datos son reunidos por muchos individuos que
utilizan varios métodos. - Las necesidades externas de datos para ser
considerados en la toma de decisiones de la
organización. - La seguridad de datos, la calidad y la integridad
son críticos. - Escoger instrumentos de gestión de datos puede
ser un problema mayor.
Los datos son un activo, cuando se convierten en
información y conocimiento, le ofrecen a la firma
ventajas competitivas.
5Proceso del ciclo de vida de la data
Los negocios funcionan basados en los datos que
han sido procesados en forma de información y
conocimiento, cuando los administradores la
aplican a la solución de problemas de negocios.
Esto permite el logro de transformar los datos en
forma de conocimiento y soluciones.
- La recopilación de datos proviene de varias
fuentes. - Es temporalmente almacenada en un banco de datos.
- Los usuarios acceden al mercado de datos y toman
una copia de los datos necesitados para el
análisis. - El análisis es hecho utilizando
- Herramientas de análisis de datos
- Herramientas de minería de datos
El resultado de todas las actividades es la
generación de decisiones de apoyo y conocimiento.
6Fuentes de datos
El ciclo de vida de datos comienza con la
adquisición de datos de diversas fuentes. Estas
fuentes pueden ser clasificadas como interno,
personal y externo.
- Recursos internos
- Están almacenados en la base de datos de la
organización y está relacionada con gente,
productos, servicios y procesos. - Data personal
- Es la documentación de las habilidades de los
empleados. Puede tomar la forma de - Estimaciones de ventas.
- Opinión de los competidores.
- Regla del negocio.
- Procedimientos.
- Recursos externos de data
- Alcanzan desde bases de datos comerciales a
informes de Gobierno. - Servicios de base de datos internos y comerciales
- Son accesibles a través de la Internet.
7Recopilación de datos en crudo/brutos
La tarea de la recopilación de datos es bastante
compleja. La cuál puede crear el problema de los
datos, la calidad que requiere la validación y la
purificación de estos.
- La recopilación se produce
- en el campo
- por individuos
- a través de métodos manuales
- estudios
- encuestas
- observaciones
- contribución de expertos
- uso de instrumentos y sensores
- sistemas de procesamiento de transacciones
- a través de transferencias electrónicas
- de un sitio en la red
8Métodos para el manejo de la data
Una forma de mejorar la recopilación de datos de
múltiples fuentes externas es utilizando un
flujograma, el cuál toma información de fuentes
externas y lo pone donde se necesita, cuando es
necesitada, de una forma utilizable.
- Consiste de
- Sistemas de apoyo a la toma de decisiones.
- Proceso de datos centrales.
- Componente de la integridad de los datos.
- Enlaces con los datos de suplidores externos.
- Procesos utilizados por los proveedores externos
de datos.
9Calidad e integridad de los datos
La calidad de la data es un asunto extremadamente
importante, ya que determina la utilidad, así
como la calidad de las decisiones basada en esta.
Además, significa que la data debe ser precisa,
accesible y al día.
- Intrínseca precisa, objetiva, creíble y de
calidad. - Accesible acceso seguro.
- Contextual relevancia, valor añadido,
itinerarios, cantidad de data e integridad. - Representación interpretativo, fácil de
entender, representación concisa y
representativa.
La calidad de datos es la piedra angular de la
inteligencia efectiva del negocio.
10Administración de documentos
Es el control automatizado de documentos
electrónicos, de páginas con imágenes, hojas de
cálculo, procesamiento de textos, y de otros
documentos complejos, desde su creación hasta su
almacenamiento final.
- Mantener los documentos en forma de papel
requiere que - Todo el mundo debe tener una versión actual.
- Determinar un itinerario actualizado.
- Proveer seguridad a los documento.
- Los documentos deben ser distribuidos a los
individuos apropiados en el tiempo correcto.
11Transacciones vs. Procesamiento analítico de la
data
- Procesamiento transaccional
- Sucede en sistemas operacionales que proporcionan
a la organización con la capacidad de realizar
las transacciones del negocio e informes de
transacción de producto. - Los datos son organizados principalmente en una
estructura jerárquica y son procesados
centralmente. - Esto es hecho principalmente para el
procesamiento rápido y eficiente de los datos
repetitivos y de rutina. - Procesamiento analítico
- Actividad suplementaria de procesamiento
transaccional que envuelve el análisis de la data
acumulada. - Generalmente se refiere a la inteligencia del
negocio, incluye minería de datos, sistema de
apoyo a decisiones, consultas y otras actividades
de análisis. - Este análisis ubica la información estratégica en
las manos de los que toman las decisiones para
aumentar la productividad y hacer mejores
decisiones, llevando a una ventaja competitiva
mayor.
12Almacén de data/datosData Warehouse
Es un depósito de los datos históricos
organizados para ser accesibles de una forma
fácilmente aceptable para el procesamiento
analítico de actividades tales como minería de
datos, apoyo de decisiones, consultas y otras
aplicaciones.
- Beneficios
- Habilidad de acceder la data rápidamente, ya que
están localizados en un lugar. - Habilidad de acceder la data fácilmente por el
usuario final con un navegador de la red. - Características
- Organización, la data está organizada por asunto.
- Consistencia, en el almacén de data será
codificada de manera consistente.
13Continuación Almacén de data/datos
- Continuación Características
- Variación de tiempo
- Los datos se mantienen durante muchos años de
manera tal que pueden ser utilizados para
analizar las tendencias, pronosticar y llevar a
cabo comparaciones a través del tiempo. - Permanente
- Una vez entrada en el almacén de data, la data no
se actualiza. - Relacional
- Típicamente el almacén de datos utiliza una
estructura relacional. - Cliente/servidor
- Técnica para organizar sistemas en donde algunas
computadoras deben contener casi todos los datos,
los cuales son recuperados por personas que
utilizan computadoras personales como clientes. - El almacén de datos utiliza la arquitectura de
cliente/servidor para proporcionar principalmente
al usuario final un acceso fácil a sus datos. - Basado en la red/Web based
- Los almacenes de datos son diseñados para
proporcionar un ambiente eficiente de computación
para aplicaciones basadas en la red.
14Continuación Almacén de data/datos
Point of Sales
15Data Mart
Es una versión pequeña reducida a escala de un
almacén de datos diseñado para una unidad
estratégica del negocio (SBU-strategic business
unit) o departamento. Contienen menos información
que el almacén de datos, proveen respuestas más
rápidas y son más fáciles de navegar.
- Existen dos tipos
- Replicado
- Pequeños subconjuntos del almacén de datos, cada
uno está dedicado a ciertas áreas funcionales. - Mercados autónomos de datos
- Una compañía puede tener uno o más mercados
independientes de datos sin tener un almacén de
datos. - Los típicos data marts son para departamentos
de mercadeo, finanzas y aplicaciones de
ingeniería.
16Data Cube
Base de datos multidimensionales (llamado
procesamiento de transacciones en línea)
almacenamiento de datos especializados que
organiza factores por dimensiones tales como
regiones geográficas, líneas de productos,
vendedores y tiempo. Los datos en estas bases de
datos son generalmente preprocesados y
almacenados en Data cubes.
- Una intersección puede ser las cuantidades de un
producto vendido por una localidad específica de
venta al detal durante ciertos períodos de
tiempo. - Otra matriz puede ser el volumen de ventas por
departamento, por día, por mes, por año para una
región en específico. - Los cubes proveen rápidas
- Consultas
- Pedazos y cubos de información
- Acumulación
- drill down
17Almacenamiento de data operacional
Es una base de datos para sistemas de
procesamiento de transacción que utiliza los
conceptos de almacén de datos, para proporcionar
los datos limpios al sistemas de procesamiento de
transacción. Brinda los conceptos y los
beneficios de un almacén de datos a las porciones
operacionales del negocio.
- Es utilizado típicamente para las decisiones a
corto plazo que requieren un tiempo sensitivo
para el análisis de los datos. - Recae lógicamente entre los datos operacionales
en sistemas de legado y el almacén de datos. - Proporciona el detalle en comparación con datos
resumidos. - Es optimizado para acceso frecuente.
- Proporciona tiempos de respuesta más rápidos.
18Inteligencia del negocio
Es una categoría amplia de aplicaciones y
técnicas para recopilar, almacenar, analizar y
proporcionar acceso a los datos. Ayuda a los
usuarios ha ejecutar un mejor negocio y tomar
decisiones estratégicas. Las aplicaciones mayores
incluyen las actividades de las consultas y
cobertura, procesamiento analítico en línea,
sistema de apoyo a las decisiones, minería de
datos, pronósticos y análisis estadístico
- Incluye
- producciones tales como modelación financiera y
presupuestaria - asignación de recursos
- cupones y campañas de promoción de ventas
- tendencias de temporada
- Benchmarking (desempeño del negocio)
- inteligencia competitiva
19Continuación Inteligencia del negocio
20Descubrimiento de conocimiento
Antes de que la información puede ser procesada
por la inteligencia del negocio debe ser
descubierta o debe ser extraído de los
almacenamientos de datos. El objetivo principal
es la identificación válida, las pautas
potencialmente útiles y patrones entendibles de
datos.
- knowledge discovery in databases
- Apoyado por tres categorías
- recopilación de datos masivos
- computadoras poderosas de multiprocesador
- minería de datos y otros algoritmos
- Emplea principalmente tres herramientas para el
descubrimiento de información - lenguajes tradicionales de consulta
(SQL-Structure Query Language) - Lenguaje estándar de base de datos que se utiliza
para recuperar, definir y manipular datos. - Procesamiento analítico en línea (OLAP-Online
Analytical Processing) - procesamiento y análisis de la data para reflejar
las necesidades del negocio en la medida que las
transacciones ocurren - minería de datos
- La búsqueda de patrones desconocidos e
información en las bases de datos. - Algunas herramientas son el análisis estadístico,
las técnicas de coincidencia de patrones, el
análisis de segmentación de los datos, el
análisis de clasificación, las reglas de
asociación y el análisis de cluster.
21Continuación Descubrimiento de conocimiento
22Consultas
Las consultas permiten a los usuarios solicitar
información de la computadora que no está
disponible en informes periódicos. Los sistemas
de consultas a menudo se basan en menús o si los
datos son almacenados en una base de datos con un
lenguaje interrogación estructurado (SQL) o
utilizar un método de consulta por ejemplo
(query-by-example (QBE)).
- Los requerimientos del usuario son indicados en
un lenguaje de consultas y los resultados son
subconjuntos de la relación. - las ventas por departamento, por tipo cliente,
por período específico - condiciones del tiempo para una fecha específica
- ventas por día de la semana
23Procesamiento analítico en línea
Capacidad que tienen algunos sistemas de
información administrativos, de apoyo a la toma
de decisiones y ejecutivos que apoyan el análisis
y la manipulación interactiva de una gran
cantidad de datos desde muchas perspectivas.
Conjunto de herramientas que analizan y agregan
datos para reflejar las necesidades de la
compañía. Esta estructura de negocio le permite
a los usuarios contestar rápidamente las
preguntas del negocio. Es realizado en almacenes
de datos y mercados
- Relacional
- La vista multidimensional es creada cada vez que
el usuario pide información. - Multidimensional
- La vista multidimensional es físicamente
almacenada en archivos de datos especializados.
24Minería de datos
Herramienta para analizar cantidades grandes de
datos. Se deriva su nombre de las similitudes
entre la búsqueda de información valiosa del
negocio en una base de datos grande. Consiste en
descubrir relaciones desconocidas que pueden
utilizarse para tomar mejores decisiones.
- Los minería de datos tecnológicamente puede
generar nuevas oportunidades al negocio
proporcionando - predicciones automatizadas de tendencias y
conductas - descubrimiento automatizado de pautas previamente
desconocidas o escondidas - Las herramientas de la minería de datos pueden
ser combinadas con - hojas electrónicas
- otras herramientas de desarrollo de programas de
usuario final - La minería de datos crea un cubo para extraer los
datos.
25Técnicas de minería de datos
- Razonamiento basado en case, la comunicación se
intensifica a través de un repositorio de datos
compartidos, herramientas en la red de trabajo,
correo electrónico y herramientas de ingeniería
de programas asistida por computadora (CASE).
Las principales herramientas CASE son - Oracle Designer/2000
- Rationa Rose
- Visual Age de IMB
- Los agentes inteligentes que recuperan
información del Internet o de bases de datos
basadas en la intranet. - El análisis de la asociación utiliza un conjunto
especializado de los algoritmos que revisan los
grandes conjuntos de datos y expresan las reglas
estadísticas entre artículos. - Árboles de decisión.
- Algoritmos genéticos.
- Método de vecino más cercano.
26Tareas de la minería de datos
- Clasificación
- Infiere las características que definen un cierto
grupo. - Clustering
- Identifica los grupos de asuntos que comparten
características particulares. - Asociación
- Identifica las relaciones entre los
acontecimientos que ocurren en un tiempo. - Secuencia
- Identifica la relación que existe a través de un
periodo de tiempo. - Pronosticar
- Estima el valor futuro basado en patrones dentro
de conjuntos grandes de datos. - Regresión
- Traza un mapa de datos a una variable predecible.
- Serie de tiempo
- El análisis examina como cambia un valor con el
tiempo.
27Otros ambientes de minería
Además, de datos almacenados en bases de datos
tradicionales hay otras "estructuras" que se
pueden minar por patrones.
- Minería de texto
- Es la aplicación de la minería de datos a
archivos no-estructurados o menos-estructurados
de texto. - Minería de red
- Es la aplicación de la minería de datos que
utiliza técnicas relacionadas a la red. Los datos
pueden ser presentados en páginas Web o
relacionadas con actividades de red. - Minería espacial
- Es la aplicación de técnicas de la minería de
datos que tiene un componente local. - Minería temporal
- Es la aplicación técnica de la minería de datos
que se mantiene para múltiples puntos en el
tiempo.
28Visualización de la data
La visualización de la data se refiere a la
presentación de datos por tecnologías tal como
imágenes digitales, sistema geográficos de
información, interfaces gráficas, tablas y
gráficas multidimensionales, realidad virtual,
presentaciones tridimensionales, videos y
animaciones.
- Visualización multidimensional la data moderna
e información puede poseer diversas dimensiones. - Dimensiones
- Productos
- Vendedores
- Segmentos de mercado
- Unidades de negocio
- Localidades geográficas
- Canales distributivos
- Pueblos
- industrias
29Continuación Visualización de la data
Visualización multidimensional
- Medidas
- Dinero
- Volumen de ventas
- head count
- Inventario de la ganancia
- Resultados actuales vs. Pronosticados
- Tiempo
- Diario
- Semanal
- Mensual
- Trimestral
- Anual
30Continuación Visualización de la data
- Sistema de información geográfica
- (GIS-geographical information systems)
- Exhiben datos con relación a su localización.
- Sistema para capturar, almacenar, verificar,
integrar, manipular y demostrar los datos
utilizando mapas digitalizados. - Cada registro u objeto digital tienen una
ubicación geográfica identificada. - Modelo visual interactivo (VIM-virtual
interactive model) - Utiliza los despliegues de gráfica de computadora
para representar el impacto de la diferencia
administrativa o decisiones operacionales en
objetivos tales como ganancia o mercado
compartido. - Realidad virtual (VR-virtualreality)
- Es interactivo, generado por computadora, gráfica
tridimensional enviada al usuario. Estas
indicaciones sensoriales artificiales causan que
el usuario "crea" que lo que ellos hacen es
realidad o verdadero.
31Bases de datos especializadas
Los almacenes de datos y mercados de datos sirven
a usuarios finales en todas las áreas
funcionales. La mayoría de las bases de datos
actuales son estáticas. Simplemente reúnen y
almacenan información. El ambiente del negocio de
hoy requiere también bases de datos
especializadas.
- Bases de datos de transacciones de mercado (MTD)
- Combina muchas de las características de las
bases de datos actuales y los recursos de la data
de mercadeo en unas nuevas bases de datos que
permite mercaderes para entrar en la
personalización de tiempo real y señala cada
interacción con clientes. - Capacidad interactiva
- Una transacción recíproca ocurre con el cliente
que intercambia información y actualiza la base
de datos en tiempo real, opuesto al periodo
(semanal, mensual o trimestral) actualización
clásica de almacenes y mercados.
32Sistema de administración de data de red
Administración de datos y actividades de
inteligencia de negocio-de la adquisición de
minería de datos-a menudo son realizados con
instrumentos de red, o son interrelacionados con
tecnologías de red y E-negocio. Esto se hace a
través de la intranet y para afuera extranets
- Series de negocios inteligentes (BI-business
intellligence) y Pórticos Corporativos - Integra consultas, cobertura, OLAP y otras
herramientas. - Sistemas de almacenamiento de datos inteligentes
de red - Emplea un motor de búsqueda para aplicaciones
específicas que pueden mejorar la operación de un
almacén de datos. - Almacén de Datos de Clickstream
- Ocurra dentro del ambiente de red, cuándo los
clientes visitan un sitio web.
33 - http//www.hp.com/halo/index.html