Title: Sesionador Web dirigido al estudio de sitios web culturales: Diseo e Implementacin del paquete RWeb
1Sesionador Web dirigido al estudio de sitios web
culturales Diseño e Implementación del paquete
RWeb Sessionizer
- Ec. Esther Hochsztain
- Ing. Andrómaca Tasistro
- Cra. Carolina Asuaga
- Facultad de Ciencias Económicas y Administración
- Universidad de la República, Uruguay
Octavo Congreso Latinoamericano de Sociedades de
Estadística . Octubre de 2008
2Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
3Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
4Introducción
- Evaluar qué tan efectivo es su sitio web resulta
imprescindible para las organizaciones.
Usualmente se analiza solamente los datos
referidos al número de páginas consultadas y la
cantidad de visitantes en el sitio web, así como
en qué partes del sitio web el usuario clickea,
cuándo elige incluir un producto en el carro de
compras, comprar un ítem, u otras acciones de
compra, eventos de registro, vista de productos,
acciones de pago, etc. - Sin embargo, lo anterior brinda una visión muy
básica y se necesitan aplicaciones más avanzadas
para estudiar características adicionales.
5Introducción Conceptos Básicos
- Un sesionador web (Web Sessioner) resulta de
fundamental importancia en Web Usage Mining, que
consiste en la aplicación de técnicas de Data
Mining para la identificación de patrones de uso
de un sitio web. - Existen muy pocas implementaciones de
sesionadores web, debido a que es un área muy
reciente y a la complejidad de su propuesta.
6Introducción Conceptos Básicos
- Una sesión de usuario está formada por un
conjunto de objetos consultados por un mismo
usuario durante una misma visita a un sitio web. - Existen diversos métodos para la identificación
de usuarios, en esta propuesta se usa la pareja
dirección IP y el agente desde donde se realiza
la solicitud. - Este procedimiento presenta como ventaja que
siempre está disponible y no se necesita
tecnología adicional. - Una vez identificado el usuario deben
distinguirse las diferentes sesiones de usuario. - Esto se realiza agrupando las peticiones de
sesiones utilizando heurísticas orientadas al
tiempo o a la navegación. - Es fundamental contar con un buen método de
identificación de crawlers, ya que pueden
distorsionar todo el estudio que se haga del uso
de un sitio web.
7Introducción Metodología
- Se presenta el paquete RWeb Sessionizer donde
se implementa en R la metodología propuesta
inicialmente por R. Cooley, y que ha tenido
varios refinamientos posteriores.
8Plan de la presentación
- Introducción
- Antecedentes y Elección del caso de
estudio - Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
9Antecedentes Áreas de Investigación
- 1) Cultura e Internet
- 2) Web Log Mining
10Cultura e Internet
- Tecnología y Cultura, Antecedentes Imprenta de
Gutenberg, radio, cine, televisión - Tecnología y Cultura, Internet El sitio web de
una organización cultural proporciona una
herramienta fundamental para cumplir con dos de
sus objetivos básicos difundir y democratizar la
cultura.
111) Elección del caso de estudio Teatro Solís
- Principal referente de la cultura montevideana.
- Propicia una fuerte demanda social.
121) Elección caso de estudio Teatro Solís
- El sitio web del Teatro Solís
- proporciona información sobre los horarios y
tarifas de las distintas actividades, - permite que el público visite virtualmente las
instalaciones del teatro, - posibilita el acceso a su valiosa colección
documental - presenta un programa para docentes en el marco de
los distintos programas escolares.
132) Web Log Mining
- Conocer la forma en que los usuarios de una
organización utilizan la web es clave para
comprender si se está brindando el servicio que
se requiere, si los productos o servicios son
fácilmente encontrados y, en definitiva, hasta
qué punto se cumple con el objetivo que la
organización pretende lograr por medio de su
presencia en la web. - Uno de los métodos habituales para conseguir este
conocimiento es el análisis de logfiles, un
sendero útil pero no exento de problemas.
142) Web Log Mining
- La estructura de un logfile es extremadamente
simple. Cada vez que alguien descarga un elemento
de la web, como por ejemplo una página o una
imagen, el servidor escribe una línea en el
archivo histórico o logfile. - Los enfoques de las investigaciones actuales
realizadas en Web Usage Mining son muy variados,
pero la mayoría se centran en las sesiones.
15Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
16Generación de sesiones
- Las principales formas de identificar sesiones se
basan en los siguientes aspectos - ?IP Agente
- Identificadores de sesiones embebidos
- Registro
- Cookie
- Agente de Software
17Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
18Identificación de crawlers
- Un crawler es un programa que realiza búsquedas
en la web, por tanto deben distinguirse los
usuarios "humanos" de los usuarios crawlers. - Los crawlers trabajan de una forma metódica y
automatizada, creando así una base de datos donde
va guardando los resultados de sus búsquedas
consecutivas, para posteriormente poder analizar
dicha información y realizar tareas como la
indexación y búsquedas más eficientes en la web
(técnicas usadas por ejemplo por motores de
búsqueda como Google, Yahoo, etc.). - El comportamiento de un crawler es cíclico,
realiza búsquedas en profundidad, accediendo
internamente a los links que se le dan y así
sucesivamente dentro de los links que va
encontrando a su paso.
19Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
20Paquete RWebSessionizer
- El sessionizer implementado posee las
siguientes características - timeout parametrizable,
- elimina software robots (crawlers),
- asigna un identificador a cada sesión,
- genera datos de resumen del proceso de
sesionalización.
21Paquete RWebSessionizer
DATOS
PREPROCESAMIENTO
IDENTIFICACIÓN DE CRAWLERS
INGRESO DE TIMEOUT
DETERMINACIÓN DE SESIONES
DETERMINACIÓN DE MEDIDAS DE RESUMEN
22Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
23Aplicación al caso de estudio Teatro Solís
- Cantidad de días 3
- Cantidad de líneas 115744
- Timeout 10 minutos
- Cantidad de sesiones (eliminados crawlers) 5248
- El promedio de bytes por sesión es 8722
- Duración promedio de la sesión 4,4 minutos
24Aplicación al caso de estudio Teatro Solís
25Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
26Conclusiones
- Contar con este paquete es un primer paso para
comprobar si el sitio web del Teatro Solís está
cumpliendo con los objetivos previstos. - Con los resultados preliminares se pudo apreciar
que la página principal está cumpliendo el
objetivo de brindar los datos necesarios para la
mayoría de los usuarios.
27Conclusiones
- El Teatro Solís es patrimonio de todos los
Uruguayos. Una correcta gestión de su sitio web,
en el que además de promover y difundir los
diversos espectáculos artísticos, se propicie la
cohesión social, así como la generación y
reafirmación de valores simbólicos compartidos,
es un tema no menor tanto en los objetivos del
Teatro como en el beneficio de la sociedad toda.
28Plan de la presentación
- Introducción
- Antecedentes y elección del caso de estudio
- Generación de sesiones
- Identificación de crawlers
- Paquete RWebSessionizer
- Aplicación al caso
- Conclusiones
- Trabajos futuros
29Trabajos futuros
- Incorporar el módulo de análisis de sesiones, en
base a datos de resumen y una galería de
gráficos. - Establecer un método de consulta interactivo.
- Establecer una interfaz de usuario gráfica, que
facilite el uso del paquete.
30Sesionador Web dirigido al estudio de sitios web
culturales Diseño e Implementación del paquete
RWeb Sessionizer
- Ec. Esther Hochsztain
- Ing. Andrómaca Tasistro
- Cra. Carolina Asuaga
- Facultad de Ciencias Económicas y Administración
- Universidad de la República, Uruguay
Octavo Congreso Latinoamericano de Sociedades de
Estadística . Octubre de 2008