Sistemas de Recuperaci - PowerPoint PPT Presentation

About This Presentation
Title:

Sistemas de Recuperaci

Description:

Title: D veloppement d'applications r parties principes et application Java Author: hagimont Last modified by: Paulo Urcid Created Date: 6/20/2000 10:05:07 PM – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 50
Provided by: hagimont
Category:

less

Transcript and Presenter's Notes

Title: Sistemas de Recuperaci


1
Sistemas de Recuperación de Información
  • Sistemas de Procesamientos de Archivos.

2
Introducción Sistemas IR
  • La Recuperación de datos se ocupa de la
    representación, alamacenamiento, organización y
    acceso de la información.
  • La representación y organización de la
    información deben proveer al usuario un fácil
    acceso a sus interes personales.
  • Dado un query, la meta de una llave es recuperar
    la información relevante para el usuario.

3
Información Vs. Recuperación de Datos
  • La recuperación de datos consiste en determinar
    que documentos contienen las llaves del query en
    el documento.
  • La recuperación de datos, no resuelve el problema
    de recuperar información acerca de un tema.

4
Información Vs. Recuperación de Datos
  • Los sistemas IR, deben interpretar de alguna
    manera el contenido de la información de los
    documentos y ponerlos en orden de relevancia de
    acuerdo al query de usuario.

5
Recuperación de información en el centro del etapa
  • El Web se está convirtiendo como un depósito
    universal de conocimiento humano y de cultura, el
    cual permite intercambios de ideas e información
    en una escala nunca antes vista.
  • El Web ha introducido frecuentes problemas.
    Encontrar información útil se ha convertido en
    una tarea tediosa.
  • Web Links.

6
Tarea del usuario
  • EL usuario tiene que traducir la información
    necesaria en un query proporcionado en el
    lenguaje del sistema.
  • Son dos tipos de tareas distintas para el
    usuario Recuperación de datos o información y
    browsing.(pulling actions)
  • Los sistemas IR se encargan de filtrar
    información relevante para el usuario.

7
Distintas tareas del usuario en un sistema de
recuperación
8
Visión lógica de los documentos
  • La visión lógica es la representación de
    documentos y páginas Web adoptadas por un
    sistema. La forma más común de representar un
    documento de texto es por un sistema de términos
    indexados o palabras llaves.
  • En una gran colección estas computadoras deben
    reducir el sistema representativo de llaves.

9
Visión lógica de los documentos
  • Esto se puede realizar a través de la eliminación
    de los stopwords (como artículos), el uso de
    stemming (reducir palabras de su raíz
    gramatical) y la eliminación de grupos de
    sustantivos (los cuales eliminan adjetivos,
    adverbios, y verbos).

10
Visión lógica de los documentos
11
Problemas del IR
  • Son dos los diferentes tipos de problemas
  • La visión computadora - centrada
  • La visión humano - centrado

12
Problemas del IR
  • La visión computadora - centrada, consiste en
    construir un índice eficiente, procesar los
    querys del usuario con un alto rendimiento y
    algoritmos que mejoren la calidad de respuesta
    del sistema.
  • La visión humano centrado consiste
    principalmente en estudiar las necesidades del
    usuario, saber como afecta a la organización y
    operación del sistema de recuperación.

13
Recuperación de información en Bibliotecas
  • Las bibliotecas fueron las primaras en adoptar
    los sistemas IR, posteriormente pasaron a
    instituciones académicas y a vendedores
    comerciales.

14
Recuperación de información en Bibliotecas
  • En la primera generación, solo se permitian
    búsquedas por título y autor.
  • En la segunda generación se permitió buscar por
    tema, palabras claves y algunos querys más
    complejos.
  • En la tercera generación, se introdujo la
    interfaz gráfica, hipertextos y formas
    electrónicas.

15
El Web y las bibliotecas digitales
  • El bajo costo, buenos accesos, y la libertad de
    publicar permiten que las personas usen el Web (y
    las bibliotecas digitales) como un gran medio
    interactivo.
  • Sin embargo, esto ha introducido nuevos
    problemas, encontrar información valiosa en el
    Web se ha convertido en una tarea de forma
    tediosa y difícil.

16
Proceso de recuperación de información
  • Antes de que el proceso de recuperación, sea
    inicializado es necesario definir la base de
    datos del texto, esto es hecho por el
    administrador de la base de datos.
  • El administrador de la base de datos construye
    el índice del texto (fila invertida)
  • El usuario especifica lo que necesita , el cual
    es parseado y procesado para obtener la
    recuperación de los documentos.
  • Antes de que la información sea enviada al
    usuario, esta es ordenada en orden de relevancia.

17
MODELOS DE RECUPERACION DE INFORMACIÓN
  • Los tres modelos clásicos en la recuperación de
    información son
  • En el modelo Boleano, se presentan documentos y
    preguntas como los conjutnos de condiciones del
    índice, también se le conoce como conjunto
    teórico.
  • En el modelo de Vectorial, se representan
    documentos y preguntas como los vectores en un
    espacio t-dimensional, también se conoce que este
    modelo es un modelo algebraico.
  • En el modelo Probabilístico, su grupo de trabajo
    para el documento modelado y la representación de
    la pregunta, se basan en la teoría de
    probabilidad, esta es la razón por la cual este
    modelo recibe el nombre de probabilístico.

18
CONCEPTOS BÁSICOS
Los modelos clásicos en la recuperación de
información (IR) consideran que cada documento se
describe por un conjunto de palabras claves
representativas llamado condiciones del
índice. El termino del índice simplemente es una
(campo) palabra cuya semántica ayuda a recordar
los temas principales del documento. Generalmente
, las condiciones del índice son principalmente
los nombres, esto es por que los nombres tiene un
solo significado y así, su semántica es mas fácil
de identificar.
19
MODELO BOLEANO
El modelo Boleano, es un modelo de recuperación
simple basado en la teoría fija y álgebra de
Boolean, este modelo proporciona un grupo de
trabajo que es fácil de usar por un usuario común
de un sistema de IR. Además, las llamadas se
especifican como expresiones de Boolean que
tienen la semántica precisa. Dado su simplicidad
inherente y formalismo, el modelo de Boolean
recibió la gran atención y se adopto por muchos
de los sistemas bibliográficos comerciales.
20
MODELO BOLEANO
  • De este modelo se pueden destacar los
    siguientes puntos
  • La relevancia es binaria un documento es
    relevante o no lo es.
  • Consultas de una palabra un documento es
    relevante si contiene la palabra.
  • Consultas AND Los documentos deben contener
    todas las palabras.
  • Consultas OR Los documentos deben contener
    alguna palabra.
  • Consultas A BUTNOT B Los documentos los
    documentos deben ser relevantes para A
    pero no para B.
  •         Ejemplo lo mejor de Maradona
  • Maradona AND Mundial
  • AND (( México 86 OR Italia 90) BUTNOT
    U.S.A. 94)
  • Es el modelo mas primitivo, sin embargo es el
    mas popular.

21
MODELO BOLEANO
Por qué es malo? No discrimina entre documentos
más y menos relevantes. Da lo mismo que un
documento contenga una o cien veces las palabras
de consulta. Da lo mismo que cumpla una o
todas las cláusulas de un OR. No permite ordenar
los resultados. La mayoría de los usuarios les
es difícil de entender. Ej. Necesito
investigar sobre los Aztecas y los Incas
  Aztecas AND Incas (grave error, se perderán
excelentes documentos que traten una sola de
las culturas en profundidad, debió ser
Aztecas OR Incas).
22
MODELO BOLEANO
Por qué es popular? Es una de los primeros
modelos que se implemento y muchos de los
primeros sistemas de IR se basaron en él La idea
suele ser común entre los usuarios que la están
usando. Es la opción favorita para insertar
texto en un RDBMS. Es simple de formalizar y
eficiente de implementar. En algunos caso
(usuarios expertos) puede ser adecuado. Puede
ser útil en combinación con otro modelo ej. Para
excluir documentos. Puede ser útil con buenas
interfaces.
23
MODELO PROBABILÍSTICO
Este modelo fue introducido en 1976 por Roberston
y Spark Jones y después se conoció como el modelo
de la recuperación de independencia binario. La
idea fundamental es, dada una pregunta del
usuario, se encuentra un conjunto de documentos
que contienen los datos pertinentes que necesita
el usuario, a este conjunto se le conoce como
conjunto de la respuesta ideal. El modelo solo
asume que esta probabilidad de relevancia
depende de la pregunta y las representaciones del
documento, que en este caso el usuario haga.
24
MODELO PROBABILÍSTICO
La ventaja principal del modelo probabilístico,
en teoría, es que se alinean los documentos en
orden decreciente de su probabilidad de ser
pertinentes (referenciados). Las desventajas
incluyen La necesidad de suponer la separación
inicial de documentos en los conjuntos
pertinentes y no pertinentes. El echo que el
método no tiene en cuenta la frecuencia con que
un termino del índice ocurre dentro de un
documento ( todo los pesos son binarios). Que
adopta la independencia para las condiciones del
índice.
25
MODELO PROBABILÍSTICO
Concluyendo Se presupone que existe
exactamente un subconjunto de documentos que son
relevantes para una consulta dada. Para cada
documento, se intenta evaluar la probabilidad de
que el usuario lo considere relevante. La
relevancia de un documento se calcula como
P (d relevante para q)/ P(d no relevante para
q) Donde q es una pregunta del
usuario y q los campos de cada
documentos. Luego de una iteración se recuperan
V documentos sea vr el numero de documentos
recuperados que contiene el termino tr. El
modelo propabilístico, en teoría, recupera los
documentos que con mayor probabilidad son
relevantes. Sin embargo, es poco popular.
26
MODELO PROBABILÍSTICO
Por qué es poco popular? Se debe comenzar
adivinando y luego refinar esa apuesta
iterativamente. El modelo ve cada documento
como un conjunto de términos. Necesita
presuponer que los términos son independientes.
Existen estudios que muestra que es inferior
al modelo vectorial y casi todos los científicos
lo consideran inferior.   Sin embargo, tiene una
base teórica distinta a la del modelo vectorial y
permite extensiones que sí son populares.
27
Modelo - Vectorial Redes Neuronales LSI
Latent Semantic indexing
28
Modelo Vector
- Se selecciona un conjunto de palabras útiles
para discriminar (términos o keywords). - Se
Puede enriquecer esto con un proceso de
lematisazion (o steamming), etiquetado, e
identificación de frases. - En los sistemas
modernos, toda palabra del texto es un t?rmino,
excepto posiblemente las stopwords o palabras
vacías. - Si un termino aparece mucho en un
documento, se supone que es importante en ese
documento(t f crece). - Pero si aparece un
muchos documentos, entonces no es útil para
distinguir ningún documento de los otros (i df
decrece). - Además normalizamos los módulos de
los vectores para no favorecer documentos más
largos. - Lo que se intenta medir es cúanto
ayuda ese t?rmino a distinguir ese documento de
los demás.
29
(No Transcript)
30
(No Transcript)
31
- La similaridad es un valor entre cero y uno. -
Notar que dos documentos iguales tienen
similaridad 1, y ortogonal (si no comparten
terminos) tienen similaridad cero. - En
particular, una consulta se puede ver como un
documento (formado por esas palabras) y por lo
tanto como un vector.
El modelo es más general, y permite cosas
como - Que la consulta sea un documento. -
Hacer clustering de documentos similares. -
Relevance feedback ("more like this"). Este
modelo no es el mas pópular de RI hoy en día.
32
LSI Latent Semantic Indexing
- La idea es mapear el espacio de vectores a uno
de menor dimensión conservando lo mejor posible
las distancias entre los vectores. Existen
m?todos matemaáticos bien conocidos como
heurísticas para hacer esto. - Lo que ocurre es
que se selecciona un conjunto de vectores
relativamente independientes, y los dependientes
se colapsan en una sola coordenada. - La idea
es que los vectores del espacio reducido
representan conceptos mas que t?rminos, y esto
reducirá el "ruido" de las palabras
individuales. -Por ejemplo, si "auto" y
"vehículo" tienden a aparecer en los mismos
documentos, los dos vectores serán relativamente
dependientes y colapsarán. Luego al preguntar
por uno de ellos se recuperará el otro también .
33
Redes Neuronales
- La idea general es tratar de expandir los
t?rminos de la consulta por interación. - Es un
grafo dirigido cuyos nodos son los t?rmino de los
documentos en sí. Las flechas representan "
activación". - Los t?rmino de las consultas
activan los mismos t?rminos de los documentos. -
Los t?rminos de documentos activan los documentos
donde aparecen. - Estos documentos activan los
t?rminos que contienen. - Esto iteran con
intensidades decrecientes hasta converger. - El
nivel alcanzado por cada documento es su
relevancia. - Esto permite que se activen
documentos en forma indirecta, cuando contiene
un t?rmino que en los documentos de la
colección aparece frecuentemente junto a uno de
la consulta.
34
(No Transcript)
35
(No Transcript)
36
Modelo de Redes de Inferencia
  • Las dos escuelas más tradicionales del
    pensamiento en probabilidad se basan en la visión
    Frecuentista y en la visión Epistemológica.
  • Los Frecuentistas se refieren a la probabilidad
    como la noción estadística relacionada a las
    leyes del cambio.
  • La Epistemología interpreta a la probabilidad
    como el grado de creencia cuya especificación
    puede ser debida a la experimentación
    estadística.

37
El modelo de redes de inferencia toma una visión
Epistemológica de el problema de recuperación de
información. El modelo de redes asocia
variables aleatorias con los términos indices,
los documentos y las consultas de los usuarios.
Una variable aleatoria asociada con un
documento Dj representa el evento de observar ese
documento (el modelo asume que los documentos
están siendo observados en la búsqueda de
documentos relevantes.)  
38
  • El termino Indice y las variables del documento
    son representadas como nodos en la red.
  • Las aristas son dirigidas de un nodo de un
    documento hacia los nodos termino para indicar
    que la observación de un documento produce la
    creencia de mejorar sus nodos termino.
  • Las variables aleatorias asociadas con los
    modelos de consulta de los usuarios el Evento de
    solicitar la información especificada por la
    consulta ha sido conocido.
  • Esta variable aleatoria es representada por un
    nodo en la red.

39
De ahí que, las aristas son dirigidas desde los
nodos del termino indice hacia los nodos de
consulta. La figura 2.9 que se muestra a
continuación ilustra un modelo de re redes de
inferencia de recuperación de información.  
40
Antecedentes de probabilidad para redes de
inferencia.
Este antecedente de probabilidad refleja la
probabilidad asociada al evento de observar un
documento determinado Dj. Puesto que no tenemos
antecedentes para ningún documento en particular,
generalmente se adopta un antecedente de
probabilidad distribuido uniforme. La
probabilidad de observar un documento Dj, se
establece como 1/N en donde N es el número total
de documentos en el sistema. P(Dj) 1/N P(Dj)
1 - 1/N
41
Modelo de Redes de Creencia
El Modelo de Redes de Creencia fue introducido en
1996 por Ribeiro - Neto y Muntz. Se basa en la
interpretación Epistemológica de las
probabilidades. Sin embargo, este modelo comienza
como el Modelo de Redes de Inferencia al adoptar
un espacio muestral. Como resultado produce
una pequeña diferencia en las redes de topología,
las cuales muestran una separación entre el
documento y las consultas en la red.
42
El espacio de probabilidad
Todos los documentos en una colección son
indexados por sus términos indices y el universo
es el conjunto K de todos los términos índices.
  Cada elemento indice es visto como un concepto
elementario y K como el espacio. El concepto u es
un subconjunto de K y representa un documento en
la colección o la consulta del usuario. En un
modelo de creencia el conjunto de relaciones son
especificadas variables aleatorias.  
43
Modelos basados en estructuras de texto
  • Problema
  • Encontrar los documentos que contengan la cadena
    holocausto atómico con letra cursiva, y que se
    encuentre cerca de una figura cuya etiqueta dice
    tierra.
  • Solución
  • Un modelo que permita la siguiente consulta
  • misma-pagina( cerca_de( holocausto atómico,
    figura( etiqueta( tierra))))
  • Definición
  • un modelo de RI que combina la información del
    contenido del texto con la información sobre la
    estructura del documento
  • Desventajano tiene una manera de clasificar los
    resultados en base a su importancia (ranking).

44
Terminos y conceptos importantes
  1. match point (punto de coincidencia)una posición
    del texto en la que hay una secuencia de palabras
    que satisface una consulta.
  2. regionuna porción contigua del texto.
  3. node (nodo)un componente estructural del
    documento (capítulo, sección, etc.).

45
Modelos basados en listas no sobrepuestas
(non-overlapping)
  • Ideadividir el texto de cada documento en
    regiones que no están sobrepuestas y juntarlos en
    una lista.
  • Implementaciónse crea un archivo invertido en el
    que cada componente estructural es una entrada en
    el índice. Asociado con cada una de estas
    entradas, hay una lista de regiones de texto como
    una lista de ocurrencias.
  • Ejemplos de consultas
  • a) seleccionar una región que contenga una
    palabra dada
  • b) seleccionar la región A que no contenga una
    región B.

46
Modelos basados en nodos proximales
  • Idea definir estructuras de indexamiento
    jerárquicas e independientes sobre un mismo
    documento.
  • Implementación primero buscar los componentes
    que coinciden con la cadena especificada en la
    consulta y, subsecuentemente, evaluando cúal de
    estos componentes satisface la parte estructural
    de la consulta.
  • Ejemplos de consultas(section) with
    (holocaust)

47
Modelos para hojear (browsing)
  • Puede darse el caso de que un usuario no quiera
    hacer una consulta sino que se toma el tiempo
    para hojear por el documento buscando palabras o
    referencias de interés.
  • Browsing plano (flat) el usuario explora los
    documentos sin seguir una secuencia determinada.
  • Browsing guiado por estructura el documento esta
    organizado en una estructura de tipo directorio y
    por lo tanto tiene una jerarquía de contenido.
  • Hipertexto el usuario navega a través del
    documento mediante ligas (como en Internet).

48
Modelos de hipertexto
  • Un concepto fundamental relacionado con la tarea
    de escribir texto es la secuencia que le damos
    para que el lector capte nuestro mensaje.
  • Definición es una estructura interactiva de
    navegación de alto nivel que permite ver texto de
    una manera no secuencial en un monitor de
    computadora.
  • Idea un hipertexto consiste en nodos que se unen
    mediante ligas dirigidas dentro de un grafo. A
    cada nodo se le asocia una región de texto, la
    cual puede ser un capítulo, una sección, un
    artículo o una página Web.
  • Implementación un hipertexto tiene ligas dentro
    del texto en forma de palabras marcadas de manera
    especial. Al hacer clic en una liga nos lleva a
    otra parte del documento.
  • Desventaja cuando el hipertexto es grande, el
    usuario puede perderse en su estructura.
  • Solución contar con un mapa del hipertexto que
    indique al usuario su posición actual dentro de
    la estructura.

49
Temas de investigación
  • 1) En sistemas de bibliotecas
  • Hay interés en entender los criterios que el
    usuario usa para juzgar la importancia de los
    documentos que busca.
  • se esta investigando la manera en que otros
    modelos diferentes al modelo Booleano (el cual
    sigue siendo utilizado por los grandes sistemas
    de bibliotecas comerciales) afectan al usuario de
    una biblioteca.
  • 2) En sistemas especializados
  • la investigación se centra en el problema de
    poder recuperar el mayor número de documentos
    relevantes minimizando el número de documentos
    que no tienen importancia.
  • 3) En el Web
  • un usuario muchas veces no sabe lo que quiere
    buscar o le cuesta trabajo formular una consulta
    apropiada. Sería productivo investigar en el tema
    de crear interfaces avanzadas para los usuarios.
  • motores de meta-búsquedas (motores que trabajan
    utilizando las clasificaciones generadas por
    otros motores).
Write a Comment
User Comments (0)
About PowerShow.com