La representacin de los contenidos digitales: de los tesauros automticos a las folksonomas - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

La representacin de los contenidos digitales: de los tesauros automticos a las folksonomas

Description:

La representaci n de los contenidos digitales: de los. tesauros autom ticos a ... La Clasificaci n decimal de Dewey y Rules for a Dictionary Catalog de Cuter ... – PowerPoint PPT presentation

Number of Views:94
Avg rating:3.0/5.0
Slides: 50
Provided by: Jam53
Category:

less

Transcript and Presenter's Notes

Title: La representacin de los contenidos digitales: de los tesauros automticos a las folksonomas


1
La representación de los contenidos digitales de
lostesauros automáticos a las folksonomías
Valencia, CALSI, 2007
José A. Moreiro González Universidad Carlos III
de Madrid joseantonio.moreiro_at_uc3m.es
2
La mayoría de los sistemas de representación se
generó antes de que existiera el ciberespacio
  • La nueva matriz cultural sigue inacabada
  • Los documentalistas del siglo XXI se enfrentan al
    problema de inventar, adaptar y mejorar la nueva
    generación de sistemas simbólicos

3
Obstáculos para explotar las potencialidades de
lo digital
  • 1. Multiplicidad de sistemas simbólicos
  • Inadaptación de los sistemas de identificación,
    heredados de la era de la imprenta
  • Multiplicidad e incompatibilidad de taxonomías,
    tesauros, terminologías, ontologías y sistemas de
    clasificación

4
Obstáculos para explotar las potencialidades de
lo digital
  • 2. Dificultades informáticas para alcanzar el
    significado de los documentos
  • Basan sus investigaciones en cadenas de
    caracteres, no en conceptos. Así, al buscar la
    palabra gato, es tratada como la sucesión de
    caracteres g, a, t, o y no como un concepto .

5
Las Ciencias Naturales (siglos XVI - XX)
alcanzaron un sistema de coordenadas y unidades
de medida universales
  • Desde entonces, la comunidad científica usa un
    conjunto de instrumentos simbólicos y
    conceptuales independientes de las lenguas
    naturales
  • altamente formalizado
  • lógicamente coherente
  • ampliamente compartido

6
Marco positivista de representación de la
Información
7
Marco postmoderno de representación de la
Información
8
Bases epistemológicas de la representación de la
información
  • Aristóteles (Retórica) consideró a los
    predicamentos como los conceptos más generales a
    los que alude la expresión del pensamiento
  • Leibniz (De Synthesi et Analysi universali) los
    redujo a solo cinco categorías
  • Kant (Crítica de la razón pura) limitó aún más
    las categorías de los conceptos puros del
    entendimiento Cantidad, Cualidad, Relación y
    Modalidad

9
La recuperación terminológica de la información
evolución
  • 1. El acceso a la información por materias,
    antecedente de los lenguajes documentales.
    Estados Unidos, 1876. La Clasificación decimal de
    Dewey y Rules for a Dictionary Catalog de Cuter
  • 2. La Fontaine y Otlet. Instituto Internacional
    de Bibliografía. RBU ? CDU ? permitir la
    cooperación bibliográfica internacional. CDU
    sistema de representación codificado. Taxonomía
    (positivista) y Asociación (de transición)
  • 3. Segunda Guerra Mundial. Acumulación de
    información. Vannevar Bush avanzó la recuperación
    mediante combinaciones lógicas sustitución de
    los sistemas jerárquicos por la asociación de
    conceptos

10
Tesauro Lista asociada de descriptores formada
con las posibilidades de representación de los
conceptos generales de los documentos de un
dominio concreto.
  • Dentro de cada campo semántico, los descriptores
    mantienen las relaciones ya propuestas por
    Aristóteles género, subtipo y diferencia. En
    estas relaciones interconceptuales está la causa
    del orden jerárquico (facetas en que se clasifica
    y desarrollo de estas).

11
Tesauros. Red conceptual
  • Un mismo concepto puede ser genérico por su
    relación con las ideas a las que se extiende, y
    especie por su subordinación a otra más general
  • Con un género supremo Top Term o
    Macrodescriptor.
  • Con géneros y especies subordinados
    (intermediarios) Middle Term (Submacrodescriptor)
    .
  • Y específicos de diferente nivel
  • Especie especialísima Genéricos.
  • Individuos Específicos.

12
Tesauros. Red conceptual
  • El movimiento de Port-Royal planteó los conceptos
    lógicos de
  • Definición, para explicar la quididad de la cosa
    (En los tesauros, la Scope note concreta el
    significado de algunos descriptores).
  • División que clarificaba una definición por la
    diferencia de una especie con otras (asociaciones
    entre términos de la misma categoría).

13
Tesauros. Red conceptual
  • Ramón Llull (Logica nova) propuso las diez
    reglas generales de cuestionar que subyacen a
    cualquier hecho comunicativo (Decámetro
    hermenéutico). En ellas están ya las razones de
    asociar términos
  • Utrum ? si es o no
  • Quid ? qué es
  • De quo ? de qué es
  • Quare ? por qué es
  • Quomodo ? de qué manera
  • Ubi ? dónde es
  • Quando ? cuándo es
  • Quantum ? cuánto es
  • Cum quo ? con quién es
  • Quale ? cuál es

14
Sintaxis del tesauro
  • Determinada por su macroestructura global y por
    la consiguiente superestructura, que establecen
    las normas de
  • Ordenación (parte clasificatoria)
  • Subordinación (parte jerárquica)
  • Asociación (completa la parte alfabética),
    refleja la concepción postmoderna del lenguaje
  • La macroestructura cumple una doble función
  • Fracciona el corpus de términos,
  • Guía hacia la situación exacta de los términos
    dentro de la superestructura.

15
Uso de tesauros ventajas y desventajas
  • Desventajas
  • Sin mecanismos para compartir información en la
    Web (hasta la aparición de SKOS). Están pensados
    para dominios restringidos.
  • Adición de relaciones complicada.
  • Reglas de nombrado según el estándar, de
    automatización complicada.
  • Es un vocabulario, sin relación directa con los
    objetos.
  • Creación por consenso previo de creadores, no de
    usuarios.
  • Coste elevado en la creación, mantenimiento y
    funcionamiento, evitables sólo con la
    automatización.
  • Ventajas
  • Sencillos de crear y gestionar
  • Algunos muy probados
  • Son legibles
  • Grado de coherencia generalmente alto
  • Eficacia probada
  • Abundancia de tesauros
  • Buen punto de partida para crear ontologías

16
  • Los tesauros proporcionan las respuestas a las
    preguntas de los usuarios.
  • El Qué sigue siendo actual
  • El Cómo supone adaptarse a las nuevas necesidades

17
Años 90
  • Internet y su enlace hipertextual de documentos
    obligó a diferenciar la representación de los
    contenidos
  • Tesauros conceptuales
  • Tesauros de verbos
  • Mapas de conceptos
  • Topic maps
  • La dinamización del tesauro con nuevas
    relaciones, en número mayor e identificadas, para
    mejorar la representación y aumentar la precisión
    y eficacia
  • Navegación, representación gráfica, con grafos
    explícitos de conexiones de la información

18
Taxonomías y lenguajes documentales
  • Las taxonomías están presentes en los
  • Esquemas de clasificación, Tesauros, Modelos
    conceptuales y Ontologías
  • En la actualidad, las taxonomías se aplican en el
    mundo empresarial e institucional
  • Organizan y gestionan los recursos digitales que
    alojan en sus servidores Web
  • Buscando categorizarlos y la navegación por ellos

19
Taxonomías
  • Red semántica de conceptos interrelacionados para
    cubrir las necesidades empresariales y la forma
    con que los trabajadores se relacionan con la
    información
  • Cada organización tiene unos procesos que
    conectan la experiencia y características del
    personal propio
  • Permite a los usuarios clasificar las materias
    dentro de jerarquías
  • Términos autorizados, definiciones que usa una
    organización para clasificar sus contenidos
  • La taxonomía organiza no sólo los contenidos
    propios de una organización, sino también
    servicios, productos y recursos humanos

20
Términos y Taxonomías
  • Cobertura
  • Basada en el contexto de aplicación
  • Fácil de modificar
  • Estructura
  • Depende del contexto de aplicación
  • Dinámica
  • Términos
  • Categorías representadas por entradas etiquetadas
    orientadas hacia el usuario

21
En los procesos automatizados se aprecia un
incremento pragmático de las relaciones, en
especial las de asociación (Tudhope, Alani y
Jones)
  • Ideas combinadas.
  • Términos relacionados conceptualmente.
  • Contigüidad.
  • Relaciones asociativas por definición.
  • Relaciones asociativas trasladadas por
    significado.
  • Relaciones asociativas con idéntica jerarquía.
  • Cuestiones de finalidad.
  • Relaciones asociativas sin especificar.
  • Cada uno de estos subtipos ofrece subdivisiones.
    Lo que ha multiplicado el número de relaciones
    asociativas presentes en un tesauro.

22
  • Tesauro Conceptual, red semántica en la que
    cada nodo contiene un único concepto que puede
    llevar asociados una serie de descriptores,
    identificados según las típicas relaciones de los
    tesauros
  • . preferenciales,
  • . jerárquicas o
  • . asociativas.

23
Rasgos novedosos respecto a los tesauros
convencionales
  • a) Listan todas las palabras no vacías
    existentes en las bases de datos
  • b) consideran los términos coloquiales, también
    las variaciones y truncamientos de los términos
    reconocidos
  • c) aportan notas definitorias que aclaren las
    posibles dudas de uso
  • d) razonan las equivalencias existentes entre
    términos
  • e) contienen numerosas relaciones asociativas
    entre descriptores, e incluso con los no
    descriptores

24
  • Funcionamiento. Ante una demanda, establecen
    enlaces entre el usuario y las bases
    terminológicas, mezclando en la recuperación el
    lenguaje controlado y diccionarios lingüísticos.
    Manejan
  • a) analizadores morfológicos y sintácticos, con
    marcos semánticos, para evitar la indeterminación
    de las palabras y de sus relaciones.
  • b) bancos de datos terminológicos, con los
    conceptos resultantes del análisis de originales
    de un dominio.
  • c) procedimientos de Inteligencia Artificial que
    permiten búsquedas automatizadas en diferentes
    bases de conocimientos multilingües.

25
Uso de ontologías
  • Para mejorar la precisión de las recuperaciones
    aprovechan el diseño de ontologías por áreas del
    conocimiento desde las que se autogeneran
    tesauros conceptuales que
  • distinguen los sinónimos,
  • suprimen los homónimos e
  • inducen a relaciones asociativas entre los
    descriptores.
  • Una ontología para una base de conocimientos debe
    abarcar
  • los diferentes tipos de documentos,
  • las descripciones conceptuales,
  • las relaciones entre dichos documentos (citas), y
  • las de estos con los diferentes problemas
    científicos además de índices, descripciones
    bibliográficas, tesauros, códigos
    clasificatorios, formalizaciones de validez,
    información terminológica, etc.

26
  • La elaboración de los tesauros conceptuales no
    está muy lejos de los resultados que se obtienen
    en los programas de indización automatizada.
  • Son similares la extracción y la normalización de
    vocabulario.
  • Si después se representan los términos mediante
    algún tipo de relación, como las infográficas,
    estamos cerca de formalizar un lenguaje
    combinatorio

27
  • Coincidencia con el procesamiento seguido por los
    programas más avanzados de indización automática
  • Análisis léxico textual
  • Procesos de filtrado para eliminar previamente
    los términos vacíos algoritmos IDF y N-grams.
  • Lematización de los términos flexionados mediante
    algoritmos de stemming (número de n-grams grupos
    de letras).
  • Tratamiento de palabras compuestas.
  • Mediante redes neuronales, se crean bases de
    conocimientos terminológicas con las que se
    establecen búsquedas automatizadas en Internet.

28
Obtención e integración de relaciones
  • Obtención de asociaciones temáticas entre
    componentes (clusterización - clases de
    descriptores con características comunes)
    clasificadores Cienciométricos Co-wording
    Estadísticos Max-min, K-vecinos, K-vecinos
    incremental, Isodata Neuronales Kohonen, Art-1,
    Art-2.
  • Construcción de la representación del dominio
    cálculo del centroide (descriptor más general del
    cluster).
  • Proceso de generación de relaciones semánticas
    para dos descriptores dados.

29
  • Otra de las propuestas de mejora de los tesauros
    es la inclusión de verbos que complementen a los
    tesauros estáticos tradicionales de sustantivos
    (Levin).
  • Está causado por la necesidad de mejorar la
    precisión cuando se trata, por ejemplo, de
    reutilizar software o de recuperar imágenes en
    movimiento.

30
  • Ventajas que aporta el uso de descriptores
    verbales
  • Posibilidad de indizar imágenes de video mediante
    gerundios
  • Identificar mediante verbos asociaciones
    funcionales mucho más adaptables a dominios
    concretos
  • Posibilidad de mostrar la relación existente
    entre dos conceptos usando las posibilidades
    innumerables del lenguaje natural (categorías
    verbales a modo de relaciones facetables)
  • Desambiguación conceptual

31
  • Relacionar conceptos mediante verbos en
    labores de recuperación plantea posibilidades
    semánticas diferentes a las de los tesauros
    tradicionales
  • Se pueden mostrar los agentes que
    interaccionan con el sistema y cómo lo hacen
    (casos de uso).
  • También permite mostrar los diagramas de
    secuencia y actividad.
  • La integración verbal procede del área
    pedagógica los mapas conceptuales (concept
    maps).
  • Antecedente la base de datos de referencia
    léxica WordNet, con relaciones de equivalencia y
    de jerarquía entre diferentes categorías
    gramaticales, para desambiguar conceptos, en
    especial mediante el uso de verbos

32
Mapas conceptuales
  • Técnica para representar el conocimiento en
    gráficas cognitivas ? redes de conceptos que se
    componen
  • de nodos (puntos / vértices) que representan
    conceptos y
  • de enlaces (arcs arcos /edges extremos,
    satélites) que representan las relaciones entre
    los conceptos

33
Rasgos de los mapas conceptuales
  • Técnica desarrollada por Joseph Novak en los años
    60 para ayudar a enseñar y aprender en las
    clases.
  • Se basó en que el conocimiento se representa por
    frases simples con estructura
  • Sujeto - verbo predicado
  • Como una asociación concepto ? relación ?
    concepto.
  • Estas relaciones pueden representarse mediante
    grafos en los que las ideas o los conceptos se
    sitúan en los nodos, y las relaciones en los
    enlaces.
  • De forma que un documento o dominio del
    conocimiento puede representarse por un conjunto
    de conceptos interrelacionados y dispuestos como
    un grafo.

34
Ejemplo Mapa Conceptual
Se celebran congresos como
Se habla de la
Tiene lugar en
y del
35
Justificación
  • El crecimiento de la Web y de las Bases Datos a
    texto completo
  • Necesidad de navegar de modo hipertextual
    mediante estructuras cognitivas
  • Problemas asociados a la búsqueda de la
    información sobrecarga informativa y
    desorientación

36
Asociaciones en los Mapas Conceptuales
  • Las asociaciones entre conceptos no están
    normalizadas, pero suelen referirse a
  • Conjunto - Miembro del conjunto
  • Todo - Parte
  • Relaciones específicas (x influencia y, está
    cerca de, lleva a, etc.)
  • Relaciones físicas (sobre, debajo, cerca...)
  • Relaciones temporales (antes, después)
  • Relaciones lógicas (causa, efecto)
  • Relaciones jerárquicas.

37
Definición Topic Map
  • Un topic map es un documento, o un conjunto de
    documentos SGML o XML interrelacionados en un
    espacio multidimensional en el que las
    localizaciones son topic.
  • ISO/IEC 13250 2000. SGML-Topic Maps

38
ELEMENTOS DEL TOPIC MAP
  • Topic p.e. ltSISOFTgt
  • Topic type p.e. ltjornadas científicasgt
  • Association lttiene lugar engt
  • Association type lttener lugar engt (localización)
  • Scope (ámbito en el que una relación tiene
    sentido) theme ltSociedad del conocimientogt
  • Topic occurrence (http//www.sisoftw.com)
  • Occurrence type (p.e. Página web)

39
Ejemplo Topic Map
Localización
ASSOCIATION TYPE
Jornadas científicas
TOPIC TYPE
Tener lugar
ASSOCIATION
JOTRI
TOPIC
SCOPE
PUBLIC SUBJECT
www.fiv.upv.es
Documentación/informática
TOPIC OCURRENCE
www.fiv.upv.es/jotri
OCURRENCE TYPE
Web page
40
Comparación
41
Comparación
42
Folksonomías
  • Práctica de indización cooperativa que asigna
    palabras-clave para organizar la información en
    categorías de manera espontánea y libre
  • Arquitectura de información social y cooperativa,
    en la que cada usuario escoge lo que más se
    ajusta a su entendimiento
  • Thomas Vander Wal propuso el neologismo.
  • Folk sonomy gente taxonomía, clasificación
    cooperativa

43
  • No es esencial construir una jerarquía. Si lo es
    poder emplear etiquetas semánticas para efectuar
    la indización.
  • Una folksonomía tiene que cumplir estas
    condiciones
  • que sea explícita
  • que pueda agregarse
  • que suponga ventajas para los usuarios (ésta es
    la razón de agregar etiquetas)
  • que sea relevante para los propósitos e
    intereses de un sitio web.

44
  • Del.icio.us social bookmarks
  • Gestor social de sitios web favoritos (bookmarks)
    permite
  • - añadir a los favoritos las páginas deseadas,
  • clasificar mediante palabras-clave,
  • e intercambiar esta información con otros
    usuarios
  • Limitación no deja introducir espacios entre
    palabras, con lo que la folksonomía se conforma
    solo con unitérminos
  • Flickr, http//www.flickr.com/
  • Sitio web sobre fotografía donde usuarios de
    cualquier lugar pueden compartir fotos
    poniéndolas en disposición de consulta mediante
    la asignación de palabras-clave. El propio
    usuario clasifica cada fotografía de acuerdo con
    lo que le sugiere

45
Folksonomías frente a tesauros
Los vocabularios controlados no son aplicables ni
económicamente extensibles a la mayoría de los
casos donde pueden usarse metadatos. Su
construcción, mantenimiento y aplicación resultan
demasiado costosos tanto en tiempo de desarrollo
como en tiempo necesario para que el usuario
aprenda el esquema de clasificación Mantener una
taxonomía se ha hecho muy difícil. De manera que
las folksonomías son una solución cuando la
clasificación tradicional no es viable
46
Para qué sirven las folksonomías?
Las folksonomías funcionan porque son eficaces
para los usuarios a la hora de ordenar su
información Son unos sistemas simples y
emergentes, que se alejan de la manera
tradicional de clasificar desde arriba hacia
abajo. Su ventaja proviene de la capacidad de
emparejar las necesidades verdaderas de los
usuarios y la lengua, no de buscar su precisión
47
Para qué sirven las folksonomías?
Abandonar las taxonomías por las listas de
palabras-clave no es nuevo Se benefician del
vocabulario personal y de la contribución social
para ayudar a encontrar en la web y controlar los
objetos que son interesantes Las folksonomías
incluyen cada una de las palabras propuestas, sin
dejar ninguna fuera. No hay una autoridad central
que imponga su visión cada voz tiene su lugar
48
Debilidades de las folksonomías
La folksonomía carece de lenguaje controlado,
pues no tiene jerarquías ni otro tipo de
asociaciones más allá de los posibles clusters de
recursos que se puedan formar según las
clasificaciones o palabras-clave de los
usuarios Por ello, la ambigüedad es muy alta.
Para un usuario, un término tiene un significado
o puede expresar una realidad completamente
distinta a la de otro usuario No hay guías de
uso, ni restricciones a cómo etiquetar los
contenidos
49
Debilidades de las folksonomías
Falta de consistencia debida a la ausencia de
control de sinónimos. Como ejemplo, a la hora de
denominar un ordenador Macintosh, puedan
emplearse las etiquetas mac, apple,
macintosh Cierta imprecisión derivada de que
se utilizan etiquetas solo con unitérminos Empleo
indistinto de singulares y plurales Y, por
supuesto, cuanto se deriva de la ausencia de
jerarquía y de los propios tipos de contenidos
analizados (bookmarks, fotos)
Write a Comment
User Comments (0)
About PowerShow.com