Title: La representacin de los contenidos digitales: de los tesauros automticos a las folksonomas
1La representación de los contenidos digitales de
lostesauros automáticos a las folksonomías
Valencia, CALSI, 2007
José A. Moreiro González Universidad Carlos III
de Madrid joseantonio.moreiro_at_uc3m.es
2La mayoría de los sistemas de representación se
generó antes de que existiera el ciberespacio
- La nueva matriz cultural sigue inacabada
- Los documentalistas del siglo XXI se enfrentan al
problema de inventar, adaptar y mejorar la nueva
generación de sistemas simbólicos
3Obstáculos para explotar las potencialidades de
lo digital
- 1. Multiplicidad de sistemas simbólicos
- Inadaptación de los sistemas de identificación,
heredados de la era de la imprenta - Multiplicidad e incompatibilidad de taxonomías,
tesauros, terminologías, ontologías y sistemas de
clasificación
4Obstáculos para explotar las potencialidades de
lo digital
- 2. Dificultades informáticas para alcanzar el
significado de los documentos - Basan sus investigaciones en cadenas de
caracteres, no en conceptos. Así, al buscar la
palabra gato, es tratada como la sucesión de
caracteres g, a, t, o y no como un concepto .
5Las Ciencias Naturales (siglos XVI - XX)
alcanzaron un sistema de coordenadas y unidades
de medida universales
- Desde entonces, la comunidad científica usa un
conjunto de instrumentos simbólicos y
conceptuales independientes de las lenguas
naturales - altamente formalizado
- lógicamente coherente
- ampliamente compartido
6Marco positivista de representación de la
Información
7Marco postmoderno de representación de la
Información
8Bases epistemológicas de la representación de la
información
-
- Aristóteles (Retórica) consideró a los
predicamentos como los conceptos más generales a
los que alude la expresión del pensamiento - Leibniz (De Synthesi et Analysi universali) los
redujo a solo cinco categorías - Kant (Crítica de la razón pura) limitó aún más
las categorías de los conceptos puros del
entendimiento Cantidad, Cualidad, Relación y
Modalidad
9La recuperación terminológica de la información
evolución
- 1. El acceso a la información por materias,
antecedente de los lenguajes documentales.
Estados Unidos, 1876. La Clasificación decimal de
Dewey y Rules for a Dictionary Catalog de Cuter - 2. La Fontaine y Otlet. Instituto Internacional
de Bibliografía. RBU ? CDU ? permitir la
cooperación bibliográfica internacional. CDU
sistema de representación codificado. Taxonomía
(positivista) y Asociación (de transición) - 3. Segunda Guerra Mundial. Acumulación de
información. Vannevar Bush avanzó la recuperación
mediante combinaciones lógicas sustitución de
los sistemas jerárquicos por la asociación de
conceptos
10Tesauro Lista asociada de descriptores formada
con las posibilidades de representación de los
conceptos generales de los documentos de un
dominio concreto.
- Dentro de cada campo semántico, los descriptores
mantienen las relaciones ya propuestas por
Aristóteles género, subtipo y diferencia. En
estas relaciones interconceptuales está la causa
del orden jerárquico (facetas en que se clasifica
y desarrollo de estas).
11Tesauros. Red conceptual
- Un mismo concepto puede ser genérico por su
relación con las ideas a las que se extiende, y
especie por su subordinación a otra más general - Con un género supremo Top Term o
Macrodescriptor. - Con géneros y especies subordinados
(intermediarios) Middle Term (Submacrodescriptor)
. - Y específicos de diferente nivel
- Especie especialísima Genéricos.
- Individuos Específicos.
12Tesauros. Red conceptual
- El movimiento de Port-Royal planteó los conceptos
lógicos de - Definición, para explicar la quididad de la cosa
(En los tesauros, la Scope note concreta el
significado de algunos descriptores). - División que clarificaba una definición por la
diferencia de una especie con otras (asociaciones
entre términos de la misma categoría).
13Tesauros. Red conceptual
- Ramón Llull (Logica nova) propuso las diez
reglas generales de cuestionar que subyacen a
cualquier hecho comunicativo (Decámetro
hermenéutico). En ellas están ya las razones de
asociar términos - Utrum ? si es o no
- Quid ? qué es
- De quo ? de qué es
- Quare ? por qué es
- Quomodo ? de qué manera
- Ubi ? dónde es
- Quando ? cuándo es
- Quantum ? cuánto es
- Cum quo ? con quién es
- Quale ? cuál es
14Sintaxis del tesauro
- Determinada por su macroestructura global y por
la consiguiente superestructura, que establecen
las normas de - Ordenación (parte clasificatoria)
- Subordinación (parte jerárquica)
- Asociación (completa la parte alfabética),
refleja la concepción postmoderna del lenguaje - La macroestructura cumple una doble función
- Fracciona el corpus de términos,
- Guía hacia la situación exacta de los términos
dentro de la superestructura.
15Uso de tesauros ventajas y desventajas
- Desventajas
- Sin mecanismos para compartir información en la
Web (hasta la aparición de SKOS). Están pensados
para dominios restringidos. - Adición de relaciones complicada.
- Reglas de nombrado según el estándar, de
automatización complicada. - Es un vocabulario, sin relación directa con los
objetos. - Creación por consenso previo de creadores, no de
usuarios. - Coste elevado en la creación, mantenimiento y
funcionamiento, evitables sólo con la
automatización.
- Ventajas
- Sencillos de crear y gestionar
- Algunos muy probados
- Son legibles
- Grado de coherencia generalmente alto
- Eficacia probada
- Abundancia de tesauros
- Buen punto de partida para crear ontologías
16-
- Los tesauros proporcionan las respuestas a las
preguntas de los usuarios. -
- El Qué sigue siendo actual
- El Cómo supone adaptarse a las nuevas necesidades
17Años 90
- Internet y su enlace hipertextual de documentos
obligó a diferenciar la representación de los
contenidos - Tesauros conceptuales
- Tesauros de verbos
- Mapas de conceptos
- Topic maps
- La dinamización del tesauro con nuevas
relaciones, en número mayor e identificadas, para
mejorar la representación y aumentar la precisión
y eficacia - Navegación, representación gráfica, con grafos
explícitos de conexiones de la información
18Taxonomías y lenguajes documentales
- Las taxonomías están presentes en los
- Esquemas de clasificación, Tesauros, Modelos
conceptuales y Ontologías - En la actualidad, las taxonomías se aplican en el
mundo empresarial e institucional - Organizan y gestionan los recursos digitales que
alojan en sus servidores Web - Buscando categorizarlos y la navegación por ellos
-
19Taxonomías
- Red semántica de conceptos interrelacionados para
cubrir las necesidades empresariales y la forma
con que los trabajadores se relacionan con la
información - Cada organización tiene unos procesos que
conectan la experiencia y características del
personal propio - Permite a los usuarios clasificar las materias
dentro de jerarquías - Términos autorizados, definiciones que usa una
organización para clasificar sus contenidos - La taxonomía organiza no sólo los contenidos
propios de una organización, sino también
servicios, productos y recursos humanos -
20Términos y Taxonomías
- Cobertura
- Basada en el contexto de aplicación
- Fácil de modificar
- Estructura
- Depende del contexto de aplicación
- Dinámica
- Términos
- Categorías representadas por entradas etiquetadas
orientadas hacia el usuario
21 En los procesos automatizados se aprecia un
incremento pragmático de las relaciones, en
especial las de asociación (Tudhope, Alani y
Jones)
- Ideas combinadas.
- Términos relacionados conceptualmente.
- Contigüidad.
- Relaciones asociativas por definición.
- Relaciones asociativas trasladadas por
significado. - Relaciones asociativas con idéntica jerarquía.
- Cuestiones de finalidad.
- Relaciones asociativas sin especificar.
- Cada uno de estos subtipos ofrece subdivisiones.
Lo que ha multiplicado el número de relaciones
asociativas presentes en un tesauro.
22- Tesauro Conceptual, red semántica en la que
cada nodo contiene un único concepto que puede
llevar asociados una serie de descriptores,
identificados según las típicas relaciones de los
tesauros - . preferenciales,
- . jerárquicas o
- . asociativas.
23Rasgos novedosos respecto a los tesauros
convencionales
- a) Listan todas las palabras no vacías
existentes en las bases de datos - b) consideran los términos coloquiales, también
las variaciones y truncamientos de los términos
reconocidos - c) aportan notas definitorias que aclaren las
posibles dudas de uso - d) razonan las equivalencias existentes entre
términos - e) contienen numerosas relaciones asociativas
entre descriptores, e incluso con los no
descriptores
24- Funcionamiento. Ante una demanda, establecen
enlaces entre el usuario y las bases
terminológicas, mezclando en la recuperación el
lenguaje controlado y diccionarios lingüísticos.
Manejan - a) analizadores morfológicos y sintácticos, con
marcos semánticos, para evitar la indeterminación
de las palabras y de sus relaciones. - b) bancos de datos terminológicos, con los
conceptos resultantes del análisis de originales
de un dominio. - c) procedimientos de Inteligencia Artificial que
permiten búsquedas automatizadas en diferentes
bases de conocimientos multilingües.
25Uso de ontologías
- Para mejorar la precisión de las recuperaciones
aprovechan el diseño de ontologías por áreas del
conocimiento desde las que se autogeneran
tesauros conceptuales que - distinguen los sinónimos,
- suprimen los homónimos e
- inducen a relaciones asociativas entre los
descriptores. - Una ontología para una base de conocimientos debe
abarcar - los diferentes tipos de documentos,
- las descripciones conceptuales,
- las relaciones entre dichos documentos (citas), y
- las de estos con los diferentes problemas
científicos además de índices, descripciones
bibliográficas, tesauros, códigos
clasificatorios, formalizaciones de validez,
información terminológica, etc.
26- La elaboración de los tesauros conceptuales no
está muy lejos de los resultados que se obtienen
en los programas de indización automatizada. - Son similares la extracción y la normalización de
vocabulario. - Si después se representan los términos mediante
algún tipo de relación, como las infográficas,
estamos cerca de formalizar un lenguaje
combinatorio
27- Coincidencia con el procesamiento seguido por los
programas más avanzados de indización automática - Análisis léxico textual
- Procesos de filtrado para eliminar previamente
los términos vacíos algoritmos IDF y N-grams. - Lematización de los términos flexionados mediante
algoritmos de stemming (número de n-grams grupos
de letras). - Tratamiento de palabras compuestas.
- Mediante redes neuronales, se crean bases de
conocimientos terminológicas con las que se
establecen búsquedas automatizadas en Internet.
28Obtención e integración de relaciones
- Obtención de asociaciones temáticas entre
componentes (clusterización - clases de
descriptores con características comunes)
clasificadores Cienciométricos Co-wording
Estadísticos Max-min, K-vecinos, K-vecinos
incremental, Isodata Neuronales Kohonen, Art-1,
Art-2. - Construcción de la representación del dominio
cálculo del centroide (descriptor más general del
cluster). - Proceso de generación de relaciones semánticas
para dos descriptores dados.
29- Otra de las propuestas de mejora de los tesauros
es la inclusión de verbos que complementen a los
tesauros estáticos tradicionales de sustantivos
(Levin). - Está causado por la necesidad de mejorar la
precisión cuando se trata, por ejemplo, de
reutilizar software o de recuperar imágenes en
movimiento.
30- Ventajas que aporta el uso de descriptores
verbales - Posibilidad de indizar imágenes de video mediante
gerundios - Identificar mediante verbos asociaciones
funcionales mucho más adaptables a dominios
concretos - Posibilidad de mostrar la relación existente
entre dos conceptos usando las posibilidades
innumerables del lenguaje natural (categorías
verbales a modo de relaciones facetables) - Desambiguación conceptual
31- Relacionar conceptos mediante verbos en
labores de recuperación plantea posibilidades
semánticas diferentes a las de los tesauros
tradicionales - Se pueden mostrar los agentes que
interaccionan con el sistema y cómo lo hacen
(casos de uso). - También permite mostrar los diagramas de
secuencia y actividad. - La integración verbal procede del área
pedagógica los mapas conceptuales (concept
maps). - Antecedente la base de datos de referencia
léxica WordNet, con relaciones de equivalencia y
de jerarquía entre diferentes categorías
gramaticales, para desambiguar conceptos, en
especial mediante el uso de verbos
32Mapas conceptuales
- Técnica para representar el conocimiento en
gráficas cognitivas ? redes de conceptos que se
componen - de nodos (puntos / vértices) que representan
conceptos y - de enlaces (arcs arcos /edges extremos,
satélites) que representan las relaciones entre
los conceptos
33Rasgos de los mapas conceptuales
- Técnica desarrollada por Joseph Novak en los años
60 para ayudar a enseñar y aprender en las
clases. - Se basó en que el conocimiento se representa por
frases simples con estructura - Sujeto - verbo predicado
- Como una asociación concepto ? relación ?
concepto. - Estas relaciones pueden representarse mediante
grafos en los que las ideas o los conceptos se
sitúan en los nodos, y las relaciones en los
enlaces. - De forma que un documento o dominio del
conocimiento puede representarse por un conjunto
de conceptos interrelacionados y dispuestos como
un grafo.
34Ejemplo Mapa Conceptual
Se celebran congresos como
Se habla de la
Tiene lugar en
y del
35Justificación
- El crecimiento de la Web y de las Bases Datos a
texto completo - Necesidad de navegar de modo hipertextual
mediante estructuras cognitivas - Problemas asociados a la búsqueda de la
información sobrecarga informativa y
desorientación
36Asociaciones en los Mapas Conceptuales
- Las asociaciones entre conceptos no están
normalizadas, pero suelen referirse a - Conjunto - Miembro del conjunto
- Todo - Parte
- Relaciones específicas (x influencia y, está
cerca de, lleva a, etc.) - Relaciones físicas (sobre, debajo, cerca...)
- Relaciones temporales (antes, después)
- Relaciones lógicas (causa, efecto)
- Relaciones jerárquicas.
37Definición Topic Map
- Un topic map es un documento, o un conjunto de
documentos SGML o XML interrelacionados en un
espacio multidimensional en el que las
localizaciones son topic. -
- ISO/IEC 13250 2000. SGML-Topic Maps
38ELEMENTOS DEL TOPIC MAP
- Topic p.e. ltSISOFTgt
- Topic type p.e. ltjornadas científicasgt
- Association lttiene lugar engt
- Association type lttener lugar engt (localización)
- Scope (ámbito en el que una relación tiene
sentido) theme ltSociedad del conocimientogt - Topic occurrence (http//www.sisoftw.com)
- Occurrence type (p.e. Página web)
39Ejemplo Topic Map
Localización
ASSOCIATION TYPE
Jornadas científicas
TOPIC TYPE
Tener lugar
ASSOCIATION
JOTRI
TOPIC
SCOPE
PUBLIC SUBJECT
www.fiv.upv.es
Documentación/informática
TOPIC OCURRENCE
www.fiv.upv.es/jotri
OCURRENCE TYPE
Web page
40 Comparación
41Comparación
42Folksonomías
- Práctica de indización cooperativa que asigna
palabras-clave para organizar la información en
categorías de manera espontánea y libre - Arquitectura de información social y cooperativa,
en la que cada usuario escoge lo que más se
ajusta a su entendimiento - Thomas Vander Wal propuso el neologismo.
- Folk sonomy gente taxonomía, clasificación
cooperativa
43- No es esencial construir una jerarquía. Si lo es
poder emplear etiquetas semánticas para efectuar
la indización. - Una folksonomía tiene que cumplir estas
condiciones - que sea explícita
- que pueda agregarse
- que suponga ventajas para los usuarios (ésta es
la razón de agregar etiquetas) - que sea relevante para los propósitos e
intereses de un sitio web.
44- Del.icio.us social bookmarks
- Gestor social de sitios web favoritos (bookmarks)
permite - - añadir a los favoritos las páginas deseadas,
- clasificar mediante palabras-clave,
- e intercambiar esta información con otros
usuarios - Limitación no deja introducir espacios entre
palabras, con lo que la folksonomía se conforma
solo con unitérminos - Flickr, http//www.flickr.com/
- Sitio web sobre fotografía donde usuarios de
cualquier lugar pueden compartir fotos
poniéndolas en disposición de consulta mediante
la asignación de palabras-clave. El propio
usuario clasifica cada fotografía de acuerdo con
lo que le sugiere
45Folksonomías frente a tesauros
Los vocabularios controlados no son aplicables ni
económicamente extensibles a la mayoría de los
casos donde pueden usarse metadatos. Su
construcción, mantenimiento y aplicación resultan
demasiado costosos tanto en tiempo de desarrollo
como en tiempo necesario para que el usuario
aprenda el esquema de clasificación Mantener una
taxonomía se ha hecho muy difícil. De manera que
las folksonomías son una solución cuando la
clasificación tradicional no es viable
46Para qué sirven las folksonomías?
Las folksonomías funcionan porque son eficaces
para los usuarios a la hora de ordenar su
información Son unos sistemas simples y
emergentes, que se alejan de la manera
tradicional de clasificar desde arriba hacia
abajo. Su ventaja proviene de la capacidad de
emparejar las necesidades verdaderas de los
usuarios y la lengua, no de buscar su precisión
47Para qué sirven las folksonomías?
Abandonar las taxonomías por las listas de
palabras-clave no es nuevo Se benefician del
vocabulario personal y de la contribución social
para ayudar a encontrar en la web y controlar los
objetos que son interesantes Las folksonomías
incluyen cada una de las palabras propuestas, sin
dejar ninguna fuera. No hay una autoridad central
que imponga su visión cada voz tiene su lugar
48Debilidades de las folksonomías
La folksonomía carece de lenguaje controlado,
pues no tiene jerarquías ni otro tipo de
asociaciones más allá de los posibles clusters de
recursos que se puedan formar según las
clasificaciones o palabras-clave de los
usuarios Por ello, la ambigüedad es muy alta.
Para un usuario, un término tiene un significado
o puede expresar una realidad completamente
distinta a la de otro usuario No hay guías de
uso, ni restricciones a cómo etiquetar los
contenidos
49Debilidades de las folksonomías
Falta de consistencia debida a la ausencia de
control de sinónimos. Como ejemplo, a la hora de
denominar un ordenador Macintosh, puedan
emplearse las etiquetas mac, apple,
macintosh Cierta imprecisión derivada de que
se utilizan etiquetas solo con unitérminos Empleo
indistinto de singulares y plurales Y, por
supuesto, cuanto se deriva de la ausencia de
jerarquía y de los propios tipos de contenidos
analizados (bookmarks, fotos)