Greenstone - PowerPoint PPT Presentation

About This Presentation
Title:

Greenstone

Description:

... de informaci n que utilicen documentos digitales Indexa y busca sobre texto completo adem s de hacerlo sobre los metadatos Es multiling e: ... – PowerPoint PPT presentation

Number of Views:34
Avg rating:3.0/5.0
Slides: 19
Provided by: Jess3179
Category:

less

Transcript and Presenter's Notes

Title: Greenstone


1
Greenstone
  • Basado en el trabajo de Jesús Tramullas
  • Depto. CC. Documentación /Univ. de Zaragoza
  • http//tramullas.com

2
Greenstone
  • Es una aplicación para bibliotecas digitales
  • Su objetivo es trabajar con documentos con
    contenido textual, imagen, audio, video, etc.
  • La interface de visualización es en html y
    permite una visualización total del contenido
  • Organiza los documentos en colecciones
  • Permite desarrollar estructuras de organización
    de la colección

3
Aplicaciones
  • En organizaciones y/o servicios de información
    que utilicen documentos digitales
  • Indexa y busca sobre texto completo además de
    hacerlo sobre los metadatos
  • Es multilingüe utiliza Unicode

4
Arquitectura
  • Aplicación en Perl
  • Usa el motor de representación y recuperación de
    información MG, o su versión avanzada MGPP, que
    usan el modelo vectorial
  • Codifica toda la información en XML
  • Necesita de un servidor web de soporte
  • Incorpora una interfaz gráfica en Java

5
Requerimientos
  • Versiones binarias ejecutables para Linux,
    Windows y Mac
  • Requiere un intérprete Perl
  • Requiere un servidor web
  • Requiere Java Runtime Environment, JRE
  • Para otros Unix hay código fuente que es
    necesario compilar

6
Greenstone en acción
  • Da acceso a una interfaz predefinida, donde
    muestra las colecciones disponibles
  • La selección de una de ellas lleva a la consulta
    de la misma
  • La interfaz está muy estandarizada barra de
    botones, campo de expresión de búsqueda y listado
    de respuestas
  • El acceso es libre a la interfaz de busqueda y
    recuperación

7
La consulta en Greenstone
  • Uso de las opciones en la barra de menú, y del
    campo de búsqueda
  • Une los términos con AND
  • Uso de comillas para frases
  • Existencia de una interfaz más avanzada, a través
    de Preferencias
  • Visualiza los documentos según haya sido
    predefinido por el creador de la colección

8
Creación de colecciones
  • El proceso clave es la creación de colecciones
  • Es necesario definir claramente el objetivo,
    contenido, características y organización de la
    colección
  • Interfaces de creación
  • Greenstone Librarian Interface, GLI
  • Línea de órdenes

9
Greenstone Librarian Interface, GLI
  • Método recomendado (y recomendable) desde la
    versión 2.41a
  • Interfaz en Java que necesita el JRE
  • Integra todos los pasos necesarios para crear una
    colección
  • Comprobar las Preferencias

10
Desarrollo de la colección, 1
  • Definir el nombre y la descripción de la
    colección
  • Seleccionar el conjunto de metadatos a utilizar
  • Crea un fichero básico de configuración de la
    colección
  • Selección de los documentos a incluir
  • Asignación de metadatos a cada uno de los
    documentos

11
Desarrollo de la colección, 2
  • Es necesario definir los tipos de documentos, y
    los plugins necesarios para su manipulación
  • Definir tipos de búsqueda
  • Definir índices para las búsquedas
  • Definir los clasificadores
  • Definir los formatos de presentación
  • Construir la colección e informe de errores

12
Plugins
  • Son los procesadores de los tipos de documentos
  • Son terceros programas, pueden aparecer nuevos
  • Se pueden seleccionar y configurar
  • Cuatro son necesarios BasPlug, GAPlug, ArcPlug y
    RecPlug
  • Los más importantes TextPlug, WordPlug, PDFPlug,
    IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug,
    PSPPlug

13
Clasificadores
  • Criterios de organización de los documentos de la
    colección
  • Suelen aparecer en forma de botones
  • Clasificadores
  • List
  • AzList, AzCompactList
  • DateList
  • Hierarchy
  • Phind

14
Nuestra experiancia
  • Instalación LinuxSi bien tiene algunos
    inconvenientes ya que necesita que estén
    instalados ciertos componentes y en el manual de
    instalación no indica cuales, una vez que estos
    están instalados no tiene mayor dificultad, la
    inteface es buena y se configura fácilmente, en
    la versión 2.60 han corregidos alguno errores con
    respecto a esto.

15
Nuestra experiencia
  • Interface para crear coleccionesMuy amena e
    intuitiva, su pueden configurar los plugins que
    procesan los distintos tipos de documentos, se
    puede asociar un conjunto de metadatos a cada
    archivo de la colección, se puede indicar la
    forma de recuperación de las colecciones,
    (institución, letra, tema, etc), se puede editar
    el formato de visualización (no fue investigado a
    fondo) entre otras cosas.

16
Nuestra Experiencia
  • Marcado de las tesis para que se puedan ver en
    capítulosEl marcado es sencillo, cualquier
    persona con conocimientos intermedios de HTML lo
    puede hacer, lo recomendable en todos los casos
    es convertir el documento a html, por lo que
    habría que conseguir un buen programa, el mejor
    resultado que conseguí para convertir docs es con
    el CZ-Doc2html y después aplicando el Bresoft
    Word HTML cleanup, para limpiar el documento ya
    que deja mucho basura de Word al convertirlo, y
    esto dificulta el marcado.En el caso de pdf el
    procedimiento es el mismo.Después de la
    conversión hay que recorrer todo el documento de
    punta a punta para observar si se corresponde con
    el original, ya que puede haber algunos problemas
    con las tablas y listas.En promedio (depende de
    la cantidad de capítulos, exagerada muchas veces
    y de la fidelidad de la conversión) el formateo
    de la tesis en capítulos nos llevó entre uno y
    dos días de trabajo.

17
Nuestra Experiencia
  • Tratamiento de tesis escaneadas
  • En líneas generales el ocr interpretó bien el
    texto.
  • Problemas
  • Se pierden las listas, sobre todo si en lugar de
    puntos, se usó otro caracter.
  • Las tablas salen bien en cuanto al contenido, se
    pierde todo el formato, por lo que hay que
    reconstruirlas

18
Nuestra Experiencia
  1. Imágenes y formulas, principal problema, no se
    puede obtener automáticamente, hay que escanear
    uno por uno, por lo que con una tesis con muchas
    formulas como es el comun en exactas, ingenieria,
    etc., el trabajo que lleva es mucho y
    tedioso.Una buena manera de tratar las formulas,
    podría ser, conseguir el texto en Word y
    escribirlas de vuelta con el constructor de
    formulas (se va a conseguir una calidad mejor que
    escanearlas, si bien es mas trabajoso)
  2. El tiempo de tratamiento de las tesis escaneadas
    depende de la cantidad de gráficos y formulas que
    tengan.
Write a Comment
User Comments (0)
About PowerShow.com