Greenstone - PowerPoint PPT Presentation

About This Presentation

Title:

Greenstone

Description:

... de informaci n que utilicen documentos digitales Indexa y busca sobre texto completo adem s de hacerlo sobre los metadatos Es multiling e: ... – PowerPoint PPT presentation

Number of Views:34

Avg rating:3.0/5.0

Slides: 19

Provided by: Jess3179

Category:

more less

Transcript and Presenter's Notes

Title: Greenstone

1
Greenstone

Basado en el trabajo de Jesús Tramullas
Depto. CC. Documentación /Univ. de Zaragoza
http//tramullas.com

2
Greenstone

Es una aplicación para bibliotecas digitales
Su objetivo es trabajar con documentos con
contenido textual, imagen, audio, video, etc.
La interface de visualización es en html y
permite una visualización total del contenido
Organiza los documentos en colecciones
Permite desarrollar estructuras de organización
de la colección

3
Aplicaciones

En organizaciones y/o servicios de información
que utilicen documentos digitales
Indexa y busca sobre texto completo además de
hacerlo sobre los metadatos
Es multilingüe utiliza Unicode

4
Arquitectura

Aplicación en Perl
Usa el motor de representación y recuperación de
información MG, o su versión avanzada MGPP, que
usan el modelo vectorial
Codifica toda la información en XML
Necesita de un servidor web de soporte
Incorpora una interfaz gráfica en Java

5
Requerimientos

Versiones binarias ejecutables para Linux,
Windows y Mac
Requiere un intérprete Perl
Requiere un servidor web
Requiere Java Runtime Environment, JRE
Para otros Unix hay código fuente que es
necesario compilar

6
Greenstone en acción

Da acceso a una interfaz predefinida, donde
muestra las colecciones disponibles
La selección de una de ellas lleva a la consulta
de la misma
La interfaz está muy estandarizada barra de
botones, campo de expresión de búsqueda y listado
de respuestas
El acceso es libre a la interfaz de busqueda y
recuperación

7
La consulta en Greenstone

Uso de las opciones en la barra de menú, y del
campo de búsqueda
Une los términos con AND
Uso de comillas para frases
Existencia de una interfaz más avanzada, a través
de Preferencias
Visualiza los documentos según haya sido
predefinido por el creador de la colección

8
Creación de colecciones

El proceso clave es la creación de colecciones
Es necesario definir claramente el objetivo,
contenido, características y organización de la
colección
Interfaces de creación
Greenstone Librarian Interface, GLI
Línea de órdenes

9
Greenstone Librarian Interface, GLI

Método recomendado (y recomendable) desde la
versión 2.41a
Interfaz en Java que necesita el JRE
Integra todos los pasos necesarios para crear una
colección
Comprobar las Preferencias

10
Desarrollo de la colección, 1

Definir el nombre y la descripción de la
colección
Seleccionar el conjunto de metadatos a utilizar
Crea un fichero básico de configuración de la
colección
Selección de los documentos a incluir
Asignación de metadatos a cada uno de los
documentos

11
Desarrollo de la colección, 2

Es necesario definir los tipos de documentos, y
los plugins necesarios para su manipulación
Definir tipos de búsqueda
Definir índices para las búsquedas
Definir los clasificadores
Definir los formatos de presentación
Construir la colección e informe de errores

12
Plugins

Son los procesadores de los tipos de documentos
Son terceros programas, pueden aparecer nuevos
Se pueden seleccionar y configurar
Cuatro son necesarios BasPlug, GAPlug, ArcPlug y
RecPlug
Los más importantes TextPlug, WordPlug, PDFPlug,
IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug,
PSPPlug

13
Clasificadores

Criterios de organización de los documentos de la
colección
Suelen aparecer en forma de botones
Clasificadores
List
AzList, AzCompactList
DateList
Hierarchy
Phind

14
Nuestra experiancia

Instalación LinuxSi bien tiene algunos
inconvenientes ya que necesita que estén
instalados ciertos componentes y en el manual de
instalación no indica cuales, una vez que estos
están instalados no tiene mayor dificultad, la
inteface es buena y se configura fácilmente, en
la versión 2.60 han corregidos alguno errores con
respecto a esto.

15
Nuestra experiencia

Interface para crear coleccionesMuy amena e
intuitiva, su pueden configurar los plugins que
procesan los distintos tipos de documentos, se
puede asociar un conjunto de metadatos a cada
archivo de la colección, se puede indicar la
forma de recuperación de las colecciones,
(institución, letra, tema, etc), se puede editar
el formato de visualización (no fue investigado a
fondo) entre otras cosas.

16
Nuestra Experiencia

Marcado de las tesis para que se puedan ver en
capítulosEl marcado es sencillo, cualquier
persona con conocimientos intermedios de HTML lo
puede hacer, lo recomendable en todos los casos
es convertir el documento a html, por lo que
habría que conseguir un buen programa, el mejor
resultado que conseguí para convertir docs es con
el CZ-Doc2html y después aplicando el Bresoft
Word HTML cleanup, para limpiar el documento ya
que deja mucho basura de Word al convertirlo, y
esto dificulta el marcado.En el caso de pdf el
procedimiento es el mismo.Después de la
conversión hay que recorrer todo el documento de
punta a punta para observar si se corresponde con
el original, ya que puede haber algunos problemas
con las tablas y listas.En promedio (depende de
la cantidad de capítulos, exagerada muchas veces
y de la fidelidad de la conversión) el formateo
de la tesis en capítulos nos llevó entre uno y
dos días de trabajo.

17
Nuestra Experiencia

Tratamiento de tesis escaneadas
En líneas generales el ocr interpretó bien el
texto.
Problemas
Se pierden las listas, sobre todo si en lugar de
puntos, se usó otro caracter.
Las tablas salen bien en cuanto al contenido, se
pierde todo el formato, por lo que hay que
reconstruirlas

18
Nuestra Experiencia

Imágenes y formulas, principal problema, no se
puede obtener automáticamente, hay que escanear
uno por uno, por lo que con una tesis con muchas
formulas como es el comun en exactas, ingenieria,
etc., el trabajo que lleva es mucho y
tedioso.Una buena manera de tratar las formulas,
podría ser, conseguir el texto en Word y
escribirlas de vuelta con el constructor de
formulas (se va a conseguir una calidad mejor que
escanearlas, si bien es mas trabajoso)
El tiempo de tratamiento de las tesis escaneadas
depende de la cantidad de gráficos y formulas que
tengan.