http:stel'ub'edu - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

http:stel'ub'edu

Description:

Corpus, concordance, collocation. Oxford University Press. Tribble, C. ... Concordances in the classroom. A resource book for teachers. Housten, TX: Athelstan. ... – PowerPoint PPT presentation

Number of Views:84
Avg rating:3.0/5.0
Slides: 44
Provided by: mon7154
Category:
Tags: concordances | edu | http | stel

less

Transcript and Presenter's Notes

Title: http:stel'ub'edu


1
  • Servei de Tecnologia Lingüística
  • http//stel.ub.edu
  • 29 de septiembre de 2008

2
Algunos conceptos previos
  • Las Tecnologías de la Lengua constituyen un área
    de conocimento interdisciplinar donde confluyen
    distintas materias
  • Lingüística teórica
  • Lingüística aplicada
  • Informática
  • Inteligencia artificial
  • La tecnología aplicada al procesamiento del
    lenguaje tiene como objetivo el desarrollo de
    sistemas informáticos de diversa complejidad
  • correctores ortográficos
  • simuladores del lenguaje (oral y escrito)
  • recuperación y clasificación de la información
  • traducción automática

3
Algunos conceptos previos
  • En el desarrollo de cualquier aplicación
    intervienen dos elementos
  • recursos lingüísticos básicos
  • lexicones
  • gramáticas
  • diccionarios morfológicos
  • programas para el procesamiento de los textos
  • analizadores
  • desambiguadores y lematizadores
  • programas de cálculo estadístico

4
Algunos conceptos previos
  • Forma (type) Equivalente a palabra cualquier
    palabra que aparece en un corpus.
  • Ocurrencia (token) Cada aparición de una forma
    en un corpus. El número de ocurrencias de una
    forma constituye su FRECUENCIA.
  • Lema El estándar léxico de una forma es decir,
    una forma tal y como la encontramos en el
    diccionario (en catalán o español, el infinitivo
    para los verbos, el masculino singular para los
    adjetivos, el singular para los sustantivos,).

5
Proceso de trabajo (I)
  • Diseño del estudio
  • Selección del corpus textual
  • Contenido
  • Tamaño del corpus
  • Clasificación
  • Introducción del corpus en soporte magnético
  • Manual (desde el teclado)
  • Escáner OCR
  • CD-ROM
  • Internet

6
Proceso de trabajo (II)
  • Marcaje o etiquetaje del corpus textual
  • Referenciación de las partes
  • Introducción de información paratextual
  • Modificaciones sobre el texto
  • Anotaciones morfológicas, sintácticas, etc.
  • Aplicación del programa(s) informático(s) de
    análisis de textos
  • Obtención de resultados

7
El corpus textual
  • Definición de corpus textual
  • En principio, denominamos corpus textual a
    cualquier conjunto de textos en soporte
    informático, agrupados y clasificados según
    determinados criterios y objetivos.
  • Un corpus constituye una fuente de información
    para
  • El desarrollo de recursos lingüísticos básicos
    (léxicos, gramáticas)
  • La investigación filológica y lingüística
  • La lexicografía
  • También es un banco de pruebas para la
    investigación en Lingüística Teórica y
    Computacional.
  • Los distinguimos según su tamaño, contenido, tipo
    de ordenación,...

8
El corpus textual
  • Ventajas de la utilización de un corpus textual
  • Manejo de gran volumen de información de muestras
    reales de la lengua.
  • Facilidad de clasificación de los ejemplos.
  • Capacidad de utilización como banco de pruebas
    para refrendar teorías o intuiciones.
  • Posibilidad de utilizar métodos estadísticos para
    su tratamiento.
  • Combinación de métodos estadísticos con métodos
    basados en el conocimiento gramatical.

9
Tipos de corpus
  • Corpus general de referencia representativo de
    una lengua, útil para realizar observaciones
    generales sobre ella. Contiene material oral y
    escrito, y una representación de diferentes tipos
    de textos.
  • Corpus para objetivos específicos se fija en un
    aspecto particular del lenguaje (variedad de
    lengua, género literario, temática,...).
  • Oral/de lengua hablada/de lengua escrita.
  • Monolingüe/multilingüe (comparable/paralelo).
  • Sincrónico/diacrónico.
  • Abierto (corpus monitor)/cerrado

10
Tipos de corpus
  • Corpus puros (formato ASCII) se utilizan para
    elaborar estudios cuantitativos (listas de
    formas, frecuencias, colocaciones,).
  • Corpus procesados permiten obtener información
    sobre el uso de la lengua (análisis lingüístico,
    estudios de léxico, traducción automática,)
  • Corpus etiquetados (tagged) morfosintácticamente
  • Corpus analizados sintácticamente
  • análisis superficial (skeleton parsing o
    chunking)
  • análisis profundo (full parsing)

11
Corpus etiquetados
12
Etiquetarios (POS taggers)
13
Corpus analizado sintácticamente
14
El corpus de ejemplo
  • El corpus está constituido por textos
    periodísticos (editoriales, artículos de opinión
    y noticias) en referencia a la muerte de Augusto
    Pinochet.
  • Los textos han sido obtenidos a partir de las
    ediciones digitales de diferentes periódicos de
    los días 11, 12 y 13 de diciembre de 2006.
  • Los periódicos han sido divididos en tres partes,
    según su ubicación geográfica
  • Español peninsular
  • Español insular (Canarias)
  • Latinoamérica

15
El corpus de ejemplo
  • Español peninsular
  • EL Mundo
  • El País
  • El Periódico (edición Cataluña)
  • ABC
  • Español insular
  • Canarias 7
  • Latinoamérica
  • Clarín (Argentina)
  • El Mercurio (Chile)
  • Hoy (Ecuador)
  • La Jornada (México)
  • La República (Perú)
  • La Nación (Costa Rica)

16
Marcaje del texto
  • Referenciación de las partes
  • Introducción de información paratextual
  • Anotaciones morfológicas, sintácticas, etc.
  • Formatos
  • SGML (Standard Generalized Markup Language)
  • XML
  • Formato ltmarcagtlt/marcagt

17
Etiquetaje del texto procesado
  • Lematización
  • Tagging etiquetaje PoS (part of speech)
  • Parsing etiquetaje sintáctico

18
Referenciación de las partes
19
Modificaciones del texto
20
Las entidades nombradas
  • Las entidades nombradas o entidades con
    nombre (traducción del inglés Named Entities,
    NE) son aquellos grupos de palabras que contienen
    un nombre propio e identifican a un individuo o
    entidad.
  • Pueden ser
  • Fuertes (strong) Bill Gates, USA, Kilimanjaro,
    30 , 21/01/1950,
  • Débiles (weak) el teorema de Pitágoras, el
    ministro de Defensa, Las nieves del
    Kilimanjaro,
  • Desde un punto de vista semántico, las NE
    pertenecen a seis categorías
  • Persona Zapatero, el presidente de Colombia, el
    presidente español
  • Organización el Ayuntamiento de Madrid, la
    Generalitat, IBM
  • Lugar el Masnou, la carretera entre Badalona y
    Mataró
  • Fecha 1918, 11 de septiembre de 1973
  • Número (incluye monedas, porcentajes y
    magnitudes) 20 metros cuadrados, 20 euros, el
    50 de la población
  • Otros (títulos de obras artísticas o personajes
    de ficción)

21
Programas utilizados
  • Hyperbase
  • (http//www.unice.fr/bcl/)
  • WordSmith
  • (http//www.lexically.met/wordsmith/index.html)
  • FreeLing
  • (http//garraf.epsevg.upc.es/freeling/index)

22
Programas utilizados
23
Programas utilizados
24
Análisis frecuencial del vocabulario
  • La aproximación más directa al trabajo con datos
    textuales consiste simplemente en contar las
    frecuencias de formas, ocurrencias u otras
    clasificaciones (por ejemplo, frecuencias por
    categorías gramaticales).
  • Los recuentos de frecuencias en datos absolutos
    no permiten la comparación entre corpus o partes
    de corpus, en especial si son de distinto tamaño.
    Deben utilizarse porcentajes de aparición
    respecto al tamaño del corpus.

25
Análisis frecuencial del vocabulario
  • La función básica de un programa de análisis de
    textos es la generación de una lista de
    frecuencias de formas, que nos proporciona el
    número de ocurrencias (apariciones) de cada
    palabra.
  • Dicha lista puede tener dos tipos de ordenación
  • orden alfabético (lexicográfico)
  • recto
  • inverso
  • a tergo
  • orden frecuencial
  • creciente
  • decreciente (lexicométrico)

26
Análisis frecuencial del vocabulario
Índice frecuencial decreciente (lexicométrico)
27
Análisis frecuencial del vocabulario
  • Creación de un índice frecuencial con indicación
    de frecuencia mínima

28
Análisis frecuencial del vocabulario
Gráfico de comparación de una forma entre las
diferentes partes del corpus
29
Análisis frecuencial del vocabulario
Lista de formas con una frecuencia determinada
(hápax)
30
Análisis frecuencial del vocabulario
Índice alfabético de formas representativas
(vocabulario específico
31
Análisis frecuencial del vocabulario
  • Índice de segmentos repetidos

32
Análisis frecuencial del vocabulario
Índice alfabético de nombres propios
33
Análisis frecuencial del vocabulario
Índice alfabético de nombres propios con
indicación de subfrecuencia
34
Concordancias
  • En origen, una concordancia contenía todas las
    palabras de un texto o en las obras de un autor
    (exceptuando, generalmente, las formas
    gramaticales más comunes), junto con una lista de
    los contextos de aparición de cada palabra (una
    línea completa, una referencia breve, o ambas
    cosas a la vez).
  • Las concordancias se han utilizado desde la Edad
    Media, especialmente en el campo de los estudios
    bíblicos. Normalmente, se asocian a textos
    estudiados intensiva y repetidamente (la Biblia,
    las obras de Shakespeare). Ello se debe a que el
    trabajo de elaboración manual de una concordancia
    completa era tan colosal que sólo se emprendía si
    se esperaba que su utilidad fuera duradera.
  • Con los ordenadores, dado un texto en formato
    electrónico, un programa informático adecuado
    puede realizar todas las tareas necesarias para
    elaborar una concordancia con mucha rapidez.
  • Actualmente, no suelen elaborarse concordancias
    exhaustivas de un texto completo, sino que se
    tiende a producir listas de formas concretas en
    el momento en que se necesitan. Sin embargo, los
    programas de elaboración de concordancias también
    se utilizan en algunos casos para analizar corpus
    de millones de palabras.

35
Concordancias
  • La concordancia es una reorganización de las
    formas y ocurrencias del texto, de manera que las
    ocurrencias de una misma forma se reagrupan
    acompañadas de un fragmento de su contexto
    inmediato, cuya longitud varía según las
    necesidades del análisis.
  • La palabra clave es aquella cuyos contextos se
    reagrupan.
  • Las concordancias ofrecen una perspectiva global
    de las diferentes maneras de utilizar una forma,
    algo difícil de obtener mediante una lectura
    secuencial.
  • Tipos de concordancias
  • Tradicionales (naturales)
  • Informatizadas
  • Concordancia de tipo KWIC (keyword in context)
  • Concordancia de contexto variable
  • Contextos

36
Concordancias
Concordancia KWIC en orden cronológico de
aparición
37
Concordancias
Concordancia KWIC en orden alfabético de
aparición de la forma siguiente a la forma clave
38
Concordancias
Concordancia KWIC de un segmento
39
Concordancias
Concordancia de tipo contexto
40
Concordancias
Concordancia de tipo contexto de una
coocurrencia
41
Concordancias
Reagrupación temática del vocabulario a partir de
una concordancia de tipo contexto
42
Concordancias recursos en Internet
  • Biblioteca Virtual Miguel de Cervantes
    (Herramientas lingüística Concordancias)
  • http//www.cervantesvirtual.com/concordancias/inde
    x.shtml
  • SOL (Spanish on line). Concordancias españolas en
    la web
  • http//spraakbanken.gu.se/lb/konk/rom2
  • Concordancias, a propósito de la autoría de El
    Lazarillo de Tormes
  • http//www.elazarillo.net/concordancias.html

43
Bibliografía
  • Blecua, J.M. et al., eds. (1999). Filología e
    informática. Nuevas tecnologías en los estudios
    filológicos. Barcelona Milenio-Universitat
    Autònoma de Barcelona.
  • Civit, M. (2003). Criterios de etiquetación y
    desambiguación morfosintáctica de corpus en
    español. Tesis doctoral. Universitat de
    Barcelona, Departament de Lingüística.
  • Gómez, J., A.M. Lorenzo, eds. (1996).
    Lingüística e informática. Santiago de
    Compostela Tórculo Edicións.
  • Grishman, R. (1991). Introducción a la
    Lingüística Computacional. Madrid Visor.
  • Hockey, S. (2000). Electronic texts in the
    Humanities. Oxford University Press.
  • Marcos Marín, F. (1994). Informática y
    Humanidades. Madrid Gredos.
  • Marcos Marín, F. (1996). El comentario
    filológico con apoyo informático. Madrid
    Síntesis.
  • Martí, M.A., coord. (2001). Les tecnologies del
    llenguatge. Barcelona Edicions de la Universitat
    Oberta de Catalunya.
  • Martí, M.A., I. Castellón (2001). Lingüística
    Computacional. Barcelona Edicions Universitat de
    Barcelona (Textos Docents 218).
  • Pérez Guerra, J. (1998). Análisis computarizado
    de textos. Una introducción a TACT. Servicio de
    Publicacións, Universidade de Vigo.
Write a Comment
User Comments (0)
About PowerShow.com