Title: Introduccin a la Lingstica de Corpus Servei deTecnologia Lingstica
1Introducción a la Lingüística de Corpus Servei
deTecnologia Lingüística
- Facultad de Filología
- Edificio Josep Carner, 5º piso
- Persona de contacto Montserrat Nofre
- Tel 934035694
- stel_at_ub.edu/montsenofre_at_ub.edu
- http//stel.ub.edu
2Índice
- La Lingüística de Corpus como metodología
lingüística - El concepto de corpus
- Clasificación de los corpus
- Desarrollo de un corpus (I) diseño y
constitución - Desarrollo de un corpus (II) codificación y
anotación - Aplicaciones de la Lingüística de Corpus
- Ejemplos de corpus en español
- Ejemplos de trabajo con corpus
- Bibliografía
3La Lingüística de Corpus como metodología
lingüística
- Desde hace unos años, se usa el nombre de
Lingüística de corpus para designar una tendencia
cuyo objetivo reside en la construcción de
grandes conjuntos de material lingüístico,
extraídos del habla oral y escrita, con la ayuda
de medios informáticos. - La Lingüística de Corpus es una metodología
empírica de trabajo para el estudio y la
enseñanza de la lengua. - No implica una teoría ni una metodología
particular, puesto que diferentes enfoques y
métodos pueden utilizar un corpus determinado
como base analítica. - Así pues, denominamos Lingüística de Corpus a
toda orientación que depende de la observación de
un conjunto de datos extraídos de la producción
real de los individuos, ordenados según criterios
metodológicos diferentes pero explícitos (corpus).
4Antecedentes de la Lingüística de Corpus
- Hasta el siglo XIX existe una tradición de
trabajos lingüísticos basados en corpus.
Características - Conjunto de datos textos escritos.
- Finalidad estudio de lenguas muertas (latín,
sánscrito,). - Necesidad estos datos constituían el único
acercamiento posible a lenguas que ya no se
hablaban. - Finales del siglo XIX-mediados del siglo XX
trabajo con recopilaciones de gran cantidad de
datos escritos. Finalidad - Explicar el proceso de adquisición del lenguaje
infantil (transcripciones). - Obtener listas de vocabulario para la enseñanza
de lenguas. - Realizar estudios comparativos de lenguas.
- Elaborar gramáticas descriptivas
5Inicios de la Lingüística de Corpus
- La lingüística estructural americana (primera
mitad del s. XX) sentó las bases de la
Lingüística de Corpus como metodología empírica y
basada en la observación de datos. - El corpus era considerado la única herramienta
válida para el estudio de las lenguas, porque
podía proporcionar por sí mismo los datos
necesarios para una descripción exhaustiva de las
mismas - Características de los corpus estructuralistas
- Conjunto de datos muestras orales o
transcripciones. - Finalidad estudio de lenguas vivas pero no
documentadas por escrito (lenguas amerindias) - Centrados en aspectos fonéticos y
(morfo)fonológicos. - No atendían a criterios de representatividad,
porque era imposible manejar un número elevado de
datos
6Críticas a la Lingüística de Corpus
- La aparición de Chomsky (finales de los años 50)
supone un cambio radical de enfoque en los
estudios lingüísticos - Se impone el racionalismo como filosofía de guía
para las investigaciones relacionadas con el
lenguaje. - El trabajo basado en corpus será objeto de duras
críticas durante los años 60 y 70. - Se produce un desprestigio general de la
metodología basada en corpus (empirismo) en favor
de un acercamiento basado en las intuiciones del
lingüista (racionalismo).
7Críticas a la Lingüística de Corpus
- Las críticas de Chomsky se basan en la concepción
del recurso a la intuición o la introspección del
lingüista como único criterio válido para el
estudio de la lengua. - Los corpus no se consideran instrumentos válidos
desde la perspectiva del modelo de Chomsky,
porque - Dan cuenta de la actuación del hablante, sujeta
a errores y variaciones. La labor del lingüista
es reflejar la competencia del hablante, que le
permite distinguir la secuencias gramaticales de
las agramaticales. - Son parciales e incompletos, porque no contienen
todas las oraciones de la lengua. - Son cerrados y finitos, y no pueden explicar la
naturaleza de las lenguas, que tienen una
infinita capacidad generativa con un inventario
limitado de signos se generan infinitas
combinaciones.
8Críticas a la Lingüística de Corpus
- Además de las críticas teóricas de Chomsky,
Abercrombie (1965) resumió los problemas
prácticos existentes en la primera Lingüística de
Corpus - El procesamiento de datos era lento, propenso al
error y caro, porque era realizado por personas. - Requería habilidades de procesamiento de datos
todavía no disponibles.
9Segunda generación de Lingüística de Corpus
- Hacia los años 70, al margen de la corriente
lingüística dominante, se empezó a gestar la
segunda generación de trabajos en Lingüística de
Corpus, marcada por el uso de ordenadores. - En Estados Unidos se abordó la compilación del
primer corpus informatizado organizado de manera
sistemática. Desde entonces, los corpus
electrónicos se han erigido en recursos
imprescindibles para la investigación
lingüística. - Características de los corpus de ese periodo
- Uso de los ordenadores, que en los años 60
alcanzan suficiente potencia de procesamiento y
capacidad de almacenamiento para alojar grandes
cantidades de texto. - Representatividad de los datos los proyectos de
elaboración de corpus pretenden recopilar textos
que expliquen el estado de la lengua en ese
momento. - Se favorecen los corpus de textos escritos frente
a los datos orales, que suponen dificultades
técnicas y de transcripción. - Tamaño de los corpus alrededor de un millón de
palabras.
10Segunda generación de Lingüística de Corpus
- Survey of English Usage Corpus (SEU) 1 millón de
palabras creado con la intención de constituirse
en una descripción sistemática del inglés
hablado. Textos comprendidos entre 1955 y 1985. - Brown University Corpus of American English
(Brown Corpus) 500 muestras de 2000 palabras (1
millón de palabras) de publicaciones de Estados
Unidos de 1961. Su objetivo es dar cuenta del
inglés americano escrito. - Lancaster-Oslo/Bergen Corpus (LOB) 1 millón de
palabras. Inglés británico escrito en 1961. - London-Lund Corpus of Spoken English (LLC)
500.000 palabras. Inglés británico oral
grabaciones realizadas entre 1953 y 1987.
11Revisión de las críticas
- En la década de los 80, diversos autores rebaten
las críticas teóricas y prácticas formuladas
contra la primera lingüística de corpus. - Argumentos a favor de los corpus
- El corpus está sujeto a verificación, lo que
descarta el recurso a ejemplos inventados por el
lingüista de forma interesada. - La mayoría de enunciados de un corpus son
gramaticales, por lo que los corpus reflejan la
competencia. - Los corpus son una fuente inigualable para la
extracción de datos cuantitativos (frecuencias).
Si el corpus está bien diseñado, los datos serán
representativos de la lengua en su totalidad. - Los ordenadores pueden procesar gran cantidad de
datos a coste reducido, de forma rápida y sin
cometer errores.
12Revisión de las críticas
13El renacer de la Lingüística de corpus
- A partir de los años 80 se generaliza el término
Lingüística de Corpus (Aarts-Meijs, 1984), y los
corpus electrónicos se convierten en un recurso
indispensable. - Hechos que favorecieron el renacer de la
Lingüística de Corpus - El auge de las áreas aplicadas de la
Lingüística, y en particular de la Lingüística
Computacional necesidad de contar con datos de
uso de la lengua, procedentes de la actuación, de
hablantes nativos y no nativos. - El eclecticismo el uso de corpus no es
incompatible con el recurso a los juicios del
lingüista. - La mayor disponibilidad de corpus electrónicos
(Internet) y el desarrollo de nuevas tecnologías
para la introducción de textos en formato
electrónico (OCR). - En Lingüística Computacional, el desarrollo de
productos comerciales que requieren vocabularios
o diccionarios más extensos y el manejo de
frecuencias, estadísticas y cálculos de
probabilidades (casos de ambigüedad).
14Los grandes corpus textuales
- Características
- Corpus electrónicos (textos informatizados).
- Tamaño superan los 100 millones de palabras.
- Corpus monitor (abiertos, en continua
actualización). - Propiedad de consorcios comerciales.
- Desarrollo de corpus para una gran número de
lenguas y también de corpus multilingües. - Automatización del procesamiento de los textos
de un corpus (asignación de categoría gramatical,
desambiguación, extracción de concordancias,).
15Los grandes corpus textuales
- The British National Corpus (BNC)
http//www.natcorp.ox.ac.uk/ - 100 millones de palabras. Inglés británico
contemporáneo escrito y hablado. - The Bank of English (Proyecto COBUILD)
http//www.titania.bham.ac.uk/ - 524 millones de palabras. Inglés moderno escrito
y oral, de diferentes procedencias. - Corpus de Referencia del Español Contemporáneo
(CREA) http//www.rae.es/ - 160 millones de palabras. Textos escritos y
orales del español contemporáneo (desde 1975 a
la actualidad). - Corpus Diacrónico del Español (CORDE)
http//www.rae.es/ - 250 millones de palabras. Textos escritos del
español desde los orígenes del - idioma hasta 1975.
16Ventajas y desventajas del trabajo con corpus
textuales
- Objetividad.
- Rapidez, precisión y consistencia en el
procesamiento de los datos. - Facilidad de acceso y manipulación de los
materiales. - Permiten el procesamiento automático de textos y
la explicitación de diferentes informaciones
(categoría gramatical), que facilitan su
explotación. - El mismo recurso puede tener múltiples usos y
aplicaciones. - Disponibilidad de gran cantidad de datos como
base para el estudio del lenguaje y el desarrollo
de sistemas de PLN. - Son un recurso para la exploración de los
aspectos cuantitativos del lenguaje. - En corpus de lengua oral, si se trabaja con
transcripciones, existe el peligro de alejarse
demasiado del texto original. - El tamaño no es tan importante como la
adecuación del corpus a la finalidad para la que
se ha concebido.
17El concepto de corpus
- Requisitos de los corpus
- Textos en formato electrónico permite
automatizar la búsqueda y recuperación de
información, el cálculo de frecuencias y la
clasificación de los datos según diferentes
criterios. - Autenticidad de los datos los textos deben ser
muestras reales de uso de la lengua, a partir de
los cuales se elaboran teorías o aplicaciones
computacionales. - Criterios de selección lingüísticos y/o
extralingüísticos, según la finalidad concreta,
relacionada con el análisis lingüístico. - Representatividad la selección debe responder a
parámetros estadísticos que garanticen la
variedad de la lengua de estudio (muestra
representativa). - Tamaño Los corpus suelen tener un tamaño finito
en millones de palabras y predeterminado. En la
actualidad, el tamaño del corpus no es tan
importante como su diseño además, depende de la
disponibilidad de los textos y de la finalidad
del corpus.
18Algunas definiciones de corpus
- Un corpus es una muestra de una lengua que,
habitualmente, se ha construido a partir de una
selección de textos realizada según determinados
criterios y con un determinado objetivo.
(Martí-Castellón 2000) - Un corpus es un conjunto de textos de lenguaje
natural e irrestricto, almacenados en un formato
electrónico homogéneo, y seleccionados y
ordenados, de acuerdo con criterios explícitos,
para ser utilizados como modelo de un estado o
nivel de lengua determinado, en estudios o
aplicaciones relacionados en mayor o menor medida
con el análisis lingüístico. (Santalla 2005) - The term corpus as used in modern linguistics can
best be defined as a collection of sampled texts,
written or spoken, in machine-readable form which
may be annotated with various forms of linguistic
information. (McEnery-Xiao-Tono 2006)
19Clasificación de los corpus
- Los criterios de clasificación de los corpus
vienen determinados por la finalidad u objetivo
que persigue dicho corpus. - Ejemplos
- el estudio de la obra de un autor
- el estudio de la producción literaria de una
época determinada - la descripción de una lengua o de una variedad,
sublenguaje o aspecto lingüístico concreto - la obtención de un producto comercial
(diccionarios
20Tipos de corpus
- Según la modalidad de la lengua
- Corpus textuales o escritos
- Corpus orales muestras de lengua hablada, que
pueden ser - transcripciones ortográficas de grabaciones
(Lingüística de Corpus) - grabaciones y transcripciones ortográficas y/o
fonéticas (Fonética y Tecnologías del Habla) - Según el número de lenguas
- Corpus monolingües
- Corpus bilingües o multilingües, que pueden ser
- comparables (paired texts) se utilizan para
estudios contrastivos - corpus paralelos (bi-texts) se utilizan en
traducción automática y en entornos bilingües o
multilingües (ONU, UE,) - corpus alineados los textos están dispuestos
uno al lado de otros en párrafos o frases, de
manera que sea fácil extraer las equivalencias.
21Tipos de corpus
- Según el número de textos
- Corpus cerrados constan de un número
predeterminado de palabras. - Corpus abiertos o monitor en constante
crecimiento, gracias a la introducción periódica
de nuevos textos según unas proporciones
previamente definidas. - Según el número de lenguas
- Corpus generales o de referencia pretenden
reflejar una lengua o variedad lingüística de la
forma más equilibrada posible. - Corpus especializados textos que pueden aportar
datos para la descripción de un
tipo/variedad/estadio/uso particular de lengua. - Corpus genéricos textos pertenecientes a un
único género su objetivo es caracterizar dicho
género. - Corpus canónicos obra completa de un autor.
- Corpus diacrónicos o históricos textos de
diferentes etapas temporales la finalidad es
observar la evolución de la lengua. - Corpus sincrónicos su finalidad es estudiar una
o más variedades lingüística en un momento
determinado, generalmente para establecer
comparaciones entre variedades o dialectos. - .
22Tipos de corpus
- Según el procesamiento al que se someta el
corpus - Corpus simples, puros, de datos brutos, no
anotados, no codificados textos guardados sin
formato alguno (texto plano) y sin añadir ninguna
información adicional. - Corpus codificados o anotados formados por
textos a los que se han añadido, de forma manual
o automática, determinadas informaciones
referidas a la estructura de los textos
(codificación partes del texto,) o a aspectos
puramente lingüísticos (anotación categoría
gramatical, estructura sintáctica,). Los corpus
anotados pueden ser - corpus analizados morfológicamente (tagged)
anotados con información morfológica (categorías
morfosintácticas, con mayor o menor detalle) - corpus parentizados (parsed, chunked, skeleton
parsing) anotados con información sintáctica
superficial, introducida entre paréntesis o
corchetes - corpus analizados (treebanks, full parsing) el
texto está procesado sintácticamente de manera
completa, con un análisis exhaustivo. - .
23Criterios para la selección del contenido de un
corpus
- Criterios internos o lingüísticos tema (dominio
o ámbito de conocimiento al que pertenece un
texto), estilo (modelo de lengua del texto). - Criterios externos o situacionales cronología
(fecha de elaboración o edición del texto),
origen (del autor, lugar de edición), objetivo
(motivación del texto y finalidades que persigue
tipo de audiencia o público al que se dirige,),
género literario, medio de publicación. - Finalidad del corpus cuanto más amplio sea el
objetivo o finalidad, más complicado es el
diseño. También se considera la posible
reutilización del corpus. - Límites temporales, geográficos y lingüísticos
de los textos vendrán dictados por la finalidad
del corpus. - Tamaño y tipo de textos textos generales o
específicos, cantidad de texto que se tomará de
cada documento (texto íntegro fragmentos
selección,)
24Criterios para la selección del contenido de un
corpus
25Criterios para la selección del contenido de un
corpus
- Representatividad del corpus es necesario
aplicar una serie de principios estadísticos que
garanticen que las muestras a partir de las
cuales se va a efectuar una generalización sobre
la lengua son representativas de la población
(muestreo aleatorio simple, estratificado,
proporcional). - Proporción de temas y géneros debe haber un
equilibrio entre las diferentes categorías o
tipologías textuales (textos escritos, orales,
generales, específicos,).
26Criterios para la selección del contenido de un
corpus
27Codificación de un corpus
- Los corpus crudos (raw corpus) o sin anotar son
útiles para determinados aspectos, pero limitados
en cuanto a sus posibilidades. - Los corpus anotados (en los que se explicita
información lingüística y no lingüística, en
muchos casos de forma automática) enriquecen y
aumentan el potencial del corpus para
investigaciones sobre diversos aspectos del
lenguaje. - El procedimiento de anotación de un corpus
consiste en introducir una serie de etiquetas que
pueden referirse a aspectos lingüísticos
(anotación, tagging, parsing) o no lingüísticos
(marcaje, mark-up).
28Tipos de marcaje
- Para los corpus crudos
- Formato ltmarcagtlt/marcagt SGML , HTML, XML.
- Marcas ad hoc (específicas para un programa
informático determinado).
29El marcaje XML
- XML eXtended Markup Language
DTD Document Type Definition
Marcas XML
Consultas Extracción de información
30El marcaje XML
DTD
Texto marcado
31Tipos de anotación
- Para los corpus procesados
- Tagging anotaciones PoS (part of speech)
- Desambiguación y lematización
- Parsing anotaciones sintácticas
- Anotación semántica
- Anotación de la anáfora y de la correferencia
- ...
32Anotación gramatical (PoS tagging)
- Consiste en asignar a cada unidad léxica del
texto una etiqueta (tag, anotación) que indica su
categoría o parte de la oración. También suele
incluir información sobre las características
morfológicas (género, número, caso, persona,).
33Anotación gramatical (PoS tagging)
Texto etiquetado
Valor de las etiquetas
34Etiquetarios (PoS taggers)
35Lematización
- La lematización es un proceso íntimamente ligado
al anterior, porque no puede lematizarse sin una
anotación gramatical y desambiguación previas. - Consiste en la reducción de las palabras de un
corpus a sus respectivos lemas (la palabra tal y
como aparece en el diccionario). - Existen programas que realizan el proceso de
forma automática. En el caso de lenguas poco
flexivas (inglés) no parece ser muy útil, por lo
que existen pocos corpus lematizados.
36Anotación sintáctica (parsing)
- De un corpus analizado sintácticamente se puede
extraer información referida a la estructura
interna de las oraciones. - Los corpus analizados sintácticamente también
reciben el nombre de treebanks, cuando tiene la
forma de diagramas arbóreos, aunque los más
habitual es que la información se represente
mediante corchetes o paréntesis (corpus
parentizados, bracketing corpus). - El parsing puede llevarse a cabo de forma
automática, pero debido al número de errores
producidos, requiere la corrección o incluso la
anotación totalmente manual. - La anotación sintáctica puede presentar
diferentes niveles de profundidad - skeleton parsing análisis superficial en el que
sólo se marcan los grandes constituyentes de la
oración, sin tener en cuenta su estructura
interna. - full parsing representación lo más detallada
posible de toda la estructura de la oración.
37Anotación sintáctica (parsing)
Anotación sintáctica detallada (full parsing)
Anotación sintáctica superficial (skeleton
parsing)
38Anotación sintáctica superficial (treebank)
39Anotación sintáctica detallada(treebank)
40Anotación sintáctica detallada(treebank)
41Diferentes tipos de anotación
- Lematización
- Tagging etiquetaje PoS (part of speech)
- Parsing etiquetaje sintáctico
42Anotación semántica
- Consiste en asignar etiquetas que indican rasgos
o campos semánticos de una palabra. - Existen dos tipos de anotación semántica
- relaciones semánticas entre los elementos de un
texto (agente, paciente) algunos sistemas de
parsing ya lo incluyen, porque está relacionado
con la sintaxis. - rasgos semánticos de las palabras del texto, que
generalmente se anotan como códigos numéricos
(synsets).
43Anotación semántica
44Anotación de la anáfora
Consiste en la identificación de los referentes
de las expresiones anafóricas, es decir, en la
determinación de qué elementos de un texto aluden
al mismo referente (correferencia). La anotación
anafórica se suele llevar a cabo asignando un
mismo índice a los elementos correferenciales.
45Ejemplos de corpus en español
CREA y CORDE (http//www.rae.es/)Banco de datos
del español dividido en dos secciones, una
diacrónica (CORDE) y otra sincrónica (CREA).
46Ejemplos de corpus en español
Arthus (Archivo de textos hispánicos de la
Universidad de Santiago de Compostela) http//www.
bds.usc.es/corpus.html
A partir de este corpus, se ha creado la Base de
Datos Sintácticos del español actual
(BDS). http//www.bds.usc.es/bds.html
47Ejemplos de corpus en español
Corpus del Español (Mark Davies) http//www.corpus
delespanol.org
48Procesamiento de corpus AntConc
- Programa gratuito para la elaboración de índices
y concordancias para entornos Windows, Macintosh
y Linux. - http//www.antlab.sci.waseda.ac.jp/software.html
49Procesamiento de corpus AnCoraPipe
- http//clic.ub.edu/es/ancorapipe-es
50Procesamiento de corpus línea de comandos de
Linux
51Bibliografía
- Caravedo, R. (1999). Lingüística del Corpus.
Cuestiones teórico-metodológicas aplicadas al
español. Salamanca Ediciones Universidad de
Salamanca. - Carrera, M., A. Hernán (2006). Apuntes sobre la
elaboración de un corpus electrónico de
documentos del español de América, en M.
Villayandre, ed., Actas del XXXV Simposio
Internacional de la Sociedad Española de
Lingüística. León Universidad de León,
Departamento de Filología Hispánica y Clásica. - De Kock, J., ed. (2001). Lingüística con corpus.
Catorce aplicaciones sobre el español. Salamanca
Ediciones Universidad de Salamanca. - Martí, M. A. (2000). Lingüística computacional.
Barcelona Edicions Universitat de Barcelona. - Payrató, L. et al., eds. (1996). Corpus,
corpora. Actes del 1r i 2n Colloquis Lingüístics
de la Universitat de Barcelona (CLUB-1, CLUB-2).
Barcelona PPU. - Procházkóva, P. (2006) Fundamentos de la
lingüística de corpus. Concepción de los corpus y
métodos de investigación con corpus.
http//www.prochazkova.de/fundamentos_de_la_lingü
ística_de_corpus.pdf. - Rafel, J., J. Soler (2001), El processament de
corpus. La lingüística empírica, en M.A. martí
8coord.), Les tecnologies del llenguatge.
Barcelona Edicions de la UOC. - Santalla, M.P. (2005), La elaboración de corpus
lingüísticos, en M. Cal, P. Núñez, I.M.
Palacios, eds., Nuevas tecnologías en
Lingüística, Traducción y Enseñanza de lenguas.
Santiago de Compostela Servizo de Publicacións
da Universidade. - Torruella, J., J. Llisterri (1999). Diseño de
corpus textuales y orales, en J.M. Blecua et
al., eds. Filología e informática. Nuevas
tecnologías en los estudios filológicos.
Barcelona Editorial Milenio-Universitat Autònoma
de Barcelona.
52Bibliografía
- Aarts, J., W. Meijs, eds. (1990). Theory and
practice in corpus linguistics. Amsterdam,
Atlanta, GA Rodopi. - Biber, D., S. Conrad, R. Reppen (1998). Corpus
Linguistics. Investigating Language Structure and
Use. Cambridge Cambridge University Press. - Granger, S, J. Hung, S. Petch-Tyson, eds.
(2002). Computer Learner Corpora, Second Language
Acquisition and Foreign Language Teaching.
Amsterdam/Philadelphia John Benjamins. - Halliday, M.A.K, et al. (2004). Lexicology and
Corpus Linguistics. London-Ney York Continuum. - McEnery, T., A. Wilson (1996). Corpus
Linguistics. Edinburgh Edinburgh University
Press. - Ooi, Vincent B.Y. (1998). Computer Corpus
Lexicography. Edinburgh Edinburgh University
Press. - Sinclair, J. (1991). Corpus, concordance,
collocation. Oxford Oxford University Press. - Sinclair, J., ed. (1996). How to use Corpora in
Language Teaching. Amsterdam/Philadelphia John
Benjamins. - Tognini-Bonelli, E. (2001). Corpus Linguistics
at Work. Amsterdam/Philadelphia John Benjamins.