Introduccin a la Lingstica de Corpus Servei deTecnologia Lingstica - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Introduccin a la Lingstica de Corpus Servei deTecnologia Lingstica

Description:

Explicar el proceso de adquisici n del lenguaje infantil (transcripciones) ... cerrados y finitos, y no pueden explicar la naturaleza de las lenguas, que ... – PowerPoint PPT presentation

Number of Views:143
Avg rating:3.0/5.0
Slides: 53
Provided by: mon7154
Category:

less

Transcript and Presenter's Notes

Title: Introduccin a la Lingstica de Corpus Servei deTecnologia Lingstica


1
Introducción a la Lingüística de Corpus Servei
deTecnologia Lingüística
  • Facultad de Filología
  • Edificio Josep Carner, 5º piso
  • Persona de contacto Montserrat Nofre
  • Tel 934035694
  • stel_at_ub.edu/montsenofre_at_ub.edu
  • http//stel.ub.edu

2
Índice
  • La Lingüística de Corpus como metodología
    lingüística
  • El concepto de corpus
  • Clasificación de los corpus
  • Desarrollo de un corpus (I) diseño y
    constitución
  • Desarrollo de un corpus (II) codificación y
    anotación
  • Aplicaciones de la Lingüística de Corpus
  • Ejemplos de corpus en español
  • Ejemplos de trabajo con corpus
  • Bibliografía

3
La Lingüística de Corpus como metodología
lingüística
  • Desde hace unos años, se usa el nombre de
    Lingüística de corpus para designar una tendencia
    cuyo objetivo reside en la construcción de
    grandes conjuntos de material lingüístico,
    extraídos del habla oral y escrita, con la ayuda
    de medios informáticos.
  • La Lingüística de Corpus es una metodología
    empírica de trabajo para el estudio y la
    enseñanza de la lengua.
  • No implica una teoría ni una metodología
    particular, puesto que diferentes enfoques y
    métodos pueden utilizar un corpus determinado
    como base analítica.
  • Así pues, denominamos Lingüística de Corpus a
    toda orientación que depende de la observación de
    un conjunto de datos extraídos de la producción
    real de los individuos, ordenados según criterios
    metodológicos diferentes pero explícitos (corpus).

4
Antecedentes de la Lingüística de Corpus
  • Hasta el siglo XIX existe una tradición de
    trabajos lingüísticos basados en corpus.
    Características
  • Conjunto de datos textos escritos.
  • Finalidad estudio de lenguas muertas (latín,
    sánscrito,).
  • Necesidad estos datos constituían el único
    acercamiento posible a lenguas que ya no se
    hablaban.
  • Finales del siglo XIX-mediados del siglo XX
    trabajo con recopilaciones de gran cantidad de
    datos escritos. Finalidad
  • Explicar el proceso de adquisición del lenguaje
    infantil (transcripciones).
  • Obtener listas de vocabulario para la enseñanza
    de lenguas.
  • Realizar estudios comparativos de lenguas.
  • Elaborar gramáticas descriptivas

5
Inicios de la Lingüística de Corpus
  • La lingüística estructural americana (primera
    mitad del s. XX) sentó las bases de la
    Lingüística de Corpus como metodología empírica y
    basada en la observación de datos.
  • El corpus era considerado la única herramienta
    válida para el estudio de las lenguas, porque
    podía proporcionar por sí mismo los datos
    necesarios para una descripción exhaustiva de las
    mismas
  • Características de los corpus estructuralistas
  • Conjunto de datos muestras orales o
    transcripciones.
  • Finalidad estudio de lenguas vivas pero no
    documentadas por escrito (lenguas amerindias)
  • Centrados en aspectos fonéticos y
    (morfo)fonológicos.
  • No atendían a criterios de representatividad,
    porque era imposible manejar un número elevado de
    datos

6
Críticas a la Lingüística de Corpus
  • La aparición de Chomsky (finales de los años 50)
    supone un cambio radical de enfoque en los
    estudios lingüísticos
  • Se impone el racionalismo como filosofía de guía
    para las investigaciones relacionadas con el
    lenguaje.
  • El trabajo basado en corpus será objeto de duras
    críticas durante los años 60 y 70.
  • Se produce un desprestigio general de la
    metodología basada en corpus (empirismo) en favor
    de un acercamiento basado en las intuiciones del
    lingüista (racionalismo).

7
Críticas a la Lingüística de Corpus
  • Las críticas de Chomsky se basan en la concepción
    del recurso a la intuición o la introspección del
    lingüista como único criterio válido para el
    estudio de la lengua.
  • Los corpus no se consideran instrumentos válidos
    desde la perspectiva del modelo de Chomsky,
    porque
  • Dan cuenta de la actuación del hablante, sujeta
    a errores y variaciones. La labor del lingüista
    es reflejar la competencia del hablante, que le
    permite distinguir la secuencias gramaticales de
    las agramaticales.
  • Son parciales e incompletos, porque no contienen
    todas las oraciones de la lengua.
  • Son cerrados y finitos, y no pueden explicar la
    naturaleza de las lenguas, que tienen una
    infinita capacidad generativa con un inventario
    limitado de signos se generan infinitas
    combinaciones.

8
Críticas a la Lingüística de Corpus
  • Además de las críticas teóricas de Chomsky,
    Abercrombie (1965) resumió los problemas
    prácticos existentes en la primera Lingüística de
    Corpus
  • El procesamiento de datos era lento, propenso al
    error y caro, porque era realizado por personas.
  • Requería habilidades de procesamiento de datos
    todavía no disponibles.

9
Segunda generación de Lingüística de Corpus
  • Hacia los años 70, al margen de la corriente
    lingüística dominante, se empezó a gestar la
    segunda generación de trabajos en Lingüística de
    Corpus, marcada por el uso de ordenadores.
  • En Estados Unidos se abordó la compilación del
    primer corpus informatizado organizado de manera
    sistemática. Desde entonces, los corpus
    electrónicos se han erigido en recursos
    imprescindibles para la investigación
    lingüística.
  • Características de los corpus de ese periodo
  • Uso de los ordenadores, que en los años 60
    alcanzan suficiente potencia de procesamiento y
    capacidad de almacenamiento para alojar grandes
    cantidades de texto.
  • Representatividad de los datos los proyectos de
    elaboración de corpus pretenden recopilar textos
    que expliquen el estado de la lengua en ese
    momento.
  • Se favorecen los corpus de textos escritos frente
    a los datos orales, que suponen dificultades
    técnicas y de transcripción.
  • Tamaño de los corpus alrededor de un millón de
    palabras.

10
Segunda generación de Lingüística de Corpus
  • Survey of English Usage Corpus (SEU) 1 millón de
    palabras creado con la intención de constituirse
    en una descripción sistemática del inglés
    hablado. Textos comprendidos entre 1955 y 1985.
  • Brown University Corpus of American English
    (Brown Corpus) 500 muestras de 2000 palabras (1
    millón de palabras) de publicaciones de Estados
    Unidos de 1961. Su objetivo es dar cuenta del
    inglés americano escrito.
  • Lancaster-Oslo/Bergen Corpus (LOB) 1 millón de
    palabras. Inglés británico escrito en 1961.
  • London-Lund Corpus of Spoken English (LLC)
    500.000 palabras. Inglés británico oral
    grabaciones realizadas entre 1953 y 1987.

11
Revisión de las críticas
  • En la década de los 80, diversos autores rebaten
    las críticas teóricas y prácticas formuladas
    contra la primera lingüística de corpus.
  • Argumentos a favor de los corpus
  • El corpus está sujeto a verificación, lo que
    descarta el recurso a ejemplos inventados por el
    lingüista de forma interesada.
  • La mayoría de enunciados de un corpus son
    gramaticales, por lo que los corpus reflejan la
    competencia.
  • Los corpus son una fuente inigualable para la
    extracción de datos cuantitativos (frecuencias).
    Si el corpus está bien diseñado, los datos serán
    representativos de la lengua en su totalidad.
  • Los ordenadores pueden procesar gran cantidad de
    datos a coste reducido, de forma rápida y sin
    cometer errores.

12
Revisión de las críticas
13
El renacer de la Lingüística de corpus
  • A partir de los años 80 se generaliza el término
    Lingüística de Corpus (Aarts-Meijs, 1984), y los
    corpus electrónicos se convierten en un recurso
    indispensable.
  • Hechos que favorecieron el renacer de la
    Lingüística de Corpus
  • El auge de las áreas aplicadas de la
    Lingüística, y en particular de la Lingüística
    Computacional necesidad de contar con datos de
    uso de la lengua, procedentes de la actuación, de
    hablantes nativos y no nativos.
  • El eclecticismo el uso de corpus no es
    incompatible con el recurso a los juicios del
    lingüista.
  • La mayor disponibilidad de corpus electrónicos
    (Internet) y el desarrollo de nuevas tecnologías
    para la introducción de textos en formato
    electrónico (OCR).
  • En Lingüística Computacional, el desarrollo de
    productos comerciales que requieren vocabularios
    o diccionarios más extensos y el manejo de
    frecuencias, estadísticas y cálculos de
    probabilidades (casos de ambigüedad).

14
Los grandes corpus textuales
  • Características
  • Corpus electrónicos (textos informatizados).
  • Tamaño superan los 100 millones de palabras.
  • Corpus monitor (abiertos, en continua
    actualización).
  • Propiedad de consorcios comerciales.
  • Desarrollo de corpus para una gran número de
    lenguas y también de corpus multilingües.
  • Automatización del procesamiento de los textos
    de un corpus (asignación de categoría gramatical,
    desambiguación, extracción de concordancias,).

15
Los grandes corpus textuales
  • The British National Corpus (BNC)
    http//www.natcorp.ox.ac.uk/
  • 100 millones de palabras. Inglés británico
    contemporáneo escrito y hablado.
  • The Bank of English (Proyecto COBUILD)
    http//www.titania.bham.ac.uk/
  • 524 millones de palabras. Inglés moderno escrito
    y oral, de diferentes procedencias.
  • Corpus de Referencia del Español Contemporáneo
    (CREA) http//www.rae.es/
  • 160 millones de palabras. Textos escritos y
    orales del español contemporáneo (desde 1975 a
    la actualidad).
  • Corpus Diacrónico del Español (CORDE)
    http//www.rae.es/
  • 250 millones de palabras. Textos escritos del
    español desde los orígenes del
  • idioma hasta 1975.

16
Ventajas y desventajas del trabajo con corpus
textuales
  • Objetividad.
  • Rapidez, precisión y consistencia en el
    procesamiento de los datos.
  • Facilidad de acceso y manipulación de los
    materiales.
  • Permiten el procesamiento automático de textos y
    la explicitación de diferentes informaciones
    (categoría gramatical), que facilitan su
    explotación.
  • El mismo recurso puede tener múltiples usos y
    aplicaciones.
  • Disponibilidad de gran cantidad de datos como
    base para el estudio del lenguaje y el desarrollo
    de sistemas de PLN.
  • Son un recurso para la exploración de los
    aspectos cuantitativos del lenguaje.
  • En corpus de lengua oral, si se trabaja con
    transcripciones, existe el peligro de alejarse
    demasiado del texto original.
  • El tamaño no es tan importante como la
    adecuación del corpus a la finalidad para la que
    se ha concebido.

17
El concepto de corpus
  • Requisitos de los corpus
  • Textos en formato electrónico permite
    automatizar la búsqueda y recuperación de
    información, el cálculo de frecuencias y la
    clasificación de los datos según diferentes
    criterios.
  • Autenticidad de los datos los textos deben ser
    muestras reales de uso de la lengua, a partir de
    los cuales se elaboran teorías o aplicaciones
    computacionales.
  • Criterios de selección lingüísticos y/o
    extralingüísticos, según la finalidad concreta,
    relacionada con el análisis lingüístico.
  • Representatividad la selección debe responder a
    parámetros estadísticos que garanticen la
    variedad de la lengua de estudio (muestra
    representativa).
  • Tamaño Los corpus suelen tener un tamaño finito
    en millones de palabras y predeterminado. En la
    actualidad, el tamaño del corpus no es tan
    importante como su diseño además, depende de la
    disponibilidad de los textos y de la finalidad
    del corpus.

18
Algunas definiciones de corpus
  • Un corpus es una muestra de una lengua que,
    habitualmente, se ha construido a partir de una
    selección de textos realizada según determinados
    criterios y con un determinado objetivo.
    (Martí-Castellón 2000)
  • Un corpus es un conjunto de textos de lenguaje
    natural e irrestricto, almacenados en un formato
    electrónico homogéneo, y seleccionados y
    ordenados, de acuerdo con criterios explícitos,
    para ser utilizados como modelo de un estado o
    nivel de lengua determinado, en estudios o
    aplicaciones relacionados en mayor o menor medida
    con el análisis lingüístico. (Santalla 2005)
  • The term corpus as used in modern linguistics can
    best be defined as a collection of sampled texts,
    written or spoken, in machine-readable form which
    may be annotated with various forms of linguistic
    information. (McEnery-Xiao-Tono 2006)

19
Clasificación de los corpus
  • Los criterios de clasificación de los corpus
    vienen determinados por la finalidad u objetivo
    que persigue dicho corpus.
  • Ejemplos
  • el estudio de la obra de un autor
  • el estudio de la producción literaria de una
    época determinada
  • la descripción de una lengua o de una variedad,
    sublenguaje o aspecto lingüístico concreto
  • la obtención de un producto comercial
    (diccionarios

20
Tipos de corpus
  • Según la modalidad de la lengua
  • Corpus textuales o escritos
  • Corpus orales muestras de lengua hablada, que
    pueden ser
  • transcripciones ortográficas de grabaciones
    (Lingüística de Corpus)
  • grabaciones y transcripciones ortográficas y/o
    fonéticas (Fonética y Tecnologías del Habla)
  • Según el número de lenguas
  • Corpus monolingües
  • Corpus bilingües o multilingües, que pueden ser
  • comparables (paired texts) se utilizan para
    estudios contrastivos
  • corpus paralelos (bi-texts) se utilizan en
    traducción automática y en entornos bilingües o
    multilingües (ONU, UE,)
  • corpus alineados los textos están dispuestos
    uno al lado de otros en párrafos o frases, de
    manera que sea fácil extraer las equivalencias.

21
Tipos de corpus
  • Según el número de textos
  • Corpus cerrados constan de un número
    predeterminado de palabras.
  • Corpus abiertos o monitor en constante
    crecimiento, gracias a la introducción periódica
    de nuevos textos según unas proporciones
    previamente definidas.
  • Según el número de lenguas
  • Corpus generales o de referencia pretenden
    reflejar una lengua o variedad lingüística de la
    forma más equilibrada posible.
  • Corpus especializados textos que pueden aportar
    datos para la descripción de un
    tipo/variedad/estadio/uso particular de lengua.
  • Corpus genéricos textos pertenecientes a un
    único género su objetivo es caracterizar dicho
    género.
  • Corpus canónicos obra completa de un autor.
  • Corpus diacrónicos o históricos textos de
    diferentes etapas temporales la finalidad es
    observar la evolución de la lengua.
  • Corpus sincrónicos su finalidad es estudiar una
    o más variedades lingüística en un momento
    determinado, generalmente para establecer
    comparaciones entre variedades o dialectos.
  • .

22
Tipos de corpus
  • Según el procesamiento al que se someta el
    corpus
  • Corpus simples, puros, de datos brutos, no
    anotados, no codificados textos guardados sin
    formato alguno (texto plano) y sin añadir ninguna
    información adicional.
  • Corpus codificados o anotados formados por
    textos a los que se han añadido, de forma manual
    o automática, determinadas informaciones
    referidas a la estructura de los textos
    (codificación partes del texto,) o a aspectos
    puramente lingüísticos (anotación categoría
    gramatical, estructura sintáctica,). Los corpus
    anotados pueden ser
  • corpus analizados morfológicamente (tagged)
    anotados con información morfológica (categorías
    morfosintácticas, con mayor o menor detalle)
  • corpus parentizados (parsed, chunked, skeleton
    parsing) anotados con información sintáctica
    superficial, introducida entre paréntesis o
    corchetes
  • corpus analizados (treebanks, full parsing) el
    texto está procesado sintácticamente de manera
    completa, con un análisis exhaustivo.
  • .

23
Criterios para la selección del contenido de un
corpus
  • Criterios internos o lingüísticos tema (dominio
    o ámbito de conocimiento al que pertenece un
    texto), estilo (modelo de lengua del texto).
  • Criterios externos o situacionales cronología
    (fecha de elaboración o edición del texto),
    origen (del autor, lugar de edición), objetivo
    (motivación del texto y finalidades que persigue
    tipo de audiencia o público al que se dirige,),
    género literario, medio de publicación.
  • Finalidad del corpus cuanto más amplio sea el
    objetivo o finalidad, más complicado es el
    diseño. También se considera la posible
    reutilización del corpus.
  • Límites temporales, geográficos y lingüísticos
    de los textos vendrán dictados por la finalidad
    del corpus.
  • Tamaño y tipo de textos textos generales o
    específicos, cantidad de texto que se tomará de
    cada documento (texto íntegro fragmentos
    selección,)

24
Criterios para la selección del contenido de un
corpus
25
Criterios para la selección del contenido de un
corpus
  • Representatividad del corpus es necesario
    aplicar una serie de principios estadísticos que
    garanticen que las muestras a partir de las
    cuales se va a efectuar una generalización sobre
    la lengua son representativas de la población
    (muestreo aleatorio simple, estratificado,
    proporcional).
  • Proporción de temas y géneros debe haber un
    equilibrio entre las diferentes categorías o
    tipologías textuales (textos escritos, orales,
    generales, específicos,).

26
Criterios para la selección del contenido de un
corpus
27
Codificación de un corpus
  • Los corpus crudos (raw corpus) o sin anotar son
    útiles para determinados aspectos, pero limitados
    en cuanto a sus posibilidades.
  • Los corpus anotados (en los que se explicita
    información lingüística y no lingüística, en
    muchos casos de forma automática) enriquecen y
    aumentan el potencial del corpus para
    investigaciones sobre diversos aspectos del
    lenguaje.
  • El procedimiento de anotación de un corpus
    consiste en introducir una serie de etiquetas que
    pueden referirse a aspectos lingüísticos
    (anotación, tagging, parsing) o no lingüísticos
    (marcaje, mark-up).

28
Tipos de marcaje
  • Para los corpus crudos
  • Formato ltmarcagtlt/marcagt SGML , HTML, XML.
  • Marcas ad hoc (específicas para un programa
    informático determinado).

29
El marcaje XML
  • XML eXtended Markup Language

DTD Document Type Definition
Marcas XML
Consultas Extracción de información
30
El marcaje XML
DTD
Texto marcado
31
Tipos de anotación
  • Para los corpus procesados
  • Tagging anotaciones PoS (part of speech)
  • Desambiguación y lematización
  • Parsing anotaciones sintácticas
  • Anotación semántica
  • Anotación de la anáfora y de la correferencia
  • ...

32
Anotación gramatical (PoS tagging)
  • Consiste en asignar a cada unidad léxica del
    texto una etiqueta (tag, anotación) que indica su
    categoría o parte de la oración. También suele
    incluir información sobre las características
    morfológicas (género, número, caso, persona,).

33
Anotación gramatical (PoS tagging)
Texto etiquetado
Valor de las etiquetas
34
Etiquetarios (PoS taggers)
35
Lematización
  • La lematización es un proceso íntimamente ligado
    al anterior, porque no puede lematizarse sin una
    anotación gramatical y desambiguación previas.
  • Consiste en la reducción de las palabras de un
    corpus a sus respectivos lemas (la palabra tal y
    como aparece en el diccionario).
  • Existen programas que realizan el proceso de
    forma automática. En el caso de lenguas poco
    flexivas (inglés) no parece ser muy útil, por lo
    que existen pocos corpus lematizados.

36
Anotación sintáctica (parsing)
  • De un corpus analizado sintácticamente se puede
    extraer información referida a la estructura
    interna de las oraciones.
  • Los corpus analizados sintácticamente también
    reciben el nombre de treebanks, cuando tiene la
    forma de diagramas arbóreos, aunque los más
    habitual es que la información se represente
    mediante corchetes o paréntesis (corpus
    parentizados, bracketing corpus).
  • El parsing puede llevarse a cabo de forma
    automática, pero debido al número de errores
    producidos, requiere la corrección o incluso la
    anotación totalmente manual.
  • La anotación sintáctica puede presentar
    diferentes niveles de profundidad
  • skeleton parsing análisis superficial en el que
    sólo se marcan los grandes constituyentes de la
    oración, sin tener en cuenta su estructura
    interna.
  • full parsing representación lo más detallada
    posible de toda la estructura de la oración.

37
Anotación sintáctica (parsing)
Anotación sintáctica detallada (full parsing)
Anotación sintáctica superficial (skeleton
parsing)
38
Anotación sintáctica superficial (treebank)
39
Anotación sintáctica detallada(treebank)
40
Anotación sintáctica detallada(treebank)
41
Diferentes tipos de anotación
  • Lematización
  • Tagging etiquetaje PoS (part of speech)
  • Parsing etiquetaje sintáctico

42
Anotación semántica
  • Consiste en asignar etiquetas que indican rasgos
    o campos semánticos de una palabra.
  • Existen dos tipos de anotación semántica
  • relaciones semánticas entre los elementos de un
    texto (agente, paciente) algunos sistemas de
    parsing ya lo incluyen, porque está relacionado
    con la sintaxis.
  • rasgos semánticos de las palabras del texto, que
    generalmente se anotan como códigos numéricos
    (synsets).

43
Anotación semántica
44
Anotación de la anáfora
Consiste en la identificación de los referentes
de las expresiones anafóricas, es decir, en la
determinación de qué elementos de un texto aluden
al mismo referente (correferencia). La anotación
anafórica se suele llevar a cabo asignando un
mismo índice a los elementos correferenciales.
45
Ejemplos de corpus en español
CREA y CORDE (http//www.rae.es/)Banco de datos
del español dividido en dos secciones, una
diacrónica (CORDE) y otra sincrónica (CREA).
46
Ejemplos de corpus en español
Arthus (Archivo de textos hispánicos de la
Universidad de Santiago de Compostela) http//www.
bds.usc.es/corpus.html
A partir de este corpus, se ha creado la Base de
Datos Sintácticos del español actual
(BDS). http//www.bds.usc.es/bds.html
47
Ejemplos de corpus en español
Corpus del Español (Mark Davies) http//www.corpus
delespanol.org
48
Procesamiento de corpus AntConc
  • Programa gratuito para la elaboración de índices
    y concordancias para entornos Windows, Macintosh
    y Linux.
  • http//www.antlab.sci.waseda.ac.jp/software.html

49
Procesamiento de corpus AnCoraPipe
  • http//clic.ub.edu/es/ancorapipe-es

50
Procesamiento de corpus línea de comandos de
Linux
51
Bibliografía
  • Caravedo, R. (1999). Lingüística del Corpus.
    Cuestiones teórico-metodológicas aplicadas al
    español. Salamanca Ediciones Universidad de
    Salamanca.
  • Carrera, M., A. Hernán (2006). Apuntes sobre la
    elaboración de un corpus electrónico de
    documentos del español de América, en M.
    Villayandre, ed., Actas del XXXV Simposio
    Internacional de la Sociedad Española de
    Lingüística. León Universidad de León,
    Departamento de Filología Hispánica y Clásica.
  • De Kock, J., ed. (2001). Lingüística con corpus.
    Catorce aplicaciones sobre el español. Salamanca
    Ediciones Universidad de Salamanca.
  • Martí, M. A. (2000). Lingüística computacional.
    Barcelona Edicions Universitat de Barcelona.
  • Payrató, L. et al., eds. (1996). Corpus,
    corpora. Actes del 1r i 2n Colloquis Lingüístics
    de la Universitat de Barcelona (CLUB-1, CLUB-2).
    Barcelona PPU.
  • Procházkóva, P. (2006) Fundamentos de la
    lingüística de corpus. Concepción de los corpus y
    métodos de investigación con corpus.
    http//www.prochazkova.de/fundamentos_de_la_lingü
    ística_de_corpus.pdf.
  • Rafel, J., J. Soler (2001), El processament de
    corpus. La lingüística empírica, en M.A. martí
    8coord.), Les tecnologies del llenguatge.
    Barcelona Edicions de la UOC.
  • Santalla, M.P. (2005), La elaboración de corpus
    lingüísticos, en M. Cal, P. Núñez, I.M.
    Palacios, eds., Nuevas tecnologías en
    Lingüística, Traducción y Enseñanza de lenguas.
    Santiago de Compostela Servizo de Publicacións
    da Universidade.
  • Torruella, J., J. Llisterri (1999). Diseño de
    corpus textuales y orales, en J.M. Blecua et
    al., eds. Filología e informática. Nuevas
    tecnologías en los estudios filológicos.
    Barcelona Editorial Milenio-Universitat Autònoma
    de Barcelona.

52
Bibliografía
  • Aarts, J., W. Meijs, eds. (1990). Theory and
    practice in corpus linguistics. Amsterdam,
    Atlanta, GA Rodopi.
  • Biber, D., S. Conrad, R. Reppen (1998). Corpus
    Linguistics. Investigating Language Structure and
    Use. Cambridge Cambridge University Press.
  • Granger, S, J. Hung, S. Petch-Tyson, eds.
    (2002). Computer Learner Corpora, Second Language
    Acquisition and Foreign Language Teaching.
    Amsterdam/Philadelphia John Benjamins.
  • Halliday, M.A.K, et al. (2004). Lexicology and
    Corpus Linguistics. London-Ney York Continuum.
  • McEnery, T., A. Wilson (1996). Corpus
    Linguistics. Edinburgh Edinburgh University
    Press.
  • Ooi, Vincent B.Y. (1998). Computer Corpus
    Lexicography. Edinburgh Edinburgh University
    Press.
  • Sinclair, J. (1991). Corpus, concordance,
    collocation. Oxford Oxford University Press.
  • Sinclair, J., ed. (1996). How to use Corpora in
    Language Teaching. Amsterdam/Philadelphia John
    Benjamins.
  • Tognini-Bonelli, E. (2001). Corpus Linguistics
    at Work. Amsterdam/Philadelphia John Benjamins.
Write a Comment
User Comments (0)
About PowerShow.com