Construccin de treebanks: el proyecto 3LB - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Construccin de treebanks: el proyecto 3LB

Description:

Definici n y utilidades de un treebank. inferencia / extracci n de conocimiento ... fija el an lisis correcto de ambos anotadores o, en su caso, corregir EusWN. ... – PowerPoint PPT presentation

Number of Views:24
Avg rating:3.0/5.0
Slides: 50
Provided by: muti
Category:

less

Transcript and Presenter's Notes

Title: Construccin de treebanks: el proyecto 3LB


1
Construcción de treebanks el proyecto 3LB
  • Alicia Ageno

Centre TALP Universitat Politècnica de Catalunya
2
Índice
  • Introducción creación de treebanks
  • El proyecto 3LB
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros
  • Líneas de investigación
  • Datos
  • Herramientas desarrolladas

3
Índice
  • Introducción creación de treebanks
  • El proyecto 3LB
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros
  • Líneas de investigación
  • Datos
  • Herramientas desarrolladas

4
Definición y utilidades de un treebank
5
Metodología
Anotación manual
Anotación semi-automática
6
Estado del Arte (1) Treebanks existentes
  • (principales treebanks listado no exhaustivo)
  • NEGRA / TIGER (alemán 350.000 tokens)
  • PDT Prague Dependency Treebank (checo 450.000
    tok.)
  • Corpus Le Monde (francés 1.000.000 tokens)
  • TUT Turin University Treebank (italiano 1.000
    oraciones)
  • Spanish Treebank (UAM) (1.500 oraciones)
  • ISST Italian Syntactic-Semantic Treebank
    (300.000 tok.)
  • Penn Treebank (inglés 3mill. / 2 mill)
  • Susanne Corpus (inglés 120.000 tokens)

7
Estado del Arte (2) conceptos básicos
Nivel de anotación morfología / sintaxis /
(semántica)
Sintaxis
8
Dos ejemplos paradigmáticos
PDT dependencias
NEGRA / Le Monde constituyentes y funciones
9
(No Transcript)
10
NEGRA (1)
Anotación sintáctica de
  • estructura sintáctica (parentización)
  • categorías sintácticas (etiquetas para
    constituyentes)
  • funciones gramaticales

No tratan categorías vacías
Estructuras totalmente planas (X y X0)
Se permite el cruce de ramas (constituyentes
discontinuos)
11
(No Transcript)
12
Le Monde
chunker ? clustering léxico parser ? marcaje
constituyentes no recursivos tagger funcional ?
asignación funciones sintácticas
Marcaje de constituyentes
ltNPgt Marie lt/NPgt ltVNgt aime lt/VNgt ltNPgt les
fraises lt/NPgt ltCOORDgt et ltNPgt Paul lt/NPgt
ltNPgt les bananes lt/NPgt lt/COORDgt
13
Índice
  • Introducción
  • El proyecto 3LB
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros

14
Proyecto 3LB
Dpto. de Lenguajes y Sistemas informáticos Univers
idad de Alicante
CLIC Centre de Llenguatge i Computació Universitat
de Barcelona
IXA Taldea Euskal Herriko Unibersitatea
Dpto. de Sistemas Informáticos y
Computación Universidad Politécnica de Valencia
Centre Talp Universitat Politècnica de Catalunya
15
Proyecto 3LB
  • Objetivo anotar tres corpus con información
    sintáctica y semántica
  • Cat3LB ? catalán
  • Eus3LB ? euskera
  • Cast3LB ? castellano
  • 25 de los corpus son comparables extraído de
    noticias de EFE de las mismas fechas.

16
Índice
  • Introducción
  • El proyecto 3LB
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros

17
Etiquetado sintáctico
  • Para cada lengua se ha optado por un esquema de
    anotación, según sus características
  • Cat3LB constituyentes y funciones
  • Cast3LB constituyentes y funciones
  • Eus3LB dependencias.

18
Líneas de etiquetado constituyentes y funciones
  • Metodología etiquetado constituyentes
  • Chunking automático (TACAT GramEsp/Cat).

19
Líneas de etiquetado constituyentes y funciones
Tokenización Identificación de Fechas
Strong Named-Entities
Tokenización
20
Líneas de etiquetado constituyentes y funciones
Analizador Morfológico (MACO) Desambiguador (REL
AX)
Etiquetado Morfológico
Tokenización
Validación manual de 100.000 palabras Corpus
CLiC-TALP
21
Líneas de etiquetado constituyentes y funciones
Chunker (TACAT GramEsp
GramCat)
22
Análisis Morfológico (MACO)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0 e
NCFP000 rentable rentable AQ0CS0 publicitar
iamente publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 español NCMS000 tiene tener
VMIP3S0 un uno DI0MS0 gran grande AQ0CS0
problema problema NCMS000 . . Fp
23
Desambiguación Morfológica (RELAX)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0
rentable rentable AQ0CS0 publicitariamente
publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 tiene tener VMIP3S0 un uno
DI0MS0 gran grande AQ0CS0 problema
problema NCMS000 . . Fp
24
Chunking (TACAT)
Etiquetado
25
Líneas de etiquetado constituyentes y funciones
  • Metodología etiquetado constituyentes
  • Anotación paralela de las 100 primeras oraciones
    entre cinco lingüistas
  • Establecimiento de los principios básicos de
    anotación.
  • Anotación de 220 oraciones
  • Revisión, modificación de los principios de
    anotación.
  • Revisión de la anotación previa y refinamiento de
    las normas de anotación.
  • Acuerdo entre anotadores
  • Anotación del resto del corpus.

26
Líneas de etiquetado constituyentes y funciones
  • Metodología etiquetado funciones
  • Anotación de 100 oraciones en paralelo
  • Principios básicos de anotación.
  • Comparación de la anotación
  • Revisión y actualización de la guía de anotación.
  • Anotación del resto de corpus

27
Líneas de etiquetado constituyentes y funciones
  • En una primera fase se aplicó esta metodología al
    corpus castellano Cast3LB, y luego al corpus
    catalán Cat3LB.
  • Para el corpus catalán el proceso fue más rápido,
    ya que se aprovechó la experiencia del corpus
    castellano.

28
Líneas de etiquetado dependencias
  • Metodología
  • Anotación de 20 oraciones
  • Definición de los criterios de anotación básicos
  • Anotación en paralelo de 150 oraciones
    seleccionadas.
  • Estructuras representativas del euskera.
  • Acuerdo entre anotadores
  • Anotación del resto del corpus.

29
Datos análisis sintáctico
  • Cast3LB
  • 100.000 palabras (4.000 oraciones aprox).
  • Cat3LB
  • Constituyentes 106.000 palabras (2.700 oraciones
    aprox).
  • Funciones 53.000 palabras aprox. (1.350
    oraciones)
  • Eus3LB
  • 56.000 palabras (3.708 oraciones aprox)

30
Acuerdo entre anotadores
  • Métricas Parseval
  • Adaptadas a situación sin gold standard
  • Comparación de análisis en ambos sentidos y
    cálculo de las medias con ambas medidas.
  • Medidas de comparación
  • P.E. precisión de etiquetado.
  • P.P. precisión de parentizado.
  • P.C. cobertura de paréntesis consistentes

31
Acuerdo entre anotadores
  • Metodología
  • Comparación del análisis entre anotadores en
    cinco fases de la anotación desde la primera con
    un borrador de la guía de anotación hasta la
    última con la guía de anotación acabada.
  • La precisión llega a mejorar hasta un 27.

32
Acuerdo entre anotadores
  • Resultados

33
Herramientas
  • Castellano y catalán adaptación del editor de
    árboles del AGTK, TreeTrans
  • Modificación del formato de entrada/salida para
    que acepte TBF y XML.
  • Adaptación para que acepte sentidos de palabras.
  • Euskera 3LBAbarHitz
  • Específica para la anotación de dependencias
    controla el número y tipo de campos descritos en
    cada etiqueta
  • Edición visual de árboles

34
(No Transcript)
35
II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
36
ltAnnotation id'agTreebankAG2Annotation22'
start'agTreebankAG2Anchor7' end'agTreebankAG
2Anchor8' type'wrd'gt ltFeature
name'label'gtlalt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation23lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation23' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'pos'gt ltFeatur
e name'label'gtda0fs0lt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation24lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation24' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'syn'gt ltFeatur
e name'label'gtespec.fslt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation28lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation28' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor9' type'syn'gt ltFeatur
e name'label'gtsnlt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation29lt/Feature
gt lt/Annotationgt lt/Annotationgt
II Jornada La Recerca al de Lingüística General
de la UB
37
II Jornada La Recerca al de Lingüística General
de la UB
, 3 octubre 2003
38
Índice
  • Introducción
  • El proyecto 3LB
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros

39
Líneas de etiquetado
  • Especificación del sentido de nombres, verbos y
    adjetivos
  • Aproximación all words.
  • Mismo planteamiento para las tres lenguas
  • Metodología
  • Recurso léxico
  • Herramienta de anotación

40
Líneas de etiquetado
  • Recurso Léxico WordNet español, WordNet catalán
    y WordNet euskera.
  • Misma estructura y misma representación semántica
    para las tres lenguas.
  • Carencias de sentido o de palabra
  • etiqueta especial.

41
Líneas de etiquetado
  • Aproximación léxica o transversal
  • Mayor consistencia
  • Disminuye tiempo y esfuerzo anotación
  • Método seguido en catalán y castellano
  • Anotación automática con palabras de un solo
    sentido.
  • Revisión final.
  • Anotación en paralelo de un subconjunto de
    palabras frecuentes
  • Especificación de casos problemáticos
    (ambigüedad).
  • Desarrollo de la guía de anotación
  • un sentido por palabra
  • ante duda, el más general
  • sólo para casos muy claros se asignarás más de
    uno
  • Anotación del resto del corpus.

42
Líneas de etiquetado
  • Aproximación léxica o transversal
  • Método seguido en euskera
  • Corpus mayor (300.000 palabras)
  • Anotación en paralelo de un subgrupo de palabras
    frecuentes
  • Modificación, si es necesario, de las acepciones
    de EusWN.
  • Un árbitro fija el análisis correcto de ambos
    anotadores o, en su caso, corregir EusWN.
  • Para la anotación del resto del corpus anotación
    por separado, y verificación de muestras.

43
Datos análisis semántico
  • Cast3LB 42.291 palabras aprox. (100)
  • 20.461 nombres,
  • 13.471 verbos,
  • 8.543 adjetivos.
  • Cat3LB 4.417 aprox. (10)
  • 2.379 formas nominales (839 nombres distintos),
  • 1.225 formas verbales (401 verbos distintos),
  • 813 formas adjetivas (377 adjetivos distintos).
  • Eus3LB 5.000 formas (10 del corpus de 300.000
    palabras)
  • Correspondientes a 75 palabras diferentes
    (incluyendo sustantivos, verbos y adjetivos).

44
Herramientas
  • 3LB-SAT
  • Orientada al etiquetado semántico transversal o
    léxico.
  • Entrada TBF/XML y salida XML.
  • EWN etiquetas de carencias.
  • Anotación automática de
  • palabras monosémicas
  • palabras que no aparecen en los WWNN.
  • Informe de cambios

45
II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
46
Índice
  • Introducción
  • Etiquetado sintáctico
  • Etiquetado semántico
  • Conclusiones y trabajos futuros

47
Conclusiones
  • Con el proyecto 3LB se ha desarrollado un corpus
    anotado sintáctica y semánticamente para el
    catalán, otro para el euskera y otro para el
    castellano.
  • Máxima consistencia entre los tres corpus.
  • Libre disposición para investigación.
  • Manuales de anotación lingüística para cada
    lengua profundamente desarrollados y probados en
    cada corpus
  • Importante aportación metodológica al tema de la
    anotación sintáctica
  • Disponibles en la web http//clic.fil.ub.es/perso
    nal/civit

48
Trabajos futuros
  • Anotación de la anáfora y cadenas de
    correferencia.
  • Similar criterio de anotación para las tres
    lenguas.
  • Ampliación del corpus a 500.000 palabras para
    cada lengua.
  • Desarrollo de recursos para la explotación de los
    corpus.

49
Más información y/o contacto
  • http//gplsi.dlsi.ua.es9998
  • http//www.dlsi.ua.es/projectes/3lb/
  • http//www.lsi.upc.es/ageno
Write a Comment
User Comments (0)
About PowerShow.com