Construccin de treebanks: el proyecto 3LB presentation

About This Presentation

Transcript and Presenter's Notes

Title: Construccin de treebanks: el proyecto 3LB

1
Construcción de treebanks el proyecto 3LB

Alicia Ageno

Centre TALP Universitat Politècnica de Catalunya
2
Índice

Introducción creación de treebanks
El proyecto 3LB
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

Líneas de investigación
Datos
Herramientas desarrolladas

3
Índice

Introducción creación de treebanks
El proyecto 3LB
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

Líneas de investigación
Datos
Herramientas desarrolladas

4
Definición y utilidades de un treebank
5
Metodología
Anotación manual
Anotación semi-automática
6
Estado del Arte (1) Treebanks existentes

(principales treebanks listado no exhaustivo)
NEGRA / TIGER (alemán 350.000 tokens)
PDT Prague Dependency Treebank (checo 450.000
tok.)
Corpus Le Monde (francés 1.000.000 tokens)
TUT Turin University Treebank (italiano 1.000
oraciones)
Spanish Treebank (UAM) (1.500 oraciones)
ISST Italian Syntactic-Semantic Treebank
(300.000 tok.)
Penn Treebank (inglés 3mill. / 2 mill)
Susanne Corpus (inglés 120.000 tokens)

7
Estado del Arte (2) conceptos básicos
Nivel de anotación morfología / sintaxis /
(semántica)
Sintaxis
8
Dos ejemplos paradigmáticos
PDT dependencias
NEGRA / Le Monde constituyentes y funciones
9
(No Transcript)
10
NEGRA (1)
Anotación sintáctica de

estructura sintáctica (parentización)
categorías sintácticas (etiquetas para
constituyentes)
funciones gramaticales

No tratan categorías vacías
Estructuras totalmente planas (X y X0)
Se permite el cruce de ramas (constituyentes
discontinuos)
11
(No Transcript)
12
Le Monde
chunker ? clustering léxico parser ? marcaje
constituyentes no recursivos tagger funcional ?
asignación funciones sintácticas
Marcaje de constituyentes
ltNPgt Marie lt/NPgt ltVNgt aime lt/VNgt ltNPgt les
fraises lt/NPgt ltCOORDgt et ltNPgt Paul lt/NPgt
ltNPgt les bananes lt/NPgt lt/COORDgt
13
Índice

Introducción
El proyecto 3LB
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

14
Proyecto 3LB
Dpto. de Lenguajes y Sistemas informáticos Univers
idad de Alicante
CLIC Centre de Llenguatge i Computació Universitat
de Barcelona
IXA Taldea Euskal Herriko Unibersitatea
Dpto. de Sistemas Informáticos y
Computación Universidad Politécnica de Valencia
Centre Talp Universitat Politècnica de Catalunya
15
Proyecto 3LB

Objetivo anotar tres corpus con información
sintáctica y semántica
Cat3LB ? catalán
Eus3LB ? euskera
Cast3LB ? castellano
25 de los corpus son comparables extraído de
noticias de EFE de las mismas fechas.

16
Índice

Introducción
El proyecto 3LB
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

17
Etiquetado sintáctico

Para cada lengua se ha optado por un esquema de
anotación, según sus características
Cat3LB constituyentes y funciones
Cast3LB constituyentes y funciones
Eus3LB dependencias.

18
Líneas de etiquetado constituyentes y funciones

Metodología etiquetado constituyentes
Chunking automático (TACAT GramEsp/Cat).

19
Líneas de etiquetado constituyentes y funciones
Tokenización Identificación de Fechas
Strong Named-Entities
Tokenización
20
Líneas de etiquetado constituyentes y funciones
Analizador Morfológico (MACO) Desambiguador (REL
AX)
Etiquetado Morfológico
Tokenización
Validación manual de 100.000 palabras Corpus
CLiC-TALP
21
Líneas de etiquetado constituyentes y funciones
Chunker (TACAT GramEsp
GramCat)
22
Análisis Morfológico (MACO)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0 e
NCFP000 rentable rentable AQ0CS0 publicitar
iamente publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 español NCMS000 tiene tener
VMIP3S0 un uno DI0MS0 gran grande AQ0CS0
problema problema NCMS000 . . Fp
23
Desambiguación Morfológica (RELAX)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0
rentable rentable AQ0CS0 publicitariamente
publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 tiene tener VMIP3S0 un uno
DI0MS0 gran grande AQ0CS0 problema
problema NCMS000 . . Fp
24
Chunking (TACAT)
Etiquetado
25
Líneas de etiquetado constituyentes y funciones

Metodología etiquetado constituyentes
Anotación paralela de las 100 primeras oraciones
entre cinco lingüistas
Establecimiento de los principios básicos de
anotación.
Anotación de 220 oraciones
Revisión, modificación de los principios de
anotación.
Revisión de la anotación previa y refinamiento de
las normas de anotación.
Acuerdo entre anotadores
Anotación del resto del corpus.

26
Líneas de etiquetado constituyentes y funciones

Metodología etiquetado funciones
Anotación de 100 oraciones en paralelo
Principios básicos de anotación.
Comparación de la anotación
Revisión y actualización de la guía de anotación.
Anotación del resto de corpus

27
Líneas de etiquetado constituyentes y funciones

En una primera fase se aplicó esta metodología al
corpus castellano Cast3LB, y luego al corpus
catalán Cat3LB.
Para el corpus catalán el proceso fue más rápido,
ya que se aprovechó la experiencia del corpus
castellano.

28
Líneas de etiquetado dependencias

Metodología
Anotación de 20 oraciones
Definición de los criterios de anotación básicos
Anotación en paralelo de 150 oraciones
seleccionadas.
Estructuras representativas del euskera.
Acuerdo entre anotadores
Anotación del resto del corpus.

29
Datos análisis sintáctico

Cast3LB
100.000 palabras (4.000 oraciones aprox).
Cat3LB
Constituyentes 106.000 palabras (2.700 oraciones
aprox).
Funciones 53.000 palabras aprox. (1.350
oraciones)
Eus3LB
56.000 palabras (3.708 oraciones aprox)

30
Acuerdo entre anotadores

Métricas Parseval
Adaptadas a situación sin gold standard
Comparación de análisis en ambos sentidos y
cálculo de las medias con ambas medidas.
Medidas de comparación
P.E. precisión de etiquetado.
P.P. precisión de parentizado.
P.C. cobertura de paréntesis consistentes

31
Acuerdo entre anotadores

Metodología
Comparación del análisis entre anotadores en
cinco fases de la anotación desde la primera con
un borrador de la guía de anotación hasta la
última con la guía de anotación acabada.
La precisión llega a mejorar hasta un 27.

32
Acuerdo entre anotadores

Resultados

33
Herramientas

Castellano y catalán adaptación del editor de
árboles del AGTK, TreeTrans
Modificación del formato de entrada/salida para
que acepte TBF y XML.
Adaptación para que acepte sentidos de palabras.
Euskera 3LBAbarHitz
Específica para la anotación de dependencias
controla el número y tipo de campos descritos en
cada etiqueta
Edición visual de árboles

34
(No Transcript)
35
II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
36
ltAnnotation id'agTreebankAG2Annotation22'
start'agTreebankAG2Anchor7' end'agTreebankAG
2Anchor8' type'wrd'gt ltFeature
name'label'gtlalt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation23lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation23' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'pos'gt ltFeatur
e name'label'gtda0fs0lt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation24lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation24' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'syn'gt ltFeatur
e name'label'gtespec.fslt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation28lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation28' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor9' type'syn'gt ltFeatur
e name'label'gtsnlt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation29lt/Feature
gt lt/Annotationgt lt/Annotationgt
II Jornada La Recerca al de Lingüística General
de la UB
37
II Jornada La Recerca al de Lingüística General
de la UB
, 3 octubre 2003
38
Índice

Introducción
El proyecto 3LB
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

39
Líneas de etiquetado

Especificación del sentido de nombres, verbos y
adjetivos
Aproximación all words.
Mismo planteamiento para las tres lenguas
Metodología
Recurso léxico
Herramienta de anotación

40
Líneas de etiquetado

Recurso Léxico WordNet español, WordNet catalán
y WordNet euskera.
Misma estructura y misma representación semántica
para las tres lenguas.
Carencias de sentido o de palabra
etiqueta especial.

41
Líneas de etiquetado

Aproximación léxica o transversal
Mayor consistencia
Disminuye tiempo y esfuerzo anotación
Método seguido en catalán y castellano
Anotación automática con palabras de un solo
sentido.
Revisión final.
Anotación en paralelo de un subconjunto de
palabras frecuentes
Especificación de casos problemáticos
(ambigüedad).
Desarrollo de la guía de anotación
un sentido por palabra
ante duda, el más general
sólo para casos muy claros se asignarás más de
uno
Anotación del resto del corpus.

42
Líneas de etiquetado

Aproximación léxica o transversal
Método seguido en euskera
Corpus mayor (300.000 palabras)
Anotación en paralelo de un subgrupo de palabras
frecuentes
Modificación, si es necesario, de las acepciones
de EusWN.
Un árbitro fija el análisis correcto de ambos
anotadores o, en su caso, corregir EusWN.
Para la anotación del resto del corpus anotación
por separado, y verificación de muestras.

43
Datos análisis semántico

Cast3LB 42.291 palabras aprox. (100)
20.461 nombres,
13.471 verbos,
8.543 adjetivos.
Cat3LB 4.417 aprox. (10)
2.379 formas nominales (839 nombres distintos),
1.225 formas verbales (401 verbos distintos),
813 formas adjetivas (377 adjetivos distintos).
Eus3LB 5.000 formas (10 del corpus de 300.000
palabras)
Correspondientes a 75 palabras diferentes
(incluyendo sustantivos, verbos y adjetivos).

44
Herramientas

3LB-SAT
Orientada al etiquetado semántico transversal o
léxico.
Entrada TBF/XML y salida XML.
EWN etiquetas de carencias.
Anotación automática de
palabras monosémicas
palabras que no aparecen en los WWNN.
Informe de cambios

45
II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
46
Índice

Introducción
Etiquetado sintáctico
Etiquetado semántico
Conclusiones y trabajos futuros

47
Conclusiones

Con el proyecto 3LB se ha desarrollado un corpus
anotado sintáctica y semánticamente para el
catalán, otro para el euskera y otro para el
castellano.
Máxima consistencia entre los tres corpus.
Libre disposición para investigación.
Manuales de anotación lingüística para cada
lengua profundamente desarrollados y probados en
cada corpus
Importante aportación metodológica al tema de la
anotación sintáctica
Disponibles en la web http//clic.fil.ub.es/perso
nal/civit

48
Trabajos futuros

Anotación de la anáfora y cadenas de
correferencia.
Similar criterio de anotación para las tres
lenguas.
Ampliación del corpus a 500.000 palabras para
cada lengua.
Desarrollo de recursos para la explotación de los
corpus.

49
Más información y/o contacto

http//gplsi.dlsi.ua.es9998
http//www.dlsi.ua.es/projectes/3lb/
http//www.lsi.upc.es/ageno

Write a Comment

User Comments (0)

About PowerShow.com

Construccin de treebanks: el proyecto 3LB PowerPoint PPT Presentation