Title: Construccin de treebanks: el proyecto 3LB
1Construcción de treebanks el proyecto 3LB
Centre TALP Universitat Politècnica de Catalunya
2Índice
- Introducción creación de treebanks
- El proyecto 3LB
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
- Líneas de investigación
- Datos
- Herramientas desarrolladas
3Índice
- Introducción creación de treebanks
- El proyecto 3LB
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
- Líneas de investigación
- Datos
- Herramientas desarrolladas
4Definición y utilidades de un treebank
5Metodología
Anotación manual
Anotación semi-automática
6Estado del Arte (1) Treebanks existentes
- (principales treebanks listado no exhaustivo)
- NEGRA / TIGER (alemán 350.000 tokens)
- PDT Prague Dependency Treebank (checo 450.000
tok.) - Corpus Le Monde (francés 1.000.000 tokens)
- TUT Turin University Treebank (italiano 1.000
oraciones) - Spanish Treebank (UAM) (1.500 oraciones)
- ISST Italian Syntactic-Semantic Treebank
(300.000 tok.) - Penn Treebank (inglés 3mill. / 2 mill)
- Susanne Corpus (inglés 120.000 tokens)
7Estado del Arte (2) conceptos básicos
Nivel de anotación morfología / sintaxis /
(semántica)
Sintaxis
8Dos ejemplos paradigmáticos
PDT dependencias
NEGRA / Le Monde constituyentes y funciones
9(No Transcript)
10NEGRA (1)
Anotación sintáctica de
- estructura sintáctica (parentización)
- categorías sintácticas (etiquetas para
constituyentes) - funciones gramaticales
No tratan categorías vacías
Estructuras totalmente planas (X y X0)
Se permite el cruce de ramas (constituyentes
discontinuos)
11(No Transcript)
12Le Monde
chunker ? clustering léxico parser ? marcaje
constituyentes no recursivos tagger funcional ?
asignación funciones sintácticas
Marcaje de constituyentes
ltNPgt Marie lt/NPgt ltVNgt aime lt/VNgt ltNPgt les
fraises lt/NPgt ltCOORDgt et ltNPgt Paul lt/NPgt
ltNPgt les bananes lt/NPgt lt/COORDgt
13Índice
- Introducción
- El proyecto 3LB
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
14Proyecto 3LB
Dpto. de Lenguajes y Sistemas informáticos Univers
idad de Alicante
CLIC Centre de Llenguatge i Computació Universitat
de Barcelona
IXA Taldea Euskal Herriko Unibersitatea
Dpto. de Sistemas Informáticos y
Computación Universidad Politécnica de Valencia
Centre Talp Universitat Politècnica de Catalunya
15Proyecto 3LB
- Objetivo anotar tres corpus con información
sintáctica y semántica - Cat3LB ? catalán
- Eus3LB ? euskera
- Cast3LB ? castellano
- 25 de los corpus son comparables extraído de
noticias de EFE de las mismas fechas.
16Índice
- Introducción
- El proyecto 3LB
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
17Etiquetado sintáctico
- Para cada lengua se ha optado por un esquema de
anotación, según sus características - Cat3LB constituyentes y funciones
- Cast3LB constituyentes y funciones
- Eus3LB dependencias.
18Líneas de etiquetado constituyentes y funciones
- Metodología etiquetado constituyentes
- Chunking automático (TACAT GramEsp/Cat).
19Líneas de etiquetado constituyentes y funciones
Tokenización Identificación de Fechas
Strong Named-Entities
Tokenización
20Líneas de etiquetado constituyentes y funciones
Analizador Morfológico (MACO) Desambiguador (REL
AX)
Etiquetado Morfológico
Tokenización
Validación manual de 100.000 palabras Corpus
CLiC-TALP
21Líneas de etiquetado constituyentes y funciones
Chunker (TACAT GramEsp
GramCat)
22Análisis Morfológico (MACO)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0 e
NCFP000 rentable rentable AQ0CS0 publicitar
iamente publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 español NCMS000 tiene tener
VMIP3S0 un uno DI0MS0 gran grande AQ0CS0
problema problema NCMS000 . . Fp
23Desambiguación Morfológica (RELAX)
Etiquetado
Pese_a_que pese_a_que CS es ser VSIP3S0
rentable rentable AQ0CS0 publicitariamente
publicitariamente RG , , Fc el el
DA0MS0 ciclismo ciclismo NCMS000 español
español AQ0MS0 tiene tener VMIP3S0 un uno
DI0MS0 gran grande AQ0CS0 problema
problema NCMS000 . . Fp
24Chunking (TACAT)
Etiquetado
25Líneas de etiquetado constituyentes y funciones
- Metodología etiquetado constituyentes
- Anotación paralela de las 100 primeras oraciones
entre cinco lingüistas - Establecimiento de los principios básicos de
anotación. - Anotación de 220 oraciones
- Revisión, modificación de los principios de
anotación. - Revisión de la anotación previa y refinamiento de
las normas de anotación. - Acuerdo entre anotadores
- Anotación del resto del corpus.
26Líneas de etiquetado constituyentes y funciones
- Metodología etiquetado funciones
- Anotación de 100 oraciones en paralelo
- Principios básicos de anotación.
- Comparación de la anotación
- Revisión y actualización de la guía de anotación.
- Anotación del resto de corpus
27Líneas de etiquetado constituyentes y funciones
- En una primera fase se aplicó esta metodología al
corpus castellano Cast3LB, y luego al corpus
catalán Cat3LB. - Para el corpus catalán el proceso fue más rápido,
ya que se aprovechó la experiencia del corpus
castellano.
28Líneas de etiquetado dependencias
- Metodología
- Anotación de 20 oraciones
- Definición de los criterios de anotación básicos
- Anotación en paralelo de 150 oraciones
seleccionadas. - Estructuras representativas del euskera.
- Acuerdo entre anotadores
- Anotación del resto del corpus.
29Datos análisis sintáctico
- Cast3LB
- 100.000 palabras (4.000 oraciones aprox).
- Cat3LB
- Constituyentes 106.000 palabras (2.700 oraciones
aprox). - Funciones 53.000 palabras aprox. (1.350
oraciones) - Eus3LB
- 56.000 palabras (3.708 oraciones aprox)
30Acuerdo entre anotadores
- Métricas Parseval
- Adaptadas a situación sin gold standard
- Comparación de análisis en ambos sentidos y
cálculo de las medias con ambas medidas. - Medidas de comparación
- P.E. precisión de etiquetado.
- P.P. precisión de parentizado.
- P.C. cobertura de paréntesis consistentes
31Acuerdo entre anotadores
- Metodología
- Comparación del análisis entre anotadores en
cinco fases de la anotación desde la primera con
un borrador de la guía de anotación hasta la
última con la guía de anotación acabada. - La precisión llega a mejorar hasta un 27.
32Acuerdo entre anotadores
33Herramientas
- Castellano y catalán adaptación del editor de
árboles del AGTK, TreeTrans - Modificación del formato de entrada/salida para
que acepte TBF y XML. - Adaptación para que acepte sentidos de palabras.
- Euskera 3LBAbarHitz
- Específica para la anotación de dependencias
controla el número y tipo de campos descritos en
cada etiqueta - Edición visual de árboles
34(No Transcript)
35II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
36ltAnnotation id'agTreebankAG2Annotation22'
start'agTreebankAG2Anchor7' end'agTreebankAG
2Anchor8' type'wrd'gt ltFeature
name'label'gtlalt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation23lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation23' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'pos'gt ltFeatur
e name'label'gtda0fs0lt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation24lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation24' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor8' type'syn'gt ltFeatur
e name'label'gtespec.fslt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation28lt/Feature
gt lt/Annotationgt ltAnnotation id'agTreebankAG2Ann
otation28' start'agTreebankAG2Anchor7'
end'agTreebankAG2Anchor9' type'syn'gt ltFeatur
e name'label'gtsnlt/Featuregt ltFeature
name'parent'gtagTreebankAG2Annotation29lt/Feature
gt lt/Annotationgt lt/Annotationgt
II Jornada La Recerca al de Lingüística General
de la UB
37II Jornada La Recerca al de Lingüística General
de la UB
, 3 octubre 2003
38Índice
- Introducción
- El proyecto 3LB
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
39Líneas de etiquetado
- Especificación del sentido de nombres, verbos y
adjetivos - Aproximación all words.
- Mismo planteamiento para las tres lenguas
- Metodología
- Recurso léxico
- Herramienta de anotación
40Líneas de etiquetado
- Recurso Léxico WordNet español, WordNet catalán
y WordNet euskera. - Misma estructura y misma representación semántica
para las tres lenguas. - Carencias de sentido o de palabra
- etiqueta especial.
41Líneas de etiquetado
- Aproximación léxica o transversal
- Mayor consistencia
- Disminuye tiempo y esfuerzo anotación
- Método seguido en catalán y castellano
- Anotación automática con palabras de un solo
sentido. - Revisión final.
- Anotación en paralelo de un subconjunto de
palabras frecuentes - Especificación de casos problemáticos
(ambigüedad). - Desarrollo de la guía de anotación
- un sentido por palabra
- ante duda, el más general
- sólo para casos muy claros se asignarás más de
uno - Anotación del resto del corpus.
42Líneas de etiquetado
- Aproximación léxica o transversal
- Método seguido en euskera
- Corpus mayor (300.000 palabras)
- Anotación en paralelo de un subgrupo de palabras
frecuentes - Modificación, si es necesario, de las acepciones
de EusWN. - Un árbitro fija el análisis correcto de ambos
anotadores o, en su caso, corregir EusWN. - Para la anotación del resto del corpus anotación
por separado, y verificación de muestras.
43Datos análisis semántico
- Cast3LB 42.291 palabras aprox. (100)
- 20.461 nombres,
- 13.471 verbos,
- 8.543 adjetivos.
- Cat3LB 4.417 aprox. (10)
- 2.379 formas nominales (839 nombres distintos),
- 1.225 formas verbales (401 verbos distintos),
- 813 formas adjetivas (377 adjetivos distintos).
- Eus3LB 5.000 formas (10 del corpus de 300.000
palabras) - Correspondientes a 75 palabras diferentes
(incluyendo sustantivos, verbos y adjetivos).
44Herramientas
- 3LB-SAT
- Orientada al etiquetado semántico transversal o
léxico. - Entrada TBF/XML y salida XML.
- EWN etiquetas de carencias.
- Anotación automática de
- palabras monosémicas
- palabras que no aparecen en los WWNN.
- Informe de cambios
45II Jornada La Recerca al Departament de
Lingüística General de la UB
Dijous, 3 octubre 2003
46Índice
- Introducción
- Etiquetado sintáctico
- Etiquetado semántico
- Conclusiones y trabajos futuros
47Conclusiones
- Con el proyecto 3LB se ha desarrollado un corpus
anotado sintáctica y semánticamente para el
catalán, otro para el euskera y otro para el
castellano. - Máxima consistencia entre los tres corpus.
- Libre disposición para investigación.
- Manuales de anotación lingüística para cada
lengua profundamente desarrollados y probados en
cada corpus - Importante aportación metodológica al tema de la
anotación sintáctica - Disponibles en la web http//clic.fil.ub.es/perso
nal/civit
48Trabajos futuros
- Anotación de la anáfora y cadenas de
correferencia. - Similar criterio de anotación para las tres
lenguas. - Ampliación del corpus a 500.000 palabras para
cada lengua. - Desarrollo de recursos para la explotación de los
corpus.
49Más información y/o contacto
- http//gplsi.dlsi.ua.es9998
- http//www.dlsi.ua.es/projectes/3lb/
- http//www.lsi.upc.es/ageno