Diapositiva 1 - PowerPoint PPT Presentation

1 / 12
About This Presentation
Title:

Diapositiva 1

Description:

Title: Diapositiva 1 Author: Simone Last modified by: Simone Created Date: 9/30/2006 9:08:55 AM Document presentation format: Presentazione su schermo – PowerPoint PPT presentation

Number of Views:33
Avg rating:3.0/5.0
Slides: 13
Provided by: Simo2269
Category:

less

Transcript and Presenter's Notes

Title: Diapositiva 1


1
Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria Sede di Modena Corso di
Laurea in Ingegneria Informatica Nuovo
Ordinamento
Information Extraction il rapporto GATE Named
Entity Recognition
Relatore Candidato Prof. Sonia
Bergamaschi Simone Ferrari
Anno Accademico 2005 2006
2
Iter seguito
  • Differenziazione Information Retrievial
    Information Extraction
  • Discussione Information Extraction
  • Named Entity Recognition
  • Descrizione GATE
  • ANNIE
  • Applicazione a siti web di GATE per NER
  • Valutazione prestazioni
  • Conclusioni e sviluppi futuri

3
Information Retrievial vs Information Extraction
Sistema IR Input insieme di documenti (corpus)
query (key words) Output documenti rilevanti
score
Sistema IE Input insieme di documenti (corpus)
query (key words) Output frammenti dei documenti
con informazioni poco ambigue in
formato prestabilito
  • Vantaggi IE
  • minor tempo danalisi
  • formato delloutput
  • Svantaggi IE
  • difficoltà dimplementazione
  • in alcuni casi meno accurato rispetto alla
    lettura umana

4
Information Extraction
Jim bought 300 shares of Acme Corp. in 2006
  • Concetto nato allinterno delle MUCs
  • In MUC (1998)
  • - Named Entity recognition (NE)
  • - Coreference resolution (CO)
  • - Template Element construction (TE)
  • - Template Relation construction (TR)
  • - Scenario Template production (ST)
  • Successore di MUC ACE (1999)

ltENAMEX TYPE"PERSON"gtJimlt/ENAMEXgt bought ltNUMEX
TYPE"QUANTITY"gt300lt/NUMEXgt shares of ltENAMEX
TYPE"ORGANIZATION"gtAcme Corp.lt/ENAMEXgt in ltTIMEX
TYPE"DATE"gt2006lt/TIMEXgt
5
GATE
  • a General Architecture for Text Engineering
  • Hamish Cunningham (University of Sheffield)
  • versione 1 nel 1996 versione 3.1 su
    http//gate.ac.uk/download/
  • algoritmi dati GUI applicazioni
  • Language Resources (LRs)
  • Processing Resources (PRs)
  • Visual Resources (VRs)

CREOLE
a Collection of REusable Objects for Language
Engineering
6
ANNIE
  • A Nearly New IE system
  • contiene al suo interno le PRs
  • Tokeniser
  • Gazetteer
  • Sentence Splitter
  • POS Tagger
  • Semantic Tagger
  • OrthoMatcher (NameMatcher)

7
Attività sperimentale
  • NER utilizzando GATE applicato a siti WISDOM
  • (http//dbgroup.unimo.it/wisdom/)
  • output
  • codice
  • prestazioni
  • modifiche e prestazioni2

8
Booking.com
Input
Output
9
XML Booking.com
  • Attività preliminare del Tokeniser
  • Creazione dellannotation set di default da
    parte del Tokeniser

- ltTextWithNodesgt ltNode id"0"/gt
BOOKING ltNode id"7"/gt .
ltNode id"8"/gt COM ltNode id"11"/gt
ltNode id"12"/gt online ltNode
id"18"/gt ltNode id"19"/gt hotel
ltNode id"24"/gt ltNode id"25"/gt
reservations ltNode id"37"/gt ()
lt/TextWithNodesgt
- ltAnnotation Id"2567" Type"Location"
StartNode"450" EndNode"456"gt - ltFeaturegt
ltName className"java.lang.String"gtrule1lt
/Namegt ltValue className"java.lang.Str
ing"gtLocation1lt/Valuegt lt/Featuregt -
ltFeaturegt ltName className"java.lang.St
ring"gtrule2lt/Namegt ltValue
className"java.lang.String"gtLocFinallt/Valuegt
lt/Featuregt - ltFeaturegt ltName
className"java.lang.String"gtlocTypelt/Namegt
ltValue className"java.lang.String"gtcitylt/Va
luegt lt/Featuregt - ltFeaturegt
ltName className"java.lang.String"gtmatcheslt/Namegt
ltValue className"java.util.ArrayList"

itemClassName"java.lang.Integer"gt256725682686lt/
Valuegt lt/Featuregt lt/Annotationgt
- ltAnnotation Id"2317" Type"Lookup"
StartNode"450" EndNode"456"gt - ltFeaturegt
ltName className"java.lang.String"gtmajorT
ypelt/Namegt ltValue className"java.lang
.String"gtlocationlt/Valuegt lt/Featuregt -
ltFeaturegt ltName className"java.lang.St
ring"gtminorTypelt/Namegt ltValue
className"java.lang.String"gtcitylt/Valuegt
lt/Featuregt lt/Annotationgt
ltNode id"450"/gt Berlin ltNode id"456"/gt
Serialized Nodes
Berlin?city.lstlocationcity
10
Valutazione delle prestazioni
Tramite lAnnotationDiff Tool di GATE
  • consente di confrontare due set di annotazioni
  • Confronto prestazioni di GATE nellIE
  • inglese vs italiano
  • inglese referenziato vs inglese
  • italiano referenziato vs italiano

11
Inglese referenziato vs Inglese
Default
Dopo
Modifiche Norwalk, Loulè?city.lst
Tuscany?region.lst PT ?country_cap.lst
48,84
58,14
Miss rimanenti mancanza di regole adeguate
12
Conclusioni e sviluppi futuri
  • Sistema GATE fornito in modalità primitiva
  • necessità di un raffinamento (Gazetteer, POS e
    Semantic Tagger)
  • Training pesante (centinaia di testi, mesi)
  • Sviluppo multilingua recente (molto da
    implementare)
  • PRs sempre più intelligenti
  • ? background working
Write a Comment
User Comments (0)
About PowerShow.com