Title: Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit
1Tecnologie per il Trattamento Automatico della
Lingua- Obiettivi, Progetti ed Opportunità a RTV
-
Facolta di Lettere 24 Marzo 2004
- R. Basili
- (DISP, Università di Roma, Tor Vergata)
2Outline
- Metadata Extraction and HLT
- Challenges
- The RTV Experience
- Conclusion
3Computer, Lingue ed Applicazioni
- Perché comprendere tramite gli elaboratori i
contenuti testuali? - I testi sono i veicoli principali di significato
per molte altre tipologie di dati (e.g.
multimediali) - e per la definizione, trasmissione e
condivisione di conoscenze (il Web e solo il
piu evidente degli esempi) - Ricerca di informazione
4Elaborazione come processo di interpretazione
- Elaborare un testo in tale ambito significa
interpretarne aspetti rilevanti del significato - Area tematica (e.g. cronaca/politica)
- Obbiettivi (e.g. virus/spam nelle-mail)
- Personaggi e luoghi coinvolti
- Eventi dichiarati (e.g. news)
- Obbiettivi comunicativi (e.g. dialogo e
pianificazione) - Risultato rappresentazione esplicita del
significato testuale - che attiva alcune inferenze (e.g. rilevanza)
5Un esempio Notizie di Agenzia
6Notizie di agenzia (2)
- I requisiti di una corretta interpretazione sono
(almeno) - ha battuto e il verbo principale
- usato in forma transitiva semplice
- E usato nella sua accezione sportiva (nessuno
e stato colpito qui!) - Italia e Scozia sono rispettivamente soggetto e
complemento oggetto grammaticali (?) - Italia non e un paese ma una squadra (!), (e
cosi la Scozia) - giornata e il turno e non il giorno
- Esisitono altre forme linguistiche equivalenti
e.g.
7Notizie di Agenzia (3) Multilingualità
8Alcune Riflessioni
- La comprensione di informazione linguistica
richiede conoscenza riguardo - La lingua (e.g. sintassi)
- Il mondo (e.g. rugby, squadre e nazioni)
- Come la prima fa riferimento al secondo
- Laccesso e la pubblicazione (elettronica)
intelligente implica conoscenze riguardo - Lobbiettivo, i.e. ricerca
- Il mondo in cui la comunicazione e immersa
- I produttori vs. gli utenti del testo
9Sfide e Ricerca
- Accuratezza del riconoscimento/produzione
- Robustezza (errori/rumore/incompletezza)
- Scala
- Copertura di Lessici e Grammatiche
- Espressività
- Dizionari, Lessici e Thesaura
- Modelli del mondo ed inferenza
- Flessibilità
- Lingua del produttore vs. consumatore
- Naturalezza
10TAL La architettura del processo
testo
Lessico
Analisi Lessicale
Tokens features
Analisi Sintattica
Grammatica
Struttura frase
Modello del mondo
Analisi Semantica
Forma Logica
An. Pragmatica / Applic.
Modello del task
Interpretazione
11HLT Ricerca e Risultati
- Risorse e Standard
- Dizionari e Lessici
- Corpora
- Riconoscimento
- Morfologia ed Analisi a Stati Finiti
- Riconoscimento Sintattico e Disambiguazione
- Riconoscimento e Classificazione dei Nomi Propri
(e.g. luoghi o persone, gt93 acc.) - Disambiguazione del Senso (?90 acc.)
- Riconoscimento Eventi (MUC Conferences, 87-98)
12IE in MUC
13IE in MUC
14HLT Ricerca e Risultati (2)
- Apprendimento di conoscenza linguistica
- Analisi sintattica per esempi (e.g.
parsing statistico, HMM) - Acquisizione automatica di terminologia (e.g.
broadband communication o imposte dirette) - Regole di disambiguazione del senso (WSD)
rispetto a dizionari semantici - battere/sport vs. battere/colpire
- Wordnet (Miller et al, 91) ed i corpora
- Information Extraction Rules
- Apprendimento di schemi frasali (companies
acquire companies)
15HLT _at_ DISP, Tor Vergata
The AI-NLP group at Computer Science Dept
- Prof. Maria Teresa PAZIENZA
- Prof. Roberto BASILI
- 2-4 Researchers
- 1-2 PhD students
- 1-2 Visiting scientists
- URL ai-nlp.info.uniroma2.it
16HLT _at_ Rome, Tor Vergata
- Aree di Ricerca
- Ingegneria delle Lingue
- Metodi robusti per il TAL
- Modelli Computazionali del Lessico e
Disambiguazione del Senso - Apprendimento Automatico per il TAL su larga
scala - Applicationi del TAL
- Information Extraction e Retrieval
(Categorizzazione) - Question Answering
- Ingegneria della Conoscenza Ontologica mediata
linguisticamente
17HLT _at_ DISP, Tor Vergata
Sistemi
- ARIOSTO (92) Acquisizione Automatica di
conoscenza lessicale - CHAOS (98.02) Analizzatore sintattico
(Italiano, Inglese) - RGL (97) Analisi formale dei concetti per
lacquisizione di schemi di sottocategorizzazio
ne verbale (Reticoli di GALOIS) - GoDoT (98) Disambiguazione Semantica
- SATOR (00) Apprendimento Automatico di schemi
per IE - ONTOLOAD (01) Acquisizione di ontologie di
dominio a partire dai testi
18Analisi Sintattica
- Riconoscimento Grammaticale Robusto
(CHAOS) (Basili et al., ECAI98, IWPT2000,
NLE2002) - Modularità e Lesssicalizzazione (Ing/It)
- Rappresentazione OO (orientata agli oggetti) dei
dati linguistici - 6 fasi inernedie di eaborazione grammaticale
(e.g. etichettatura sintattica, i.e. POS tagging) - Riusabilita tra lingue e domini diversi
- ?80 Prec/Rec per linglese (IWPT00)
- ?90 p/sec (per litaliano e linglese) (Ecai 98)
19Analisi Sintattica CHAOS add link
20HLT _at_ Rome, Tor Vergata
Progetti Internazionali (EU Esprit, 5-6 FW)
- ECRAN (97-98) Apprendimento lessicale per IE
adattivo - TREVI (99-00) Categorizzazione e
personalizzazione basata sul testo - NAMIC (00-02) Hyperlinking multilinguale su
flussi di notizie di agenzia - MOSES (02-04) Question Answering basato su
ontologie - PrestoSpace (04-) Indicizzazione ed
Interrogazione Semantica di dati multimediali
(RAI)
21NAMIC
The NAMIC architecture
News streams
English MS
English EM
XML Objective Representation
Hyperlinking Engine
Italian MS
Italian EM
Spanish MS
Spanish EM
World Model
Multilingual Hypernews Engine
Language processors
NAMIC monitor
22 Il progetto PrestoSpace
- The objective of the project is to provide
technical devices and systems for digital
preservation of all types of audio-visual
collections. The aim is to build-up preservation
factories providing affordable services to all
kinds of collections owners to manage and
distribute their assets. - The 20th Century was the first with an
audiovisual record. Audiovisual media became the
new form of cultural expression. These
historical, cultural and commercial assets are
now entirely at risk from deterioration. - Broadcasters have begun to digitise their large
holdings, at high cost and using complex
technology. The preservation factory approach
aims for an integrated automated solution of
sufficient low cost so that the small-to-medium
collections can be saved through common
standardised services.
23The Partnership
24 Eventi Meeting Alghero
- Presentazione del Progetto PrestoSpace (Daniel
Teruggi - INA) - Presentazione delliniziativa Memory Day 2005,
(R. Olla RAI) - Presentazione progetto RicordeRAI, RAI
teche, (B. Scaramucci RAI)
25Attivita Principali
26 Metadata Access and Delivery
- Produzione degli strumenti software per la
preservation factory. - Integrazione di metadati significativi e di
strumenti avanzati per laccesso ai dati
digitalizzati - Disseminazione
- Informazione semantica (e.g. eventi/partecipanti),
- Interfacce avanzate per laccesso (e.g. LN)
- dati ristrutturabili a seconda degli obbiettivi
della ricerca
27A Perspective View
.
Data streams
Parsed sent.
English MS
English SemAn
XML Metadata
Metadata Enrichment (Learning)
Italian MS
Italian SemAn
MS
SemAn
Semantic analysis Components
General Ontology
Web
28Un es. Rassegna Stampa Automatica
- Obbiettivi
- Ricerca autonoma di notizie in tempo reale
- Classificazione delle notizie
- Estrazione di informazioni puntuali
(dichiarazioni) - Integrazione di due tecnologie diverse
- Ricerca Autonoma su Web (Web spider)
- TAL per il trattamento automatico dei Testi
- Cooperazione tra gruppi HLT e DIST del
Dipartimento Informatica, Sistemi e Produzione
29Ricerca Autonoma su Web (Web spider)
- Gruppo DIST (Distributed Information System),
prof. M. Angelaccio, B. Buttarazzi - Metodologie
- Web Searching Visualization
- Web-based Workflow Engines
- Risultati
- VSEARCH, Web local searching tool
- WISH, Wireless VSEARCH con Caching Semantico
30Rassegna Stampa Automatica (3)
- Ruolo delle due tecnologie diverse
- Ricerca Autonoma su Web (Web spider)
- Ricerca siti interessanti (per es. giornali su
Web) - Gestisce accesso e richiamo di pagine remote (ad
es. cronaca, politica, sport) - Trattamento automatico dei Testi
- Riconosce fenomeni di base nei testi
- Classifica estratti dei testi giornalistici
- Riconosce persone/agenti e loro dichiarazioni
- Estrae tutte le informazioni scoperte
aggiornando un archivio locale
31Rassegna Stampa Automatica (3)
- Demo (in coll. con F. Perrazzoni, F. Di Cola)
- Funzionalità
- Ricerca e Download di Pagine Web (Corriere della
Sera) - Selezione delle pagine e dei personaggi di
interesse - Estrazione linguistica delle informazioni
(GATECHAOS) - Navigazione attraverso le citazioni/dichiarazioni
estratte
32Conclusioni
- Il TAL e unarea tecnologica di grande interesse
ed in enorme sviluppo - La contiguità tra aree di ricerca diverse ed
interagenti e un elemento fondante dellintera
disciplina - La armonizzazione disciplinare tra conoscenze
umanistiche e competenze dellingegneria
informatica trova in queste aree una sinergia di
grande respiro e enormi potenzialità
33Conclusioni (2)
- Il progetto Prestospace rappresenta una grande
sfida e fornisce una serie di opportunità
nellarea della comunicazione multimediale - Problemi linguistici
- Problemi interpretativi ed editoriali
- Scenari applicativi avanzati (NL query)
- Metodologie innovative per la comunicazione/condiv
isione di dati multimediali