Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit - PowerPoint PPT Presentation

1 / 26

About This Presentation

Title:

Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit

Description:

Title – PowerPoint PPT presentation

Number of Views:75

Avg rating:3.0/5.0

Slides: 27

Provided by: KST108

Category:

more less

Transcript and Presenter's Notes

Title: Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit

1
Tecnologie per il Trattamento Automatico della
Lingua- Obiettivi, Progetti ed Opportunità a RTV
-
Facolta di Lettere 24 Marzo 2004

R. Basili
(DISP, Università di Roma, Tor Vergata)

2
Outline

Metadata Extraction and HLT
Challenges
The RTV Experience
Conclusion

3
Computer, Lingue ed Applicazioni

Perché comprendere tramite gli elaboratori i
contenuti testuali?
I testi sono i veicoli principali di significato
per molte altre tipologie di dati (e.g.
multimediali)
e per la definizione, trasmissione e
condivisione di conoscenze (il Web e solo il
piu evidente degli esempi)
Ricerca di informazione

4
Elaborazione come processo di interpretazione

Elaborare un testo in tale ambito significa
interpretarne aspetti rilevanti del significato
Area tematica (e.g. cronaca/politica)
Obbiettivi (e.g. virus/spam nelle-mail)
Personaggi e luoghi coinvolti
Eventi dichiarati (e.g. news)
Obbiettivi comunicativi (e.g. dialogo e
pianificazione)
Risultato rappresentazione esplicita del
significato testuale
che attiva alcune inferenze (e.g. rilevanza)

5
Un esempio Notizie di Agenzia
6
Notizie di agenzia (2)

I requisiti di una corretta interpretazione sono
(almeno)
ha battuto e il verbo principale
usato in forma transitiva semplice
E usato nella sua accezione sportiva (nessuno
e stato colpito qui!)
Italia e Scozia sono rispettivamente soggetto e
complemento oggetto grammaticali (?)
Italia non e un paese ma una squadra (!), (e
cosi la Scozia)
giornata e il turno e non il giorno
Esisitono altre forme linguistiche equivalenti
e.g.

7
Notizie di Agenzia (3) Multilingualità
8
Alcune Riflessioni

La comprensione di informazione linguistica
richiede conoscenza riguardo
La lingua (e.g. sintassi)
Il mondo (e.g. rugby, squadre e nazioni)
Come la prima fa riferimento al secondo
Laccesso e la pubblicazione (elettronica)
intelligente implica conoscenze riguardo
Lobbiettivo, i.e. ricerca
Il mondo in cui la comunicazione e immersa
I produttori vs. gli utenti del testo

9
Sfide e Ricerca

Accuratezza del riconoscimento/produzione
Robustezza (errori/rumore/incompletezza)
Scala
Copertura di Lessici e Grammatiche
Espressività
Dizionari, Lessici e Thesaura
Modelli del mondo ed inferenza
Flessibilità
Lingua del produttore vs. consumatore
Naturalezza

10
TAL La architettura del processo
testo
Lessico
Analisi Lessicale
Tokens features
Analisi Sintattica
Grammatica
Struttura frase
Modello del mondo
Analisi Semantica
Forma Logica
An. Pragmatica / Applic.
Modello del task
Interpretazione
11
HLT Ricerca e Risultati

Risorse e Standard
Dizionari e Lessici
Corpora
Riconoscimento
Morfologia ed Analisi a Stati Finiti
Riconoscimento Sintattico e Disambiguazione
Riconoscimento e Classificazione dei Nomi Propri
(e.g. luoghi o persone, gt93 acc.)
Disambiguazione del Senso (?90 acc.)
Riconoscimento Eventi (MUC Conferences, 87-98)

12
IE in MUC
13
IE in MUC
14
HLT Ricerca e Risultati (2)

Apprendimento di conoscenza linguistica
Analisi sintattica per esempi (e.g.
parsing statistico, HMM)
Acquisizione automatica di terminologia (e.g.
broadband communication o imposte dirette)
Regole di disambiguazione del senso (WSD)
rispetto a dizionari semantici
battere/sport vs. battere/colpire
Wordnet (Miller et al, 91) ed i corpora
Information Extraction Rules
Apprendimento di schemi frasali (companies
acquire companies)

15
HLT _at_ DISP, Tor Vergata
The AI-NLP group at Computer Science Dept

Prof. Maria Teresa PAZIENZA
Prof. Roberto BASILI
2-4 Researchers
1-2 PhD students
1-2 Visiting scientists
URL ai-nlp.info.uniroma2.it

16
HLT _at_ Rome, Tor Vergata

Aree di Ricerca
Ingegneria delle Lingue
Metodi robusti per il TAL
Modelli Computazionali del Lessico e
Disambiguazione del Senso
Apprendimento Automatico per il TAL su larga
scala
Applicationi del TAL
Information Extraction e Retrieval
(Categorizzazione)
Question Answering
Ingegneria della Conoscenza Ontologica mediata
linguisticamente

17
HLT _at_ DISP, Tor Vergata
Sistemi

ARIOSTO (92) Acquisizione Automatica di
conoscenza lessicale
CHAOS (98.02) Analizzatore sintattico
(Italiano, Inglese)
RGL (97) Analisi formale dei concetti per
lacquisizione di schemi di sottocategorizzazio
ne verbale (Reticoli di GALOIS)
GoDoT (98) Disambiguazione Semantica
SATOR (00) Apprendimento Automatico di schemi
per IE
ONTOLOAD (01) Acquisizione di ontologie di
dominio a partire dai testi

18
Analisi Sintattica

Riconoscimento Grammaticale Robusto
(CHAOS) (Basili et al., ECAI98, IWPT2000,
NLE2002)
Modularità e Lesssicalizzazione (Ing/It)
Rappresentazione OO (orientata agli oggetti) dei
dati linguistici
6 fasi inernedie di eaborazione grammaticale
(e.g. etichettatura sintattica, i.e. POS tagging)
Riusabilita tra lingue e domini diversi
?80 Prec/Rec per linglese (IWPT00)
?90 p/sec (per litaliano e linglese) (Ecai 98)

19
Analisi Sintattica CHAOS add link
20
HLT _at_ Rome, Tor Vergata
Progetti Internazionali (EU Esprit, 5-6 FW)

ECRAN (97-98) Apprendimento lessicale per IE
adattivo
TREVI (99-00) Categorizzazione e
personalizzazione basata sul testo
NAMIC (00-02) Hyperlinking multilinguale su
flussi di notizie di agenzia
MOSES (02-04) Question Answering basato su
ontologie
PrestoSpace (04-) Indicizzazione ed
Interrogazione Semantica di dati multimediali
(RAI)

21
NAMIC
The NAMIC architecture
News streams
English MS
English EM
XML Objective Representation
Hyperlinking Engine
Italian MS
Italian EM
Spanish MS
Spanish EM
World Model
Multilingual Hypernews Engine
Language processors
NAMIC monitor
22
Il progetto PrestoSpace

The objective of the project is to provide
technical devices and systems for digital
preservation of all types of audio-visual
collections. The aim is to build-up preservation
factories providing affordable services to all
kinds of collections owners to manage and
distribute their assets.
The 20th Century was the first with an
audiovisual record. Audiovisual media became the
new form of cultural expression. These
historical, cultural and commercial assets are
now entirely at risk from deterioration.
Broadcasters have begun to digitise their large
holdings, at high cost and using complex
technology. The preservation factory approach
aims for an integrated automated solution of
sufficient low cost so that the small-to-medium
collections can be saved through common
standardised services.

23
The Partnership
24
Eventi Meeting Alghero

Presentazione del Progetto PrestoSpace (Daniel
Teruggi - INA)
Presentazione delliniziativa Memory Day 2005,
(R. Olla RAI)
Presentazione progetto RicordeRAI, RAI
teche, (B. Scaramucci RAI)

25
Attivita Principali
26
Metadata Access and Delivery

Produzione degli strumenti software per la
preservation factory.
Integrazione di metadati significativi e di
strumenti avanzati per laccesso ai dati
digitalizzati
Disseminazione
Informazione semantica (e.g. eventi/partecipanti),
Interfacce avanzate per laccesso (e.g. LN)
dati ristrutturabili a seconda degli obbiettivi
della ricerca

27
A Perspective View
.
Data streams
Parsed sent.
English MS
English SemAn
XML Metadata
Metadata Enrichment (Learning)
Italian MS
Italian SemAn
MS
SemAn
Semantic analysis Components
General Ontology
Web
28
Un es. Rassegna Stampa Automatica

Obbiettivi
Ricerca autonoma di notizie in tempo reale
Classificazione delle notizie
Estrazione di informazioni puntuali
(dichiarazioni)
Integrazione di due tecnologie diverse
Ricerca Autonoma su Web (Web spider)
TAL per il trattamento automatico dei Testi
Cooperazione tra gruppi HLT e DIST del
Dipartimento Informatica, Sistemi e Produzione

29
Ricerca Autonoma su Web (Web spider)

Gruppo DIST (Distributed Information System),
prof. M. Angelaccio, B. Buttarazzi
Metodologie
Web Searching Visualization
Web-based Workflow Engines
Risultati
VSEARCH, Web local searching tool
WISH, Wireless VSEARCH con Caching Semantico

30
Rassegna Stampa Automatica (3)

Ruolo delle due tecnologie diverse
Ricerca Autonoma su Web (Web spider)
Ricerca siti interessanti (per es. giornali su
Web)
Gestisce accesso e richiamo di pagine remote (ad
es. cronaca, politica, sport)
Trattamento automatico dei Testi
Riconosce fenomeni di base nei testi
Classifica estratti dei testi giornalistici
Riconosce persone/agenti e loro dichiarazioni
Estrae tutte le informazioni scoperte
aggiornando un archivio locale

31
Rassegna Stampa Automatica (3)

Demo (in coll. con F. Perrazzoni, F. Di Cola)
Funzionalità
Ricerca e Download di Pagine Web (Corriere della
Sera)
Selezione delle pagine e dei personaggi di
interesse
Estrazione linguistica delle informazioni
(GATECHAOS)
Navigazione attraverso le citazioni/dichiarazioni
estratte

32
Conclusioni

Il TAL e unarea tecnologica di grande interesse
ed in enorme sviluppo
La contiguità tra aree di ricerca diverse ed
interagenti e un elemento fondante dellintera
disciplina
La armonizzazione disciplinare tra conoscenze
umanistiche e competenze dellingegneria
informatica trova in queste aree una sinergia di
grande respiro e enormi potenzialità

33
Conclusioni (2)

Il progetto Prestospace rappresenta una grande
sfida e fornisce una serie di opportunità
nellarea della comunicazione multimediale
Problemi linguistici
Problemi interpretativi ed editoriali
Scenari applicativi avanzati (NL query)
Metodologie innovative per la comunicazione/condiv
isione di dati multimediali

Write a Comment

User Comments (0)