Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit

Description:

Title – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 27
Provided by: KST108
Category:

less

Transcript and Presenter's Notes

Title: Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunit


1
Tecnologie per il Trattamento Automatico della
Lingua- Obiettivi, Progetti ed Opportunità a RTV
-
Facolta di Lettere 24 Marzo 2004
  • R. Basili
  • (DISP, Università di Roma, Tor Vergata)

2
Outline
  • Metadata Extraction and HLT
  • Challenges
  • The RTV Experience
  • Conclusion

3
Computer, Lingue ed Applicazioni
  • Perché comprendere tramite gli elaboratori i
    contenuti testuali?
  • I testi sono i veicoli principali di significato
    per molte altre tipologie di dati (e.g.
    multimediali)
  • e per la definizione, trasmissione e
    condivisione di conoscenze (il Web e solo il
    piu evidente degli esempi)
  • Ricerca di informazione

4
Elaborazione come processo di interpretazione
  • Elaborare un testo in tale ambito significa
    interpretarne aspetti rilevanti del significato
  • Area tematica (e.g. cronaca/politica)
  • Obbiettivi (e.g. virus/spam nelle-mail)
  • Personaggi e luoghi coinvolti
  • Eventi dichiarati (e.g. news)
  • Obbiettivi comunicativi (e.g. dialogo e
    pianificazione)
  • Risultato rappresentazione esplicita del
    significato testuale
  • che attiva alcune inferenze (e.g. rilevanza)

5
Un esempio Notizie di Agenzia
6
Notizie di agenzia (2)
  • I requisiti di una corretta interpretazione sono
    (almeno)
  • ha battuto e il verbo principale
  • usato in forma transitiva semplice
  • E usato nella sua accezione sportiva (nessuno
    e stato colpito qui!)
  • Italia e Scozia sono rispettivamente soggetto e
    complemento oggetto grammaticali (?)
  • Italia non e un paese ma una squadra (!), (e
    cosi la Scozia)
  • giornata e il turno e non il giorno
  • Esisitono altre forme linguistiche equivalenti
    e.g.

7
Notizie di Agenzia (3) Multilingualità
8
Alcune Riflessioni
  • La comprensione di informazione linguistica
    richiede conoscenza riguardo
  • La lingua (e.g. sintassi)
  • Il mondo (e.g. rugby, squadre e nazioni)
  • Come la prima fa riferimento al secondo
  • Laccesso e la pubblicazione (elettronica)
    intelligente implica conoscenze riguardo
  • Lobbiettivo, i.e. ricerca
  • Il mondo in cui la comunicazione e immersa
  • I produttori vs. gli utenti del testo

9
Sfide e Ricerca
  • Accuratezza del riconoscimento/produzione
  • Robustezza (errori/rumore/incompletezza)
  • Scala
  • Copertura di Lessici e Grammatiche
  • Espressività
  • Dizionari, Lessici e Thesaura
  • Modelli del mondo ed inferenza
  • Flessibilità
  • Lingua del produttore vs. consumatore
  • Naturalezza

10
TAL La architettura del processo
testo
Lessico
Analisi Lessicale
Tokens features
Analisi Sintattica
Grammatica
Struttura frase
Modello del mondo
Analisi Semantica
Forma Logica
An. Pragmatica / Applic.
Modello del task
Interpretazione
11
HLT Ricerca e Risultati
  • Risorse e Standard
  • Dizionari e Lessici
  • Corpora
  • Riconoscimento
  • Morfologia ed Analisi a Stati Finiti
  • Riconoscimento Sintattico e Disambiguazione
  • Riconoscimento e Classificazione dei Nomi Propri
    (e.g. luoghi o persone, gt93 acc.)
  • Disambiguazione del Senso (?90 acc.)
  • Riconoscimento Eventi (MUC Conferences, 87-98)

12
IE in MUC
13
IE in MUC
14
HLT Ricerca e Risultati (2)
  • Apprendimento di conoscenza linguistica
  • Analisi sintattica per esempi (e.g.
    parsing statistico, HMM)
  • Acquisizione automatica di terminologia (e.g.
    broadband communication o imposte dirette)
  • Regole di disambiguazione del senso (WSD)
    rispetto a dizionari semantici
  • battere/sport vs. battere/colpire
  • Wordnet (Miller et al, 91) ed i corpora
  • Information Extraction Rules
  • Apprendimento di schemi frasali (companies
    acquire companies)

15
HLT _at_ DISP, Tor Vergata
The AI-NLP group at Computer Science Dept
  • Prof. Maria Teresa PAZIENZA
  • Prof. Roberto BASILI
  • 2-4 Researchers
  • 1-2 PhD students
  • 1-2 Visiting scientists
  • URL ai-nlp.info.uniroma2.it

16
HLT _at_ Rome, Tor Vergata
  • Aree di Ricerca
  • Ingegneria delle Lingue
  • Metodi robusti per il TAL
  • Modelli Computazionali del Lessico e
    Disambiguazione del Senso
  • Apprendimento Automatico per il TAL su larga
    scala
  • Applicationi del TAL
  • Information Extraction e Retrieval
    (Categorizzazione)
  • Question Answering
  • Ingegneria della Conoscenza Ontologica mediata
    linguisticamente

17
HLT _at_ DISP, Tor Vergata
Sistemi
  • ARIOSTO (92) Acquisizione Automatica di
    conoscenza lessicale
  • CHAOS (98.02) Analizzatore sintattico
    (Italiano, Inglese)
  • RGL (97) Analisi formale dei concetti per
    lacquisizione di schemi di sottocategorizzazio
    ne verbale (Reticoli di GALOIS)
  • GoDoT (98) Disambiguazione Semantica
  • SATOR (00) Apprendimento Automatico di schemi
    per IE
  • ONTOLOAD (01) Acquisizione di ontologie di
    dominio a partire dai testi

18
Analisi Sintattica
  • Riconoscimento Grammaticale Robusto
    (CHAOS) (Basili et al., ECAI98, IWPT2000,
    NLE2002)
  • Modularità e Lesssicalizzazione (Ing/It)
  • Rappresentazione OO (orientata agli oggetti) dei
    dati linguistici
  • 6 fasi inernedie di eaborazione grammaticale
    (e.g. etichettatura sintattica, i.e. POS tagging)
  • Riusabilita tra lingue e domini diversi
  • ?80 Prec/Rec per linglese (IWPT00)
  • ?90 p/sec (per litaliano e linglese) (Ecai 98)

19
Analisi Sintattica CHAOS add link
20
HLT _at_ Rome, Tor Vergata
Progetti Internazionali (EU Esprit, 5-6 FW)
  • ECRAN (97-98) Apprendimento lessicale per IE
    adattivo
  • TREVI (99-00) Categorizzazione e
    personalizzazione basata sul testo
  • NAMIC (00-02) Hyperlinking multilinguale su
    flussi di notizie di agenzia
  • MOSES (02-04) Question Answering basato su
    ontologie
  • PrestoSpace (04-) Indicizzazione ed
    Interrogazione Semantica di dati multimediali
    (RAI)

21
NAMIC
The NAMIC architecture
News streams
English MS
English EM
XML Objective Representation
  Hyperlinking Engine
Italian MS
Italian EM
Spanish MS
Spanish EM
World Model
  Multilingual Hypernews Engine
Language processors
  NAMIC monitor
22
Il progetto PrestoSpace
  • The objective of the project is to provide
    technical devices and systems for digital
    preservation of all types of audio-visual
    collections. The aim is to build-up preservation
    factories providing affordable services to all
    kinds of collections owners to manage and
    distribute their assets.
  • The 20th Century was the first with an
    audiovisual record. Audiovisual media became the
    new form of cultural expression. These
    historical, cultural and commercial assets are
    now entirely at risk from deterioration.
  • Broadcasters have begun to digitise their large
    holdings, at high cost and using complex
    technology. The preservation factory approach
    aims for an integrated automated solution of
    sufficient low cost so that the small-to-medium
    collections can be saved through common
    standardised services.

23
The Partnership
24
Eventi Meeting Alghero
  • Presentazione del Progetto PrestoSpace (Daniel
    Teruggi - INA)
  • Presentazione delliniziativa Memory Day 2005,
    (R. Olla RAI)
  • Presentazione progetto RicordeRAI, RAI
    teche, (B. Scaramucci RAI)

25
Attivita Principali
26
Metadata Access and Delivery
  • Produzione degli strumenti software per la
    preservation factory.
  • Integrazione di metadati significativi e di
    strumenti avanzati per laccesso ai dati
    digitalizzati
  • Disseminazione
  • Informazione semantica (e.g. eventi/partecipanti),
  • Interfacce avanzate per laccesso (e.g. LN)
  • dati ristrutturabili a seconda degli obbiettivi
    della ricerca

27
A Perspective View
.
Data streams
Parsed sent.
English MS
English SemAn
XML Metadata
  Metadata Enrichment (Learning)
Italian MS
Italian SemAn
MS
SemAn
Semantic analysis Components
General Ontology
Web
28
Un es. Rassegna Stampa Automatica
  • Obbiettivi
  • Ricerca autonoma di notizie in tempo reale
  • Classificazione delle notizie
  • Estrazione di informazioni puntuali
    (dichiarazioni)
  • Integrazione di due tecnologie diverse
  • Ricerca Autonoma su Web (Web spider)
  • TAL per il trattamento automatico dei Testi
  • Cooperazione tra gruppi HLT e DIST del
    Dipartimento Informatica, Sistemi e Produzione

29
Ricerca Autonoma su Web (Web spider)
  • Gruppo DIST (Distributed Information System),
    prof. M. Angelaccio, B. Buttarazzi
  • Metodologie
  • Web Searching Visualization
  • Web-based Workflow Engines
  • Risultati
  • VSEARCH, Web local searching tool
  • WISH, Wireless VSEARCH con Caching Semantico

30
Rassegna Stampa Automatica (3)
  • Ruolo delle due tecnologie diverse
  • Ricerca Autonoma su Web (Web spider)
  • Ricerca siti interessanti (per es. giornali su
    Web)
  • Gestisce accesso e richiamo di pagine remote (ad
    es. cronaca, politica, sport)
  • Trattamento automatico dei Testi
  • Riconosce fenomeni di base nei testi
  • Classifica estratti dei testi giornalistici
  • Riconosce persone/agenti e loro dichiarazioni
  • Estrae tutte le informazioni scoperte
    aggiornando un archivio locale

31
Rassegna Stampa Automatica (3)
  • Demo (in coll. con F. Perrazzoni, F. Di Cola)
  • Funzionalità
  • Ricerca e Download di Pagine Web (Corriere della
    Sera)
  • Selezione delle pagine e dei personaggi di
    interesse
  • Estrazione linguistica delle informazioni
    (GATECHAOS)
  • Navigazione attraverso le citazioni/dichiarazioni
    estratte

32
Conclusioni
  • Il TAL e unarea tecnologica di grande interesse
    ed in enorme sviluppo
  • La contiguità tra aree di ricerca diverse ed
    interagenti e un elemento fondante dellintera
    disciplina
  • La armonizzazione disciplinare tra conoscenze
    umanistiche e competenze dellingegneria
    informatica trova in queste aree una sinergia di
    grande respiro e enormi potenzialità

33
Conclusioni (2)
  • Il progetto Prestospace rappresenta una grande
    sfida e fornisce una serie di opportunità
    nellarea della comunicazione multimediale
  • Problemi linguistici
  • Problemi interpretativi ed editoriali
  • Scenari applicativi avanzati (NL query)
  • Metodologie innovative per la comunicazione/condiv
    isione di dati multimediali
Write a Comment
User Comments (0)
About PowerShow.com