TAL et dition lectronique - PowerPoint PPT Presentation

1 / 19
About This Presentation
Title:

TAL et dition lectronique

Description:

Support lectronique, au moins une d clinaison parmi CDRom, Web, livre ... Distribution lectronique : Internet = r seau de distribution de fichiers num riques, ... – PowerPoint PPT presentation

Number of Views:30
Avg rating:3.0/5.0
Slides: 20
Provided by: laurence54
Category:

less

Transcript and Presenter's Notes

Title: TAL et dition lectronique


1
TAL et édition électronique
  • Laurence Zaysser

2
Plan
  • Édition électronique
  • Traitement Automatique de Langues
  • Terrains de rencontres
  • Cas dutilisation
  • Conclusion

3
Édition électronique
  • Définition
  • Contenu éditorial avec valeur marchande, légale,
    utilitaire ou intellectuelle
  • Support électronique, au moins une déclinaison
    parmi CDRom, Web, livre électronique (qui
    sajoute, se substitue ou na pas déquivalent
    papier)
  • Diffusion électronique promotion du catalogue
    sur Internet
  • Distribution électronique Internet réseau de
    distribution de fichiers numériques,lecture en
    ligne // lecture hors-ligne après téléchargement

4
Édition électronique
  • Publications
  • Justifiant dun processus dédition
  • Sélection, validation, fabrication, promotion,
    distribution
  • Exigence et garantie de qualité
  • Édition commerciale
  • Livre non seult roman, mais surtout ouvrages de
    référence (encyclopédie, dictionnaire, annuaire,
    manuels, guides, etc)
  • Presse
  • Édition légale
  • Textes réglementaires (obligation légale de
    publication)
  • Édition professionnelle
  • Publique
  • Brevets, normes et standards (obligation de
    nature)
  • Conservation du patrimoine (obligation de
    fonction)
  • Privée
  • Communication dentreprise (obligation
    concurrentielle)
  • Documentation produit (obligation dusage)

5
Traitement Automatique des Langues
  • Définition
  • Outils et techniques pour le traitement
  • De lécrit et de la parole
  • Dans des contextes monolingues / multilingues
  • Dans le domaine général / domaines de spécialité
  • mettant conjointement en oeuvre
  • La linguistique morphologie, syntaxe,
    sémantique, phonétique, pragmatique, analyse du
    discours
  • Les formalismes représentation des
    connaissances dans des formats interprétables par
    machine
  • Linformatique implémentation dun traitement
    particulier
  • NB TIL Traitement Informatique des Langues
  • Automatique / Assisté versus manuel

6
Traitement Automatique des Langues
  • Productions
  • Logicielles
  • Applications autonomes (standalone) (notées a)
  • Composants logiciels (embedded versus add-on)
    (notés c)
  • Linguistiques
  • Lexiques dictionnaires, thésaurus,
    nomenclatures, taxinomies
  • Corpus pour apprentissage statistique et
    évaluation
  • Grammaires

7
Traitement Automatique des Langues
  • Applications industrielles du TAL (écrit)
  • Production de documents
  • Reconnaissance de caractères (OCR) c
  • Traduction Assistée par Ordinateur (TAO) a /
    c
  • Aide à la rédaction c
  • Correction orthographique a / c
  • Génération et résumé de texte a / c
  • Gestion de documents
  • Classification et recherche de documents c
  • Référencement Web c
  • SGBD bibliothéconomie c
  • Gestion dinformation
  • Recherche dinformation (veille, Text Mining,
    Question-Answering) c
  • Diffusion dinformationGED Knowledge
    Management, CRM c

8
Traitement Automatique des Langues
  • Applications industrielles du TAL (parole)
  • Synthèse vocale (TTS) a / c
  • Commande vocale (VC) c
  • Dictée vocale (VD) a
  • Identification du locuteur (VI) c

9
Terrains de rencontres
  • Le TAL a fait ses preuves dans lindustrie, mûr
    pour la transposition à lédition, réputée plus
    exigeante
  • TAL et édition électronique professionnels du
    texte
  • Chacun peut faire sans lautre, mais... le TAL
    permet de gagner en
  • Productivité
  • Réactivité
  • Qualité
  • Visibilité

10
Terrains de rencontres
  • Rédaction
  • Aide à la rédaction, langage contrôlé
  • Génération de texte (à partir de BD factuelle)
  • Index alphabétique (terminologie auteur
    terminologie de référence)
  • Traduction de documents (localisation
    multilingue)
  • Résumé de documents (hors roman)
  • Pré-presse
  • Scanning et reconnaissance de caractères (OCR)
  • Mise en page césure
  • Correction typographique, orthographique
    (lexicale, grammaticale) et stylistique

11
Terrains de rencontres
  • Fabrication
  • Modèle de données (formalisé sous forme de DTD ou
    schéma XML)
  • Formatage typage de texte, enrichissement de
    format initial
  • Diffusion valorisation du catalogue
  • Description des titres résumé
  • Classification de documents
  • Émergence de plan de classement à partir dun
    état du fonds
  • Création ou MAJ
  • Catégorisation de documents
  • Suivant un ou plusieurs plans de classement
  • Statut du plan de classement normatif ou non
  • Exploitation de la classification
  • Organisation du site
  • Sélection dun sous-ensemble du fonds
  • Profiling pour suggestion de titres

12
Terrains de rencontres
  • Distribution
  • Alimentation de base de données textuelle
  • Champs auteur, éditeur, titre, thèmes
  • Conventions de tri et de présentation des champs
    alphabétiques
  • Mots clefs
  • Thèmes dominants du document
  • Rubriques documentaires représentées dans le
    document
  • Accès au catalogue
  • Indexation de documents
  • Préparation des données pour la recherche
    thématique plein texte
  • Mots clefs expression libre
  • Recherche documentaire
  • Recherche sur champ de BD et/ou recherche plein
    texte
  • Recherche exacte ou approchante

13
Terrains de rencontres
  • Lecture
  • Recherche doccurrences gestion de variation
  • Morphologique lemmatisation
  • Syntaxique multi-termes interrompus ou
    coordonnés
  • Lexicale abréviations, synonymes
  • Consultation de dictionnaire de définition
    gestion de variation
  • depuis les formes du texte
  • Variation morphologique, syntaxique, lexicale
  • Lecture à haute voix Déficients visuels,
    enfants, étrangers
  • Synthèse vocale à la volée (cf. eBook Readers)

14
Cas dutilisation
  • Numérisation de tapuscrit scanning OCR
  • Ex Carthaqlnois -gt Carthaginois
  • Correction typographique et orthographique
  • Ex quelques 30,000 personnes -gt quelque 30
    000 personnes
  • Formatage
  • Modélisation XML
  • Ex OEB, Dublin Core
  • Enrichissement de format TXT -gt XML-OEB
  • Ex LE FESTIN -gt lth1gtLE FESTIN lt/h1gt

15
Cas dutilisation
  • Traduction
  • Ex la moitié des gens -gt half of the people
  • Inscription au catalogue
  • Résumé (de la préface)
  • Création du plan de classement
  • Sur la base du fonds libraire, équilibrage des
    rubriques
  • Classification
  • Ex roman / roman historique roman 19ème
    siècle
  • Indexation plein texte

16
Cas dutilisation
  • Consultation du catalogue
  • Recherche approchante sur lauteur
  • Ex Flaubère -gt Gustave Flaubert
  • Recherche approchante sur le titre
  • Ex salambo -gt Salammbô
  • Recherche par thème recherche plein texte
  • Ex jardins d'Hamilcar (lieu)
  • Ex Spendius (personnage)

17
Cas dutilisation
  • Suggestion de lectures
  • Autre stratégie que ils ont acheté aussi
  • Roman historique -gt essai dhistoire
  • Ex Yann le Bohec, Histoire militaire des
    guerres puniques
  • Lecture du titre
  • Recherche doccurrences
  • Ex betes feroces -gt bête féroce / bêtes féroces
    / bêtes toujours féroces / ...
  • Consultation de dictionnaire de définition
  • Ex ergastules -gt ergastule -gt prison
    souterraine, cachot

18
Conclusion
  • Collaboration TAL et édition, panorama
  • Ancienne dans le pré-presse
  • Correction, césure
  • Limitée dans laccès au catalogue
  • Marginale
  • Moteur de recherche de la BD ELECTRE, SGBD
    bibliothéconomie
  • Sous-exploitée
  • Pas de recherche plein texte, sauf presse
  • Inexploitée dans la diffusion
  • Tabou dans la rédaction
  • Traduction, génération
  • Collaboration TAL et édition na pas encore
    donné sa pleine mesure, potentiel à exploiter

19
Conclusion
  • Association des Professionnels des Industries de
    la Langue (APIL)
  • Site Web www.apil.asso.fr
  • Contacts
  • bureau_at_apil.asso.fr
  • laurence.zaysser_at_wanadoo.fr
Write a Comment
User Comments (0)
About PowerShow.com