Interoprabilit des corpus sonores : le cas des corpus en franais - PowerPoint PPT Presentation

Loading...

PPT – Interoprabilit des corpus sonores : le cas des corpus en franais PowerPoint presentation | free to view - id: 2a3aed-ZDc1Z



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

Interoprabilit des corpus sonores : le cas des corpus en franais

Description:

Atanas Tchobanov (MoDyCo, University of Paris X CNRS) Richard Walter (MoDyCo, ... Ce travail sur les formats et les codages sera d'autant plus ais que: ... – PowerPoint PPT presentation

Number of Views:48
Avg rating:3.0/5.0
Slides: 30
Provided by: univor
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: Interoprabilit des corpus sonores : le cas des corpus en franais


1
Interopérabilité des corpus sonores le cas des
corpus en français
  • Olivier Baude (Corral, University of Orléans)
  • Michel Jacobson (Lacito, CNRS Villejuif)
  • Atanas Tchobanov (MoDyCo, University of Paris X
    CNRS)
  • Richard Walter (MoDyCo, University of Paris X
    CNRS)

2
Contexte général
  • L'existant de PFC
  • Site internet
  • Base de données documentaire
  • Mise à jour de la base par des formulaires en
    ligne
  • Stockage et interrogation des données sonores et
    des transcriptions
  • Traîtement automatique des ressources sonores
    (wav -gt mp3) et des transcriptions (fichiers
    TextGrid -gt base de données)

3
Contexte général
  • Colloque à l'intersection de deux étapes dans la
    construction informatique du corpus 
  • la normalisation de la description documentaire
    touche à sa fin 
  • le formatage des données dans un plus grand
    ensemble (base de données) commence 
  • opération de finalisation 
  • émergence de nouveaux besoins (exemple  lajout
    de codages prosodiques à une grille de codage
    phonémique).
  • Avertissement Le terme de codage utilisé ici ne
    renvoie pas aux codages de lanalyse linguistique
    mais aux codages informatiques de forme et de
    structure

4
Contexte général
  • Une règle  Un corpus n'existe que s'il peut être
    consulté et donc exploité.
  • Différentes structures numérisent et diffusent
    des corpus sonores.
  • Il est important d'établir un dialogue et de
    prévoir des modalités d'échanges ou de transferts
    d'expériences entre ces différentes initiatives.
  • Lutilisateur pourra ainsi travailler sur des
    corpus étendus et tenir un regard diachronique et
    synchronique.

5
Contexte général
  • Linteropérabilité 
  • Il est important de pouvoir établir des analyses
    comparatives entre ces différents corpus sonores,
    tant du point de vue du contenu que des
    techniques et méthodologies mises en uvres.
  • Le traitement spécifique de chaque corpus en sera
    ainsi amélioré 
  • Il faut normaliser des formats permettant la
    conservation et l'exploitation des données 
  • Préconisation de lutilisation du langage XML
    dans le traitement de corpus sonores.
  • PFC interopérable
  • Pour faire le cahier des charges dun PFC
    interopérable, nous allons parcourir la chaîne de
    production PFC et son traitement des données.

6
1. Les enquêteurs renseignent les metadonnées de
lenquête sur le site PFC 2. Les enquêteurs
transmettent les données linguistiques (fichiers
son et transcriptions) à lERSS pour
validation. 3.Les données validées sont
transmises sur CD par lERSS à MODYCO
7
Chaîne de production PFC
8
Chaîne de production PFC
  • Les données sont transformés automatiquement pour
    une consultation en ligne
  • Fichiers WAV -gt Fichiers MP3
  • Fichiers TextGrid (ASCII) -gt Base de données
    (Unicode)
  • Les données transformées sont interrogeables par
    un moteur de recherche SQL combinant critères
    linguistiques et socio-linguistiques. Les
    ressources son pour les résultats de la recherche
    sont disponibles en ligne sous forme dextraits
    correspondant aux transcriptions.
  • Les données dorigine sont conservées et peuvent
    être téléchargées pour une exploitation offline

9
Contexte général
  • PFC et dautres corpus sonores
  • Nous avons commencé à constituer un groupe de
    réflexions et déchanges, avec des personnes qui
    sont en charge de trois corpus qui en sont à des
    états de réalisation différents 
  • Archivages (Lacito, Villejuif) 
  • PFC (Nanterre-Oslo-Toulouse) 
  • ESLO (Enquête socio-linguistique sur Orléans,
    Corral, Orléans).
  • Cela permet dapporter des regards extérieurs, de
    nouvelles compétences et expériences à chacun de
    ces projets.

10
Contexte général
  • De nombreuses interrogations surgissent 
  • Quels formats et standards choisir?
  • Qu'est-ce qu'une donnée dans ces corpus ?
  • Quel rôle de l'humain et donc de la variablité ?
  • Quels processus de validations ?
  • Quel partage entre validation du contenu et
    validation de la forme informatique ?

11
Le corpus PFC
  • Le corpus PFC comporte
  • Des enregistrements de parole
  • Des annotations linguistiques (transcriptions,
    schwas, liaisons, futures autres...)
  • Des métadonnées (informations documentaires)

12
La base PFC actuellement
  • Enregistrements
  • Format Wav, Codage PCM, Paramètres 16 bits,
    44.1 KHz.
  • Annotations
  • Format TextGrid. Il sagit dun format basé sur
    le format  texte seul .
  • Codage La description de ce codage propriétaire
    est donné par les auteurs du logiciel Praat.
    Cest un codage simple (tires et segments),
    facile à transformer.
  • Métadonnées
  • Format Base de données relationnelle
  • Codage spécifique à PFC Description des
    situations denquête (dates, lieux, participants,
    etc.), des participants (âge, sexe, professions,
    etc.).

13
L'Archive du LACITO
  • LArchive LACITO comporte
  • Des enregistrements de parole
  • Des annotations linguistiques (transcriptions,
    traductions)
  • Des métadonnées
  • Les formalismes adoptés
  • Enregistrements (wav/PCM, 16 bits, 44.1 KHz)
  • Annotations (XML/Unicode, avec une DTD)
  • Métadonnées (XML/Unicode, avec un schéma OLAC)

14
Linteropérabilité
  • Quelques exemples de questions dinteropérabilité

Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
Question 2   Les outils utilisés pour un corpus
sont-ils utilisables pour les autres corpus?  
Question 3   Les requêtes formulées sur un
corpus sont-elles utilisable avec les autres
corpus?  
Question 4   Est-il possible de faire porter
les requêtes sur les trois corpus à la fois?  
15
Pouvoir d'expression
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
  • Le codage des caractères
  • Le format textGrid utilise différents codes
    caractères à 256 possibilités (MacRoman, Code
    Page Windows Occidental, autres). Praat prévoit
    des séquences déchappement pour le codage de
    caractères tels que les caractères phonétiques,
    les caractères Grecs, etc. moyennant
    lutilisation de polices propriétaires.
  • Attention le code caractère utilisé étant
    implicite, il vaut mieux sen tenir aux 128
    caractères ASCII et utiliser les séquences
    déchappement pour tous les autres.
  • Le format XML utilise le code ISO-10646 ou
    Unicode, cest-à-dire un ensemble possibles de
    220 caractères non-ambiguës. Il sagit dune
    norme ISO, donc non-propriétaire et pérenne. XML
    prévoit une manière dexpliciter lencodage
    utilisé.

16
Pouvoir d'expression
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
  • Problèmes de codage des caractères
  • Ambiguïté du codage textGrid
  • Le caractère é (LATIN SMALL LETTER E WITH ACUTE)
    est codé dans PFC de 3 manières différentes
  • é (codage CP-1252)
  • (codage MacRoman)
  • \e (codage Praat)
  • Caractères impossible à coder en textGrid
  • Les caractères devenagari, chinois, etc.
  • Quelques caractères phonétiques (les tons)

17
Pouvoir d'expression
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
  • Problèmes de codage de la structure (1)
  • Le codage du locuteur en textGrid est implicite.
    Ce nest pas un codage de Praat, il sagit dune
    convention propre à PFC
  • CB Mon arrière grand-mère, c'était...
  • Codage explicite du locuteur avec la DTD LACITO
    (TEI)
  • ltS who"CB"gtMon arrière grand-mère, c'étaitlt/Sgt

18
Pouvoir d'expression
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
  • Problèmes de codage de la structure (2)
  • Codage de schwas et des liaisons avec PFC dans
    des tires indépendantes
  • ortho c'est des jumeaux de bientôt deux ans
  • schwa c'est des jumeaux de1112 bientôt deux
    ans
  • liaison c'est des jumeaux de bientôt deux11z
    ans
  • Avec la DTD LACITO, ce nest pas possible parce
    que non prévu. En première approximation on
    pourrait dériver une DTD qui permettrait
    lexpression des deux phénomènes phonologiques
    (schwa, liaison).
  • c'est des jumeaux deltschwa type"1112"/gt bientôt
    deuxltliaison type"11z"/gt ans

19
Interopérabilité (1)
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus? 
  • Réponse Non! Le format textGrid est trop
    implicite et son pouvoir dexpression trop limité

20
Interopérabilité (1)
Question 1  Tout ce qui est exprimé dans un
corpus est-il exprimable avec les formalismes
choisis pour les autres corpus?  Réponse Non!
Le format textGrid est trop implicite et son
pouvoir dexpression trop limité
  • Codage explicite et standardisé en XML
  • Il est possible de parser/valider un document
    pour savoir sil est bien formé et conforme à une
    syntaxe formelle (dtd ou schémas)
  • Il est plus facile dinterroger les données avec
    des langages de requêtes puisque structure et
    contenu sont séparés
  • La complexification de la structure nentraîne
    pas de perte du pouvoir dexpression pour les
    contenus
  • L'aspect standardisation permet la conservation
    et l'utilisation de nombreux outils
  • L'interopérabilité est facilitée

21
Les outils de consultation
Question 2   Les outils utilisés pour un corpus
sont-ils utilisables pour les autres corpus?  
  • Les outils de consultation
  • PFC
  • les fichiers wav sont placés sur un serveur de
    fichiers
  • les fichiers textGrid sont chargés dans une BDD-R
  • interface web utilisant des requêtes en SQL
  • LACITO
  • fichiers wav et xml sont placés sur un serveur de
    fichiers chargement des xml dans une BDD-XML
  • interface web utilisant des requêtes en XSLT
    Xquery
  • Démo sur des fichiers PFC

22
Interopérabilité (2)
Question 2   Les outils utilisés pour un corpus
sont-ils utilisables pour les autres corpus?  
  • Réponse Plus ou moins facilement Dans le monde
    XML les choses sont en général plus faciles car
    les incompatibilités sont dordre structurelle et
    il existe un langage de transformations pour
    passer d'une structure à une autre.
  • Dans le monde non-normalisé, il faut tout écrire
    soi-même, tout maintenir sois-même et
    imposer/distribuer ses outils.

23
Les requêtes
Question 2   Les outils utilisés pour un corpus
sont-ils utilisables pour les autres corpus?  
  • On peut distinguer deux types de requêtes
  • celles qui portent sur les métadonnées
    (identification des ressources pertinentes,
    constitution dun corpus)
  • celles qui portent sur les contenus (recherches
    doccurrences, concordances, tris, comptages,
    sélections, etc.)

24
Les catalogues de ressources
Question 3   Les requêtes formulées sur un
corpus sont-elles utilisable avec les autres
corpus?  
  • Pour trouver des ressources il faut savoir où
    chercher et comment chercher.
  • Il existe des communautés
  • Dublin-Core (DC) permet de décrire de manière
    normalisée des ressource de tous types
  • Open Archives (OAI) Définit un protocole pour le
    moissonnage des réservoirs darchives. Garanti un
    identifiant unique et permanent. Oblige à minima
    un codage DC et autorise tout autre codage
    documenté. Permet à des tiers d offrir des
    services (moteurs de recherche, outils de
    consultation, etc.) sur les métadonnées
    récoltées.
  • Open Language Archives Community (OLAC) définit
    un codage basé sur DC mais adapté aux archives de
    documents linguistiques. Utilise OAI pour agréger
    toutes les archives et offre un moteur de
    recherche

25
Interopérabilité (3)
Question 3   Les requêtes formulées sur un
corpus sont-elles utilisable avec les autres
corpus?  
  • Réponse A ce jour,  NON 
  • Pas la même notion de  ressource 
  • Pas les mêmes langages dinterrogation (dépend
    des formats et des codages)
  • Cf. CatCod

26
Interopérabilité (4)
Question 4   Est-il possible de faire porter
les requêtes sur les trois corpus à la fois?  
  • Réponse Pour l'instant -Non. A priori, il faut
    avant que
  • les formats soient les mêmes
  • les codages soient les mêmes
  • Ce travail sur les formats et les codages sera
    dautant plus aisé que
  • ces formats et codages sont standardisés
  • ces formats et codages sont ouverts et publics
  • ces formats et codages sont normalisés
  • Cf. Les objectifs de CatCod

27
Conclusion (1)
  • Eloge du travail sur corpus
  • partage/valorisation des connaissances
  • traçabilité des connaissances
  • cumul des connaissances
  • Eloge de la standardisation/normalisation
  • partage
  • interopérabilité
  • conservation à long terme
  • simplification des développements (création,
    maintenance, optimisation)
  • Eloge de la modularité
  • séparation de la structure logique et de la
    structure physique ou typographique (XML)
  • séparation des données et des métadonnées (OAI)
  • séparation des données et des traitements
  • séparation des données conservées et des données
    diffusées

28
Conclusion (2)
  • PFC pourra-t-il survivre à l'ère de
    l'interopérabilité ?
  • Il faut insérer PFC dans la communauté des corpus
    oraux.
  • On dépasse l'outil de production pour l'outil
    d'exploitation.
  • Objectifs 
  • Déterminer les points de convergences puis mettre
    en place un programme déchanges de techniques et
    de formats 
  • Permettre à la communauté scientifique en
    phonologie de travailler sur des corpus étendus.

29
URLs
  • La base PFC
  • http//www.projet-pfc.net
  • L'archive LACITO
  • http//lacito.vjf.cnrs.fr/archivage
  • CatCod
  • http//icar.ens-lsh.fr/wiki/index.php/Catalogage_e
    t_codage_de_corpus_oraux
  • Guide des bonnes pratiques pour la constitution,
    l'exploitation, la conservation et la diffusion
    des corpus oraux
  • http//www.culture.gouv.fr/culture/dglf/corpus_ora
    ux.htm
About PowerShow.com