XML, DTD et TEI pour un dictionnaire tymologique des croles - PowerPoint PPT Presentation

1 / 38
About This Presentation
Title:

XML, DTD et TEI pour un dictionnaire tymologique des croles

Description:

Donn es h t rog nes (en-t tes, caract res sp ciaux, illustrations, sens de ... Un probl me : moyens pour le codage informatique souvent incompatibles entre eux ... – PowerPoint PPT presentation

Number of Views:94
Avg rating:3.0/5.0
Slides: 39
Provided by: helenema
Category:

less

Transcript and Presenter's Notes

Title: XML, DTD et TEI pour un dictionnaire tymologique des croles


1
XML, DTD et TEI pour un dictionnaire étymologique
des créoles
  • 12 Octobre 2007
  • Hélène Manuélian et Emmanuel Schang
  • Universités de Cergy Pontoise et Orléans

2
Ressources textuelles
  • Données hétérogènes (en-têtes, caractères
    spéciaux, illustrations, sens de lécriture,
    etc.)
  • Informatisation?lecture possible sur un écran
  • La solution coder les données
  • Un problème moyens pour le codage informatique
    souvent incompatibles entre eux et dédiés à une
    catégorie de texte
  • Une solution NORMALISER !

3
Quels éléments coder ?
  • Niveau physique codage des caractères.
  • Niveau logique
  • sémantique du codage
  • organisation de l'information
  • description explicite de cette information.
  • Niveau de présentation indépendant du support
    de sortie (CD-Rom, Page Web, etc) .

4
Normalisation
  • Ressources portables
  • Echanges possibles quels que soient les moyens
    informatiques de lutilisateur
  • Archivage garanti, malgré lévolution des
    technologies
  • Visibilité nationale et internationale
  • La référence une instance internationale
  • Comité de lISO (International Standard Office)
  • Normes éditées par le TC 37 / SC 4 (Sous comité
    pour la standardisation des ressources textuelles)

5
Au commencement
  • SGML (Standard Generalized Markup Language)
  • Les données au format SGML ont un format darbre
    hiérarchique (comme en syntaxe !)
  • Représente les données textuelles avec des
    éléments de contenus encapsulés les uns avec les
    autres balises

6
Exemple
  • ltentrygt
  • ltformgt
  • ltorthgtportelt/orthgt
  • ltprongtpoRt lt/prongt
  • lt/formgt
  • ltgramGrpgt
  • ltposgtnlt/posgt
  • lt/gramGrpgt
  • ltsense n"1"gt
  • ltdefgtOuverture pratiquée dans un des plans
    verticaux qui limitent un espace clos() lt/defgt
  • lt/sensegt
  • ltsense n"2"gt
  • ltdefgt Panneau mobile permettant d'obturer cette
    ouverturelt/defgt
  • lt/sensegt
  • lt/entrygt
  • Entry
  • Form GramGrp Sense1 Sense2
  • Orth pron pos def def

7
XML est
  • Un protocole de stockage et de gestion de
    linformation
  • Une famille de technologies qui permettent
    deffectuer le formatage de documents et
    lextraction de données
  • Une philosophie de gestion de linformation qui
    recherche un maximum dutilité et de souplesse en
    organisant les données sous la forme la plus pure
    et la plus structurée

8
XML nest pas
  • A proprement parler un langage de balisage
  • En fait, cest un ensemble de règles qui
    permettent le balisage

9
Les balises servent à
  • Délimiter un fragment de texte
  • ltparagraphgt blablabla lt/paragraphgt
  • Indiquer le rôle dun fragment de texte
  • ltsalutationgt bonjour ! lt/salutationgt
  • Indiquer la position dun élément dans un texte
  • lttitlegt TITRE lt/titlegt ltparagraphgt BLABLA
    lt/paragraphgt
  • Imbriquer des éléments les uns dans les autres
  • ltchaptergt ltparagraphgt blabla-truc lt/paragraphgt
    ltparagraphgt blabla-bidule lt/paragraphgt
    ltparagraphgt blabla-machin lt/paragraphgt lt/chaptergt
  • Faire des liens entre les fichiers
  • ltgraphique fileref "sourire.pict"/gt

10
Composition dune balise
  • ltlink type"coref subtype"infidèle"
    lex-rel"hyper" /gt

Attributs
"Valeurs"
Autres valeurs possibles pour lattribut type
"anaphor" "bridging" Autres valeurs possibles
pour lattribut subtype si type "coref"
"direct" Autres valeurs possibles pour
lattribut lex-rel hypo" syn"
11
Modèle de document
  • XML fournit ce quon appelle un modèle de
    document
  • Ce sont des règles propres à un type de document
  • Qui permettent de comparer le document produit à
    un document du même type et de dire sil est
    conforme aux règles. On parle de validation.
  • Il en existe deux sortes DTD (Document Type
    Definition) et Schéma XML. Je ne présente que les
    DTD ici.

12
DTD
  • Ensemble de règles qui indiquent quelles balises
    le document peut utiliser en fonction de sa
    nature.
  • Elle fournit une description formelle de
    lorganisation de linformation au sein du
    document.
  • Elle fournit la liste des attributs possibles
    pour une balise et les valeurs possibles de ces
    attributs
  • On fait référence à la DTD utilisée au début du
    document pour que XML puisse valider le document

13
La TEI
  • Text Encoding Initiative
  • Résultat dun consensus entre diverses
    associations internationales spécialisées dans
    lalliance entre linguistique et informatique
  • Propose des directives dencodage des ressources
    textuelles (normes de codage et représentation
    uniforme des données)

14
La TEI
  • A la fois rigoureuse et flexible lutilisateur
    élabore son propre schéma de codage à partir dun
    ensemble déléments et dattributs
  • Structure de base commune tous les documents
    sont divisés en deux parties lentête et le
    texte.
  • ltteiHeadergt informations générales sur le texte
    lt/teiHeadergt
  • lttextgt texte constituant la ressource textuelle
    lt/textgt

15
Lentête TEI
  • Mise au point par des experts en documentation
  • Contient la description complète du document en
    quatre parties
  • ltfileDescgt description du fichier lt/fileDescgt
  • ltencodingDescgt description du codage
    lt/encodingDescgt
  • ltprofileDescgt profil textuel du document
    (classification du texte, thème, etc.)
    lt/profileDescgt
  • ltrevisionDescgt historique des changements
    lt/revisionDescgt

16
Texte TEI
  • Exemple pour un roman
  • lttextgt
  • ltfrontgt ltbodygt ltbackgt
  • ltdivgt ltdivgt ltdivgt ltdivgt

Exemple pour un ensemble darticles
lttextgt ltfrontgt ltgroupgt ltbackgt lttextgt lttextgt
lttextgt ltfrontgt ltbodygt ltbackgt ltdivgt ltdivgt ltdivgt
ltdivgt
17
Une norme en cours délaboration LMF
  • Lexical Markup Framework
  • Deux perspectives
  • La modélisation des dictionnaires
  • La construction de bases de données lexicales
    pour le TAL
  • Projet de spécification de structure de bases de
    données lexicales et lexicographiques qui unifie
    ces deux modèles

18
Structure de LMF
Info. globales
19
Perspectives pour le dictionnaire des créoles
  • Utiliser la norme  Print Dictionaries  de la
    TEI.
  • Utiliser, voire contribuer à lélaboration de la
    norme la structure dun dictionnaire des
    créoles pourrait montrer quune souplesse reste
    nécessaire
  • Propositions au TC37/SC4

20
Problème
  • Structure des dictionnaires étymologiques du
    créoles peut-être problématique, parce que
    différente de la structure des dictionnaires
    étymologiques classiques, et des dictionnaires
    bi/multilingues

21
Deux exemples
22
Exemples standards
  • ltentrygt
  • ltformgt
  • ltorthgtpublishlt/orthgt
  • ...
  • lt/formgt
  • ltetymgt
  • ltlanggtME.lt/langgt
  • ltmentionedgtpublisshenlt/mentionedgt
  • ltlanggtF.lt/langgt
  • ltmentionedgtpublierlt/mentionedgt
  • ltlanggtL.lt/langgt
  • ltmentionedgtpublicare, publicatumlt/mentionedgt.
  • ltxrgtSee
  • ltrefgtpubliclt/refgt cf. 2d
  • ltrefgt-ishlt/refgt.
  • lt/xrgt
  • lt/etymgt
  • lt/entrygt
  • (From Webster's Second International)
  • ltentrygt
  • ltformgt
  • ltorthgtdresserlt/orthgt
  • lt/formgt
  • ltsense n"a"gt
  • ltusg type"dom"gtTheatlt/usggt
  • ltcit type"translation" xmllang"fr"gt
  • ltquotegthabilleurlt/quotegt
  • ltgengtmlt/gengt
  • lt/citgt
  • lt/sense gt
  • ltsense n  "b" gt
  • ltusg type"dom"gtCommlt/usggt
  • ltform type"compound"gt
  • ltorthgt window ltoRef/gt
  • lt/orthgt
  • lt/formgt
  • ltcit type"translation" xmllang"fr"gt
  • ltquotegtétalagistelt/quotegt

23
Exemple (C. Fontes)
  • Dictionnaire étymologique du forro
  • Particularité à la fois dictionnaire trilingue
    et dictionnaire étymologique
  • Structure complexe forro / Traduction(s)
    portugaise(s) / traduction(s) anglaise(s) /
    Etymologie propriété 1 propriété 2

24
Exemple de problème à résoudre
25
  • ltentrygt
  • ltformgt
  • ltorthgt blagadu lt/orthgt
  • ltprongt bla'gadu lt/prongt
  • lt/formgt
  • ltgramGrpgt
  • ltposgtadjlt/posgt
  • lt/gramGrpgt
  • lttrans n1gt
  • P. desfeito terminado arregalado
  • lt/transgt
  • lttrans n2gt
  • E. undone ended wide opened.
  • lt/transgt
  • ltetymgt
  • ltlanggt P. lt/langgt
  • ltmentionedgt desbragado lt/mentionedgt
  • ltglossgtunchained lt/glossgt
  • aférese lambdacismo

26
une application
  • prenons lexemple du forro
  • il existe
  • un dictionnaire étymologique Rougé (2004)
  • un mémoire de master (Fontes 2007)
  • un dictionnaire fantôme (Aires Major xxxx)
  • des bouts de travaux ici et là (Ferraz 1979,
    Hagemeijer 2007, Schang 2000, ).

27
deux approches différentes
  • codage TEI des textes existants (dans leur
    version électronique)
  • réalisation dune base de données sous un format
    nouveau en incorporant des infos prises dans les
    dictionnaires existants. Il sagit alors dun
    nouveau travail.

28
avantages et inconvénients
  • Solution 1
  • faible coût ()
  • rien de neuf (-)
  • Solution 2
  • coût important selon lampleur du projet
  • véritable base multimédia (son/corpus, images,
    etc.)

29
un exemple simple
  • aba, bord dun habit
  • En guinéen aba   revers ,  bas d'un
    vêtement   à Santiago aba  rebord d'un
    chapeau ou d'une jupe.  Pour le capverdien, Lang
    donne aussi ce nom comme synonyme de bandera
     dessus de la porte .
  • En forro aba   volant dune robe ,  rebord
    dun chapeau   baba de même sens en est
    vraisemblablement une variante. aba est aussi
    attesté en angolar avec le même sens, mais il
    nous semble, considérant les vêtements
    traditionnels des angolares, quil sagit là dun
    emprunt récent au forro.
  • (Rougé 2004)

30
structure dune entrée
  • entry
  • form gloss etym
  • Dans ce qui est étiqueté etym, on va trouver
    des informations de nature étymologique sur
    diverses langues. On peut concevoir des
    sous-entrées pour chaque langue.
  • Pour chaque langue évoquée, on trouve
  • une ou deux formes
  • une ou deux gloses
  • des informations variées (emprunt récent,
    synonymes, etc.)

31
un exemple délicat
  • Rougé (200449)
  • aguardar, attendre
  • Limpératif pluriel du verbe aguardar, aguardai,
    a donné linterjection forro agwêdê !
     Attention !  qui est utilisée en particulier
    dans Agwêdê ! Alê !  Attention! Le roi ! ,
    formule rituelle qui ouvre les devinettes
    traditionnelles. Lharmonisation vocalique
    régressive empêche que agwêdê puisse être
    interprété comme un dérivé de gwada, qui pourtant
    est de même racine.

32
proposition de codage TEI
  • ltentrygt
  • ltformgtaguardarlt/formgt,
  • ltgloss xmllang"fr"gtattendrelt/glossgt
  • ltetymgtLimpératif pluriel du verbe aguardar,
    aguardai, a donné linterjection
    ltlanggtforrolt/langgt
  • ltform xmllang"cri"gtagwêdê!lt/formgt
  • ltglossgtAttention!lt/glossgt qui est utilisé en
    particulier dans ltmentionedgtAgwêdê!
    Al!lt/mentionedgt ltgloss xmllang"fr"gtAttention!
    Le roi!lt/glossgt,
  • ltdefgtformule rituelle qui ouvre les devinettes
    traditionnelles.lt/defgt
  • Lharmonisation vocalique régressive empêche
    que ltmentionedgtagwêdêlt/mentionedgt puisse être
    interprêté comme un dérivé de ltmentionedgtgwadalt/me
    ntionedgt, qui pourtant est de même racine.lt/etymgt
  • lt/entrygt

33
CreolData et LMF
  • un projet de base de données lexicales (Schang
    alii 2005)
  • idée simple réutiliser lexistant pour
    lincorporer dans une base de données
    fonctionnant avec xml
  • à lorigine, utilisation de LMF et Afnor (Lexique
    pour le TAL)

34
CreolData et LMF
  • Entrée Lexicale
  • identifiant 535
  • forme lemmatisée flêsê
  • sens s535 s536 
  • Forme 1
  • chaîne flêsê 
  • Forme 2
  • chaîne ôflêsê 
  • Sens
  • identifiant "s535"
  • comportement syntaxique syn535 
  • Définition
  • texte donner quelque chose en cadeau à
    quelqu'un 
  • Sens
  • identifiant "s536"
  • comportement syntaxique "syn536"
  • Définition
  • texte " présenter un enfant à l'Eglise"

35
CreolData et LMF
  • ce qui donne sous forme xml
  • ltlexicalEntry id"535" pos"verb"
    lemmatizedForm"flêsê" autonomy"yes"
    components"" senses"s535 s536"gt
  • ltform id"f535a" string"flêsê"/gt
  • ltform id"f535b" string"ôflêsê"/gt
  • lt/lexicalEntrygt
  • pour le sens
  • ltsense id"s535" syntacticBehaviors"syn535"
    definitionBlocks"def535"gt
  • ltdefinition id"def535" text"donner
    quelque chose en cadeau à quelquun" lang"fr"/gt
  • lt/sensegt
  • ltsense id"s536" syntacticBehaviors"syn536"
    definitionBlocks"def535"gt
  • ltdefinition id"def536" text"présenter un
    enfant à lEglise" lang"fr"/gt
  • lt/sensegt

36
CreolData et LMF
  • un système adapté à la description syntaxique
  • ltsyntacticBehavior id"syn535" frameSet"fS535"/gt
  • ltframeSet id"fS535" frames"fS535_f1
    fS535_f2"/gt
  • ltframe id"fS535_f1" comment"verbe doc"
    slots"synSlot_1 synSlot_2 synSlot_3"/gt
  • ltframe id"fS535_f2" comment"verbe à cos"
    slots"synSlot_1 synSlot_3 synSlot_4"/gt
  • ltslot id"synSlot_1" function"subject"
    semanticActant"agent" syntacticActant"np"/gt
  • ltslot id"synSlot_2" function"object"
    semanticActant"benef" syntacticActant"np"/gt
  • ltslot id"synSlot_3" function"object"
    semanticActant"theme" syntacticActant"np"/gt
  • ltslot id"synSlot_4" function"object"
    semanticActant"benef" syntacticActant"da_np"/gt

37
CreolData et LMF
38
CreolData et LMF
  • avantages
  • liens avec des fichiers sons et des images
    facilités par la structure hiérarchisée.
  • description syntaxique et morphologique poussée
    permettant le développement danalyseurs
    morphologiques et de grammaires électroniques
  • inconvénients
  • pas de place initialement prévue pour
    létymologie. Travail à faire pour lévolution de
    la norme
Write a Comment
User Comments (0)
About PowerShow.com