Title: XML, DTD et TEI pour un dictionnaire tymologique des croles
1XML, DTD et TEI pour un dictionnaire étymologique
des créoles
- 12 Octobre 2007
- Hélène Manuélian et Emmanuel Schang
- Universités de Cergy Pontoise et Orléans
2Ressources textuelles
- Données hétérogènes (en-têtes, caractères
spéciaux, illustrations, sens de lécriture,
etc.) - Informatisation?lecture possible sur un écran
- La solution coder les données
- Un problème moyens pour le codage informatique
souvent incompatibles entre eux et dédiés à une
catégorie de texte - Une solution NORMALISER !
3Quels éléments coder ?
- Niveau physique codage des caractères.
- Niveau logique
- sémantique du codage
- organisation de l'information
- description explicite de cette information.
- Niveau de présentation indépendant du support
de sortie (CD-Rom, Page Web, etc) .
4Normalisation
- Ressources portables
- Echanges possibles quels que soient les moyens
informatiques de lutilisateur - Archivage garanti, malgré lévolution des
technologies - Visibilité nationale et internationale
- La référence une instance internationale
- Comité de lISO (International Standard Office)
- Normes éditées par le TC 37 / SC 4 (Sous comité
pour la standardisation des ressources textuelles)
5Au commencement
- SGML (Standard Generalized Markup Language)
- Les données au format SGML ont un format darbre
hiérarchique (comme en syntaxe !) - Représente les données textuelles avec des
éléments de contenus encapsulés les uns avec les
autres balises
6Exemple
- ltentrygt
- ltformgt
- ltorthgtportelt/orthgt
- ltprongtpoRt lt/prongt
- lt/formgt
- ltgramGrpgt
- ltposgtnlt/posgt
- lt/gramGrpgt
- ltsense n"1"gt
- ltdefgtOuverture pratiquée dans un des plans
verticaux qui limitent un espace clos() lt/defgt - lt/sensegt
- ltsense n"2"gt
- ltdefgt Panneau mobile permettant d'obturer cette
ouverturelt/defgt - lt/sensegt
- lt/entrygt
- Entry
- Form GramGrp Sense1 Sense2
- Orth pron pos def def
7XML est
- Un protocole de stockage et de gestion de
linformation - Une famille de technologies qui permettent
deffectuer le formatage de documents et
lextraction de données - Une philosophie de gestion de linformation qui
recherche un maximum dutilité et de souplesse en
organisant les données sous la forme la plus pure
et la plus structurée
8XML nest pas
- A proprement parler un langage de balisage
- En fait, cest un ensemble de règles qui
permettent le balisage
9Les balises servent à
- Délimiter un fragment de texte
- ltparagraphgt blablabla lt/paragraphgt
- Indiquer le rôle dun fragment de texte
- ltsalutationgt bonjour ! lt/salutationgt
- Indiquer la position dun élément dans un texte
- lttitlegt TITRE lt/titlegt ltparagraphgt BLABLA
lt/paragraphgt - Imbriquer des éléments les uns dans les autres
- ltchaptergt ltparagraphgt blabla-truc lt/paragraphgt
ltparagraphgt blabla-bidule lt/paragraphgt
ltparagraphgt blabla-machin lt/paragraphgt lt/chaptergt - Faire des liens entre les fichiers
- ltgraphique fileref "sourire.pict"/gt
10Composition dune balise
- ltlink type"coref subtype"infidèle"
lex-rel"hyper" /gt
Attributs
"Valeurs"
Autres valeurs possibles pour lattribut type
"anaphor" "bridging" Autres valeurs possibles
pour lattribut subtype si type "coref"
"direct" Autres valeurs possibles pour
lattribut lex-rel hypo" syn"
11Modèle de document
- XML fournit ce quon appelle un modèle de
document - Ce sont des règles propres à un type de document
- Qui permettent de comparer le document produit à
un document du même type et de dire sil est
conforme aux règles. On parle de validation. - Il en existe deux sortes DTD (Document Type
Definition) et Schéma XML. Je ne présente que les
DTD ici.
12DTD
- Ensemble de règles qui indiquent quelles balises
le document peut utiliser en fonction de sa
nature. - Elle fournit une description formelle de
lorganisation de linformation au sein du
document. - Elle fournit la liste des attributs possibles
pour une balise et les valeurs possibles de ces
attributs - On fait référence à la DTD utilisée au début du
document pour que XML puisse valider le document
13La TEI
- Text Encoding Initiative
- Résultat dun consensus entre diverses
associations internationales spécialisées dans
lalliance entre linguistique et informatique - Propose des directives dencodage des ressources
textuelles (normes de codage et représentation
uniforme des données)
14La TEI
- A la fois rigoureuse et flexible lutilisateur
élabore son propre schéma de codage à partir dun
ensemble déléments et dattributs - Structure de base commune tous les documents
sont divisés en deux parties lentête et le
texte. - ltteiHeadergt informations générales sur le texte
lt/teiHeadergt - lttextgt texte constituant la ressource textuelle
lt/textgt
15Lentête TEI
- Mise au point par des experts en documentation
- Contient la description complète du document en
quatre parties - ltfileDescgt description du fichier lt/fileDescgt
- ltencodingDescgt description du codage
lt/encodingDescgt - ltprofileDescgt profil textuel du document
(classification du texte, thème, etc.)
lt/profileDescgt - ltrevisionDescgt historique des changements
lt/revisionDescgt
16Texte TEI
- Exemple pour un roman
- lttextgt
- ltfrontgt ltbodygt ltbackgt
- ltdivgt ltdivgt ltdivgt ltdivgt
Exemple pour un ensemble darticles
lttextgt ltfrontgt ltgroupgt ltbackgt lttextgt lttextgt
lttextgt ltfrontgt ltbodygt ltbackgt ltdivgt ltdivgt ltdivgt
ltdivgt
17Une norme en cours délaboration LMF
- Lexical Markup Framework
- Deux perspectives
- La modélisation des dictionnaires
- La construction de bases de données lexicales
pour le TAL - Projet de spécification de structure de bases de
données lexicales et lexicographiques qui unifie
ces deux modèles
18Structure de LMF
Info. globales
19Perspectives pour le dictionnaire des créoles
- Utiliser la norme Print Dictionaries de la
TEI. - Utiliser, voire contribuer à lélaboration de la
norme la structure dun dictionnaire des
créoles pourrait montrer quune souplesse reste
nécessaire - Propositions au TC37/SC4
20Problème
- Structure des dictionnaires étymologiques du
créoles peut-être problématique, parce que
différente de la structure des dictionnaires
étymologiques classiques, et des dictionnaires
bi/multilingues
21Deux exemples
22Exemples standards
- ltentrygt
- ltformgt
- ltorthgtpublishlt/orthgt
- ...
- lt/formgt
- ltetymgt
- ltlanggtME.lt/langgt
- ltmentionedgtpublisshenlt/mentionedgt
- ltlanggtF.lt/langgt
- ltmentionedgtpublierlt/mentionedgt
- ltlanggtL.lt/langgt
- ltmentionedgtpublicare, publicatumlt/mentionedgt.
- ltxrgtSee
- ltrefgtpubliclt/refgt cf. 2d
- ltrefgt-ishlt/refgt.
- lt/xrgt
- lt/etymgt
- lt/entrygt
- (From Webster's Second International)
- ltentrygt
- ltformgt
- ltorthgtdresserlt/orthgt
- lt/formgt
- ltsense n"a"gt
- ltusg type"dom"gtTheatlt/usggt
- ltcit type"translation" xmllang"fr"gt
- ltquotegthabilleurlt/quotegt
- ltgengtmlt/gengt
- lt/citgt
- lt/sense gt
- ltsense n "b" gt
- ltusg type"dom"gtCommlt/usggt
- ltform type"compound"gt
- ltorthgt window ltoRef/gt
- lt/orthgt
- lt/formgt
- ltcit type"translation" xmllang"fr"gt
- ltquotegtétalagistelt/quotegt
23Exemple (C. Fontes)
- Dictionnaire étymologique du forro
- Particularité à la fois dictionnaire trilingue
et dictionnaire étymologique - Structure complexe forro / Traduction(s)
portugaise(s) / traduction(s) anglaise(s) /
Etymologie propriété 1 propriété 2
24Exemple de problème à résoudre
25- ltentrygt
- ltformgt
- ltorthgt blagadu lt/orthgt
- ltprongt bla'gadu lt/prongt
- lt/formgt
- ltgramGrpgt
- ltposgtadjlt/posgt
- lt/gramGrpgt
- lttrans n1gt
- P. desfeito terminado arregalado
- lt/transgt
- lttrans n2gt
- E. undone ended wide opened.
- lt/transgt
- ltetymgt
- ltlanggt P. lt/langgt
- ltmentionedgt desbragado lt/mentionedgt
- ltglossgtunchained lt/glossgt
- aférese lambdacismo
26une application
- prenons lexemple du forro
- il existe
- un dictionnaire étymologique Rougé (2004)
- un mémoire de master (Fontes 2007)
- un dictionnaire fantôme (Aires Major xxxx)
- des bouts de travaux ici et là (Ferraz 1979,
Hagemeijer 2007, Schang 2000, ).
27deux approches différentes
- codage TEI des textes existants (dans leur
version électronique) - réalisation dune base de données sous un format
nouveau en incorporant des infos prises dans les
dictionnaires existants. Il sagit alors dun
nouveau travail.
28avantages et inconvénients
- Solution 1
- faible coût ()
- rien de neuf (-)
- Solution 2
- coût important selon lampleur du projet
- véritable base multimédia (son/corpus, images,
etc.)
29un exemple simple
- aba, bord dun habit
- En guinéen aba revers , bas d'un
vêtement à Santiago aba rebord d'un
chapeau ou d'une jupe. Pour le capverdien, Lang
donne aussi ce nom comme synonyme de bandera
dessus de la porte . - En forro aba volant dune robe , rebord
dun chapeau baba de même sens en est
vraisemblablement une variante. aba est aussi
attesté en angolar avec le même sens, mais il
nous semble, considérant les vêtements
traditionnels des angolares, quil sagit là dun
emprunt récent au forro. - (Rougé 2004)
30structure dune entrée
- entry
- form gloss etym
- Dans ce qui est étiqueté etym, on va trouver
des informations de nature étymologique sur
diverses langues. On peut concevoir des
sous-entrées pour chaque langue. - Pour chaque langue évoquée, on trouve
- une ou deux formes
- une ou deux gloses
- des informations variées (emprunt récent,
synonymes, etc.)
31un exemple délicat
- Rougé (200449)
- aguardar, attendre
- Limpératif pluriel du verbe aguardar, aguardai,
a donné linterjection forro agwêdê !
Attention ! qui est utilisée en particulier
dans Agwêdê ! Alê ! Attention! Le roi ! ,
formule rituelle qui ouvre les devinettes
traditionnelles. Lharmonisation vocalique
régressive empêche que agwêdê puisse être
interprété comme un dérivé de gwada, qui pourtant
est de même racine.
32proposition de codage TEI
- ltentrygt
- ltformgtaguardarlt/formgt,
- ltgloss xmllang"fr"gtattendrelt/glossgt
- ltetymgtLimpératif pluriel du verbe aguardar,
aguardai, a donné linterjection
ltlanggtforrolt/langgt - ltform xmllang"cri"gtagwêdê!lt/formgt
- ltglossgtAttention!lt/glossgt qui est utilisé en
particulier dans ltmentionedgtAgwêdê!
Al!lt/mentionedgt ltgloss xmllang"fr"gtAttention!
Le roi!lt/glossgt, - ltdefgtformule rituelle qui ouvre les devinettes
traditionnelles.lt/defgt - Lharmonisation vocalique régressive empêche
que ltmentionedgtagwêdêlt/mentionedgt puisse être
interprêté comme un dérivé de ltmentionedgtgwadalt/me
ntionedgt, qui pourtant est de même racine.lt/etymgt - lt/entrygt
33CreolData et LMF
- un projet de base de données lexicales (Schang
alii 2005) - idée simple réutiliser lexistant pour
lincorporer dans une base de données
fonctionnant avec xml - à lorigine, utilisation de LMF et Afnor (Lexique
pour le TAL)
34CreolData et LMF
- Entrée Lexicale
- identifiant 535
- forme lemmatisée flêsê
- sens s535 s536
- Forme 1
- chaîne flêsê
- Forme 2
- chaîne ôflêsê
- Sens
- identifiant "s535"
- comportement syntaxique syn535
- Définition
- texte donner quelque chose en cadeau à
quelqu'un - Sens
- identifiant "s536"
- comportement syntaxique "syn536"
- Définition
- texte " présenter un enfant à l'Eglise"
35CreolData et LMF
- ce qui donne sous forme xml
- ltlexicalEntry id"535" pos"verb"
lemmatizedForm"flêsê" autonomy"yes"
components"" senses"s535 s536"gt - ltform id"f535a" string"flêsê"/gt
- ltform id"f535b" string"ôflêsê"/gt
- lt/lexicalEntrygt
- pour le sens
- ltsense id"s535" syntacticBehaviors"syn535"
definitionBlocks"def535"gt - ltdefinition id"def535" text"donner
quelque chose en cadeau à quelquun" lang"fr"/gt - lt/sensegt
- ltsense id"s536" syntacticBehaviors"syn536"
definitionBlocks"def535"gt - ltdefinition id"def536" text"présenter un
enfant à lEglise" lang"fr"/gt - lt/sensegt
36CreolData et LMF
- un système adapté à la description syntaxique
- ltsyntacticBehavior id"syn535" frameSet"fS535"/gt
- ltframeSet id"fS535" frames"fS535_f1
fS535_f2"/gt - ltframe id"fS535_f1" comment"verbe doc"
slots"synSlot_1 synSlot_2 synSlot_3"/gt - ltframe id"fS535_f2" comment"verbe à cos"
slots"synSlot_1 synSlot_3 synSlot_4"/gt - ltslot id"synSlot_1" function"subject"
semanticActant"agent" syntacticActant"np"/gt - ltslot id"synSlot_2" function"object"
semanticActant"benef" syntacticActant"np"/gt - ltslot id"synSlot_3" function"object"
semanticActant"theme" syntacticActant"np"/gt - ltslot id"synSlot_4" function"object"
semanticActant"benef" syntacticActant"da_np"/gt
37CreolData et LMF
38CreolData et LMF
- avantages
- liens avec des fichiers sons et des images
facilités par la structure hiérarchisée. - description syntaxique et morphologique poussée
permettant le développement danalyseurs
morphologiques et de grammaires électroniques - inconvénients
- pas de place initialement prévue pour
létymologie. Travail à faire pour lévolution de
la norme