Title: L'atelier TEI PD "light"
1L'atelier TEI PD "light"
lt?xml version"1.0" encoding"UTF-8"?gt ltentry
xmlid"basse.1"gt ltformgt ltorthgtbasselt/orthgtlt
/formgt ltgramGrpgtltposgtadverbelt/posgt lt/gramGrp
gtltdefgtà faible hauteurlt/defgt ltdicteg
n"1"gt ltcitgtltqgtTa gamine est assise trop
ltoRef/gt, elle ne dépasse pas de la
table.lt/qgt ltbiblgt ltauthorgtBENOIT M, MICHEL
C.lt/authorgt lttitlegtLe Parler de Metz et du pays
messinlt/titlegtltimprintgt ltpubPlacegtMetzlt/pubPlacegt
ltpublishergtSerpenoiselt/publishergt ltdategt20
01lt/dategt
Avec la participation de Jean-Luc Benoit, Eva
Buchi, Françoise Henry, Alain Litaize, Hélène
Manuélian, Etienne Petitjean, Jean-Loup
Ringenbach, Laurent Romary, Isabelle Turcan,
Gilles Souvay, Nadine Steinfeld
2La TEI Print Dictionaries light
- un sous-ensemble TEI-PD
- Base commune aux projets dictionnairiques de
l'ATILF - Quels éléments, quels attributs, quelles
contraintes ? - choix linguistiquement justifiés (puis
documentés) - perspective "bases lexicales "
- interconnexions, recherches plausibles et
satisfaisantes, présentations - souple et extensible (TEI-PD, extensions ODD)
- une hypothèse à évaluer
- Le Larousse (Métadif, H. Manuélian)
- Le Dictionnaire du Moyen Français (ATILF, G.
Souvay) - Le Trésor de la Langue Française Etymologie
(ATILF, N. Steinfeld), FEW ... - Le Dictionnaire des Particules (ATILF, R.
Métrich) - Le Trévoux (ATILF, I. Turcan, J.-L. Benoît)
- des chantiers à identifier
- pointeurs, étymologie, biblio, ... gt ODD
3"La TEI est née pour les textes..."
- C'est un document TEI, donc
- TEI, teiHeader, text, body, dates, pointeurs,
refs biblio - Chapitre PD
- macro-structure ("hierarchical levels")
- ltentrygt, ltentryFreegt, ltsuperEntrygt, ltsensegt,
lthomgt, ltregt, ltxrgt, ltdictScrapgt - micro-structure ("top level constituents")
- ltformgt, ltgramGrpgt, ltdefgt, ltusggt, ltxrgt, ltetymgt,
ltnotegt
"Any of the hierarchical levels (ltentrygt,
ltentryFreegt,lthomgt, ltsensegt) may contain any of
these top-level constituents, since information
about word form, particular grammatical
information, special pronunciation, usage
information, etc., may apply to an entire entry,
or to only one homograph, or only to a particular
sense."
4Premier constat
- La TEI est trop permissive, on peut tout faire !
- faux (pour la sémantique des balises)
- vrai (en partie, pour la structure)
- FERME (TLFi)
- adj., avd., interj. ("non négociable")
- subst. fem. ("exploitation agricole")
- subst. fem. ("assemblage de pièces")
- gt Combien d'articles, d'entrées, d'homonymes, de
polysèmes, de sens ?
5Premier constat
ltentrygt lthom n"1"gt ltsense n"1"gt ...
lt/sensegt lt/homgt lthom n"2"gt
ltsense n"1"gt lt/homgt lthom n"3"gt
ltsense n"1"gt... lt/sensegt lt/homgt lt/entrygt
ltsuperEntrygt ltentrygt ltsensegt ...
lt/sensegt lt/entrygt ltentrygt ltsense gt ...
lt/sensegt lt/entrygt ltentrygt ltsense gt ...
lt/sensegt lt/entrygt ltsuperEntrygt
ltentrygt ltsensegt ... lt/sensegt lt/entrygt ltentr
ygt ltsense gt ... lt/sensegt ltsense gt ...
lt/sensegt lt/entrygt
ltentrygt lthom n"1"gt ltsense n"1"gt ...
lt/sensegt lt/homgt lthom n"2"gt
ltsense n"1"gt... lt/sensegt ltsense n"2"gt...
lt/sensegt lt/homgt lt/entrygt
ltentrygt ltsensegt ... lt/sensegt lt/entrygt ltentr
ygt ltsense gt ... lt/sensegt lt/entrygt ltentrygt
ltsense gt ... lt/sensegt lt/entrygt
6Deuxième constat (Ide, Romary, Kilgarriff, 2000)
- L'absence de contraintes sur l'agencement des
balises mène à des ambiguïtés d'interprétation !
ltentrygt ltbalise_1gtvaleur_0lt/balise_1gt
ltbalise_1gtvaleur_1lt/balise_1gt ltbalise_2gt
ltbalise_1gtvaleur_2lt/balise_1gt lt/balise_2gt
lt/entrygt
- en largeur concaténation, surspécification,
"overwriting" ? - en profondeur héritage ou non ?
- exemple FERME 2
- marques d'usages (financier, juridique, jeux,
agriculture) - catégories grammaticales (substantif, loc.
adverbiale)
7Tout est choix éditorial...
- Numérisation archivage vue typographique
- Reproduction fidèle d'un dictionnaire source
- Recherches et renvois dépendent des données
originales - TLF PINERAIE
- TLF FRAISEUR/-EUSE
- Trévoux NACELLE
- Base de données lexicales vue lexicale
- Réorganisation éventuelle des données originales
- Scénarios de recherche dépendent de la
réorganisation - Besoin de critères fondés et opérationnels
- Couverture non exhaustive (mais possibilité
d'extension)
8Tentative de l'atelier vue lexicale
- Proposition d'une TEI "dictionnaire" light
- sémasiologique, minimale, simple, plus contrainte
- Macro-structure
- ltentrygt ltentryFreegt ltsuperEntrygt ltsensegt lthomgt
ltregt ltxrgt - Micro-structure
- ltentrygt ltformgt ltsensegt ltetymgt
- unicité de forme (graphique, phonétique) et de
catégorie grammaticale - deux entrées, si deux formes (CLE, CLEF)
- deux entrées, si deux categories différentes
(FERME adv, adj) - 0 à n sens
- critères linguistiques pour la décision
homonymie/polysémie (FERME1, FERME2) - 0 à 1 bloc d'infos étymologiques (origine)
9Tentative de l'atelier vue lexicale
- ltformgt
- vue extensionnelle (liste de formes)
- prononciation ltprongt, graphie ltorthgt
- syllabification, accentuation, séparation
graphique - ltgramgt, ltgengt, ltnumbergt, ltcasegt, lttnsgt, ltpergt,
ltmoodgt - représentant du paradigme ("lemme")
- propriétés formelles du lemmes ltorthgt, ltprongt
- catégorie grammaticale ltposgt, ltgengt
- règles flexionnelles ltitypegt
- et le ltgramGrpgt ?
- propriétés flexionnelles ltgengt, ltcasegt, lttnsgt,
ltpergt, ltmoodgt, ... - propriétés syntaxiques, sémantiques ltsubcgt,
ltcollocgt - catégorie grammaticale (abstraction form/sens )
ltposgt
Repenser son utilisation ?
10Tentative de l'atelier vue lexicale
- ltsensegt
- définition textuelle ltdefgt
- un ltsensegt gt 0 ou 1 ltdefgt
- exemple(s) ltdicteggt
- un ltsensegt gt 0 à n exemples
- traductions lttransgt et lttrgt
- un ltsensegt gt 0 à n traductions
Au fait, n'est-ce pas simplement un ltformgt ?
ltentry n"1"gt ltformgt
ltorthgtdresserlt/orthgt lt/formgt ltsensegt
lttransgtlttrgthabilleurlt/trgtltgengtmlt/gengtlt/tra
nsgt lt/sensegt lt/entrygt
11Documentation des exemples
ltdicteggtltqgtTa gamine est assise trop ltoRef/gt,
elle ne dépasse pas de la table.lt/qgtlt/dicteggt
ltdicteggtltcitgt ltqgtTa gamine est assise trop
ltoRef/gt, elle ne dépasse pas de la
table.lt/qgt ltbiblgtBenoit M., Michel C., Le Parler
de Metz...lt/biblgt lt/citgtlt/dicteggt
ltdicteggt ltcitgt ltqgtTa gamine est assise trop
ltoRef/gt, elle ne dépasse pas de la
table.lt/qgt ltbiblStructgt ltauthorgtBENOIT M,
MICHEL C.lt/authorgt lttitlegtLe Parler de Metz et
du pays messinlt/titlegt ltimprintgt ltpubPlacegtMe
tzlt/pubPlacegt ltpublishergtSerpenoiselt/publishergt
ltdategt2001lt/dategt ltbiblScopegtp.
38lt/biblScopegt lt/imprintgt lt/biblStructgt lt/citgt
lt/dicteggt
12Tentative de l'atelier vue lexicale
- ltetymgt
- actuellement texte ponctuellement balisé
- langue ltlanggt, date ltdategt, etymon ltmentionedgt,
glose ltglossgt, - problèmes pas de lien entre les balises
abismo m. (del gr. a priv. y byssos, fondo).
ltentrygt ltformgtltorthgtabismolt/orthgtlt/formgt
ltetymgt del ltlanggtgr.lt/langgtltmentionedgtalt/mention
edgt priv. y ltmentionedgtbyssoslt/mentionedgt,
ltglossgtfondolt/glossgt lt/etymgt lt/entrygt
13Eléments transversaux
- Usage ltusggt et Label ltlblgt
- éléments "joker", mal définis et mal délimités
- ltusggt type geo, time, dom, reg, style, lang,
gram, syn, hyper, obj, hint, ... - ltlblgt "contains a label for a form, example,
translation, or other piece of information, e.g.
abbreviation for, contraction of, literally,
approximately, synonyms, etc." - éviter ... ou repenser la sémantique et spécifier
points d'ancrage - Pointeurs
- renvoi typé à un autre endroit (i.e. une autre
entrée ?) - ltxr type"..."gt ltptr target"xml pointer"/gt
lt/xrgt - repenser les typages (synonymes, variantes
orthographiques, étymologie) - référence au lemme ltoRefgt ltoVargt
- Note ltnotegt (?)
14Les deux versions FERME2
- TEI PD P5 "classique"
- DTD tei_pd_p5.dtd
- Données ferme2_TEI_PD_P5.xml
- TEI PD P5 "light" extension ODD etymologie
- DTD tei_pd_p5_light.dtd
- Données ferme2_TEI_PD_P5_light.xml
15Réflexions FERME 2 light
Sens "conteneur" quelle justification ? quelle
relation avec B ?
ltentrygt ltformgtltorthgtfermelt/orthgtltposgtsubstant
iflt/posgtltgengtfémininlt/gengtltitypegtnoun_1lt/itypegtlt/f
ormgt ltsense n"A"gtltusg type"dom"gtjuridiquelt/usggt
ltusg type"dom"gtfinancierlt/usggt ltsense
n"1"/gt ltsense n"2"gt ltusg
type"dom"gtagriculturelt/usggt ltdefgtConvention
par laquelle le propriétaire d'un bien foncier,
notamment d'une exploitation agricole, en
abandonne la jouissance à un tiers pour un
temps et un prix fixés.lt/defgt lt/sensegt lt/sensegt
ltsense n"B"gt ltsense n"1"gt ltdefgtExploitati
on agricole qui a fait l'objet d'un bail à ferme
p. ext. toute exploitation agricolelt/defgt ltusg
type"colloc"gtferme écolelt/usggtltusg
type"colloc"gtferme modèlelt/usggt ltdicteggt lt
citgt ltqgtQuelques jours après, mon père alla
chasser sur la ltoRef/gt de Serrières
lt/qgt ltbiblgtGYP, Souv. pte fille, 1928, p.
15)lt/biblgt lt/citgt lt/dicteggt lt/sensegt lts
ense n"2"/gt lt/sensegt ltetymgt ltetymongt ltform
gtltorth xmllang"latin médiéval"gtfirmalt/orthgtltposgt
substantiflt/posgtlt/formgt ltsensegtbail à
fermelt/sensegt lt/etymongt lt/etymgt lt/entrygt
Usage de ltusggt ? Combinatoire ?
"par métonymie de A2" étymologie-histoire !
Utiliser les ltcollocgt du gramGrp ?
"en partic." ???
documentation par ltbiblgt prévue !
16Le but du jeu...
- Choisir un échantillon de dictionnaire
- former des groupes rapporteur responsable XML
linguiste - Charger l'exemple FERME et les DTDs
- Essayer d'appliquer la version light aux données
- Identifier les questions et problèmes
- faire des propositions
- TEI "classique"
- extension personnalisée
- noter les observations dans un document texte
- Mise en commun et discussion