Corpus et concordances - PowerPoint PPT Presentation

About This Presentation
Title:

Corpus et concordances

Description:

Un corpus est une collection de donn es langagi res qui sont s lectionn es et ... Gigantesque : British National Corpus (100 millions de mots), The Bank of ... – PowerPoint PPT presentation

Number of Views:169
Avg rating:3.0/5.0
Slides: 19
Provided by: utenti3
Category:

less

Transcript and Presenter's Notes

Title: Corpus et concordances


1
Corpus et concordances
2
Qu'est ce qu'un corpus ?
  •  Un corpus est une collection de données
    langagières qui sont sélectionnées et organisées
    selon des critères linguistiques explicites pour
    servir déchantillon du langage.  (Sinclair cité
    par B. Habert, A. Nazarenko, A. Salem, Les
    linguistiques de corpus, Paris, Armand Colin,
    1997, p. 144)

3
Taille des corpus
  • Gigantesque British National Corpus (100
    millions de mots), The Bank of English (320
    millions de mots)
  • de taille moyenne (milliers de mots)

4
Une concordance C. de Laclos Les liaisons
dangereuses
5
Co-occurrence Collocation- Concordance
  • Une co-occurrence est un groupe de mots
    apparaissant fréquemment ensemble. En général, on
    peut faire varier au moins un des constituants
    sur l'axe paradigmatique. (ex. salaire de base)
  • Collocation des mots Association habituelle de
    2 ou plusieurs termes (collocats) au sein dun
    discours.  Une collocation est une co-occurrence
    qui n'admet pas une variation dans l'association
    des mots et qui est en quelque sorte consacrée
    par la langue.
  • La concordance désigne le mot présenté avec les
    extraits ou portions de texte dans lesquels il
    apparaît. En dautres termes, il sagit de la
    liste de segments de texte (on parle de
    contextes) contenant le mot ou les groupes de
    mots ou encore les signes (des signes
    typographiques) désignés. Une concordance est une
    liste de contextes.
  • (Lexique, Observatoire du Traitement
    Informatique des Langues et de l'Inforoute)

6
Types de corpus (1a)
  • corpus bruts textes écrits ou transcriptions
    écrites de productions orales - enregistrements
    de textes à voix haute, de discours, d'émissions
    de radio, etc. (Lexique, Observatoire du
    Traitement Informatique des Langues et de
    l'Inforoute)

7
Types de corpus (1b)
  • corpus annotés ou enrichis indications
    relatives à la structure du texte, aux catégories
    morphosyntaxiques ou sémantiques - informations
    sur la prosodie, le sens, les locuteurs,
    l'environnement sonore, etc. (Lexique,
    Observatoire du Traitement Informatique des
    Langues et de l'Inforoute)
  • Pour lannotation des corpus consultez le site
    Text Encoding Initiative Consortium
    (www.tei-c.org)

8
Extrait corpus TALANA (avec syntagmes)TALANA
(Traitement Automatique du Langage Naturel
Univ. Paris 7 )
  • ltSgt ltPPgtAu_cours_deP
  • ltNPgt laDfs conférence_de_presseNC-fs
  • ltSrelgt ltNPgtquiPROR-3fs lt/NPgt
  • ltVPgt aVP-3s closVK-ms lt/VPgt
  • ltNPgt cetteD-fs rencontreNC-fs lt/NPgt lt/Srelgt
  • lt/NPgt lt/PPgt ,PONCT
  • ltNPgt leD-ms premier_ministreNC-ms ltAPgt
    est-allemandA-ms lt/APgt lt/NPgt
  • ltVPgt estVP-3s revenuVK-ms lt/VPgt
  • ltPPgt surP ltNPgt lesD-mp incidentsNC-mp
  • ltPPgt deP lundiNC-ms soirNC-ms lt/PPgt
  • ltSrelgt
  • ltPPgtau_cours_deP ltNPgt lesquelsPROR-3mp lt/NPgt
    lt/PPgt
  • ltNPgtde-lesD-mp manifestantsNC-mp lt/NPgt
  • ltVPgt ontVP-3p mis_à_sacVK-ms lt/VPgt
  • ltNPgt leD-ms siègeNC-ms ltAPgt centralA-ms lt/APgt
  • ltPPgt deP laD-fs StasiNP-fs lt/PPgt lt/NPgt
  • lt/Srelgt lt/NPgt lt/PPgt lt/Sgt
  • http//www.li.univ-tours.fr/taln-recital-2001/acte
    s_taln01.html

9
Types de corpus (2)
  • Monolingues (BNC)
  • Bilingues ou multilingues
  • Languée parlée (CLAPI) /langue écrite
    (CORIS/CORDIS)

10
Types de corpus (3)
  •  Un corpus de référence est conçu pour fournir
    une information en profondeur sur une langue. Il
    vise à être suffisamment grand pour représenter
    toutes les variétés pertinentes de cette langue
    et son vocabulaire caractéristique, de manière à
    pouvoir servir de base à des grammaires, des
    dictionnaires et d'autres usuels fiables 
    Sinclair, Preliminary recommendations on Corpus
    Typology. Technical report, EAGLES (Expert
    Advisory Group on Language Engineering
    Standards), 1996.
  • Un corpus spécialisé est un corpus limité à une
    situation de communication, ou à un domaine. Il
    s'intéresse aux langages de spécialité, aux
    sous-langages. (Lexique, Observatoire du
    Traitement Informatique des Langues et de
    l'Inforoute)

11
Types de corpus (4)
  • corpus comparables ensemble de corpus ayant été
    compilés selon les mêmes critères mais
  • - dans des variantes différentes dune même
    langue
  • - dans des langues différentes et en tenant
    compte des différences culturelles
  • corpus parallèles couples de corpus dans des
    langues différentes et dont lun est la
    traduction de lautre.
  • (Voir Natalie KÜBLER, Introduction à la
    linguistique des corpus http//wall.eila.jussieu.f
    r/nkubler/M1_c_equilibre_specialise.ppt)

12
Corpus parallèle
  • Canadian Hansard Corpus (2001)
  • 1,3 milioni di frasi francesi-inglesi allineate a
    livello di frase, tratte dagli atti del
    Parlamento Canadese (http//transsearch.iro.umontr
    eal.ca/)

13
Corpus parallèle
  • MULTEXT (1996)
  • http//aune.lpl.univ-aix.fr/projects/multext/
  • 5 milioni di parole dal Journal of European
    Community (francese, italiano, spagnolo, tedesco,
    inglese) 800.000 parole allineate a livello di
    frase (inglese come lingua pivot)
  • a cura di
  • vito pirrelli

14
Types de corpus (5)
  • corpus dapprenants corpus qui contiennent des
    productions écrites et/ou orales des apprenants
    dune langue seconde et sont utilisés
  • - pour décrire linterlangue et donc les
    difficultés des apprenants
  • - élaborer une typologie des erreurs
  • (Voir Natalie KÜBLER, Introduction à la
    linguistique des corpus http//wall.eila.jussieu.f
    r/nkubler/M1_c_equilibre_specialise.ppt)
  • Learner Corpus around the World
  • http//leo.meikai.ac.jp/tono/lcorpuslist.html
  • Learner Corpus Data
  • http//www.eng.ritsumei.ac.jp/asao/lcorpus/

15
Représentativité
  • domaines, situations
  • sexe, âge
  • variantes
  • fréquence
  • (Voir Natalie KÜBLER, Introduction à la
    linguistique des corpus http//wall.eila.jussieu.f
    r/nkubler/M1_c_equilibre_specialise.ppt)

16
Software per lanalisi dei testi
  • Metasiti
  • Centre for Corpus Research
  • http//www.corpus.bham.ac.uk/links.htm
  • Corpora for Language Learning and Teaching
  • http//www.corpora4learning.net/resources/materia
    ls.html
  • Alphabit.net
  • http//www.alphabit.net/Corsi/IUlinks/Concwarelist
    .htm
  • Sito di Federico Zanettin
  • http//www.federicozanettin.net/sslmit/cl.htm

17
Rôle des corpus
  • étude de la grammaire
  • analyse terminologique
  • construction des dictionnaires
  • étude sémantique
  • études comparatives pour la traduction assistée
  • (Voir Natalie KÜBLER, Introduction à la
    linguistique des corpus http//wall.eila.jussieu.f
    r/nkubler/M1_c_equilibre_specialise.ppt)

18
Où trouver les corpus ?
  • Web
  • Cd-rom
  • Créer soi même
Write a Comment
User Comments (0)
About PowerShow.com