ANALYSE DES DONNEES TEXTUELLES - PowerPoint PPT Presentation

1 / 60
About This Presentation
Title:

ANALYSE DES DONNEES TEXTUELLES

Description:

Analyse des donn es textuelles. De l analyse de contenu l analyse lexicale Situations et probl matiques Questionnaires ouverts Interviews non directives ... – PowerPoint PPT presentation

Number of Views:114
Avg rating:3.0/5.0
Slides: 61
Provided by: PCMu2
Category:

less

Transcript and Presenter's Notes

Title: ANALYSE DES DONNEES TEXTUELLES


1
ANALYSE DES DONNEES TEXTUELLES
Analyse des données textuelles. De lanalyse de
contenu à lanalyse lexicale
2
Situations et problématiques
  • Revue de la littérature
  • Recherches exploratoires
  • Exploration préalable à une étude quantitative
  • Contrôle qualitatif sur les enquêtes fermées
  • Contrôle rédactionnel
  • Questionnaires ouverts
  • Interviews non directives
  • Bases documentaires
  • Ecrits, rapports.
  • Courriers documents transactionnels

Voir des exemples en fin de diaporama
3
Questionnaires un contexte structuré
Questions ouvertes
Questions fermées
4
Les questions ouvertes
  • Questions Autres précisez
  • Suggestions ou compléments suite à une questions
    fermées
  • Question ouvertes introductives
  • Associations de mots
  • Le sens de la réponse est fixé par celui de la
    question
  • Les possibilité d expressions sont limitées par
    un cadre contraint
  • On contrôle les effets de la fermeture
  • On ouvre sur d autres conjectures

5
Des textes plutôt pauvres et bien situés
  • Le sens de la réponse
  • est défini par celui de la question

Texte
Contexte
6
Interviews non directifs, entretiens de groupe
  • Entretiens individuels avec relance par
    reformulation.
  • Entretiens collectifs avec prise de parole
    libre.
  • La démarche est exploratoire laisser de la
    liberté à la conversation
  • L interview est structuré par les tours de
    paroles.
  • Les interventions sont plus ou moins riches et
    abondantes.
  • Un fil directeur peut structurer l ensemble.

7
Prise de paroles et liberté de la conversation
8
Le monologue ou le récit
L absence de structuration enfouit le sens dans
le texte
9
Recherches documentaires et bibliographies
  • Des corpus plus ou moins fragmentés et structurés
  • Fragmentation marquée par la répétition.Structur
    ation marquée par la composition rubriques,
    parties donnent une indication sur le sens du
    texte
  • Linéarité textuelle
  • Organisation implicite
  • Bases de données bibliographiques (Doc thèse,
    Electre)
  • Collection de documents structurés (coupures de
    presse, annonces, messageries, pages html)
  • Rapports
  • Textes libres, discours

10
La complexité des données textuelles
  • Différents type de corpus
  • Complexité de nature
  • Complexité d'organisation
  • Complexité des éléments
  • Complexité et double langage

11
Corpus et texte
Le corpus est lensemble des données dont on veut
prendre connaissance
En dernière analyse, lanalyse dun corpus
conduit toujours à celle dun texte monobloc
définit par la structuration du corpus
12
Complexité de nature
Signifié
Signifiant
(Pierce)
(Saussure)
Le double mouvement de la langue selon Ricoeur
"l'un sépare le signe de la chose et le
rapporte à d'autres signes dans la cloture du
système linguistique, l'autre qui applique le
signe à la réalité, le rapporte au monde et ainsi
ne cesse de compenser le mouvement de la
différence par celui de la référence".
13
Complexité d organisation
Le langage est formé déléments au sens instable
et relatif
  • Synonymie et polysémie
  • nous avions vu des avions et des aéroplanes
  • Mots, phrases, discours le sens se forme dans
    l organisation des mots entre eux
  • mots les sens du lexique
  • phrases les contraintes de la syntaxe
  • discours les effets du contexte et de la
    rhétorique
  • Le pilote ferme la porte
  • (ferme-t-il la porte, ou porte-t-il fermement
    lhotesse de lair ? Seul le contexte permet de
    le dire !)

14
Complexité des éléments
Des lettres (les caractères) aux lettres (la
littérature) il faut passer par bien des mots !
  • Formes graphiques chaîne de caractères sans
    séparateur avfrds, pomme, terre
  • Mot forme graphique signifiante pomme, terre
  • Mot composés, locution suite de formes
    graphique assimilable à un mot pomme_de_terre,
    a_peu_près
  • Expression suite de mots revenant fréquemment
    dans lusage et faisant sens de temps en temps,
    juste à temps

15
Double articulation et ambiguité
  • Enoncé le contenu du message ou sens de surface
  • Enonciation le comportement ou sens caché
  • Ambiguité du langage et niveau de lecture

Le sens de surface est le même il faudra compter
avec au moins 2 invités. Lénociation indique que
Paul sera un convive plus enjoué que Pierre.
Celui ci redouble le négation pour dire oui !
16
Les stratégies danalyse
  • Restituer le texte pour lecture Verbatim
  • Lire et interpréter le texte pour codification
    Analyse de contenu
  • Réduire le texte pour accélérer la lecture
    Approximation lexicale
  • Coder ou mesurer le texte pour révéler ses
    structures cachées Lexicométrie

17
Lire et interpréter
  • Lectures et commentaires
  • Extraits et citations
  • Simplicité
  • ..... mais subjectivité

Texte
Connaissance
Du commentaire composé à la technique de la
citation, les classes de lycée
18
Faire du verbatim, sélectionner des extraits
Texte
Contexte
  • Restituer le texte
  • Extraire selon le contexte
  • qui dit quoi ?
  • Extraire selon le contenu avec quels mots

Extraits, verbatim
19
Exemple dextrait dune base bibliographique
On sintéresse aux recherches sur le consommateur
et aux universités où elles se déroulent
PARIS_9 n 44 APPLICATION DU MARKETING ET
COMPORTEMENT DU CONSOMMATEUR DANS DES
ENVIRONNEMENTS SPECIFIQUES. PRAS (BERNARD)
1993 n 181 UNE ETUDE EMPIRIQUE DES EFFETS DE
LA PERSONNALITE ET DES STYLES COGNITIFS SUR
L'IMPLICATION DU CONSOMMATEUR ET SUR SES
MANIFESTATIONS. PINSON (CHRISTIAN)
1992 ... PARIS_1 n 353 CONTRIBUTION A
L'ETUDE DES LIAISONS ENTRE L'IMPLICATION DU
CONSOMMATEUR ET SON ACTIVITE DE RECHERCHE
D'INFORMATION PREALABLE A L'ACTE D'ACHAT .
GREGORY (PIERRE) 1990 n 685 LES SERVICES DE
LA DISTRIBUTION DU MEUBLE ET LE COMPORTEMENT DU
CONSOMMATEUR. NGUYEN HUU CHAU 1987 n 751
L'INFLUENCE DE LA MARQUE SUR LE COMPORTEMENT DU
CONSOMMATEUR. LASSEGUE (PIERRE)
1986 GRENOBLE_2 n1043 LE COMPORTEMENT DU
CONSOMMATEUR D'ENERGIE DOMESTIQUE. JOLIBERT
(ALAIN) 1983 n1192 UNE APPROCHE
INTERPRETATIVE A L'ETUDE DU COMPORTEMENT DU
CONSOMMATEUR. JOLIBERT (ALAIN) 1982 n1316
VALEURS RELATIVES DES ELEMENTS D'INFORMATION DANS
LE PROCESSUS D'EVALUATION DES PRODUITS PAR LE
CONSOMMATEUR UN MODELE CONCEPTUEL ET
VERIFICATIONS EMPIRIQUES. JOLIBERT (ALAIN)
1982 .
Sélection consommateur
Structuration Trié par université
20
Analyse de contenu
  • Lire et découper
  • Construire une grille thématique et la
    documenter
  • Evaluer et comparer les thèmes
  • Plus objectif, ... mais lourd et fastidieux

21
Exemple danalyse de contenu
22
Approximation lexicale les principes
Remplacer la lecture du texte par celle de ses
subsituts lexicaux
  • Du corpus au lexique réduire l'effort de
    lecture
  • Du sens de surface, aux actes de langage
  • Une nouvelle lecture

Texte, corpus
Lexique
23
Les fondements épistémologiques
  • Parmi leurs nombreux apports
  • Les actes de langages
  • Les modèles cognitifs

24
Actes de langage, les facteurs de lénonciation
  • L'acte de langage (Searl, Austin...)
  • Etudier l'énonciation comme processus de décision

la langue quon parle
mot, acte de langage
les objets du monde
les habitudes sociales
la variété individuelle
25
Modèles mentaux, la structure des lénoncés
  • Nos modèles mentaux
  • Structurent nos énoncés
  • ... qui portent la trace de ces modèles

26
Les énoncés de quoi sagît-il ?
  • Découvrir les mots clé
  • Mettre à jour les convergences thématiques

27
Approcher les énoncés par le lexique
  • Découvrir les mots clés Lexique brut, mots
    outils et lexique réduit. (mots outils sans
    signification particulière articles, pronoms..
    )
  • Soulever les ambiguités Lexique lemmatisé.
    (lemme forme racine dun mot masculin
    singulier pour un nom ou un adjectif, infinitif
    pour un verbe)
  • Concentrer lattention lexique catégorisé les
    noms, les verbes les adjectifs. (les noms
    décrivent les objets du monde, les verbes les
    actions et les adjectifs les évaluations)
  • Repérer les rigidités du langage les segments
    répétés (les formules toutes faites, la langue de
    bois.)
  • Agréger en champs sémantiques les dictionnaires
    thématiques (on réduit encore la variété lexicale
    pour parvenir au niveau des concepts habitation
    villamaison logement domicile)

28
Exemple de lexiques si vous gagnez au loto
Si vous gagniez au loto que feriez vous (990
réponses) ?
10 mots couvrent 31 du corpus
29
Si vous gagnez au loto lexiques catégorisés
Verbes acheter 350 placer 195 donner
187 voyager 148 aider 122 partir 91
travailler 91 profiter 81 investir
76 changer 63
Noms maison 354 voyage 310 enfant 259
voiture 194 argent 118 famille 117
monde 81 don 75 vacance 79
placement 71
Adjectifs beau 72 petit 41
humanitaire 32 grand 29 bon 26
immobilier 19 tout 13 nouvel 12
personnel 11 gros 8
30
Concordances et associations lexicales
  • Mettre en évidence les variations sémantiques en
    examinant le contexte des mots lexiques
    relatifs.
  • Mettre à jour les réseaux sémantiques et modèles
    mentaux AFC et cartes cognitives.

31
Variations sémantiques le texte en contexte
32
Les thématiques dun discours de réforme
Discours du Premier Ministre 199(analyse
factorielle des correspodances sur le haut du
lexique lemmatisé et réduit.
retraite
Axe 2 (9.7)
épargne
baisse_des_impôt
ministre
parlement
proposer
venir
donner
créer
faire
parler
aller
raison
vouloir
réforme
pays
baisser
salarié
baisse
travailler
travail
taux
impôt_sur_le_revenu
Axe 1 (11.2)
mettre
année
cinq
cotisation
an
revenu_du_capital
sécurité_social
payer
revenu
impôt
famille
exemple

Csg
franc
vivre
salaire
enfant
deux
gagner
33
L énonciation comment parle-t-on ?
  • Caractériser lexpression
  • volume,
  • richesse,
  • complexité
  • Caractériser la communication et le style
  • modalisation
  • embrayage..

34
Focus groupe mesures dénonciation
Focus groupe sur les marques 9
participantes Corpus 21 565 formes Lexique
2 067 Répétition 10,43
35
Analyse de discours et communication
Discours du Premier Ministre 1995
Dynamique du discours. Le texte a été découpé en
5 parties de taille égale. Une AFC montre quil
se développe conformément aux règles de la
réthorique La dernière partie revient sur les
thèmes présentés en premier lieu, après
développement consacré aux différents points du
discours
Elocution et communication Les phrases sont plus
courtes en début et fin de discours, le recours
aux chiffres croit régulièrement sans jamais être
abandonné. Lusage du je marque lengagement du
début et de la fin, ladresse se fait au vous
de laudience qui disparaît avec lavancée du
disours !
36
Analyse contingente qui dit quoi?
  • Analyse des énoncés spécialisation thématique.
  • Analyse de l énonciation distinction
    stylistique.
  • Par rapport à lidentité du locuteur qui dit
    quoi ?
  • Par rapport à dautres données de contexte dans
    quelles circonstances, pourquoi ?

37
Qui dit quoi ?
Si vous gagniez au loto que feriez vous (990
réponses) ?
... dans leur contexte
LAFC montre des différences significatives selon
lâge dans lusage des ségments répétés.
38
Les cartes perceptuelles le loto
Les associations lexicales révèlent les thèmes
présents dans les réponses
39
Les problématiques de l analyse contingente
40
Du texte à la mesure, du quali. au quanti.
Le texte est pris comme objet dobservation pour
mesurer des comportement ou opinions dont il
porte la trace .
  • Par exemple
  • la longueur d une réponse est prise comme
    indicateur de l intérêt porté à l objet de la
    question.
  • la propension à utiliser le vocabulaire de la
    sécurité est un indicateur de l importance
    accordée à la sécurité.

On peut ainsi à partir de données textuelles
construire des données analogues à celles
recueillies par le truchement déchelles
d opinion.
41
Codification et mesures lexicales
  • Coder automatiquement le texte en fonction des
    mots utilisés
  • Mesurer l'énonciation longueur, richesse,
    banalité
  • Evaluer les contenus par la mesure d'intensités
    lexicales

Variables nominales
Variables numériques
42
Exemple la communication interne
  • Insatisfactions
  • Propositions
  • Indicateur d'engagement proactif lg
    (proposition) / lg (insatisfaction)

Diagnostic
Proposition
Engagement
CATEGORIE
Lg.
Lg.
Ouvrier
60,52
33,04
0,86
Cadre
45,24
22,67
0,72
Maîtrise
61,07
26,15
0,60
Employé
57,18
27,35
0,53
ENSEMBLE
56,65
27,61
0,68
La longueur des réponses donne une indication des
insatisfactions (quest ce qui ne va pas dans
lentreprise ?) et de la capacité à sengager
(quelles propositions feriez vous ?) Le rapport
(col.3) entre ces 2 mesures (col.2/col.1), montre
que pour promouvoir le changement il faut mieux
sappuyer sur les ouvriers et et les cadres.
Néanmoins quelque soit la catégorie les réponses
sont plus longues pour critiquer que pour
proposer.
43
Le retour au texte
44
Navigation lexicale
45
Verbatim sélectif
  • Rechercher les mots spécifiques selon le
    contexte
  • Phrases caractéristiques
  • ....et résumés

46
Les logiciels
  • LE SPHINX LEXICA
  • SPAD T
  • ALCESTE
  • TROPES, NUDIST.....

47
Pour maîtriser Sphinx Lexica
Télécharger le mode opératoire de
Lexica Télécharger le manuel
Consulter les exemples sur le site
  • Le rêve des français
  • Présidentielles 1995
  • Présidentielles 2002

Utiliser les données présentent dans le dossier
Enquêtes du répertoire où le logiciel est
installé. Voir Loto et dans le dossier Exemples
voir Analyse de discours
48
Mettre en œuvre les étapes
  • Découpages et annotations
  • Réduction de la variété lexicale
  • Recherche de classes thématiques fondées sur les
    cooccurences
  • Mise en évidence des spécificité lexicales selon
    les éléments de contexte
  • Modélisation du corpus du textes aux dimensions
    dintensité lexicales.

49
Du corpus à la base de données découpage
annotations et balises
  • Séparateurs fragmenter le texte
  • niveau 1 t paragraphe
  • niveau 2 .?! phrases
  • ......
  • Annotations créer des variables de contexte
  • jalons tous les fragments jusquau prochain
    jalon
  • marques le fragment concerné
  • mots clés codés
  • Balises utiliser les indications (balises)
    présentent dans le texte
  • Question, réponse pour les interviews non
    directives
  • Nom de lintervenant pour les tables rondes
  • Rubrique pour une base de données bibliographique

50
Réduction de la variété lexicale
  • Lemmatiser, réduire et créer un nouveau corpus
  • Identifier les catégories grammaticales
  • Rechercher les segments répétés, les lier et
    créer nouveau texte
  • Appliquer des dictionnaire ou un thésaurus

51
Recherche de classes thématiques
  • Sélectionner les éléments pertinents du lexique
    réduit et catégorisé
  • Effectuer une AFC multiple les zones de la
    carte indiquent les thèmes du discours
  • Construire la typologie classant les fragments
    selon les zones thématiques de la carte
  • Produire le verbatim caractéristique des thèmes

52
Caractériser le contexte - spécificités lexicales
  • Sélectionner les éléments pertinents du lexique
    réduit et catégorisé
  • Rechercher parmis ces éléments ceux qui sont
    spécifiques des catégories de contexte étudiées
    (surreprésentés dans ces catégories)
  • Produire la carte de zones de langage de chaque
    catégorie
  • Illustrer avec les phrases caractéristiques de
    chaque contexte

53
Exemple questions ouvertes
54
Exemple questionnaire ouvert
Image du sport et image de marque (Etude sur le
sponsoring)
1. Citez les 5 évènements sportifs qui vous ont
le plus marqué au cours de l'année 1992. 2. Pour
vous suivre un évènement sportif
c'est....Compléter en citant les mots qui vous
viennent spontanément à l'esprit. 3. Si on vous
dit sportif, quels noms de grands sportifs vous
viennent spontanément à l'esprit 4. Citez 5
verbes qui selon vous expriment le mieux l'action
des grands sportifs 6. Citez les 5 adjectifs qui
vous viennent à l'esprit pour qualifier les
sportifs de haut niveau. 7. Citez 5 marques qui
dans votre esprit riment avec Sport 8. A votre
connaissance quelles sont les marques qui
pratiquent le plus le sponsoring sportif. 9.
Citez les 5 adjectifs qui caractérisent le mieux
les marques que vous venez de citer.
55
Exemple recueil de pharses témoins
La communication interne
1. Sexe 1- Homme 2- Femme 2. Age 2-
Moins 30 ans 2- 30 à 50 ans 3- Plus
de 50 ans 3. Catégorie 1- Employé 2-
Ouvrier 3- Cadre 4- Maîtrise 4. Considérez
vous que l'information dans votre société est
1- Insuffisante 2 - Suffisante 5. Comment
communique-t-on à l'interne dans votre société.
Phrases témoins des dysfonctionnements 6.
Quelles propositions formuleriez vous pour
améliorer la communication interne ? Phrases
témoins des améliorations envisagées
Les réponse aux questions ouvertes ne sont pas
une transcription exacte des propos prononcés
La méthode des phrases témoins réalise un
compromis entre interview non directif et
questionnaire fermé
56
Exemple Entretien de groupe
Animatrice "....Mon rôle aujourd'hui c'est
d'écouter tout ce que vous avez à dire, de vous
aider à parler le plus librement possible, de
vous proposer des méthodes, de vous proposer des
thèmes de réflexion. suivent 10 lignes
dintroduction. Euh...On va a priori terminer
vers 16h30, est-ce que ça va pour tout le monde ?
est-ce que ...." Catherine " Pas plus tard
!" Geneviève " Pas au-delà !" Animatrice "Pas
au delà. A priori ça devrait tenir, si vous
travaillez bien. .. 3lignes Catherine "Oui,
peu importe. Je m'appelle Catherine B......, je
travaille à la bibliothèque de l'I.A.E. J'ai
trente quatre ans. Ce que j'aime, là, comme ça
spontanément, ça m'est difficile à dire, donc ça
viendra peut-être dans le cours de la discussion,
mais là, comme ça, je vois pas trop." Animatrice
" Ok, est-ce qu'on tourne , ou est-ce
que.....?" Christine " Oh, on va tourner, non
?" Animatrice " Oui." Geneviève " Geneviève
C....., j'ai cinquante et un an, je suis
orthophoniste... Mes goûts, non je peux pas les
dire comme ça. On se
67 pages (times 12) 1271 paragraphes 3301
lignes 23 818 mots
Une animatrice et 8 participantes 1271 tours de
paroles
14 périodes dans la table ronde
57
Exemple Interview non directif
recherche sur les processus dinnovation
Entretien avec Philippe Michielin
28/04/98 Pouvez vous me présenter la situation
telle que vous la voyez ? Les personnes qui sont
chef de marché chez nous sont tout à fait nouveau
dans cette mission là, peut-être à l'exception de
Giletta, je ne sais pas si vous l'avez vu.
Giletta avait exactement le même profil au .10
lignes facile. Donc là aujourd'hui le CDM est
dans un pôle, spécifiquement, le directeur du
pôle qui en est l'animateur, si il ne peut pas il
délègue à un chef de marché, ce qu'à fait Raymond
Charfolé, parce que lui il est aussi
... Directeur commercial Exactement. Moi je
l'ai pas délégué, parce que c'est vraiment dans
ma mission et Alain Capmas y a rajouté, et là
aussi c'était un manque, une représentation
commerciale. Ce n'était pas le cas auparavant.
12 lignes qu'au mois de juillet des Etats-Unis,
donc il va falloir qu'il s'installe gentiment le
pauvre et il sera efficace au plus tôt en
septembre. Quand vous dites le responsable,
c'est au niveau du labo ? Voilà. Parce que
Alain avait du vous l'expliquer je pense il y a
des laboratoires, dès qu'ils seront réunis, il y
aura quand même des gens affectés aux différents
pôles, et il y aura un responsable, il ne sera
pas dans un bureau, parce que s'il y a un
responsable pour deux chercheurs, il va chercher
aussi. Mais il sera plutôt notre . concurrents
ils sont là depuis dix ans, bille en tête, alors
que nous on change tout le temps, vous
réfléchissez par exemple à un produit de ragréage
et au bout de la deuxième réunion, il y en a un
qui dit, en 1995, au mois de septembre, c'est
exactement ce qu'on avait fait. Parce que les
gens sont loin d'être cons ils ont à peu près le
même savoir que nous mais voilà encore une
dilution, des gens qui étaient partis ailleurs,
qui sont plus là, c'est pas facile. Et ça, vous
avez l'impression que ça va un peu se stabiliser
... J'ai pas l'impression, j'en suis sûr, si
tant est qu'on ait une organisation pérenne ,
c'est ce que je dis et que par exemple la phase
de présentation des plans marketing 99 qui doit
se faire à mi-année 98 est un
7 interviews de responsables techniques,
commerciaux et administratifs
20 à 30 pages par interview 4 988
répliques Question 8 324 mots Réponses 71
501 mots
58
Exemples sur le site du Sphinx
http//www.lesphinx-developpement.fr
59
Exemple Le rêves des français
Une question ouverte
6 questions fermées pour la signalétique
994 répondants pour un échantillon
représentatif des français
60
Exemples Etudes quali sur le web
Question ouverte Les qualités du présidents
Campagne Test projectif Les différences
culturelles Interculturalité Réception des
œuvre littéraires Réception Décision de
recrutement Décision Education contre le
racisme Racisme
Write a Comment
User Comments (0)
About PowerShow.com