Title: ANALYSE DES DONNEES TEXTUELLES
1ANALYSE DES DONNEES TEXTUELLES
Analyse des données textuelles. De lanalyse de
contenu à lanalyse lexicale
2Situations et problématiques
- Revue de la littérature
- Recherches exploratoires
- Exploration préalable à une étude quantitative
- Contrôle qualitatif sur les enquêtes fermées
- Contrôle rédactionnel
- Questionnaires ouverts
- Interviews non directives
- Bases documentaires
- Ecrits, rapports.
- Courriers documents transactionnels
Voir des exemples en fin de diaporama
3Questionnaires un contexte structuré
Questions ouvertes
Questions fermées
4Les questions ouvertes
- Questions Autres précisez
- Suggestions ou compléments suite à une questions
fermées - Question ouvertes introductives
- Associations de mots
- Le sens de la réponse est fixé par celui de la
question - Les possibilité d expressions sont limitées par
un cadre contraint - On contrôle les effets de la fermeture
- On ouvre sur d autres conjectures
5Des textes plutôt pauvres et bien situés
- Le sens de la réponse
- est défini par celui de la question
Texte
Contexte
6Interviews non directifs, entretiens de groupe
- Entretiens individuels avec relance par
reformulation. - Entretiens collectifs avec prise de parole
libre. - La démarche est exploratoire laisser de la
liberté à la conversation
- L interview est structuré par les tours de
paroles. - Les interventions sont plus ou moins riches et
abondantes. - Un fil directeur peut structurer l ensemble.
7Prise de paroles et liberté de la conversation
8Le monologue ou le récit
L absence de structuration enfouit le sens dans
le texte
9Recherches documentaires et bibliographies
- Des corpus plus ou moins fragmentés et structurés
- Fragmentation marquée par la répétition.Structur
ation marquée par la composition rubriques,
parties donnent une indication sur le sens du
texte - Linéarité textuelle
- Organisation implicite
- Bases de données bibliographiques (Doc thèse,
Electre) - Collection de documents structurés (coupures de
presse, annonces, messageries, pages html) - Rapports
- Textes libres, discours
10La complexité des données textuelles
- Différents type de corpus
- Complexité de nature
- Complexité d'organisation
- Complexité des éléments
- Complexité et double langage
11Corpus et texte
Le corpus est lensemble des données dont on veut
prendre connaissance
En dernière analyse, lanalyse dun corpus
conduit toujours à celle dun texte monobloc
définit par la structuration du corpus
12Complexité de nature
Signifié
Signifiant
(Pierce)
(Saussure)
Le double mouvement de la langue selon Ricoeur
"l'un sépare le signe de la chose et le
rapporte à d'autres signes dans la cloture du
système linguistique, l'autre qui applique le
signe à la réalité, le rapporte au monde et ainsi
ne cesse de compenser le mouvement de la
différence par celui de la référence".
13Complexité d organisation
Le langage est formé déléments au sens instable
et relatif
- Synonymie et polysémie
- nous avions vu des avions et des aéroplanes
- Mots, phrases, discours le sens se forme dans
l organisation des mots entre eux - mots les sens du lexique
- phrases les contraintes de la syntaxe
- discours les effets du contexte et de la
rhétorique - Le pilote ferme la porte
- (ferme-t-il la porte, ou porte-t-il fermement
lhotesse de lair ? Seul le contexte permet de
le dire !)
14Complexité des éléments
Des lettres (les caractères) aux lettres (la
littérature) il faut passer par bien des mots !
- Formes graphiques chaîne de caractères sans
séparateur avfrds, pomme, terre - Mot forme graphique signifiante pomme, terre
- Mot composés, locution suite de formes
graphique assimilable à un mot pomme_de_terre,
a_peu_près - Expression suite de mots revenant fréquemment
dans lusage et faisant sens de temps en temps,
juste à temps
15Double articulation et ambiguité
- Enoncé le contenu du message ou sens de surface
- Enonciation le comportement ou sens caché
- Ambiguité du langage et niveau de lecture
Le sens de surface est le même il faudra compter
avec au moins 2 invités. Lénociation indique que
Paul sera un convive plus enjoué que Pierre.
Celui ci redouble le négation pour dire oui !
16Les stratégies danalyse
- Restituer le texte pour lecture Verbatim
- Lire et interpréter le texte pour codification
Analyse de contenu - Réduire le texte pour accélérer la lecture
Approximation lexicale - Coder ou mesurer le texte pour révéler ses
structures cachées Lexicométrie
17Lire et interpréter
- Lectures et commentaires
- Extraits et citations
- Simplicité
- ..... mais subjectivité
Texte
Connaissance
Du commentaire composé à la technique de la
citation, les classes de lycée
18Faire du verbatim, sélectionner des extraits
Texte
Contexte
- Restituer le texte
- Extraire selon le contexte
- qui dit quoi ?
- Extraire selon le contenu avec quels mots
Extraits, verbatim
19Exemple dextrait dune base bibliographique
On sintéresse aux recherches sur le consommateur
et aux universités où elles se déroulent
PARIS_9 n 44 APPLICATION DU MARKETING ET
COMPORTEMENT DU CONSOMMATEUR DANS DES
ENVIRONNEMENTS SPECIFIQUES. PRAS (BERNARD)
1993 n 181 UNE ETUDE EMPIRIQUE DES EFFETS DE
LA PERSONNALITE ET DES STYLES COGNITIFS SUR
L'IMPLICATION DU CONSOMMATEUR ET SUR SES
MANIFESTATIONS. PINSON (CHRISTIAN)
1992 ... PARIS_1 n 353 CONTRIBUTION A
L'ETUDE DES LIAISONS ENTRE L'IMPLICATION DU
CONSOMMATEUR ET SON ACTIVITE DE RECHERCHE
D'INFORMATION PREALABLE A L'ACTE D'ACHAT .
GREGORY (PIERRE) 1990 n 685 LES SERVICES DE
LA DISTRIBUTION DU MEUBLE ET LE COMPORTEMENT DU
CONSOMMATEUR. NGUYEN HUU CHAU 1987 n 751
L'INFLUENCE DE LA MARQUE SUR LE COMPORTEMENT DU
CONSOMMATEUR. LASSEGUE (PIERRE)
1986 GRENOBLE_2 n1043 LE COMPORTEMENT DU
CONSOMMATEUR D'ENERGIE DOMESTIQUE. JOLIBERT
(ALAIN) 1983 n1192 UNE APPROCHE
INTERPRETATIVE A L'ETUDE DU COMPORTEMENT DU
CONSOMMATEUR. JOLIBERT (ALAIN) 1982 n1316
VALEURS RELATIVES DES ELEMENTS D'INFORMATION DANS
LE PROCESSUS D'EVALUATION DES PRODUITS PAR LE
CONSOMMATEUR UN MODELE CONCEPTUEL ET
VERIFICATIONS EMPIRIQUES. JOLIBERT (ALAIN)
1982 .
Sélection consommateur
Structuration Trié par université
20Analyse de contenu
- Lire et découper
- Construire une grille thématique et la
documenter - Evaluer et comparer les thèmes
- Plus objectif, ... mais lourd et fastidieux
21Exemple danalyse de contenu
22Approximation lexicale les principes
Remplacer la lecture du texte par celle de ses
subsituts lexicaux
- Du corpus au lexique réduire l'effort de
lecture - Du sens de surface, aux actes de langage
- Une nouvelle lecture
Texte, corpus
Lexique
23Les fondements épistémologiques
- Parmi leurs nombreux apports
- Les actes de langages
- Les modèles cognitifs
24Actes de langage, les facteurs de lénonciation
- L'acte de langage (Searl, Austin...)
- Etudier l'énonciation comme processus de décision
la langue quon parle
mot, acte de langage
les objets du monde
les habitudes sociales
la variété individuelle
25Modèles mentaux, la structure des lénoncés
- Nos modèles mentaux
- Structurent nos énoncés
- ... qui portent la trace de ces modèles
26Les énoncés de quoi sagît-il ?
- Découvrir les mots clé
- Mettre à jour les convergences thématiques
27Approcher les énoncés par le lexique
- Découvrir les mots clés Lexique brut, mots
outils et lexique réduit. (mots outils sans
signification particulière articles, pronoms..
) - Soulever les ambiguités Lexique lemmatisé.
(lemme forme racine dun mot masculin
singulier pour un nom ou un adjectif, infinitif
pour un verbe) - Concentrer lattention lexique catégorisé les
noms, les verbes les adjectifs. (les noms
décrivent les objets du monde, les verbes les
actions et les adjectifs les évaluations) - Repérer les rigidités du langage les segments
répétés (les formules toutes faites, la langue de
bois.) - Agréger en champs sémantiques les dictionnaires
thématiques (on réduit encore la variété lexicale
pour parvenir au niveau des concepts habitation
villamaison logement domicile)
28Exemple de lexiques si vous gagnez au loto
Si vous gagniez au loto que feriez vous (990
réponses) ?
10 mots couvrent 31 du corpus
29Si vous gagnez au loto lexiques catégorisés
Verbes acheter 350 placer 195 donner
187 voyager 148 aider 122 partir 91
travailler 91 profiter 81 investir
76 changer 63
Noms maison 354 voyage 310 enfant 259
voiture 194 argent 118 famille 117
monde 81 don 75 vacance 79
placement 71
Adjectifs beau 72 petit 41
humanitaire 32 grand 29 bon 26
immobilier 19 tout 13 nouvel 12
personnel 11 gros 8
30Concordances et associations lexicales
- Mettre en évidence les variations sémantiques en
examinant le contexte des mots lexiques
relatifs. - Mettre à jour les réseaux sémantiques et modèles
mentaux AFC et cartes cognitives.
31Variations sémantiques le texte en contexte
32Les thématiques dun discours de réforme
Discours du Premier Ministre 199(analyse
factorielle des correspodances sur le haut du
lexique lemmatisé et réduit.
retraite
Axe 2 (9.7)
épargne
baisse_des_impôt
ministre
parlement
proposer
venir
donner
créer
faire
parler
aller
raison
vouloir
réforme
pays
baisser
salarié
baisse
travailler
travail
taux
impôt_sur_le_revenu
Axe 1 (11.2)
mettre
année
cinq
cotisation
an
revenu_du_capital
sécurité_social
payer
revenu
impôt
famille
exemple
Csg
franc
vivre
salaire
enfant
deux
gagner
33L énonciation comment parle-t-on ?
- Caractériser lexpression
- volume,
- richesse,
- complexité
- Caractériser la communication et le style
- modalisation
- embrayage..
34Focus groupe mesures dénonciation
Focus groupe sur les marques 9
participantes Corpus 21 565 formes Lexique
2 067 Répétition 10,43
35Analyse de discours et communication
Discours du Premier Ministre 1995
Dynamique du discours. Le texte a été découpé en
5 parties de taille égale. Une AFC montre quil
se développe conformément aux règles de la
réthorique La dernière partie revient sur les
thèmes présentés en premier lieu, après
développement consacré aux différents points du
discours
Elocution et communication Les phrases sont plus
courtes en début et fin de discours, le recours
aux chiffres croit régulièrement sans jamais être
abandonné. Lusage du je marque lengagement du
début et de la fin, ladresse se fait au vous
de laudience qui disparaît avec lavancée du
disours !
36Analyse contingente qui dit quoi?
- Analyse des énoncés spécialisation thématique.
- Analyse de l énonciation distinction
stylistique. - Par rapport à lidentité du locuteur qui dit
quoi ? - Par rapport à dautres données de contexte dans
quelles circonstances, pourquoi ?
37Qui dit quoi ?
Si vous gagniez au loto que feriez vous (990
réponses) ?
... dans leur contexte
LAFC montre des différences significatives selon
lâge dans lusage des ségments répétés.
38Les cartes perceptuelles le loto
Les associations lexicales révèlent les thèmes
présents dans les réponses
39Les problématiques de l analyse contingente
40Du texte à la mesure, du quali. au quanti.
Le texte est pris comme objet dobservation pour
mesurer des comportement ou opinions dont il
porte la trace .
- Par exemple
- la longueur d une réponse est prise comme
indicateur de l intérêt porté à l objet de la
question. - la propension à utiliser le vocabulaire de la
sécurité est un indicateur de l importance
accordée à la sécurité.
On peut ainsi à partir de données textuelles
construire des données analogues à celles
recueillies par le truchement déchelles
d opinion.
41Codification et mesures lexicales
- Coder automatiquement le texte en fonction des
mots utilisés - Mesurer l'énonciation longueur, richesse,
banalité - Evaluer les contenus par la mesure d'intensités
lexicales
Variables nominales
Variables numériques
42Exemple la communication interne
- Insatisfactions
- Propositions
- Indicateur d'engagement proactif lg
(proposition) / lg (insatisfaction)
Diagnostic
Proposition
Engagement
CATEGORIE
Lg.
Lg.
Ouvrier
60,52
33,04
0,86
Cadre
45,24
22,67
0,72
Maîtrise
61,07
26,15
0,60
Employé
57,18
27,35
0,53
ENSEMBLE
56,65
27,61
0,68
La longueur des réponses donne une indication des
insatisfactions (quest ce qui ne va pas dans
lentreprise ?) et de la capacité à sengager
(quelles propositions feriez vous ?) Le rapport
(col.3) entre ces 2 mesures (col.2/col.1), montre
que pour promouvoir le changement il faut mieux
sappuyer sur les ouvriers et et les cadres.
Néanmoins quelque soit la catégorie les réponses
sont plus longues pour critiquer que pour
proposer.
43Le retour au texte
44Navigation lexicale
45Verbatim sélectif
- Rechercher les mots spécifiques selon le
contexte - Phrases caractéristiques
- ....et résumés
46Les logiciels
- LE SPHINX LEXICA
- SPAD T
- ALCESTE
- TROPES, NUDIST.....
47Pour maîtriser Sphinx Lexica
Télécharger le mode opératoire de
Lexica Télécharger le manuel
Consulter les exemples sur le site
- Le rêve des français
- Présidentielles 1995
- Présidentielles 2002
Utiliser les données présentent dans le dossier
Enquêtes du répertoire où le logiciel est
installé. Voir Loto et dans le dossier Exemples
voir Analyse de discours
48Mettre en œuvre les étapes
- Découpages et annotations
- Réduction de la variété lexicale
- Recherche de classes thématiques fondées sur les
cooccurences - Mise en évidence des spécificité lexicales selon
les éléments de contexte - Modélisation du corpus du textes aux dimensions
dintensité lexicales.
49Du corpus à la base de données découpage
annotations et balises
- Séparateurs fragmenter le texte
- niveau 1 t paragraphe
- niveau 2 .?! phrases
- ......
- Annotations créer des variables de contexte
- jalons tous les fragments jusquau prochain
jalon - marques le fragment concerné
- mots clés codés
- Balises utiliser les indications (balises)
présentent dans le texte - Question, réponse pour les interviews non
directives - Nom de lintervenant pour les tables rondes
- Rubrique pour une base de données bibliographique
50Réduction de la variété lexicale
- Lemmatiser, réduire et créer un nouveau corpus
- Identifier les catégories grammaticales
- Rechercher les segments répétés, les lier et
créer nouveau texte - Appliquer des dictionnaire ou un thésaurus
51Recherche de classes thématiques
- Sélectionner les éléments pertinents du lexique
réduit et catégorisé - Effectuer une AFC multiple les zones de la
carte indiquent les thèmes du discours - Construire la typologie classant les fragments
selon les zones thématiques de la carte - Produire le verbatim caractéristique des thèmes
52Caractériser le contexte - spécificités lexicales
- Sélectionner les éléments pertinents du lexique
réduit et catégorisé - Rechercher parmis ces éléments ceux qui sont
spécifiques des catégories de contexte étudiées
(surreprésentés dans ces catégories) - Produire la carte de zones de langage de chaque
catégorie - Illustrer avec les phrases caractéristiques de
chaque contexte
53Exemple questions ouvertes
54Exemple questionnaire ouvert
Image du sport et image de marque (Etude sur le
sponsoring)
1. Citez les 5 évènements sportifs qui vous ont
le plus marqué au cours de l'année 1992. 2. Pour
vous suivre un évènement sportif
c'est....Compléter en citant les mots qui vous
viennent spontanément à l'esprit. 3. Si on vous
dit sportif, quels noms de grands sportifs vous
viennent spontanément à l'esprit 4. Citez 5
verbes qui selon vous expriment le mieux l'action
des grands sportifs 6. Citez les 5 adjectifs qui
vous viennent à l'esprit pour qualifier les
sportifs de haut niveau. 7. Citez 5 marques qui
dans votre esprit riment avec Sport 8. A votre
connaissance quelles sont les marques qui
pratiquent le plus le sponsoring sportif. 9.
Citez les 5 adjectifs qui caractérisent le mieux
les marques que vous venez de citer.
55Exemple recueil de pharses témoins
La communication interne
1. Sexe 1- Homme 2- Femme 2. Age 2-
Moins 30 ans 2- 30 à 50 ans 3- Plus
de 50 ans 3. Catégorie 1- Employé 2-
Ouvrier 3- Cadre 4- Maîtrise 4. Considérez
vous que l'information dans votre société est
1- Insuffisante 2 - Suffisante 5. Comment
communique-t-on à l'interne dans votre société.
Phrases témoins des dysfonctionnements 6.
Quelles propositions formuleriez vous pour
améliorer la communication interne ? Phrases
témoins des améliorations envisagées
Les réponse aux questions ouvertes ne sont pas
une transcription exacte des propos prononcés
La méthode des phrases témoins réalise un
compromis entre interview non directif et
questionnaire fermé
56Exemple Entretien de groupe
Animatrice "....Mon rôle aujourd'hui c'est
d'écouter tout ce que vous avez à dire, de vous
aider à parler le plus librement possible, de
vous proposer des méthodes, de vous proposer des
thèmes de réflexion. suivent 10 lignes
dintroduction. Euh...On va a priori terminer
vers 16h30, est-ce que ça va pour tout le monde ?
est-ce que ...." Catherine " Pas plus tard
!" Geneviève " Pas au-delà !" Animatrice "Pas
au delà. A priori ça devrait tenir, si vous
travaillez bien. .. 3lignes Catherine "Oui,
peu importe. Je m'appelle Catherine B......, je
travaille à la bibliothèque de l'I.A.E. J'ai
trente quatre ans. Ce que j'aime, là, comme ça
spontanément, ça m'est difficile à dire, donc ça
viendra peut-être dans le cours de la discussion,
mais là, comme ça, je vois pas trop." Animatrice
" Ok, est-ce qu'on tourne , ou est-ce
que.....?" Christine " Oh, on va tourner, non
?" Animatrice " Oui." Geneviève " Geneviève
C....., j'ai cinquante et un an, je suis
orthophoniste... Mes goûts, non je peux pas les
dire comme ça. On se
67 pages (times 12) 1271 paragraphes 3301
lignes 23 818 mots
Une animatrice et 8 participantes 1271 tours de
paroles
14 périodes dans la table ronde
57Exemple Interview non directif
recherche sur les processus dinnovation
Entretien avec Philippe Michielin
28/04/98 Pouvez vous me présenter la situation
telle que vous la voyez ? Les personnes qui sont
chef de marché chez nous sont tout à fait nouveau
dans cette mission là, peut-être à l'exception de
Giletta, je ne sais pas si vous l'avez vu.
Giletta avait exactement le même profil au .10
lignes facile. Donc là aujourd'hui le CDM est
dans un pôle, spécifiquement, le directeur du
pôle qui en est l'animateur, si il ne peut pas il
délègue à un chef de marché, ce qu'à fait Raymond
Charfolé, parce que lui il est aussi
... Directeur commercial Exactement. Moi je
l'ai pas délégué, parce que c'est vraiment dans
ma mission et Alain Capmas y a rajouté, et là
aussi c'était un manque, une représentation
commerciale. Ce n'était pas le cas auparavant.
12 lignes qu'au mois de juillet des Etats-Unis,
donc il va falloir qu'il s'installe gentiment le
pauvre et il sera efficace au plus tôt en
septembre. Quand vous dites le responsable,
c'est au niveau du labo ? Voilà. Parce que
Alain avait du vous l'expliquer je pense il y a
des laboratoires, dès qu'ils seront réunis, il y
aura quand même des gens affectés aux différents
pôles, et il y aura un responsable, il ne sera
pas dans un bureau, parce que s'il y a un
responsable pour deux chercheurs, il va chercher
aussi. Mais il sera plutôt notre . concurrents
ils sont là depuis dix ans, bille en tête, alors
que nous on change tout le temps, vous
réfléchissez par exemple à un produit de ragréage
et au bout de la deuxième réunion, il y en a un
qui dit, en 1995, au mois de septembre, c'est
exactement ce qu'on avait fait. Parce que les
gens sont loin d'être cons ils ont à peu près le
même savoir que nous mais voilà encore une
dilution, des gens qui étaient partis ailleurs,
qui sont plus là, c'est pas facile. Et ça, vous
avez l'impression que ça va un peu se stabiliser
... J'ai pas l'impression, j'en suis sûr, si
tant est qu'on ait une organisation pérenne ,
c'est ce que je dis et que par exemple la phase
de présentation des plans marketing 99 qui doit
se faire à mi-année 98 est un
7 interviews de responsables techniques,
commerciaux et administratifs
20 à 30 pages par interview 4 988
répliques Question 8 324 mots Réponses 71
501 mots
58Exemples sur le site du Sphinx
http//www.lesphinx-developpement.fr
59Exemple Le rêves des français
Une question ouverte
6 questions fermées pour la signalétique
994 répondants pour un échantillon
représentatif des français
60Exemples Etudes quali sur le web
Question ouverte Les qualités du présidents
Campagne Test projectif Les différences
culturelles Interculturalité Réception des
œuvre littéraires Réception Décision de
recrutement Décision Education contre le
racisme Racisme