Analyse et collecte des donn - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse et collecte des donn

Description:

Analyse et collecte des donn es – PowerPoint PPT presentation

Number of Views:95
Avg rating:3.0/5.0
Slides: 61
Provided by: Cler153
Category:

less

Transcript and Presenter's Notes

Title: Analyse et collecte des donn


1
  • Analyse et collecte des données

2
Modélisation des éléments aléatoires dun système
La cueillette et l'analyse de données est une
étape cruciale dans la construction d'un modèle
de simulation.
À partir des données recueillies, nous devons
caractériser les éléments aléatoires d'un système
(lois de probabilité, paramètres de ces lois).
Jusqu'à maintenant, ces lois étaient supposées
connues. En pratique, il faut les estimer à
partir de données statistiques.
Deux types d'estimation A) Paramétrique On
choisit une famille de lois de probabilité et
on estime les paramètres de cette loi.
3
Modélisation des éléments aléatoires dun système
B) Non-paramétrique On utilise les données pour
construire une fonction de répartition empirique
F (x) Proportion des valeurs qui sont
x. C'est cette fonction qui est utilisée
directement.

4
Avantages de lapproche paramétrique
Les fonctions de densité et de répartition
s'expriment souvent sous forme analytique. On
dispose de fonctions analytiques pour
caractériser les paramètres de ces lois de
probabilité. On dispose de procédures toutes
faites pour générer des valeurs aléatoires selon
ces lois. On peut avoir des raisons théoriques
(physiques) de croire qu'une v.a. devrait suivre
une loi spécifique.
5
Inconvénients de lapproche paramétrique
Il est très difficile, souvent impossible, de
choisir le bon type de loi. Rien ne nous
garantit que le choix que l'on a fait est le
bon. Lors de l'ajustement de la courbe, il y a
souvent perte ou distorsion d'informations. L'est
imation des paramètres n'est pas toujours facile
et robuste. La génération de valeurs
pseudo-aléatoires à partir d'une loi théorique
n'est pas toujours facile.
6
Familles de lois de probabilité
Une famille de lois est définie par un type de
fonction de masse ou de densité, dans lequel il y
a des paramètres. Exemple X N (µ, s2) fX(x)
1    e -(x-µ)2 / s2 s ?2? "µ et s, on a
une loi normale particulière.
On distingue 3 types de paramètres
A) Paramètre de localisation correspond à
déplacer l'origine sur l'axe des x. B) Paramètre
d'échelle correspond à changer l'échelle sur
l'axe des x sans modifier la courbe. C) Paramètre
de forme détermine la forme de la fonction ?
changement plus profond.
7
Familles de lois de probabilité
2 v.a. X et Y se distinguent seulement par leurs
paramètres de localisation et d'échelle ? l'une
est fonction affine de l'autre Y ? b X où ?,
b sont des constantes. En ayant 2 lois de forme
équivalente, on peut facilement passer de l'une à
l'autre. Exemple X N (µ ,
s2) paramètre de localisation paramètre
d'échelle ? Y X - µ N (0,1) s
Lorsque X et Y ont des paramètres de forme
différents, leur différence est
plus fondamentale. ? On ne peut plus passer de
l'une à l'autre par une simple transformation
affine.
8
Exemple Loi de WEIBULL
f (x) ????x???e-(x/?)? x gt 0 0 sinon
a  paramètre de forme b  paramètre d'échelle a
1 ? loi exponentielle (c.v. 1) alt 1 ? taux de
panne ? (c.v. gt 1) a gt 1 ? taux de panne ? (c.v.
lt 1)
? 3
? 2
? 1
? 1/2
9
Exemple Loi de WEIBULL
Note On peut ajouter un paramètre de
localisation. ? Il suffit de remplacer x par
x-d dans f(x) f (x) a b-a (x - d)a-1 e-((x
- d) / b)a , x gt d.
10
Choix dune loi
Exploration graphique Visualiser les données
graphiquement pour tenter d'inférer
subjectivement la loi suivie. Diagramme à bandes
(cas discret) Pour chaque valeur xi, on donne le
nombre de fois qu'on a obtenu xi.
11
Choix dune loi
Histogramme
- Estimation graphique de la fonction de
densité. - Peut permettre de reconnaître une
loi. On divise les données en un nombre fini de
classes (divise l'abscisse en segments). Au
dessus de chaque segment, on trace un rectangle
dont la surface est proportionnelle à la
fréquence de la classe. Choix des classes très
subjectif.
12
Choix dune loi
Histogramme
Histogrammes (pour des temps inter-arrivées)
voir sur acétate
13
Choix dune loiGraphiques de probabilité
On peut tracer la fonction de répartition
empirique F(x) proportion des valeurs qui
sont x et comparer son allure avec celle de
lois standard.


F(x)
14
Choix dune loiGraphiques de probabilité
?
On peut aussi ne tracer que des points () (xi,
F(xi)) aux endroits de sauts. xi iième valeur
observée (la iième plus petite) F(xi) (i -
1/2)/n où n nombre de valeurs. Pour
faciliter les comparaisons, on peut transformer
l'échelle sur l'axe des Y. Pour comparer F avec
une fonction de répartition F, on trace les
points (xi, F-1(F(xi))) et on regarde si les
points sont alignés.
?
?
?
?
En effet, si F équivaut à F, ces points devraient
se situer sur la droite Y X.
De plus, si les deux fonctions de répartition ne
diffèrent que par leurs paramètres
de localisation et d'échelle, on devrait aussi
obtenir des points à peu près alignés. F(x) _at_ F
((x-a)/b) ? F-1 (F(x)) _at_ (x-a)/b ? (xi,
F-1(F(xi))) _at_ (xi, (xi-a)/b)
?
?
?
15
Exemple
Pour voir si des valeurs suivent à peu près une
loi normale quelconque, on trace les points
(xi, F-1( (i - 0.5)/n)) où F est la fonction
de répartition d'une N(0,1). Il se vend même du
papier spécial qui fait automatiquement la
transformation. Il suffit de placer les points
(i, xi). ? "Normal Probability Paper".
Voir acétate
16
Tests dhypothèseA) test dindépendance entre 2
mesures
But Tester des hypothèses concernant les
propriétés statistiques d'un phénomène.
Ces tests sont non-paramétriques puisqu'aucune
hypothèse n'est faite sur la loi de probabilité.
A) Test d'indépendance entre 2 mesures. - Lorsqu'o
n construit un modèle de simulation, plusieurs
données sont recueillies - Considérons 2 mesures
A et B, l'hypothèse d'indépendance est
H0  la mesure A est indépendante de celle de
B. H1  les mesures A et B ne sont pas
indépendantes. Ex Dans un modèle d'inventaire,
nous voulons savoir si le nombre quotidien de
commandes est indépendant de la journée de la
semaine.
17
Tests dhypothèseA) test dindépendance entre 2
mesures
Nous considérons un test Chi carré basé sur une
table de contingence
où Oij d'éléments observés avec A dans i
et B dans l'intervalle j. nA intervalles pour
la mesure A, nB intervalles pour la mesure B, Ni.
somme des éléments de la ligne i, N.j somme
des éléments de la colonne j, N Total des
observations.
18
Tests dhypothèseA) test dindépendance entre 2
mesures
Sachant que Ni. / N est un estimateur de
P(Ai) Prob (une observation soit faite dans
la catégorie Ai), N.j / N est un estimateur de
P(Bj) Prob (une observation soit faite dans
la catégorie Bj), A et B sont indépendantes ? P
(Ai Bj) P(Ai) P(Bj) lequel peut être estimé
par (Ni. / N) (N.j / N ) .  eij nombre moyen
d'éléments se trouvant dans Ai et Bj.
19
Tests dhypothèseA) test dindépendance entre 2
mesures
Si Ho est vrai, eij P (Ai Bj) N Ni. N.j / N,
eij gt 5 et      ?i1, 2, , nA ?j1, 2, ,
nB(0ij - eij)2/eij _at_ Chi carré avec (nA -1) (nB
- 1) degrés de liberté. Par exemple, si   
   ?i1, 2, , nA ?j1, 2, , nB (0ij - eij)2/eij
gt c2.05,d.l. alors on rejette H0.
20
Tests dhypothèseB) test dindépendance à
l intérieur de v. a.
Soit une suite de v.a. x1, x2, ..., xn
indépendantes, alors f (xi xj) f (xi) "i ?
j. L'hypothèse est la suivante Ho f (xi xj)
f (xi) "i ? j H1 f (xi xj) ? f (xi), i ?
j En simulation, il est souvent important de
vérifier qu'une suite de v.a. sont
indépen- dantes, qu'il n'existe pas de dépendance
entre des éléments successifs.
21
Tests dhypothèseB) test dindépendance à
l intérieur de v. a.
1) Run test
On suppose qu'une v.a. peut prendre 2 valeurs
possibles, A et B. Soit n1 ? d'éléments A dans
l'échantillon, n2 ? d'éléments B dans
l'échantillon, R la somme des sous-suites de
A et de B. si Ho est vraie, E (R) 2 n1 n2
1 n1 n2 Var (R) 2 n1 n2(2 n1 n2 - n1 -
n2) (n1 n2)2 (n1 n2 - 1) si n1 n2 gt 10,
alors R _at_ N (µ, s2). Exemple AABAAABBAB ? R
6.
22
Tests dhypothèseB) test dindépendance à
l intérieur de v. a.
2) Généralisation du test précédent
Lorsque les valeurs possibles des v.a. ne se
ramènent pas à 2 valeurs A et B, mais plutôt à un
continuum de valeurs, le test devient
R sous-suites croissantes ou
décroissantes. Exemple 10.1, 12.2, 9.7, 6.1,
4.2, 5.9, 6.8, 5.5 ? - - - - ? R 4 Si Ho
est vrai, E R (2 n - 1)/3 et Var R (16 n
- 29)/90 Si n croît, R suit une loi normale.
23
Tests dhomogénéité
Il s'agit de vérifier si des fichiers différents
de données peuvent être considérés comme
provenant de populations identiques. Certains
tests sont spécifiques à une distribution d'autre
s sont indépendants de la distribution en jeu.
24
Tests dhomogénéitéA) Test de Kolmogorov-Smirnov
(2 échantillons)
Soit G (x) et H (x) les fonctions de répartition
empiriques de 2 populations, Test H0 G (x) H
(x) H1  G (x) ? H (x) Soit D sup G(x) -
H(x), x si D gt D0.05 1.36  ?( n1 n2)
/ n1 n2 alors on rejette Ho, (n1, n2
gt 15). Les échantillons ne proviennent pas de
distribution identique.
25
Tests dhomogénéitéB) Test du Chi carré
H0 F1(x) F2(x) ... FK(x) H1 Fi ? Fj
pour une paire i, j. Une table de contingence
est construite (N x K) Oij l'élément en
position (i, j) de cette table désignant le
nombre de données de la ie distribution
appartenant au je intervalle. i 1, 2, ...,
K j 1, 2, ..., N eij nombre moyen
d'éléments dans la catégorie i, j. Si ?i1, 2,
, K ?j1, 2, , N(Oij - eij)2/eij  gt c2.05, d.l.
alors on rejette H0. Cette statistique c2
possède (K-1) (N-1) degrés de liberté.
26
Tests dajustement
Après avoir choisi une loi et estimé ses
paramètres, on doit se demander Est-ce que
la loi choisie est vraiment en accord avec les
données observées? On veut tester l'hypothèse
Ho les données ont été générées selon la
loi de probabilité retenue. On essaiera de
trouver des indices pouvant nous faire douter de
Ho.
27
Tests dajustementA) Test du Chi-deux
Oi nombre d'observations dans l'intervalle i, i
1, 2, ..., k ei nombre moyen d'observations
dans l'intervalle i, lorsque H0 est vraie,
?i. Le test statistique est basé sur ?i1, 2,
, k(Oi - ei) 2/ei  c2k-1 - nb. paramètres
estimés
Si ?i1, 2, , k(Oi - ei) 2/ei  c20.05, d.l.
alors on rejette Ho.
28
Tests dajustementB) Test de Kolmogorov-Smirnov
Semblable au test K.-S. d'homogénéité. D Max
i/n - F(xi) "xi D- Max F(xi) -
(i-1)/n "xi D max D, D-, où F est la
distribution théorique, xi l'ensemble des
observations, n nombre de données. "n ? ??,
si D gt D0.05 alors rejet de Ho, où la valeur
critique est D0.05 1.36/?n
29
Choix dune loi en labsence de données
Certaines procédures heuristiques subjectives
sont utilisées en pratique.
Ça vaut ce que ça vaut ...
Mieux que rien lorsqu'il n'y a rien d'autre à
faire, i.e. lorsqu'il est impossible
de recueillir des données pertinentes.
Soit X une v.a. de loi inconnue, pour tenter
d'identifier la loi de X, on demande à des "
experts " leur avis on choisit en général la
forme de la distribution (à priori) et on
tente d'identifier (subjectivement) les
paramètres.
Loi uniforme U (a,b) On demande la valeur la plus
pessimiste (a) et la plus optimiste (b).
30
Choix dune loi en labsence de données
Loi triangulaire
Minimum a Maximum b Mode m
Loi normale
Moyenne ? Rayon d un intervalle de
probabilité .95 2?
Loi Bêta
Offre beaucoup de flexibilité. Minimum
a, maximum b, mode m et moyenne ?.
31
Difficultés rencontrées couramment
- Peu ou pas de données - Petit échantillon -
Données agrégées ou résumés statistiques -
Information subjective seulement - Données
provenant d'une loi autre (mais reliée à ) que
celle qui nous intéresse. - Données sur
un autre système - Données censurées (E.G. les
ventes au lieu des demandes) - Données pour une
autre période dans le temps - etc. IMPORTANT
ÉTUDE DE SENSIBILITÉ.
32
Estimation des paramètres
f (x q1,q2, ..., qk) déterminer les valeurs
des paramètres qi.
Étant donné un ensemble de données, une
distribution de probabilités,
33
A) Méthode des moments
On pose E Xi mi , i 1, 2, ..., k où mi est
un estimé du ie moment obtenu à partir des
données échantillonnées. E Xi est une fonction
des k paramètres qj, i 1, 2, ..., k. Il
s'agit de résoudre ce système de k équations à k
inconnues.
34
A) Méthode des momentsExemple
Estimation des paramètres a et b de la
distribution gamma.
On sait que E (x) a b et Var (x) a b2. On
pose a b x où x ?i1, 2, , n xi /
n a b2 s2 où s2 ?i1, 2, , n (xi - x)2/
(n - 1)

a x2 / s2 b s2 / x
?

35
B) Méthode des moindres carrés
Il sagit de résoudre le problème doptimisation
suivant Min ?i1, 2, , n (xi - E(xi ?))2
?
36
C) Méthode du maximum de vraisemblance
Il sagit de résoudre le problème doptimisation
suivant Max L ? f(x1, x2, , xn ?1, ?2, ,
?k) ?
37
C) Méthode du maximum de vraisemblanceExemple
Distribution normale (µ, s2) L 1 e-?i1, 2,
, n (xi - ?)2 / 2?2 ?n (2?)n /2 ? ln L -
0.5 n (ln 2? ln ?2) - ?i1, 2, , n (xi - ?)2/
2?2 ? ?ln L / ?? 0 ?i1, 2, , n (xi - ?) /
?2 ?ln L / ? ?2 0 (-1 / 2?2) (n ?i1, 2,
, n (xi - ?)2 / ?2) ? µ ?i1, 2, , n xi / n
(identique à la méthode des
moments) ?2 ?i1, 2, , n (xi - x)2/ n (le
facteur n est remplacé par n-1avec la
méthode des moments


38
C) Méthode du maximum de vraisemblancePropriétés
Les EMV sont habituellement -
assymptotiquement sans biais n ? ? E q
q - convergents n ? ? P (q q)
1 - invariants j h (q) ? j h (q) -
suivent assymptotiquement la loi normale n ?
? ( q - q ) N (0,1) (permet de calculer des
intervalles de confiance) ?Var(q )






39
Introduction à la théorie de léchantillonnage
Étapes du processus d'échantillonnage (planificat
ion déroulement d'une enquête) 1o) Définition
du domaine a) Population (d'une ville, d'un pays,
du monde, ...) - biens et services ?
? nourriture, loisirs, vêtements, soins
médicaux, logements, hôpitaux,
voitures, enseignement téléviseurs
40
Introduction à la théorie de léchantillonnage
1o) Définition du domaine (suite) b) travail et
production - nombre d'heures de
travail - population active - nombre de
chômeurs - production nationale
brute - salaires c) Industries (primaire,
secondaire, tertiaire) - nombre
d'employés/industrie - productivité d'une
entreprise d) Agriculture et ressources
naturelles e) Commerce (échange de biens
services, volume des ventes, stocks) f) etc.
41
Introduction à la théorie de léchantillonnage
2o) Fixer les objectifs à atteindre les
principaux paramètres ou indicateurs sont - la
population totale (ex nombre total de
chômeurs) - la moyenne (ex rendement moyen d'un
champs de maïs) - la proportion dans la
population totale, quelle est la proportion de
personnes actives - rapport ex de 1960 à 1990,
on fait les rapports suivants personnes à
Los Angeles en 19xx personnes à Washington
en 19xx 3o) Population sur laquelle portera
l'enquête
42
Introduction à la théorie de léchantillonnage
4o) La représentation de la population ex
listes, cartes, etc. 5o) Unité d'observation ex
ville, famille, personne, ... 6o) Choix de
l'échantillon - taille de l'échantillon
(précision des résultats) - procédures de
sélection - caractéristiques à estimer 7o)
L'information à recueillir (questions à poser) ex
 salaire d'un ouvrier
43
Introduction à la théorie de léchantillonnage
8o) Cueillette de l'information ex
- correspondance - téléphone - porte-à-porte 9
o) Période de référence Périodicité du phénomène
(saisonnier) 10o) Questionnaire - présentation
claire, précise - questions claires et précises,
concises - absence d'éléments de réponse dans les
questions - l'ordre des questions 11o) Entraînemen
t et surveillance des enquêteurs 12o) Examen des
réponses (les réponses sont bien répondues)
44
Introduction à la théorie de léchantillonnage
13o) Les non-réponses 14o) Analyse des
données réduire le plus possible les sources
d'erreurs 15o) Résultats de l'enquête et
conclusions
45
Échantillonnage aléatoire simple
Soit une population de N individus (U1, U2, ...,
UN), n la taille de l'échantillon, à chaque
tirage, on suppose que pour chaque individu, la
probabilité d'être échantillonné est la même
que pour tous les autres. a.r. avec remise (Nn
chemins possibles) s.r. sans remise (N(N-1) ...
(N-n1) chemins possibles). Note - différents
chemins peuvent représenter le même
échantillon. - Prob. (l'unité Uk est observée
au ie tirage) ? 1 / N
e.a.s.a.r.
46
Échantillonnage aléatoire simple
- Prob. (l'unité Ui soit observée au 1er tirage)
? 1 / N Prob. (l'unité Ui soit observée au 2e
tirage) Prob. (l'unité Ui n'est pas choisie
au 1er tirage) x Prob. (l'unité Ui est choisie
au 2e tirage l'unité Ui n'est pas choisie au
1er tirage) (N-1 / N) (1 / N - 1) ? (1 / N
) Prob. (l'unité Ui soit observée au ke tirage)
N-1 N-2 N-k1 1 ? 1 N N-1 N-k2 N-k1
N
e.a.s.s.r.
47
Estimation d une moyenne dans un e.a.s.s.r.
soit y le caractère étudié Y v.a.
représentant la valeur du caractère y associé aux
unités U1, U2, ..., UN. Y1, Y2, ...
YN y1,y2, ..., yn valeur de l'observation du
caractère y aux n tirages. yi ? Y1, Y2, ...,
YN 1 ... 1 N N Un estimateur sans biais
de la moyenne Y ?i1, 2, , N Yi / N de la
population est donné par y ?i1, 2, , n yi /
n.
48
Estimation d une moyenne dans un e.a.s.s.r.
E y ?i1, 2, , n Eyi / n Y1 Y2  
... YN Y ? sans biais N N
N y est un estimateur sans biais de la
moyenne Var y ?2 1 - (n-1)/(N-1) /
n à démontrer
? ?2 / n
ou encore,
Var y S2y 1 - n / N / n avec S2y ?i1,
2, , N (Yi - Y)2/ (N- 1)
Estimation de S2y posons s2y ?i1, 2, , n
(yi - y)2/ (n- 1) ? Es2y S2y
? (1 - n / N) s2y / n est un estimateur sans
biais de Var(y).
49
Estimation d une moyenne dans un e.a.s.a.r.
E yi  µ  "i et Cov (yi, yj) 0 (indépendance
entre les tirages) Var yi s2 "i ? E
y  µ et Var y ?2 / n ?i1, 2, , n
(yi - y)2/ (n- 1) est un estimateur sans biais de
s2.
50
Comparaison de la variance de l estimateur de la
moyenne avec ou sans remise
Var y S2y 1 - n / N / n Var y
S2y 1 - 1 / N / n
a.r.
s.r.
51
Estimation dune proportion
Une population est composée d'individus
appartenant à la classe C et à la classe C. NC
individus de la population de la classe C. Ui
possède la valeur Yi 1 Ui ?
C "i 0 autrement soit P NC / N proportion
des unités de la population appartenant à C. nc
unités d'un échantillon de taille n appartenant
à C. yi valeurs observées de Yi. ?i1, 2, , N
Yi NC NP ?i1, 2, , N Yi2 ? P ?i1, 2,
, N Yi / N ?i1, 2, , n yi nC np ?i1,
2, , N yi2
52
Estimation dune proportion
Cas sans remise
p y ?i1, 2, , n yi / n est un estimateur
sans biais de P. Var (p) (1 - n / N)  NP (1
- P) décevant car on ne connaît pas P.
n(N-1) Un estimateur de Var (p) est (1 - n
/ N)  p (1 - p) n -1
Cas avec remise
Un estimateur sans biais de Var(p) est p(1 - p) /
(n - 1).
53
Échantillonnage périodique
Procédure d'échantillonnage - N nk, k ?
N - On tire au hasard un nombre entier i entre 1
et k, 1 i k - Vous choisissez dans la
population Ui, Uik, ..., Ui(n-1)k comme
éléments. L'échantillon est obtenue. - Ui ?
Uj ? i ? j mod k - Soit Y total de la
population pour le caractère étudié ?i1, 2, , k
?j0,1, , n-1 Yij Y estimateur de Y ? k
?j0,1, , n-1 yij

54
Échantillonnage périodique

E Y k E ?j0,1, , n-1 yij total des
observations du caractère y pour le ie
échantillon. ? peut prendre les valeurs ?j
 Y1j, ?j  Y2j, ..., ?j Ykj avec les probabilités
1/k 1/k ... 1/k ? E Y k ?i1,2, , k
?j0,1, , n-1 Yij / k Y \ Y est un
estimateur sans biais de Y ou ?j0,1, , n-1 yij
/ n est un estimateur sans biais de Y Y /
N. Var (Y) k2 Var (yi.) à estimer.



55
Échantillonnage avec probabilités
proportionnelles aux tailles
Soit x superficie X1, X2, ..., XN y
caractère étudié Y1, Y2, ..., YN (production de
blé) Y ?i1, 2, , N  Yi total de la
production X ?i1, 2, , N  Xi superficie
totale
U1 ? 1, 2, ..., X1 U2 ? X1 1, X1 2, ...,
X1 X2 . . . UN ? X1 X2 ... XN-1 1,
..., X Pour sélectionner une unité, on choisit
un nombre au hasard entre 1 et X.
56
Échantillonnage avec probabilités
proportionnelles aux tailles
e.a.p.a.r.
n taille de l'échantillon y1, y2, ..., yn Yi
est observé avec la probabilité pi Xi / X yi
ie valeur observée qui peut prendre les valeurs
Y1, Y2, ..., YN avec les probabilités p1, p2,
..., pN. yi Y1, Y2, ..., YN avec les
probabilités p1, p2, ..., pN. pi p1 p2
pN E yi   ?i1, , N pi   Yi
Y (sans biais) pi pi

57
Échantillonnage stratifié
Objectifs  améliorer les estimateurs
existants Questions - Comment stratifier?
(Déterminer les critères de stratification) -
Combien de strates ? - Comment distribuer la
population totale dans l'ensemble des strates
? Soit U1, U2, ..., UN les N unités de la
population, S1, S2, ..., SL les L strates, y
le caractère étudié Nh taille de la population
de la strate Sh Th total de la strate Sh
relatif au caractère étudié
58
Échantillonnage stratifié
nh taille de l'échantillon tiré de la strate
Sh ? ?h1, , L  nh   n Yh estimateur sans
biais du total de la strate Sh ? E Yh Th. Y
?h1, , L  Yh et E Y ?h1, , L  Th
Y \  Y est un estimateur sans biais du total Y de
la population. Note Var (Y) ?h1, , L
 Var(Yh ), les Yh sont indépendants car les
strates sont déterminées avant d'échantillonner.







Il reste à déterminer la taille n de
léchantillon et à répartir cet échantillon
à travers les strates.
voir lexercice à résoudre à ce sujet.
59
Échantillonnage par grappes
Nous avons N communes (découpage géographique par
exemple). Procédures utilisées A) - On prend
un échantillon de n communes 1 grappe - On
observe toutes les unités de chacune des communes.
1 phase
B) - On prend un échantillon de n communes une
grappe - On observe un échantillon dans chaque
commune.
2 phases
60
Échantillonnage par grappes
C) - On suppose que les communes peuvent être
découpées en quartiers ou en districts
- On prend un échantillon de n communes. - On
prend un échantillon de districts/commune. - On
prend un échantillon par district.
3 phases
FIN
Write a Comment
User Comments (0)
About PowerShow.com