Statistik Lektion 5 - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Statistik Lektion 5

Description:

... 4 - 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Z f ( z ) S t a n d a r d N o r m a l D i s t r i b u t i o n N r man tager stikpr ver fra den samme population og ... – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 37
Provided by: KasperKli1
Category:

less

Transcript and Presenter's Notes

Title: Statistik Lektion 5


1
StatistikLektion 5
  • Flere stikprøvefordelinger
  • Estimatore og estimater
  • Konfidensintervaller

2
Stikprøvefordeling
  • Antag at vi vil udtale os om en
    populationsparameter (fx middelværdien m) på
    baggrund af en stikprøve statistik (fx.
    stikprøve-gennemsnittet ).
  • Vores konklusion skal tage i betragtning, at
    værdien af ændrer sig for hver ny tilfældig
    stikprøve
  • Den tilfældig variation af stikprøve-statistikken
    (her gennemsnittet) betegnes stikprøve-fordelingen
    (af stikprøve-gennemsnittet)

3
Stikprøve-gennemsnittets stikprøve-fordeling
Forventede værdi
  • Lad de stokastiske variable X1, X2,,Xn være en
    tilfældig stikprøve fra en population m.
    middelværdi m og varians s2.
  • Stikprøve-gennemsnittet af disse SV er
  • Den forventede værdi og varians for
    stikprøve-gennemsnittet er

og
Hvis stikprøve er lille i forhold til population
4
Den Centrale Grænseværdi Sætning (CLT)
(Central limit theorem)
  • Lad X1, X2,, Xn, er være n uafhængige
    stokastiske variable fra samme fordeling med
    middelværdi m og varians s2. Da gælder, at når
    stikprøvestørrelsen n øges, så vil fordelingen af
  • nærme sig mere og mere en standard
    normal-fordeling.
  • Tommelfinger-regel n 30 er nok til en god
    tilnærmelse.

5
Populations og stikprøve andele
  • Populations-andelen er andelen af succeser i
    populationen
  • Stikprøve-andelen i en tilfældig stikprøve er
    andelen af succeser i stikprøven

6
Stikprøve-fordelingen af Andele
  • Hvis stikprøven er lille i forhold til
    populationen kan vi antage at antallet er
    succeser er binomialt med sandsynlighedsparameter
    p og antals parameter n
  • Eksempel n 10 og p 0.40
  • Da X B(10,0.4) kan vi slå op i Tabel 3 side 848
    for den kumulerede binomialfordeling

7
Stikprøve-andel Middelværdi og Varians
  • Vi ved om binomial-fordelingen
  • Heraf følger, at middelværdien er
  • og variansen er

8
Stikprøve-fordelingen af Andele
  • Genkald, at hvis X X1Xn , hvor Xierne er
    uafhængige Bernoulli forsøg, hvor sandsynligheden
    for succes er
  • P(Xi 1) p, så gælder X B(n,p).
  • Derfor m EXi p og s2 VXi p(1- p).
  • Ifølge CLT har vi (approksimativt)
  • Approksimationen er god, hvis np(1 - p) er større
    end 9.

9
Stikprøve-fordelingen af Andele
  • Eksempel 43 af alle cand.oecon. studerende
    mener at et kursus i forretnings-etik er vigtig.
  • Vi udvælger 80 tilfældige cand.oecon studrende.
    Hvad er sandsynligheden for at mere end 50 mener
    det samme?
  • Vi har
  • Standardafvigelsen for stikprøve-andelen
  • Normalfordelings-approksimationen giver

10
?2-fordelingen ki-i-anden
  • En ?2 fordelt stokastisk variabel kan ikke være
    negativ, så den er begrænset af 0 til venstre.
  • Fordelingen er højreskæv.
  • En ?2 fordeling er specificeret ved antallet af
    frihedsgrader.
  • Notation En stokastisk variabel Y, der følger en
    ?2 fordeling med n frihedsgrader angives som

C
h
i
-
S
q
u
a
r
e

D
i
s
t
r
i
b
u
t
i
o
n


d
f

1
0
,

d
f

3
0
,

d
f

5
0
0
.
1
0
df 10
0
.
0
9
0
.
0
8
0
.
0
7
0
.
0
6
)
df 30
?
2
5
0
.
0
(
f
0
.
0
4
df 50
0
.
0
3
0
.
0
2
0
.
0
1
0
.
0
0
1
0
0
5
0
0
?
2
  • ?2-fordelingen nærmer sig en normal-fordelingen,
    når antallet af frihedsgrader vokser.

11
Mere om ?2 fordelingen
ny
  • Hvis Y er c2 -fordelt med n frihedsgrader
  • Lad X1, X2,, Xn være uafhængige, standard
    normalfordelte stokastiske variable. Definer
  • Da gælder

12
Stikprøvevariansen og dens fordeling
  • Stikprøve-variansen for en tilfældig stikprøve er
  • Generelt gælder
  • Hvis populationen er normalfordelt gælder

13
Estimator og estimat
En populations parameter er et numerisk mål for
en opsummerende karakteristik af populationen.
  • En stikprøve statistik er et numerisk mål
    for en opsummerende karakteristik af stikprøven.

fx
fx
  • En estimator af en populations parameter er en
    stikprøve statistik, der bruges til at estimere
    populations parameteren.
  • Et estimat af en parameter er en bestemt numerisk
    værdi af en stikprøve statistik.
  • Et punkt-estimat er en enkelt værdi, der bruges
    som et estimat for en populations parameter.
  • Et interval-estimat er et interval, der bruges
    som et estimat for en populations parameter.

Eksempel er en estimator for . er
et (punkt) estimat af .
14
Estimatore Egenskaber
  • Lad q være en generel populations-parameter, fx m
  • Lad være en estimator for q, fx.
  • Vi vil se på tre ønskelige egenskaber for
    estimatore
  • Central
  • Konsistent
  • Effektiv

15
Central og ikke-central estimator
  • Definiton Hvis en estimator opfylder
    er den central (unbiased).
  • Definiton

Bias
En central estimator rammer i gennemsnit plet.
En ikke-central (biased) estimator rammer i
gennemsnit ikke plet.
16
Effektiv Estimator
  • Definiton Antag at og er to centrale
    estimatore. Hvis Var( ) lt Var( ), så siger
    vi at er en mere effektiv estimator end .

En in effektiv estimator er i gennemsnit længere
fra at ramme plet.
En effektiv estimator er i gennemsnit tættere på
at ramme plet.
17
Konsistent
  • En estimator er konsistent hvis sandsynligheden
    for at ligge tæt på den parameter, den estimerer,
    stiger, når størrelsen på stikprøven stiger.

18
Konfidensintervaller
  • Konfidensintervaller generelt
  • Konfidensintervaller for middelværdi

19
Konfidens-intervaller
  • Et punkt-estimat estimerer værdien af en ukendt
    populations parameter ved en enkelt værdi.
  • Fx Middelhøjden blandt oecon studernde
    .
  • Et konfidens interval er et interval, der
    estimerer værdien af en ukendt populations
    parameter. Kaldes også et interval estimat.
    Sammen med intervallet gives et mål for, hvor
    sikker man er på, at den sande populations
    parameter ligger i intervallet. Dette mål kaldes
    for konfidens niveauet.
  • Et punkt estimat indeholder ikke meget
    information om den faktiske værdi af µ fx hvor
    sikkert er vores punkt estimat?
  • Et interval estimat indeholder flere
    informationer, for eksempel
  • Vi er 95 sikre på, at intervallet 164,8
    180,7 indeholde den sande middelværdi µ.
  • Eller vi er 90 sikre på, at intervallet 166,1
    179,3 indeholder den sande middelværdi µ.

20
Konfidensinterval for middelværdien - når X er
normal-fordelt eller stikprøven er stor
  • Da gælder følgende
  • En 95 konfidensinterval for middelværdi

Bemærk at estimatoren er er ersattet med
estimatet .
21
Mellemregninger.
0,95
0,025
0,025
22
Konfidens-interval for middelværdi
Approksimativt 95 af stikprøve middelværdierne
kan forventes at falde indenfor intervallet
Omvendt, cirka 2.5
kan forventes at være under og
2.5 kan forventes at være over
. Så 5 kan forventes at være
udenfor intervallet. .
23
Konfidens-interval for middelværdi
S
a
m
p
l
i
n
g

D
i
s
t
r
i
b
u
t
i
o
n

o
f

t
h
e

M
e
a
n
Approksimativt 95 af intervallerne
omring stikprøve middelværdien kan forventes at
indeholde den faktiske værdi af populations
middelværdien, ?. 5 af sådanne intervaller
omkring stikprøve middelværdien kan forventes
ikke at inkludere den faktiske værdi af
populations middelværdien.
0
.
4
95
0
.
3
0
.
2
0
.
1
2.5
2.5
0
.
0
?


x??????
x??????
24
Et (1-a )100 konfidens-interval for m
Vi definerer som den z-værdi, hvor
sandsynligheden for at Z er højere end denne
værdi, er . Kaldes også fraktilen eller
den kritiske værdi. (1-a)100 kaldes
konfidens-niveauet.
fordeling
æ
ö
S
t
a
n
d
a
r
d

N
o
r
m
a
l

a/2
gt

P
Z
z
ç

è
ø
a
0
.
4
2
æ
ö
a/2
lt
-

P
Z
z
ç

0
.
3
è
ø
a
2
)
æ
ö
z
(
0
.
2
f
-
lt
lt

-
a
P
z
Z
z
ç

1
(
)
è
ø
a
a
2
2
0
.
1
(1-a)
100 konfidens
int
erval
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
25
Kritiske værdier for z og konfidens-niveauer
S
t
a
n
d
a
r
d

N
o
r
m
a
l

D
i
s
t
r
i
b
u
t
i
o
n
0
.
4
0
.
3
)
z
(
0
.
2
f
0
.
1
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
Bemærk
26
Eksempel
  • Spørgsmål Antag (1-a) 80. Find za/2
  • Løsning a 0.20 og a/2 0.10 Vi ved F(za/2)
    1-0.1 0.90.
  • Dvs. za/2 1.28

27
Konfidens niveau og bredden af konfidens-intervall
et
Når man tager stikprøver fra den samme population
og bruger den samme stikprøve størrelse, så jo
højere et konfidens-niveau, jo bredere et
konfidens-interval.
S
t
a
n
d
a
r
d

N
o
r
m
a
l

D
i
s
t
r
i
b
u
t
i
o
n
S
t
a
n
d
a
r
d

N
o
r
m
a
l

D
i
s
t
r
i
b
u
t
i
o
n
0
.
4
0
.
4
0
.
3
0
.
3
)
)
z
z
(
(
0
.
2
0
.
2
f
f
0
.
1
0
.
1
0
.
0
0
.
0
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
5
4
3
2
1
0
-
1
-
2
-
3
-
4
-
5
Z
Z
28
Stikprøvestørrelsen og bredden af
konfidens-intervallet
Når man tager stikprøver fra den samme population
og bruger det samme konfidens niveau, så jo
større stikprøvestørrelse, n, jo smallere et
konfidens interval.
29
Eksempel på tavlen
30
Students t fordeling
  • Antag populationen er normalfordelt med
    middelværdi m og varians s2.
  • Gammel viden Hvis vi kender variansen s2, så kan
    vi bruge
  • Ny viden Hvis vi ikke kender variansen s2, så
    kan vi erstatte s2 med stikprøve-variansen s2
  • følger en t-fordeling med n-1 frihedsgrader.

31
Students t fordeling
  • t fordelingen er klokkeformet og symmetrisk og
    defineret ved antal frihedsgrader (df).
  • Middelværdien er altid lig 0.
  • Variansen af t er større end 1, men går mod 1,
    når antallet af frihedsgrader vokser.

Standard normal
t, df20
t, df10
? ?
  • t fordelingen er fladere og har tykkere haler
    en standard normal fordelingen.
  • t fordelingen går mod standard normal fordelingen
    nå antallet af frihedsgrader vokser.

32
Konfidens interval for ? når ? er ukendt -
t fordelingen
Et (1-a)100 konfidens interval for m når s er
ukendt (og man antager en normalfordelt
population) hvor er værdien i t
fordelingen med n-1 frihedsgraders, hvor
sandsynligheden for at t er højere end denne
værdi, er
33
Tabel for t-fordelingen
a/2
ta/2
For store frihedsgrader kan t fordelingen
approksimeres ved en standard normal fordeling.
34
Eksempel
En aktie analytiker vil estimere den
gennemsnitlige gevinst på en bestemt aktie. En
stikprøve på 15 dage giver en gennemsnitlig
gevinst på og en standard
afvigelse på s 3.5. Antag en normal
population og giv et 95 konfidens interval for
den gennemsnitlige gevinst på denne aktie.
Den kritiske værdi af t for df (n -1) (15 -1)
14 og et højre halet areal på a/2 0.025
er Konfidens intervallet er
df t0.100 t0.050 t0.025 t0.010
t0.005 --- ----- ----- ------ ------ ------
1 3.078 6.314 12.706 31.821 63.657 . . .
. . . . . . . . .
. . . . . . 13 1.350 1.771 2.160 2
.650 3.012 14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947 . . . .
. . . . . . . . . .
. . . .
35
R Commander
  • Man kan slå ta/2 op i R Commander
  • Distributions ? Continuous distributions ? t
    distribution ? t quantiles
  • Indsæt værdien af a/2 i Probabilities
  • Indsæt antal frihedsgrader i Degrees of freedom
  • Vælg Upper tail
  • Resultat

36
Konfidensintervaller for Middelværdien i R
Commander
  • R Commander har kun en indbygget funktion til at
    beregne konfidensintervallet for m under
    antagelse af ukendt varians
  • Statistics ? Means ? Single-sample t-test
  • Derefter skal i vælge den variabel I vil finde
    konfidens-interval for samt på hvilket
    konfidens-niveau.
  • Eksempel 95 konfidens interval for højde i
    Sundby95
Write a Comment
User Comments (0)
About PowerShow.com