Regressionsanalys - PowerPoint PPT Presentation

About This Presentation

Title:

Regressionsanalys

Description:

Regressionsanalys Vi vill ha svar p fr gan hur mycket kommer y att f r ndras om x ndras med enhet. Sambandets funktionsform Till ta att andra saker n x kan ... – PowerPoint PPT presentation

Number of Views:134

Avg rating:3.0/5.0

Slides: 76

Provided by: kthi4

Category:

more less

Transcript and Presenter's Notes

Title: Regressionsanalys

1
Regressionsanalys

Vi vill ha svar på frågan hur mycket kommer y att
förändras om x ändras med enhet.
Sambandets funktionsform
Tillåta att andra saker än x kan påverka y
Fånga upp ceteris paribus samband mellan y och x.

2
Regressionsanalys

Linjärt samband mellan y och x
Error term inkluderas för att fånga upp att
andra saker än x påverkar y
Zero conditional mean antagandet möjliggör för
oss att skatta ceteris paribus effekter.

3
Härledning av parametrar

Utgår från Zero Conditional Mean antagandet

4
Sample Regression Line
y
.
y4

û4
.
y3

û3
.
y2
û2

û1

.
y1
x1
x2
x3
x4
x
5
Väntevärdesriktigt om

populationsmodellen är linjär i parametrarna y
b0 b1x u
ett slumpmässigt urval av storleken n
E(ux) 0 och således E(uixi) 0
det finns en variation i xi

6
Tolkning

Ekonomisk tolkning
?0 det förväntade värdet av y om x är lika med
noll
?1 om x ökar med en enhet så ökar y med b
enheter (mätt i samma enhet som y)

7
Precision

Säkerheten hos modellen kan bl.a. mätas med hur
stor spridningen i modellen är. Ju mindre
spridning desto bättre modell. Spridningen mäts
med variansen och standardavvikelsen.
Antar homoskedasticitet
Variansen hos a och b beror på modellens varians,
antalet observationer samt medelvärdet och
spridningen i den oberoende variabeln.

8
Precision

Standardfel hos skattningen av y

Standardfelet hos skattningarna b0 och b1

9
Modellen förklaringsgrad

Determinationskoefficienten, goodness of fit,
R-square, R2
SST Total variation i den beroende variabeln
SSE Variation som kan förklaras av modellen
SSR Oförklarad variation
TSSSSESSR
R2SSE/SST1-SSR/SST

10
Modellen förklaringsgrad

Determinationkoefficient (R2)

11
Justerat R-Squared

R2 ökar alltid ju fler variabler vi har med I
modellen
Justerat R2 tar hänsyn till detta genom att
ställa antalet oberoende variabler i relation
till antalet observationer

12
Exempel
13
Hypotestest

Kan vi dra några slutsatser angående populationen
med hjälp av urvalet?
Till vår hjälp använder vi både lägesmått
(medelvärdet) och spridning (standardavvikelsen).
Genom att skatta en teststorhet och jämför det
mot ett kritiskt värde kan vi förkasta eller
acceptera en hypotes.
Om förkastas, den oberoende variabeln har en
inverkan.

14
Hypotestest

Modell y a b1x1 b2x2
Hypotes H0 ?1 0
H1 ?1? 0
Vi antar att parametrarna har en normalfördelning
med det förväntade värdet ? och variansen ?2b,
dvs
b1 ? N(?1,?2b1)
Normalisera

15
Hypotestest

Om, ?b1 är okänd använder vi oss av skattningen
av ?b1 istället, vilket innebär att kvoten är
t-fördelad istället för normalfördelad, dvs

t är teststorheten tn-k-1 (?) är det kritiska
värdet Förkasta H0 om t gt tn-k (?)
16
Hypotestest
17
Hypotestest

Om teststorheten är större än det kritiska värdet
? förkasta nollhypotesen.
Kritiskt värde (dubbelsidigt test)
t?/2 (n-k-1)
där ? är signifikansnivån och (n-k-1) antalet
frihetsgrader. Vanligtvis använder man sig av
signifikansnivån 5 och 1.
Jmf. H0 Ej begått mord
5 chans att vi förkastar nollhypotesen att den
åtalade ej begått mord, dvs vi dömer en oskyldig
för mord.

18
Exempel
19
Funktionsform

Inte troligt att vi har ett linjärt samband
mellan y och x i den meningen att y ökar med lika
mycket oberoende hur mycket av x vi har initialt.
I tillämpade studier finner vi oftast att
variablerna är transformerade, tex att alla
kontinuerliga variabler är logaritmerade. Varför?
Vi vill att effekten skall uttryckas som en
procentuell effekt.

20
Sammanfattning av olika funktionsformer

ln(y) b0 b1ln(x) u
y ökar med b1 procent om x ökar med 1 procent
ln(y) b0 b1x u
y ökar med (100b1) procent om x ökar med 1
enhet
y b0 b1ln(x) u
y ökar med (b1/100) enheter om x ökar med 1
procent.

21
Exempel ln(pris)
22
Dummyvariabel

En binär variabel som indikerar om en viss
enskild observation (objekt) har en viss egenskap
eller ej.
Om koefficientskattningen är signifikant skild
från noll så innebär det att regressionsmodellen
skiftar
Går att kombinera dummyvariabeln med
kontinuerliga variabler.

23
Dummy variabel som oberoende variabel

Antag en enkel modell där vi har en kontinuerlig
variabel (x) och en dummy variabel (d)
y b0 d0d b1x u
Kan tolkas som ett skift i konstanten
Om d 0, ? y b0 b1x u
Om d 1, ?y (b0 d0) b1x u

24
Exempel om d0 gt 0
y (b0 d0) b1x
y
d 1
lutning b1

d0
d 0

y b0 b1x
b0
x
25
Interaktion med dummyvariabler

Man kan också kombinera en dummy variabel, d, med
en kontinuerlig variabel, x
y b0 d1d b1x d2dx u
Om d 0, ? y b0 b1x u
Om d 1, ? y (b0 d1) (b1 d2) x u
Tolkas som om lutningen ändras

26
Exempel om d0 gt 0 and d1 lt 0
y
y b0 b1x
d 0
d 1
y (b0 d0) (b1 d1) x
x
27
Exempel
28
Residualanalys
29
Varför bekymra sig för Heteroskedasticitet?

OLS ger fortfarande väntevärdesriktiga och
konsistenta skattningar även om vi inte antar
homoskedasticitet
MEN, standardavvikelsen avseende våra estimat är
icke väntevärdesriktiga om vi har
heteroskedasticitet
Om standardavvikelsen är icke väntevärdesriktig
klan vi EJ genomföra våra hypotesprövningar.

30
Breusch-Pagan Test

Ett test som avser att undersöka om
heteroskedasticitet förekommer eller ej.
Feltermen är okänd men vi har residualerna från
OLS regressionen.
Om vi kör regressionen residualerna i kvadrat mot
alla oberoende variabler så kan vi nyttja R2 och
göra ett F test
F-värdet anger om regressionsmodellen som helhet
är statistiskt signifikant eller ej.
Ett högt F-värde innebär att de oberoende
variablerna kan förklara variationen i
residualerna, vilket vi inte vill.
F R2/k/(1 R2)/(n k 1),
med fördelningen Fk, n k 1

31
Exempel
32
Exempel - test
33
Vad förklarar fastighetspriset över tiden?

Jämviktsvillkor
Hyresvärdet (HV) motsvarar de samlade kostnaderna
för bostadskapitalet
Phuspriser i real termer
(1-?r)rräntan på lånat och eget kapital efter
skatt
?peprisappreciering
?inflation
Underhåll och drift

34
Kan skrivas som
Där Iinkomster och Ddemografiska faktorer
speglar efterfrågesidan och Hbostadsstocken
speglar utbudssidan. Empiriskt kan vi lösa det
genom att skatta följande funktion
35
Tidsserieanalys
36
Tidsseriedata vs. Tvärsnittsdata

Tidsseriedata har en tidsordning till skillnad
mot tvärsnittsdata. Det är av stor vikt att inte
ändra ordningen.
Vi måste ha en modell som tillåter att historien
kan påverka framtiden, men inte tvärtom.
Eftersom vi har data som är ordnande i tiden
måste vi lägga till antaganden om hur feltermen
(residualen) får bete sig över tiden.

37
Tvärsnittsdata
Tidsseriedata
DATA
Autokorrelation Icke-stationär
Heteroskedasticitet
PROBLEM
AR(1)-Test
Breusch-Pagan Test
TEST
38
Exempel på tidsseriedata modeller

En statisk modell där variablerna påverkar y
direkt
yt b0 b1zt ut
En laggad (dynamisk) modell tillåter att en eller
flera variabler påverka y med en lag
yt a0 d0zt d1zt-1 d2zt-2 ut

39
Statisk Modell
FPIt b0 b1BNPIt ut
OBS! INDEX
Tolkning Procentenhet
40
Tolkning

FPI och BNP är index med 1967100
Ekonomisk tolkning om BNP gick upp med en
procentenhet föregående år så kommer FPI att gå
upp med 0.69 procentenheter.
Statistisk tolkning modellens förklaringsgrad,
genomsnittligt fel, statistisk signifikans av
enskilda parametrar.

41
Statisk Modell
Ln(FPIt) b0 b1l(BNPIt) ut
Tolkning Procent
42
Dynamisk modell
Ln(FPIt ) b0 b1Ln(BNPt-1) ut
Tolkning Procent
43
Antaganden

Linjär i parametrarna
Det förväntade värdet av feltermen betingat på
den oberoende variabeln skall vara lika med noll.
? X strikt exogena
Ej perfekt linjärt samband mellan oberoende
variabler
Homoskedasticitet
Ingen autokorrelation
Normalfördelning

NYTT!
44
OLS skattningarnas varians

Homoskedasticitet
Var(utX) Var(ut) s2
Variansen är oberoende av alla x samt konstant
över tiden
Ingen autokorrelation
Corr(ut,us X)0 for t ? s

45
Autokorrelation

Om antagandet inte är uppfyllt om ut-1gt0 kommer
feltermen i nästa period också att vara positiv i
genomsnitt.

46
Varför problem?

Effektivitet det finns andra metoder än OLS som
ger mer effektiva skattningar, dvs med lägre
varians. Dock är OLS parameterskattningar
väntevärdesriktiga.
Hypotesprövning variansen är inte
väntevärdesriktig vilket innebär att
hypotesprövning och konfidensintervall inte
längre är tillförlitliga.

47
Hur testa för autokorrelation?

AR(1)-test
AR(1) Autoregressive modell där den beroende
variabeln är en funktion av den beroende
variabeln laggad 1 år.
yt ryt-1 et , t 1, 2,
Test av AR(1) autokorrelation
Vi vill testa nollhypotesen r 0 i
ut rut-1 et, t 2,, n
Om ej förkasta H0 (lågt t-värde) ? ingen
autokorrelation

48
Exempel Dynamisk modell
Autoregressive modell Residualen idag är en
funktion av residualen igår. Om signifikant
parameter-autokorrelation.
49
Exempel Dynamisk modell
Under viss perioder är fastighetspriserna
betydligt lägre än vad BNP predicerar och ibland
högre. Verkar dock finnas ett mönster, vilket
inte är bra.
50
Orsaker?

Tröghet tidsseriedata, av psykologiska skäl har
historiska händelser en stor effekt på dagens
händelser så att ett positivt fel i föregående
period påverkar aktiviteten idag.
Långsiktigheten tidsseriedata, en slumpmässig
chock på en marknad kan ha långsiktiga effekter,
tex krig.
Specifikationsfel val av ingående variabler,
funktionsform.

51
Fel funktionsform
52
Vad göra?

Fler förklarande variabler (t.ex. i vårt fall en
dummyvariabel som indikerar bankkrisen mellan
1991-96).
Andra funktionsformer
Log-log
Nivå-log
Log-nivå
Första-differensen förändringsdata istället för
nivådata

53
Trendade tidsserier

Ekonomiska tidsserier har ofta en trend.
Bara för att två serier är trendade tillsammans
kan vi inte anta att det finns ett kausalt
samband.
Oftast är serierna trendade för att det finns
någon icke-observerbar faktor som är gemensam,
men som inte är inkluderad i modellen.
Även om dessa faktorer är icke-observerade kan vi
kontrollera för dem genom att direkt inkludera en
trend i vår modell.

54
Inkludera trend i modellen

En möjlighet är en linjär trend
yt a0 a1t et, t 1, 2,
En annan är en exponentiell trend
log(yt) a0 a1t et, t 1, 2,
Eller en kvadratisk trend
yt a0 a1t a2t2 et, t 1, 2,

55
Exempel FPI
56
Exempel FPI kvadratisk trend
57
Exempel FPI exponentiell trend
58
Varför problem?

Uppfyller inte antagande nr. 2
Det förväntade värdet av feltermen betingat av
våra oberoende variabler är inte lika med noll. X
är inte exogent given.
DVS våra parameterskattningar avseende intercept
(konstant) och lutningskoefficient är inte
väntevärdesriktig.
Kan ej göra vare sig ekonomisk eller statistisk
tolkning av skattningarna.
DVS vi kan inte tolka i termer av ceteris paribus
(allt annat lika).

59
Exempel BNP och FPI
60
Autokorrelation? JA!
61
Stationära serier

En trendad serie kallas för icke-stationär
eftersom medelvärdet förändras med tiden.
En enkel regression med yt som beroende variabel
och xt som oberoende variabel och båda är
icke-stationära innebär att t-värdena kommer ofta
att vara signifikanta även om det inte finns ett
samband. Vanligtvis också ett högt R2.
Kallas för spurious regression problem

62
Transformera serien

Om det inte räcker med att inkludera en trend i
specifikationen av modellen utan vi fortfarande
har en icke-stationär serie måste vi transformera
serien.
Oftast räcker det med att använda sig av
första-differensen för att få en stationär serie.

63
Prognos och Utvärdering av Prognos
64
Prognosmodell

Tidsseriedatamodeller används vanligt som
prognosmodell vid sidan om förklaringsmodeller.
Viktigt att vi därför utvärderar dess
prognos-egenskaper.
Problem med att endast analysera koefficienter,
t-värden och modellens förklaringsgrad då dessa
bygger på in-sample prognoser (skattningar).
En mer realistisk situation är att utvärdera
modellen utifrån dess out-of-sample prognoser.

65
Prognosmodell med utvärdering

Anta att vi har data från 1968-2006.
Antag att vi vill förklara prisutvecklingen på
småhus med hjälp av BNP-utvecklingen (laggad 1
år).
Genom att använda hela datamängden kan vi göra
prognos avseende 2007.
I och för sig får vi en skattad pris för hela
perioden men det är en in-sample prognos.
Genom att beräkna ett antal prognosmodeller med
olika datamängd så kan vi göra out-of-sample
prognoser.

66
Utvärderingsmodell
1968
2002
2007
Utvärdering

Istället för en prognosmodell estimerar jag 5
prognosmodeller som kommer att ge mig en prognos
avseende 2002-2006 som kan användas för
utvärdering och 2007 som är en prognos.
2002-2006 kan användas för utvärdering då vi både
har en prognos och ett utfall.

67
Jämförelse

För att kunna jämföra min prognosmodell med något
så tar jag fram ett antal jämförelseprognoser.
Det kan tex vara andra prognosmodeller med andra
variabler, med annan laggning eller
funktionsform.
Det kan också utgöras av betydligt enklare
prognoser som tex
Samma utveckling nästa år som i år
Glidande medelvärde
Autoregressive modell tex AR(1)

68
DPrist a ?DBNPt-1 et
69
Prognos 2007
Bra/dålig prognos?
70
Ettårsprognoser

Prognosen för 2005 bygger på en modell med
endast 1968-2004. Prognosen för 2006 bygger på en
modell med endast 1968-2005
Prognosen gör 2007 bygger på hela datamängden
Prognosfel har vi för 2 år (2005-2006).

71
Mått på genomsnittligt prognosfel
Det genomsnittliga prognosfelet uppgår till 25
procentenheter per år.
72
Jämfört med andra prognoser

Vår mycket enkla modell är sämre än de båda naiva
modellerna. Varför?
saknar viktiga variabler
priser i nominella termer, troligtvis trendade
serier även om vi använder förändringsdata.

73
Långa prognoser

Betydligt svårare
Om vi vill göra en längre prognos än ett år måste
vi lägga in antaganden om BNP-utvecklingen
(eftersom modellen är laggad med bara ett år).
Naturligtvis kan man själv göra en prognosmodell
avseende BNP och andra makroekonomiska variabler
eller
Så kan man använda de prognoser som tex
Konjunkturinstitutet tar fram.
Tolkningen blir då betingat av KIs prognos.

74
Lång Prognos

KIs prognos avseende BNP och KPI för åren
2005-2007

75
PROJEKTARBETE 2

Skatta en prognosmodell
Utvärdering av prognosmodell
Data avseende Sverige
1975-2007
Du skall göra en prognos avseende 2009-10 med den
modell som du anser lämpligast.
Grupper om två-tre.

Write a Comment

User Comments (0)