Title: Regressionsanalys
1Regressionsanalys
- Vi vill ha svar på frågan hur mycket kommer y att
förändras om x ändras med enhet. - Sambandets funktionsform
- Tillåta att andra saker än x kan påverka y
- Fånga upp ceteris paribus samband mellan y och x.
2Regressionsanalys
- Linjärt samband mellan y och x
- Error term inkluderas för att fånga upp att
andra saker än x påverkar y - Zero conditional mean antagandet möjliggör för
oss att skatta ceteris paribus effekter.
3Härledning av parametrar
- Utgår från Zero Conditional Mean antagandet
4Sample Regression Line
y
.
y4
û4
.
y3
û3
.
y2
û2
û1
.
y1
x1
x2
x3
x4
x
5Väntevärdesriktigt om
- populationsmodellen är linjär i parametrarna y
b0 b1x u - ett slumpmässigt urval av storleken n
- E(ux) 0 och således E(uixi) 0
- det finns en variation i xi
6Tolkning
- Ekonomisk tolkning
- ?0 det förväntade värdet av y om x är lika med
noll - ?1 om x ökar med en enhet så ökar y med b
enheter (mätt i samma enhet som y)
7Precision
- Säkerheten hos modellen kan bl.a. mätas med hur
stor spridningen i modellen är. Ju mindre
spridning desto bättre modell. Spridningen mäts
med variansen och standardavvikelsen. - Antar homoskedasticitet
- Variansen hos a och b beror på modellens varians,
antalet observationer samt medelvärdet och
spridningen i den oberoende variabeln.
8Precision
- Standardfel hos skattningen av y
- Standardfelet hos skattningarna b0 och b1
9Modellen förklaringsgrad
- Determinationskoefficienten, goodness of fit,
R-square, R2 - SST Total variation i den beroende variabeln
- SSE Variation som kan förklaras av modellen
- SSR Oförklarad variation
- TSSSSESSR
- R2SSE/SST1-SSR/SST
10Modellen förklaringsgrad
- Determinationkoefficient (R2)
11Justerat R-Squared
- R2 ökar alltid ju fler variabler vi har med I
modellen - Justerat R2 tar hänsyn till detta genom att
ställa antalet oberoende variabler i relation
till antalet observationer
12Exempel
13Hypotestest
- Kan vi dra några slutsatser angående populationen
med hjälp av urvalet? - Till vår hjälp använder vi både lägesmått
(medelvärdet) och spridning (standardavvikelsen). - Genom att skatta en teststorhet och jämför det
mot ett kritiskt värde kan vi förkasta eller
acceptera en hypotes. - Om förkastas, den oberoende variabeln har en
inverkan.
14Hypotestest
- Modell y a b1x1 b2x2
- Hypotes H0 ?1 0
- H1 ?1? 0
- Vi antar att parametrarna har en normalfördelning
med det förväntade värdet ? och variansen ?2b,
dvs - b1 ? N(?1,?2b1)
- Normalisera
15Hypotestest
- Om, ?b1 är okänd använder vi oss av skattningen
av ?b1 istället, vilket innebär att kvoten är
t-fördelad istället för normalfördelad, dvs
t är teststorheten tn-k-1 (?) är det kritiska
värdet Förkasta H0 om t gt tn-k (?)
16Hypotestest
17Hypotestest
- Om teststorheten är större än det kritiska värdet
? förkasta nollhypotesen. - Kritiskt värde (dubbelsidigt test)
- t?/2 (n-k-1)
- där ? är signifikansnivån och (n-k-1) antalet
frihetsgrader. Vanligtvis använder man sig av
signifikansnivån 5 och 1. - Jmf. H0 Ej begått mord
- 5 chans att vi förkastar nollhypotesen att den
åtalade ej begått mord, dvs vi dömer en oskyldig
för mord.
18Exempel
19Funktionsform
- Inte troligt att vi har ett linjärt samband
mellan y och x i den meningen att y ökar med lika
mycket oberoende hur mycket av x vi har initialt. - I tillämpade studier finner vi oftast att
variablerna är transformerade, tex att alla
kontinuerliga variabler är logaritmerade. Varför?
- Vi vill att effekten skall uttryckas som en
procentuell effekt.
20Sammanfattning av olika funktionsformer
- ln(y) b0 b1ln(x) u
- y ökar med b1 procent om x ökar med 1 procent
- ln(y) b0 b1x u
- y ökar med (100b1) procent om x ökar med 1
enhet - y b0 b1ln(x) u
- y ökar med (b1/100) enheter om x ökar med 1
procent.
21Exempel ln(pris)
22Dummyvariabel
- En binär variabel som indikerar om en viss
enskild observation (objekt) har en viss egenskap
eller ej. - Om koefficientskattningen är signifikant skild
från noll så innebär det att regressionsmodellen
skiftar - Går att kombinera dummyvariabeln med
kontinuerliga variabler.
23Dummy variabel som oberoende variabel
- Antag en enkel modell där vi har en kontinuerlig
variabel (x) och en dummy variabel (d) - y b0 d0d b1x u
- Kan tolkas som ett skift i konstanten
- Om d 0, ? y b0 b1x u
- Om d 1, ?y (b0 d0) b1x u
24Exempel om d0 gt 0
y (b0 d0) b1x
y
d 1
lutning b1
d0
d 0
y b0 b1x
b0
x
25Interaktion med dummyvariabler
- Man kan också kombinera en dummy variabel, d, med
en kontinuerlig variabel, x - y b0 d1d b1x d2dx u
- Om d 0, ? y b0 b1x u
- Om d 1, ? y (b0 d1) (b1 d2) x u
- Tolkas som om lutningen ändras
26Exempel om d0 gt 0 and d1 lt 0
y
y b0 b1x
d 0
d 1
y (b0 d0) (b1 d1) x
x
27Exempel
28Residualanalys
29Varför bekymra sig för Heteroskedasticitet?
- OLS ger fortfarande väntevärdesriktiga och
konsistenta skattningar även om vi inte antar
homoskedasticitet - MEN, standardavvikelsen avseende våra estimat är
icke väntevärdesriktiga om vi har
heteroskedasticitet - Om standardavvikelsen är icke väntevärdesriktig
klan vi EJ genomföra våra hypotesprövningar.
30Breusch-Pagan Test
- Ett test som avser att undersöka om
heteroskedasticitet förekommer eller ej. - Feltermen är okänd men vi har residualerna från
OLS regressionen. - Om vi kör regressionen residualerna i kvadrat mot
alla oberoende variabler så kan vi nyttja R2 och
göra ett F test - F-värdet anger om regressionsmodellen som helhet
är statistiskt signifikant eller ej. - Ett högt F-värde innebär att de oberoende
variablerna kan förklara variationen i
residualerna, vilket vi inte vill. - F R2/k/(1 R2)/(n k 1),
- med fördelningen Fk, n k 1
31Exempel
32Exempel - test
33Vad förklarar fastighetspriset över tiden?
- Jämviktsvillkor
- Hyresvärdet (HV) motsvarar de samlade kostnaderna
för bostadskapitalet - Phuspriser i real termer
- (1-?r)rräntan på lånat och eget kapital efter
skatt - ?peprisappreciering
- ?inflation
- Underhåll och drift
34Kan skrivas som
Där Iinkomster och Ddemografiska faktorer
speglar efterfrågesidan och Hbostadsstocken
speglar utbudssidan. Empiriskt kan vi lösa det
genom att skatta följande funktion
35Tidsserieanalys
36Tidsseriedata vs. Tvärsnittsdata
- Tidsseriedata har en tidsordning till skillnad
mot tvärsnittsdata. Det är av stor vikt att inte
ändra ordningen. - Vi måste ha en modell som tillåter att historien
kan påverka framtiden, men inte tvärtom. - Eftersom vi har data som är ordnande i tiden
måste vi lägga till antaganden om hur feltermen
(residualen) får bete sig över tiden.
37Tvärsnittsdata
Tidsseriedata
DATA
Autokorrelation Icke-stationär
Heteroskedasticitet
PROBLEM
AR(1)-Test
Breusch-Pagan Test
TEST
38Exempel på tidsseriedata modeller
- En statisk modell där variablerna påverkar y
direkt - yt b0 b1zt ut
- En laggad (dynamisk) modell tillåter att en eller
flera variabler påverka y med en lag - yt a0 d0zt d1zt-1 d2zt-2 ut
39Statisk Modell
FPIt b0 b1BNPIt ut
OBS! INDEX
Tolkning Procentenhet
40Tolkning
- FPI och BNP är index med 1967100
- Ekonomisk tolkning om BNP gick upp med en
procentenhet föregående år så kommer FPI att gå
upp med 0.69 procentenheter. - Statistisk tolkning modellens förklaringsgrad,
genomsnittligt fel, statistisk signifikans av
enskilda parametrar.
41Statisk Modell
Ln(FPIt) b0 b1l(BNPIt) ut
Tolkning Procent
42Dynamisk modell
Ln(FPIt ) b0 b1Ln(BNPt-1) ut
Tolkning Procent
43Antaganden
- Linjär i parametrarna
- Det förväntade värdet av feltermen betingat på
den oberoende variabeln skall vara lika med noll.
? X strikt exogena - Ej perfekt linjärt samband mellan oberoende
variabler - Homoskedasticitet
- Ingen autokorrelation
- Normalfördelning
NYTT!
44OLS skattningarnas varians
- Homoskedasticitet
- Var(utX) Var(ut) s2
- Variansen är oberoende av alla x samt konstant
över tiden - Ingen autokorrelation
- Corr(ut,us X)0 for t ? s
45Autokorrelation
- Om antagandet inte är uppfyllt om ut-1gt0 kommer
feltermen i nästa period också att vara positiv i
genomsnitt.
46Varför problem?
- Effektivitet det finns andra metoder än OLS som
ger mer effektiva skattningar, dvs med lägre
varians. Dock är OLS parameterskattningar
väntevärdesriktiga. - Hypotesprövning variansen är inte
väntevärdesriktig vilket innebär att
hypotesprövning och konfidensintervall inte
längre är tillförlitliga.
47Hur testa för autokorrelation?
- AR(1)-test
- AR(1) Autoregressive modell där den beroende
variabeln är en funktion av den beroende
variabeln laggad 1 år. - yt ryt-1 et , t 1, 2,
- Test av AR(1) autokorrelation
- Vi vill testa nollhypotesen r 0 i
- ut rut-1 et, t 2,, n
- Om ej förkasta H0 (lågt t-värde) ? ingen
autokorrelation
48Exempel Dynamisk modell
Autoregressive modell Residualen idag är en
funktion av residualen igår. Om signifikant
parameter-autokorrelation.
49Exempel Dynamisk modell
Under viss perioder är fastighetspriserna
betydligt lägre än vad BNP predicerar och ibland
högre. Verkar dock finnas ett mönster, vilket
inte är bra.
50Orsaker?
- Tröghet tidsseriedata, av psykologiska skäl har
historiska händelser en stor effekt på dagens
händelser så att ett positivt fel i föregående
period påverkar aktiviteten idag. - Långsiktigheten tidsseriedata, en slumpmässig
chock på en marknad kan ha långsiktiga effekter,
tex krig. - Specifikationsfel val av ingående variabler,
funktionsform.
51Fel funktionsform
52Vad göra?
- Fler förklarande variabler (t.ex. i vårt fall en
dummyvariabel som indikerar bankkrisen mellan
1991-96). - Andra funktionsformer
- Log-log
- Nivå-log
- Log-nivå
- Första-differensen förändringsdata istället för
nivådata
53Trendade tidsserier
- Ekonomiska tidsserier har ofta en trend.
- Bara för att två serier är trendade tillsammans
kan vi inte anta att det finns ett kausalt
samband. - Oftast är serierna trendade för att det finns
någon icke-observerbar faktor som är gemensam,
men som inte är inkluderad i modellen. - Även om dessa faktorer är icke-observerade kan vi
kontrollera för dem genom att direkt inkludera en
trend i vår modell.
54Inkludera trend i modellen
- En möjlighet är en linjär trend
- yt a0 a1t et, t 1, 2,
- En annan är en exponentiell trend
- log(yt) a0 a1t et, t 1, 2,
- Eller en kvadratisk trend
- yt a0 a1t a2t2 et, t 1, 2,
55Exempel FPI
56Exempel FPI kvadratisk trend
57Exempel FPI exponentiell trend
58Varför problem?
- Uppfyller inte antagande nr. 2
- Det förväntade värdet av feltermen betingat av
våra oberoende variabler är inte lika med noll. X
är inte exogent given. - DVS våra parameterskattningar avseende intercept
(konstant) och lutningskoefficient är inte
väntevärdesriktig. - Kan ej göra vare sig ekonomisk eller statistisk
tolkning av skattningarna. - DVS vi kan inte tolka i termer av ceteris paribus
(allt annat lika).
59Exempel BNP och FPI
60Autokorrelation? JA!
61Stationära serier
- En trendad serie kallas för icke-stationär
eftersom medelvärdet förändras med tiden. - En enkel regression med yt som beroende variabel
och xt som oberoende variabel och båda är
icke-stationära innebär att t-värdena kommer ofta
att vara signifikanta även om det inte finns ett
samband. Vanligtvis också ett högt R2. - Kallas för spurious regression problem
62Transformera serien
- Om det inte räcker med att inkludera en trend i
specifikationen av modellen utan vi fortfarande
har en icke-stationär serie måste vi transformera
serien. - Oftast räcker det med att använda sig av
första-differensen för att få en stationär serie.
63Prognos och Utvärdering av Prognos
64Prognosmodell
- Tidsseriedatamodeller används vanligt som
prognosmodell vid sidan om förklaringsmodeller. - Viktigt att vi därför utvärderar dess
prognos-egenskaper. - Problem med att endast analysera koefficienter,
t-värden och modellens förklaringsgrad då dessa
bygger på in-sample prognoser (skattningar). - En mer realistisk situation är att utvärdera
modellen utifrån dess out-of-sample prognoser.
65Prognosmodell med utvärdering
- Anta att vi har data från 1968-2006.
- Antag att vi vill förklara prisutvecklingen på
småhus med hjälp av BNP-utvecklingen (laggad 1
år). - Genom att använda hela datamängden kan vi göra
prognos avseende 2007. - I och för sig får vi en skattad pris för hela
perioden men det är en in-sample prognos. - Genom att beräkna ett antal prognosmodeller med
olika datamängd så kan vi göra out-of-sample
prognoser.
66Utvärderingsmodell
1968
2002
2007
Utvärdering
- Istället för en prognosmodell estimerar jag 5
prognosmodeller som kommer att ge mig en prognos
avseende 2002-2006 som kan användas för
utvärdering och 2007 som är en prognos. - 2002-2006 kan användas för utvärdering då vi både
har en prognos och ett utfall.
67Jämförelse
- För att kunna jämföra min prognosmodell med något
så tar jag fram ett antal jämförelseprognoser. - Det kan tex vara andra prognosmodeller med andra
variabler, med annan laggning eller
funktionsform. - Det kan också utgöras av betydligt enklare
prognoser som tex - Samma utveckling nästa år som i år
- Glidande medelvärde
- Autoregressive modell tex AR(1)
68DPrist a ?DBNPt-1 et
69Prognos 2007
Bra/dålig prognos?
70Ettårsprognoser
- Prognosen för 2005 bygger på en modell med
endast 1968-2004. Prognosen för 2006 bygger på en
modell med endast 1968-2005 - Prognosen gör 2007 bygger på hela datamängden
- Prognosfel har vi för 2 år (2005-2006).
71Mått på genomsnittligt prognosfel
Det genomsnittliga prognosfelet uppgår till 25
procentenheter per år.
72Jämfört med andra prognoser
- Vår mycket enkla modell är sämre än de båda naiva
modellerna. Varför? - saknar viktiga variabler
- priser i nominella termer, troligtvis trendade
serier även om vi använder förändringsdata.
73Långa prognoser
- Betydligt svårare
- Om vi vill göra en längre prognos än ett år måste
vi lägga in antaganden om BNP-utvecklingen
(eftersom modellen är laggad med bara ett år). - Naturligtvis kan man själv göra en prognosmodell
avseende BNP och andra makroekonomiska variabler
eller - Så kan man använda de prognoser som tex
Konjunkturinstitutet tar fram. - Tolkningen blir då betingat av KIs prognos.
74Lång Prognos
- KIs prognos avseende BNP och KPI för åren
2005-2007
75PROJEKTARBETE 2
- Skatta en prognosmodell
- Utvärdering av prognosmodell
- Data avseende Sverige
- 1975-2007
- Du skall göra en prognos avseende 2009-10 med den
modell som du anser lämpligast. - Grupper om två-tre.