Regressionsanalys - PowerPoint PPT Presentation

About This Presentation
Title:

Regressionsanalys

Description:

Regressionsanalys Vi vill ha svar p fr gan hur mycket kommer y att f r ndras om x ndras med enhet. Sambandets funktionsform Till ta att andra saker n x kan ... – PowerPoint PPT presentation

Number of Views:134
Avg rating:3.0/5.0
Slides: 76
Provided by: kthi4
Category:

less

Transcript and Presenter's Notes

Title: Regressionsanalys


1
Regressionsanalys
  • Vi vill ha svar på frågan hur mycket kommer y att
    förändras om x ändras med enhet.
  • Sambandets funktionsform
  • Tillåta att andra saker än x kan påverka y
  • Fånga upp ceteris paribus samband mellan y och x.

2
Regressionsanalys
  1. Linjärt samband mellan y och x
  2. Error term inkluderas för att fånga upp att
    andra saker än x påverkar y
  3. Zero conditional mean antagandet möjliggör för
    oss att skatta ceteris paribus effekter.

3
Härledning av parametrar
  • Utgår från Zero Conditional Mean antagandet

4
Sample Regression Line
y
.
y4

û4
.
y3

û3
.
y2
û2

û1

.
y1
x1
x2
x3
x4
x
5
Väntevärdesriktigt om
  1. populationsmodellen är linjär i parametrarna y
    b0 b1x u
  2. ett slumpmässigt urval av storleken n
  3. E(ux) 0 och således E(uixi) 0
  4. det finns en variation i xi

6
Tolkning
  • Ekonomisk tolkning
  • ?0 det förväntade värdet av y om x är lika med
    noll
  • ?1 om x ökar med en enhet så ökar y med b
    enheter (mätt i samma enhet som y)

7
Precision
  • Säkerheten hos modellen kan bl.a. mätas med hur
    stor spridningen i modellen är. Ju mindre
    spridning desto bättre modell. Spridningen mäts
    med variansen och standardavvikelsen.
  • Antar homoskedasticitet
  • Variansen hos a och b beror på modellens varians,
    antalet observationer samt medelvärdet och
    spridningen i den oberoende variabeln.

8
Precision
  • Standardfel hos skattningen av y
  • Standardfelet hos skattningarna b0 och b1

9
Modellen förklaringsgrad
  • Determinationskoefficienten, goodness of fit,
    R-square, R2
  • SST Total variation i den beroende variabeln
  • SSE Variation som kan förklaras av modellen
  • SSR Oförklarad variation
  • TSSSSESSR
  • R2SSE/SST1-SSR/SST

10
Modellen förklaringsgrad
  • Determinationkoefficient (R2)

11
Justerat R-Squared
  • R2 ökar alltid ju fler variabler vi har med I
    modellen
  • Justerat R2 tar hänsyn till detta genom att
    ställa antalet oberoende variabler i relation
    till antalet observationer

12
Exempel
13
Hypotestest
  • Kan vi dra några slutsatser angående populationen
    med hjälp av urvalet?
  • Till vår hjälp använder vi både lägesmått
    (medelvärdet) och spridning (standardavvikelsen).
  • Genom att skatta en teststorhet och jämför det
    mot ett kritiskt värde kan vi förkasta eller
    acceptera en hypotes.
  • Om förkastas, den oberoende variabeln har en
    inverkan.

14
Hypotestest
  • Modell y a b1x1 b2x2
  • Hypotes H0 ?1 0
  • H1 ?1? 0
  • Vi antar att parametrarna har en normalfördelning
    med det förväntade värdet ? och variansen ?2b,
    dvs
  • b1 ? N(?1,?2b1)
  • Normalisera

15
Hypotestest
  • Om, ?b1 är okänd använder vi oss av skattningen
    av ?b1 istället, vilket innebär att kvoten är
    t-fördelad istället för normalfördelad, dvs

t är teststorheten tn-k-1 (?) är det kritiska
värdet Förkasta H0 om t gt tn-k (?)
16
Hypotestest
17
Hypotestest
  • Om teststorheten är större än det kritiska värdet
    ? förkasta nollhypotesen.
  • Kritiskt värde (dubbelsidigt test)
  • t?/2 (n-k-1)
  • där ? är signifikansnivån och (n-k-1) antalet
    frihetsgrader. Vanligtvis använder man sig av
    signifikansnivån 5 och 1.
  • Jmf. H0 Ej begått mord
  • 5 chans att vi förkastar nollhypotesen att den
    åtalade ej begått mord, dvs vi dömer en oskyldig
    för mord.

18
Exempel
19
Funktionsform
  • Inte troligt att vi har ett linjärt samband
    mellan y och x i den meningen att y ökar med lika
    mycket oberoende hur mycket av x vi har initialt.
  • I tillämpade studier finner vi oftast att
    variablerna är transformerade, tex att alla
    kontinuerliga variabler är logaritmerade. Varför?
  • Vi vill att effekten skall uttryckas som en
    procentuell effekt.

20
Sammanfattning av olika funktionsformer
  • ln(y) b0 b1ln(x) u
  • y ökar med b1 procent om x ökar med 1 procent
  • ln(y) b0 b1x u
  • y ökar med (100b1) procent om x ökar med 1
    enhet
  • y b0 b1ln(x) u
  • y ökar med (b1/100) enheter om x ökar med 1
    procent.

21
Exempel ln(pris)
22
Dummyvariabel
  • En binär variabel som indikerar om en viss
    enskild observation (objekt) har en viss egenskap
    eller ej.
  • Om koefficientskattningen är signifikant skild
    från noll så innebär det att regressionsmodellen
    skiftar
  • Går att kombinera dummyvariabeln med
    kontinuerliga variabler.

23
Dummy variabel som oberoende variabel
  • Antag en enkel modell där vi har en kontinuerlig
    variabel (x) och en dummy variabel (d)
  • y b0 d0d b1x u
  • Kan tolkas som ett skift i konstanten
  • Om d 0, ? y b0 b1x u
  • Om d 1, ?y (b0 d0) b1x u

24
Exempel om d0 gt 0
y (b0 d0) b1x
y
d 1
lutning b1

d0
d 0

y b0 b1x
b0
x
25
Interaktion med dummyvariabler
  • Man kan också kombinera en dummy variabel, d, med
    en kontinuerlig variabel, x
  • y b0 d1d b1x d2dx u
  • Om d 0, ? y b0 b1x u
  • Om d 1, ? y (b0 d1) (b1 d2) x u
  • Tolkas som om lutningen ändras

26
Exempel om d0 gt 0 and d1 lt 0
y
y b0 b1x
d 0
d 1
y (b0 d0) (b1 d1) x
x
27
Exempel
28
Residualanalys
29
Varför bekymra sig för Heteroskedasticitet?
  • OLS ger fortfarande väntevärdesriktiga och
    konsistenta skattningar även om vi inte antar
    homoskedasticitet
  • MEN, standardavvikelsen avseende våra estimat är
    icke väntevärdesriktiga om vi har
    heteroskedasticitet
  • Om standardavvikelsen är icke väntevärdesriktig
    klan vi EJ genomföra våra hypotesprövningar.

30
Breusch-Pagan Test
  • Ett test som avser att undersöka om
    heteroskedasticitet förekommer eller ej.
  • Feltermen är okänd men vi har residualerna från
    OLS regressionen.
  • Om vi kör regressionen residualerna i kvadrat mot
    alla oberoende variabler så kan vi nyttja R2 och
    göra ett F test
  • F-värdet anger om regressionsmodellen som helhet
    är statistiskt signifikant eller ej.
  • Ett högt F-värde innebär att de oberoende
    variablerna kan förklara variationen i
    residualerna, vilket vi inte vill.
  • F R2/k/(1 R2)/(n k 1),
  • med fördelningen Fk, n k 1

31
Exempel
32
Exempel - test
33
Vad förklarar fastighetspriset över tiden?
  • Jämviktsvillkor
  • Hyresvärdet (HV) motsvarar de samlade kostnaderna
    för bostadskapitalet
  • Phuspriser i real termer
  • (1-?r)rräntan på lånat och eget kapital efter
    skatt
  • ?peprisappreciering
  • ?inflation
  • Underhåll och drift

34
Kan skrivas som
Där Iinkomster och Ddemografiska faktorer
speglar efterfrågesidan och Hbostadsstocken
speglar utbudssidan. Empiriskt kan vi lösa det
genom att skatta följande funktion
35
Tidsserieanalys
36
Tidsseriedata vs. Tvärsnittsdata
  • Tidsseriedata har en tidsordning till skillnad
    mot tvärsnittsdata. Det är av stor vikt att inte
    ändra ordningen.
  • Vi måste ha en modell som tillåter att historien
    kan påverka framtiden, men inte tvärtom.
  • Eftersom vi har data som är ordnande i tiden
    måste vi lägga till antaganden om hur feltermen
    (residualen) får bete sig över tiden.

37
Tvärsnittsdata
Tidsseriedata
DATA
Autokorrelation Icke-stationär
Heteroskedasticitet
PROBLEM
AR(1)-Test
Breusch-Pagan Test
TEST
38
Exempel på tidsseriedata modeller
  • En statisk modell där variablerna påverkar y
    direkt
  • yt b0 b1zt ut
  • En laggad (dynamisk) modell tillåter att en eller
    flera variabler påverka y med en lag
  • yt a0 d0zt d1zt-1 d2zt-2 ut

39
Statisk Modell
FPIt b0 b1BNPIt ut
OBS! INDEX
Tolkning Procentenhet
40
Tolkning
  • FPI och BNP är index med 1967100
  • Ekonomisk tolkning om BNP gick upp med en
    procentenhet föregående år så kommer FPI att gå
    upp med 0.69 procentenheter.
  • Statistisk tolkning modellens förklaringsgrad,
    genomsnittligt fel, statistisk signifikans av
    enskilda parametrar.

41
Statisk Modell
Ln(FPIt) b0 b1l(BNPIt) ut
Tolkning Procent
42
Dynamisk modell
Ln(FPIt ) b0 b1Ln(BNPt-1) ut
Tolkning Procent
43
Antaganden
  1. Linjär i parametrarna
  2. Det förväntade värdet av feltermen betingat på
    den oberoende variabeln skall vara lika med noll.
    ? X strikt exogena
  3. Ej perfekt linjärt samband mellan oberoende
    variabler
  4. Homoskedasticitet
  5. Ingen autokorrelation
  6. Normalfördelning

NYTT!
44
OLS skattningarnas varians
  • Homoskedasticitet
  • Var(utX) Var(ut) s2
  • Variansen är oberoende av alla x samt konstant
    över tiden
  • Ingen autokorrelation
  • Corr(ut,us X)0 for t ? s

45
Autokorrelation
  • Om antagandet inte är uppfyllt om ut-1gt0 kommer
    feltermen i nästa period också att vara positiv i
    genomsnitt.

46
Varför problem?
  • Effektivitet det finns andra metoder än OLS som
    ger mer effektiva skattningar, dvs med lägre
    varians. Dock är OLS parameterskattningar
    väntevärdesriktiga.
  • Hypotesprövning variansen är inte
    väntevärdesriktig vilket innebär att
    hypotesprövning och konfidensintervall inte
    längre är tillförlitliga.

47
Hur testa för autokorrelation?
  • AR(1)-test
  • AR(1) Autoregressive modell där den beroende
    variabeln är en funktion av den beroende
    variabeln laggad 1 år.
  • yt ryt-1 et , t 1, 2,
  • Test av AR(1) autokorrelation
  • Vi vill testa nollhypotesen r 0 i
  • ut rut-1 et, t 2,, n
  • Om ej förkasta H0 (lågt t-värde) ? ingen
    autokorrelation

48
Exempel Dynamisk modell
Autoregressive modell Residualen idag är en
funktion av residualen igår. Om signifikant
parameter-autokorrelation.
49
Exempel Dynamisk modell
Under viss perioder är fastighetspriserna
betydligt lägre än vad BNP predicerar och ibland
högre. Verkar dock finnas ett mönster, vilket
inte är bra.
50
Orsaker?
  • Tröghet tidsseriedata, av psykologiska skäl har
    historiska händelser en stor effekt på dagens
    händelser så att ett positivt fel i föregående
    period påverkar aktiviteten idag.
  • Långsiktigheten tidsseriedata, en slumpmässig
    chock på en marknad kan ha långsiktiga effekter,
    tex krig.
  • Specifikationsfel val av ingående variabler,
    funktionsform.

51
Fel funktionsform
52
Vad göra?
  • Fler förklarande variabler (t.ex. i vårt fall en
    dummyvariabel som indikerar bankkrisen mellan
    1991-96).
  • Andra funktionsformer
  • Log-log
  • Nivå-log
  • Log-nivå
  • Första-differensen förändringsdata istället för
    nivådata

53
Trendade tidsserier
  • Ekonomiska tidsserier har ofta en trend.
  • Bara för att två serier är trendade tillsammans
    kan vi inte anta att det finns ett kausalt
    samband.
  • Oftast är serierna trendade för att det finns
    någon icke-observerbar faktor som är gemensam,
    men som inte är inkluderad i modellen.
  • Även om dessa faktorer är icke-observerade kan vi
    kontrollera för dem genom att direkt inkludera en
    trend i vår modell.

54
Inkludera trend i modellen
  • En möjlighet är en linjär trend
  • yt a0 a1t et, t 1, 2,
  • En annan är en exponentiell trend
  • log(yt) a0 a1t et, t 1, 2,
  • Eller en kvadratisk trend
  • yt a0 a1t a2t2 et, t 1, 2,

55
Exempel FPI
56
Exempel FPI kvadratisk trend
57
Exempel FPI exponentiell trend
58
Varför problem?
  • Uppfyller inte antagande nr. 2
  • Det förväntade värdet av feltermen betingat av
    våra oberoende variabler är inte lika med noll. X
    är inte exogent given.
  • DVS våra parameterskattningar avseende intercept
    (konstant) och lutningskoefficient är inte
    väntevärdesriktig.
  • Kan ej göra vare sig ekonomisk eller statistisk
    tolkning av skattningarna.
  • DVS vi kan inte tolka i termer av ceteris paribus
    (allt annat lika).

59
Exempel BNP och FPI
60
Autokorrelation? JA!
61
Stationära serier
  • En trendad serie kallas för icke-stationär
    eftersom medelvärdet förändras med tiden.
  • En enkel regression med yt som beroende variabel
    och xt som oberoende variabel och båda är
    icke-stationära innebär att t-värdena kommer ofta
    att vara signifikanta även om det inte finns ett
    samband. Vanligtvis också ett högt R2.
  • Kallas för spurious regression problem

62
Transformera serien
  • Om det inte räcker med att inkludera en trend i
    specifikationen av modellen utan vi fortfarande
    har en icke-stationär serie måste vi transformera
    serien.
  • Oftast räcker det med att använda sig av
    första-differensen för att få en stationär serie.

63
Prognos och Utvärdering av Prognos
64
Prognosmodell
  • Tidsseriedatamodeller används vanligt som
    prognosmodell vid sidan om förklaringsmodeller.
  • Viktigt att vi därför utvärderar dess
    prognos-egenskaper.
  • Problem med att endast analysera koefficienter,
    t-värden och modellens förklaringsgrad då dessa
    bygger på in-sample prognoser (skattningar).
  • En mer realistisk situation är att utvärdera
    modellen utifrån dess out-of-sample prognoser.

65
Prognosmodell med utvärdering
  • Anta att vi har data från 1968-2006.
  • Antag att vi vill förklara prisutvecklingen på
    småhus med hjälp av BNP-utvecklingen (laggad 1
    år).
  • Genom att använda hela datamängden kan vi göra
    prognos avseende 2007.
  • I och för sig får vi en skattad pris för hela
    perioden men det är en in-sample prognos.
  • Genom att beräkna ett antal prognosmodeller med
    olika datamängd så kan vi göra out-of-sample
    prognoser.

66
Utvärderingsmodell
1968
2002
2007
Utvärdering
  • Istället för en prognosmodell estimerar jag 5
    prognosmodeller som kommer att ge mig en prognos
    avseende 2002-2006 som kan användas för
    utvärdering och 2007 som är en prognos.
  • 2002-2006 kan användas för utvärdering då vi både
    har en prognos och ett utfall.

67
Jämförelse
  • För att kunna jämföra min prognosmodell med något
    så tar jag fram ett antal jämförelseprognoser.
  • Det kan tex vara andra prognosmodeller med andra
    variabler, med annan laggning eller
    funktionsform.
  • Det kan också utgöras av betydligt enklare
    prognoser som tex
  • Samma utveckling nästa år som i år
  • Glidande medelvärde
  • Autoregressive modell tex AR(1)

68
DPrist a ?DBNPt-1 et
69
Prognos 2007
Bra/dålig prognos?
70
Ettårsprognoser
  • Prognosen för 2005 bygger på en modell med
    endast 1968-2004. Prognosen för 2006 bygger på en
    modell med endast 1968-2005
  • Prognosen gör 2007 bygger på hela datamängden
  • Prognosfel har vi för 2 år (2005-2006).

71
Mått på genomsnittligt prognosfel
Det genomsnittliga prognosfelet uppgår till 25
procentenheter per år.
72
Jämfört med andra prognoser
  • Vår mycket enkla modell är sämre än de båda naiva
    modellerna. Varför?
  • saknar viktiga variabler
  • priser i nominella termer, troligtvis trendade
    serier även om vi använder förändringsdata.

73
Långa prognoser
  • Betydligt svårare
  • Om vi vill göra en längre prognos än ett år måste
    vi lägga in antaganden om BNP-utvecklingen
    (eftersom modellen är laggad med bara ett år).
  • Naturligtvis kan man själv göra en prognosmodell
    avseende BNP och andra makroekonomiska variabler
    eller
  • Så kan man använda de prognoser som tex
    Konjunkturinstitutet tar fram.
  • Tolkningen blir då betingat av KIs prognos.

74
Lång Prognos
  • KIs prognos avseende BNP och KPI för åren
    2005-2007

75
PROJEKTARBETE 2
  • Skatta en prognosmodell
  • Utvärdering av prognosmodell
  • Data avseende Sverige
  • 1975-2007
  • Du skall göra en prognos avseende 2009-10 med den
    modell som du anser lämpligast.
  • Grupper om två-tre.
Write a Comment
User Comments (0)
About PowerShow.com