SAS PowerPoint PPT Presentation

presentation player overlay
1 / 49
About This Presentation
Transcript and Presenter's Notes

Title: SAS


1
SAS
  • Zintegrowany system program贸w do
  • wprowadzania, zarzadzania, manipulowania i
    prezentacji danych
  • analizy statystycznej i matematycznej
  • wspomagania dezycji
  • wspomagania projekt贸w
  • ...i.t.d

2
Organizacja danych
1. Opis zmiennych
2. Dane
rasa
wagaP
wagaK
ID
IMIE
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7
3
Tworzenie zbioru danych
DATA psiklub INPUT idno imie rasa wagap
wagak utrata wagap wagak CARDS
1023 Pirat spaniel 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 26 22.7

Psiklub to dane tymczasowe. Isnieja tylko w tej
sesji
4
Wczytywanie danych z pliku
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa wagap wagak utrata wagap
wagak RUN
5
Wczytujemy rekordy o r贸znej dlugosci
1023 Pirat spaniel 5 24 22
1049 Aniel jamnik 18 16
1219 Rabus spaniel 7 26 24.5
1246 Lotna jamnik 19 18.5
1078 Docent spaniel 6 26 22.7
_at_trzymaj ten rekord dop贸ki zdecyduje jak go
przeczytac
DATA psiklub INFILE mojedane.txt INPUT
idno imie rasa _at_ SELECT (rasa)
WHEN ( spaniel ) INPUT wiek wagap wagak
OTHERWISE INPUT wagap wagak END RUN
6
Jezyk SASa
  • Deklaracje (statements)
  • Wyrazenia (expressions)
  • Funkcje
  • Opcje
  • Formaty

7
Reguly dla nazw bazy danych i zmiennych
  • 1-8 znak贸w
  • Pierwszy znak to litera albo podkreslnik _
  • Nie ma przerw

8
Kroki DATA i PROC
DATA ... . . . . . . PROC / DATA / RUN
PROC ... . . . . . . PROC / DATA / RUN
9
Wydruk danych
PROC PRINT DATApsiklub TITLE Pieski z
naszego klubu RUN
10
Poszerzanie danych
DATA psiklub_2 SET psiklub procent_utracone
utrata / wagap 100 RUN
11
Podstawowe statystyki MEANS
  • MEANS liczy
  • N
  • minimum
  • maximum
  • srednia
  • odch. std.

PROC MEANS DATApsiklub_2 RUN
PROC MEANS DATApsiklub_2 VAR wagap RUN
PROC MEANS DATApsiklub_2 VAR wagap wagak
CLASS rasa TITLE Wagi ps贸w w poszczeg贸lnych
rasach RUN
12
Sortowanie danych
PROC SORT DATApsiklub_2 BY rasa RUN
PROC SORT DATApsiklub_2 BY rasa wagak RUN
13
Wiecej statystyk opisowych UNIVARIATE
PROC SORT DATApsiklub_2 BY rasa PROC
UNIVARIATE VAR utrata BY rasa ID imie
RUN
Imiona 5 ps贸w o najwyzszej i najnizszej utracie
wagi
tabela czestosci i r贸zne wykresy
PROC UNIVARIATE FREQ
PROC UNIVARIATE PLOT
14
Korelacje CORR
PROC CORR datapsiklub PEARSON SPEARMAN VAR
wagap wagak TITLE Korelacja miedzy wagami
RUN
Korelacje Spearmana to korelacje miedzy
rankingami dla dw贸ch cech.
15
Ranking RANK
PROC RANK DATApsiklub DESCENDING VAR wagap
wagak RANKS rank1 rank2 RUN
rank1 rank2
1023 Pirat spaniel 24 22 2 2 3 1049 Aniel
jamnik 18 16 2 5 5 1219 Rabus spaniel 26
24.5 1.5 1 1 1246 Lotna jamnik 19
18.5 0.5 4 4 1078 Docent spaniel 26
22.7 3.5 3 2
16
Standaryzacja zmiennych STANDARD
DATA nowedane SET psiklub wagastd wagap
PROC STANDARD DATAnowedane
mean0 std1 OUT danestd VAR
wagastd RUN
17
Dane sklasyfikowane
  • Analiza pakietem SAS

18
Zmienne nieciagle o ograniczonej liczbie wartosci
  • Ulubiony kolor? Zielony, czerwony, z贸lty
  • Kt贸ry maz? Pierwszy, drugi, trzeci (Mozna
    uporzadkowac)
  • Ocena
  • 0 9 pkt. niedostateczna
  • 10 19 mierna
  • 20 29 dostateczna

19
Dwie zmienne - tabele kontyngencji
  • Contingency to uwarunkowanie

Tabela 22
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
20
Swinie przydzielono losowo do dw贸ch grup po 75
osobnik贸w
Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
Wartosci stale
Wartosci losowe
21
U stu losowo wybranych swin zbadano DNA i mieso
CC CT TT RAZEM
Mieso kwasne 12 31 13 56
Mieso dobre 15 14 15 44
RAZEM 27 45 28 100
Wartosci losowe
Wartosci losowe
22
Zbadano wszystkie swinie w chlewni (251)
CC CT TT RAZEM
Mieso kwasne 29 73 28 130
Mieso dobre 62 29 30 121
RAZEM 91 102 58 251
Wartosci stale
Wartosci stale
23
Interesujace pytania
  1. Jakie sa czestosci w poszczeg贸lnych podgrupach?
  2. Czy istnieje zaleznosc miedzy dwoma kryteriami
    podzialu na grupy?
  3. Jaka jest sila zaleznosci?

24
FREQ
  • PROC FREQ OPCJE
  • BY zmienna
  • TABLES zmiennazmienna / OPCJE
  • WEIGHT zmienna

25
(No Transcript)
26
Wczytanie liczebnosci
_at__at_ trzymaj wczytana linie dla nastepnej iteracji
  • DATA swinie
  • DO grupa 1 TO 2
  • DO stan 1 TO 2
  • INPUT liczba _at__at_
  • OUTPUT
  • END
  • END
  • CARDS
  • 10 65
  • 20 55

Chore Zdrowe RAZEM
Swinie szczepione 10 65 75
Grupa kontrolna 20 55 75
RAZEM 30 120 150
27
  • PROC FREQ DATAswinie
  • WEIGHT liczba
  • TABLES grupa stan
  • RUN

28
Test niezaleznosci dw贸ch zmiennych
  • H0 Czy swinia jest zdrowa czy chora nie zalezy
    od szczepienia.
  • H1 Jest zaleznosc miedzy stanem zdrowia a
    szczepieniem
  • Test Chi-kwadrat dla niezaleznosci dw贸ch
    zmiennych (grupujacych)
  • St. swobody (W-1)(K-1)

29
PROC FREQ DATA swinie WEIGHT liczba
TABLES grupa stan / CHISQ RUN
30
Statystyki
Chi-kwadrat rozwaza r贸znice miedzy czestosciami
obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2
to moze byc test miedzy proporcjami. Hipoteza
alternatywna jest ta o og贸lnej asocjacji.
Chi-kw. ilorazu wiarogodnosci interpretacja
podobna jak przy chi-kwadrat.
Poprawka uciagl chi-kwadrat jak chi-kwadrat ale
z pewna poprawka, przydatna gdy pr贸ba jest mala
31
Statystyki c.d.
Chi-kwadrat Mantela-Haenszela Hipoteza
alternatywna jest ta o liniowej asocjacji miedzy
zmiennymi. Zmienne musza byc na skali porzadkowej!
Test dokladny Fishera liczy P obserwowania
wynik贸w, kt贸re daja co najmniej tyle dowod贸w na
asocjacje ile te rzeczywiscie obserwowane, pod
warunkiem, ze H0 jest prawda. Sumy wierszy i
kolumn sa traktowane jako stale. Hipoteza
alternatywna to ta o asocjacji og贸lnej.
Poprawka uciagl chi-kwadrat jak chi-kwadrat,
ale z pewna poprawka przydatna gdy pr贸ba jest mala
32
Dokladny (exact) test Fishera
Kiedy liczba obserwacji na 1 st. swobody jest lt 5
Badania wsr贸d 10 najlepszych student贸w
Uczestnictwo w wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach Opinia o wykladach
Uczestnictwo w wykladach Nieciekawe Przecietne Interesujace Fascynujace
Rzadko 0-5 2 1
Czasami 5-10 2 1 1
Czesto 10-15 1 2
Stopnie swobody 2 3 6 Liczba obserwacji 10
33
DATA studenci INPUT uczestnictwo opinia
CARDS rzadko nieciekawe rzadko
nieciekawe rzadko przecietne czasami
przecietne czasami przecietne czasami
interesujace czesto interesujace czesto
interesujace czesto fascynujace PROC FREQ
TABLES uczestnictwo opinia / EXACT RUN
Wczytywanie surowych danych!
34
(No Transcript)
35
Miary asocjacji
  • Wsp贸lczynnik FI
  • Tablica 22 -1 Fi 1
  • Inne 0 Fi 1
  • Wsp贸lczynnik wielodzielczosci P
  • 0 P 1
  • Wartosc V Cramera
  • Tablica 22 -1 V 1
  • Inne V Fi

36
Miary asocjacji miedzy zmiennymi uporzadkowanymi
  • Gamma
  • Tau-b Kendalla
  • Tau-c Stuarta
  • Korelacja Pearsona
  • Korelacja Spearmana
  • Inne

37
Uwarstwione tablice kontyngencji
  • Chlewnia grupa chore zdrowe
  • --------------------------------------------------
    --------
  • A szczepiona 10 65
  • kontrolna 20 55
  • --------------------------------------------------
    --------
  • B szczepiona 8 52
  • kontrolna 12 48
  • --------------------------------------------------
    --------
  • C szczepiona 23 77
  • kontrolna 38 62

38
  • H0 W zadnej chlewni nie ma zaleznosci miedzy
    szczepieniem i stanem zdrowotnym
  • H1 Jest pewna zaleznosc
  • Statystyki testowe Cochrana-Mantela-Haenszela

39
DATA swinie INPUT chlewnia grupa stan
liczba CARDS A szczepiona chore 10 A
szczepiona zdrowe 65 A kontrolna chore 20 A
kontrolna zdrowe 55 B szczepiona chore 8 B
szczepiona zdrowe 52 B kontrolna chore 12 B
kontrolna zdrowe 48 C szczepiona chore 23 C
szczepiona zdrowe 77 C kontrolna chore 38 C
kontrolna zdrowe 62 PROC FREQ TABLES
chlewnia grupa stan / CMH WEIGHT liczba
RUN
Kolejnosc!!! Badamy zaleznosc miedzy grupa i
stanem zdrowia biorac poprawke na chlewnie
40
(No Transcript)
41
Statystyka 1Statystyka korelacji
  • H1 W co najmniej jednej chlewni jest liniowa
    zaleznosc miedzy zmiennymi
  • Dotyczy zmiennych, kt贸re mozna uporzadkowac, np
  • kolejny por贸d a liczba prosiat w miocie

42
Statystyka 2Statystyka srednich w wierszach
(ANOVA)
  • H1 W co najmniej jednej warstwie srednie w
    wierszach r贸znia sie
  • Warunek druga (ostatnia) zmienna mozna
    uporzadkowac, np
  • stan zdrowotny a liczba prosiat w miocie

43
Statystyka 3Og贸lna statystyka skojarzenia
  • H1 W co najmniej jednej chlewni jest jakas
    zaleznosc miedzy zmiennymi
  • Niezalezne od typu zmiennych
  • Wniosek W co najmniej jednej chlewni istnieje
    zaleznosc miedzy szczepieniami i stanem zdrowia.

44
Mozna kontrolowac wiecej zmiennych
  • PROC FREQ
  • TABLES sezon chlewnia grupa stan / CMH
  • WEIGHT liczba
  • RUN

45
Uwaga
  • Statystyki CMH rzadko wykrywaja zaleznosc jezeli
    jej kierunek jest r贸zny w poszczeg贸lnych
    populacjach (warstwach).

46
Zadanie 1
  • Testowano nowy lek dla owiec. Chore owce
    podzielono na dwie grupy po 20 sztuk grupe
    leczona i kontrolna.

Owce leczone Grupa kontrolna
wyleczone 15 7
chore 5 13
  1. Sformuluj hipoteze H0
  2. Zastosuj test chi-kwadrat
  3. Wyciagnij wnioski.

47
Zadanie 2
Wyniki badan nad powiazaniem srednich wynik贸w na
studiach i efektywnoscia pracy nowych
pracownik贸w. Przeanalizowano 90 pracownik贸w
Efektywnosc Srednia ocen Srednia ocen Srednia ocen
gt4.0 gt3.5 ?3.0
gt przecietna 19 8 3
przecietna 9 12 15
lt przecietna 6 5 13
Czy sa dowody na takie powiazanie?
48
Zadanie 3
Wyniki badan nad powiazaniem mutacji w genie
leptyny swini i poziomem leptyny we krwi
CC wysoki CC sredni CT wysoki CT wysoki CC
niski CT wysoki CT wysoki CC niski CC niski CT
sredni CT sredni CT niski TT niski CC sredni TT
niski CC wysoki CC wysoki TT sredni
  1. Sformuluj hipoteze H0
  2. Wczytaj surowe dane!
  3. Ile jest stopni swobody?
  4. Przeprowadz test typu EXACT
  5. Zinterpretuj wynik

49
Zadanie dla chetnych
Testowano skutecznosc leku na pacjentach w 4
klinikach
Klinika Stan zdrowia Stan zdrowia Stan zdrowia
Pogorszenie Bez zmian Poprawa
1 Placebo Lek 10 12 15 14 17 10
2 Placebo Lek 6 4 20 15 22 10
3 Placebo Lek 7 5 25 22 12 12
4 Placebo Lek 2 1 14 12 20 15
Przeanalizuj skutecznosc leku, uwzgledniajac
fakt, ze leczenie przeprowadzano w czterech
r贸znych klinikach.
Write a Comment
User Comments (0)
About PowerShow.com