Title: Ile ludzkiej inteligencji jest w sztucznej inteligencji ? - Techniki inteligentne w zastosowaniach praktycznych
1Ile ludzkiej inteligencji jest w sztucznej
inteligencji ?-Techniki inteligentne w
zastosowaniach praktycznych
- Agnieszka Nowak
- Instytut Informatyki, Uniwersytet Slaski
2Czy sztuczna inteligencja to robotyka ?
Mózgiem kazdego urzadzenia, które ma wykazywac
sie inteligencja jest odpowiednio
zaprogramowany komputer. Dzial nauki zajmujacy
sie inteligencja przedmiotów nieozywionych to
sztuczna inteligencja. Wizja przyszlosci intelig
entne, autonomiczne roboty, zdolne do
samodzielnego rozwiazywania zlozonych problemów.
3Inteligencja i ekspert dziedzinowy
Inteligencja - (psych.) zespól zdolnosci
umyslowych umozliwiajacych jednostce sprawne
korzystanie z nabytej wiedzy oraz skuteczne
zachowanie sie wobec nowych zadan i sytuacji
EKSPERT
Czlowiek posiadajacy specjalistyczna wiedze z
pewnej dziedzinie (wiedze dziedzinowa) i
umiejetnosc stosowania jej dla podejmowania
decyzji zwiazanych z ta dziedzina (umiejetnosc
wnioskowania w oparciu o posiadana wiedze),
nabyte w wyniku studiów i praktyki.
4Sztuczna Inteligencja - AI
Sztuczna Inteligencja - (skrót AI od angielskiego
okreslenia Artificial Intelligence) - jest to
pojecie stosowane w informatyce i oznacza
rozwiazywanie problemów sposobami wzorowanymi na
naturalnych dzialaniach i procesach poznawczych
czlowieka za pomoca symulujacych je programów
komputerowych.
5System ekspertowy definicja
- System ekspercki (funkcjonuje tez nazwa system
ekspertowy) jest to program, lub zestaw programów
komputerowych wspomagajacy korzystanie z wiedzy i
ulatwiajacy podejmowanie decyzji. Systemy
ekspertowe moga wspomagac badz zastepowac
ludzkich ekspertów w danej dziedzinie, moga
dostarczac rad, zalecen i diagnoz dotyczacych
problemów tej dziedziny.
6Inteligencja ludzka a sztuczna inteligencja ?
Zastosowania systemów ekspertowych
- diagnozowanie chorób
- poszukiwanie zlóz mineralów
- identyfikacja struktur molekularnych
- udzielanie porad prawniczych
- diagnoza problemu (np. nieprawidlowego dzialania
urzadzenia)
7Systemy ekspertowe
- Systemy ekspertowe
- sa narzedziem kodyfikacji wiedzy eksperckiej,
- maja zdolnosc rozwiazywania problemów
specjalistycznych, w których duza role odgrywa
doswiadczenie a wiedza ekspercka jest dobrem
rzadkim i kosztownym, - zwiekszaja dostepnosc ekspertyzy,
- zapewniaja mozliwosc prowadzenia jednolitej
polityki przez centrale firm majacych wiele
oddzialów, - poziom ekspertyzy jest stabilny - jej jakosc nie
zalezy od warunków zewnetrznych i czasu pracy
systemu, - jawna reprezentacja wiedzy w postaci zrozumialej
dla uzytkownika koncowego, - zdolnosc do objasniania znalezionych przez system
rozwiazan, - mozliwosc przyrostowej budowy i pielegnacji bazy
wiedzy.
8Wnioskowanie
Dwie podstawowe strategie wnioskowania
Wnioskowanie w przód, zwane tez wnioskowaniem
progresywnym. Polega ono na uaktywnianiu regul
spelnionych, a wiec takich, których przeslanki sa
w zbiorze faktów. Uaktywnienie reguly powoduje
dopisanie nowego faktu, co moze spowodowac, ze
spelniona i potem uaktywniona moze zostac kolejna
regula. Wnioskowanie w przód nie moze odbyc sie
bez faktów. Mówi sie, ze jest ono sterowane
faktami ( ang. data driven).
Wnioskowanie wstecz, zwane tez regresywnym.
Polega ono na potwierdzeniu prawdziwosci
postawionej hipotezy, zwanej celem wnioskowania.
Hipoteza jest potwierdzona wtedy, gdy istnieje
regula, której przeslanki sa w bazie faktów
a konkluzja zgodna jest z hipoteza. Ustalenie
prawdziwosci przeslanek moze powodowac
koniecznosc uaktywnienia wielu regul. Wnioskowanie
wstecz nie moze odbyc sie bez ustalonej
hipotezy, stanowiacej cel wnioskowania. Mówi sie,
ze jest ono sterowane celem ( ang. goal driven).
9(No Transcript)
10Architektura SE
11Wyznaczniki dobrego systemu ekspertowego
- Udzielanie jak najbardziej precyzyjnych i
wiarygodnych odpowiedzi - Prostota obslugi dla kazdego uzytkownika
- Rozwiazywanie problemów w okreslonym czasie
- Umiejetnosc imitowania wiedzy i wieloletniego
doswiadczenia eksperta - Uniwersalnosc
- Rozbudowana i dobrej jakosci baza danych
12(No Transcript)
13Reprezentacja wiedzy
14Reguly proste
15Reguly zlozone
16Definicje AI
Automatyzacja czynnosci, które wiazemy z
mysleniem, takich jak podejmowanie decyzji,
rozwiazywanie problemów, zapamietywanie... . R.
Bellman, An Introduction to Artificial
Intelligence, Boyd Frase, 1978 Badania nad
zdolnosciami umyslowymi poprzez stosowanie metod
obliczeniowych. E. Charniak, D. McDermott,
Introduction to Artificial Intelligence,
Addison-Wesley Publishing, 1985 Sztuka tworzenia
maszyn, które wykonuja funkcje wymagajace
inteligencji od ludzi. R. Kurzweil, The Age of
Intelligence Machines, The MIT Press,
1992 Dziedzina badan zajmujaca sie maszynami,
które sa zdolne wykonywac rzeczy, jakie wykonuja
ludzie uzywajac inteligencji. M. Minsky, Society
of Mind, Simon Schuster, 1985 Dziedzina
informatyki zajmujaca sie automatyzacja
inteligentnych zachowan. G.F. Luger, Artificial
Intelligence, Structures and Strategies for
Complex Problem Solving, AddisonWesley, 2002 Dwa
uzupelniajace znaczenia terminu Sztuczna
Inteligencja dyscyplina inzynierii dotyczy
tworzenia inteligentnych maszyn, empiryczna
nauka, zajmujaca sie obliczeniowym modelowaniem
ludzkiej inteligencji. M. I. Jordan, S. Russell,
Computational Intelligence, The MIT Encylopedia
of Cognitive Sciences, The MIT Press, 1999
17Definicje Definicje dlaczego ich az tyle ?
- Sztuczna inteligencja stala sie
interdyscyplinarna dziedzina naukowa, zajmujaca
sie - badaniem zachowan inteligentnych istot zywych,
- eksploracja dokonan róznych dyscyplin naukowych
- w zakresie procesów myslenia i uczenia sie,
- poszukiwaniem nowych technik i metod modelowania
zachowan - inteligentnych,
- synteza algorytmów zdolnych do rozwiazywania
problemów trudnych i uciazliwych, - budowa systemów komputerowych zdolnych do
inteligentnego - sterowania maszynami i urzadzeniami.
18Badamy model ? Czy rzeczywistosc ??
- Rzeczywistosc jest zbyt bogata i róznorodna.
- Kawalek rzeczywistosci, który nas interesuje,
trzeba wyciac z kontekstu i opisac jakims
formalnym jezykiem. Poniewaz jest to dzialanie
bardzo podstawowe, moze byc stosowane w wielu
dziedzinach badan, od socjologii po biologie
molekularna i fizyke wysokich energii. - Od modelu przechodzi sie czesto do symulacji...
Rozwiazywanie problemów decyzyjnych odbywa sie w
trójkacie
problem
model
metoda
19ze niby komputer zamiast lekarza ?
Medyczny System Ekspertowy bedzie jedynie
wspomagal, ale nie zastapi pracy lekarza. W
szpitalu w Ottawie, w izbie przyjec nie dyzuruje
specjalista chirurg, lecz stazysci, internisci, a
nawet wykwalifikowane pielegniarki. Chirurg jest
pod telefonem. Tymczasem trzeba ocenic, czy
konkretnemu malemu pacjentowi chirurg jest
potrzebny. To nie jest takie proste. Trafnosc
decyzji, czy przywolac chirurga, czy skierowac na
obserwacje, czy tez odeslac do domu, jest rzedu
szescdziesieciu procent. Czyli czesto sie zdarza,
ze do domu odsyla sie kogos bardzo chorego, a
chirurga wzywa sie do banalnego zatrucia
pokarmowego.
Dzieki sztucznej inteligencji, maszyna moze
wyindukowac z danych reguly decyzyjne, jednak, na
przyklad w przypadku medycyny, dopiero po
zrozumieniu i akceptacji tych regul przez lekarza
reguly te moga pretendowac do miana wiedzy i
prowadzic do interesujacego, potwierdzajacego
intuicje odkrycia.
Niewatpliwie maszyny w coraz wiekszym stopniu
beda wyreczaly czlowieka w wykonywaniu pewnych
intelektualnych czynnosci, bo sa sprawniejsze
obliczeniowo, bardziej pojemne pamieciowo, nie
mecza sie, nie maja zlych dni itd. W zwiazku z
tym potrafia wykonywac prace, które przerastaja
czlowieka swoim ogromem i uciazliwoscia.
20Fakty liczby
Rozmiar baz danych wspólczesnych systemów
informatycznych osiaga wielkosci rzedu
terabajtów. Sredniej wielkosci hipermarket
rejestruje dziennie sprzedaz przynajmniej kilkunas
tu tysiecy produktów. Puchna bazy danych systemów
e-commerce, dostepnych na biezaco, 24 godziny na
dobe wzrasta liczba ich klientów oraz liczba
zawieranych transakcji.
21Fakty liczby (cd.)
- Jednoczesnie.
- Konkurencja pomiedzy firmami zaostrza sie.
- Coraz trudniej znalezc nowe obszary ekspansji,
nisze rynkowe. - Coraz trudniej utrzymac dotychczasowych klientów.
- Bazy danych zawieraja ogromne ilosci uzytecznych
informacji, pozwalajacych firmom utrzymac lub
wzmocnic ich pozycje rynkowa.
22Faktów nigdy za wiele
Korporacyjne bazy danych kopalnia uzytecznych
informacji
Uzyteczne informacje sa wyrazone niejawnie, sa
ukryte w danych, nalezy je odkryc,
wydobyc. Proces ten nazywa sie potocznie
eksploracja danych (ang. Data Mining). Swiadomosc
istnienia ukrytego potencjalu informacyjnego baz
danych jest znana od lat. Jednak dopiero w ciagu
ostatnich kilkunastu lat intensywnie prowadzi sie
badania nad odkrywaniem metod eksploracji danych
oraz wykorzystuje sie te metody w praktyce.
Co wiec mozna sie wywiedziec z danych ?
23 Jaka wiedze odkrywamy dzieki DM ?
1.odkrywanie asocjacji (associations) znajdowanie
regul typupiwo -gt orzeszki 2.wzorce sekwencji
(sequential patterns) znajdowanie sekwencji dot.
np. zakupów klienta (TV, video, kamera) 3.
klasyfikacja (classifications) klasyfikacja
danych do grup ze wzgledu na atrybut decyzyjny,
np. klasyfikacja klientów przez bank do grup
dac kredyt / nie dac kredytu 4. analiza skupien
(clustering) grupowanie danych na wczesniej
nieznane klasy, znajdowanie wspólnych cech,
np. wyodrebnienie róznych rodzajów klientów
róznych taryf przez siec telefonii
komórkowej 5. podobienstwo szeregów czasowych
(time-series similarities) badanie podobienstwa
przebiegów czasowych, np. wykresów gieldowych 6.
wykrywanie odchylen (deviation detection) znajdowa
nie anomalii, wyjatków, np. rozpoznawanie
kradziezy karty kredytowej (nietypowe operacje na
koncie)
24 Mniej powazna definicja DM ?
Eksploracja danych polega na torturowaniu danych
tak dlugo, az zaczna zeznawac
25Data mining eksploracja danych jest dziedzina
informatyki zajmujaca sie odkrywaniem wiedzy
zapisanej niejawnie w duzych zbiorach danych
oraz przedstawieniem jej w zrozumialy dla
uzytkownika sposób. Pod pojeciem wiedzy rozumiec
bedziemy relacje, powiazania, zwiazki i wzorce
odkrywane przez algorytmy eksploracji danych w
sposób autonomiczny.
Eksploracja danych (DM Data Mining) okreslana
jest równiez pojeciem odkrywania wiedzy w bazach
danych (KDD Knowledge Discovery in Databases)
26(No Transcript)
27(No Transcript)
28(No Transcript)
29 Cala prawda o OLAP
Problemy na styku OLAP a wspomaganie
decyzji Systemy OLAP dzialaja zwykle obliczajac
zagregowane wielkosci na podstawie danych
pochodzacych z magazynu danych. Systemu OLAP
pozwalaja na analizowanie tego co sie wydarzylo
na podstawie danych o przeszlosci. Dzialanie OLAP
jest sterowane hipoteza sformulowana przez
uzytkownika (ang. query-driven eksploration),
system OLAP jest pasywny. Uzywajac systemów OLAP
mozna wchodzic w glab, dochodzac do danych
bardziej szczególowych, ale uzytkownik nadal
pozostaje odpowiedzialny za identyfikowanie
interesujacych trendów czy powiazan. Koncepcje
postrzegania danych jako wielowymiarowych
kostek powoduje problemy w percepcji
przeprowadzanych analiz. Do skutecznego
podejmowania decyzji potrzebna jest wiedza o
prawidlowosciach rzadzacych dana dziedzina.
Decydenci oczekuja, iz systemy informatyczne prawi
dlowosci te odkryja, potwierdzajac to, co juz
wiemy lub dostarcza nam nowej wiedzy.
30 Rózne metody cel ten sam !!!
31(No Transcript)
32Jezeli jest ladna pogoda to mam dobry
humor. pogodaladna ? humortak Jezeli jest ladna
pogoda i mam czas wolny to pójde na
spacer. pogodaladna ? czas_wolnytak ?
zajeciespacer
33 Baza danych przyklad
34 Tablica decyzyjna ?
Po wyodrebnieniu atrybutów warunkowych i
decyzyjnych taka tabela staje sie tablica
decyzyjna. Z tablicy mozna próbowac bezposrednio
odczytywac reguly
Zachmurzenieslonce ? temperatura goraco ?
wilgotnosc wysoka ? wiatrslaby ? gracnie
14 rekordów produkuje 14 regul... . A jezeli
rekordów bedzie kilkadziesiat tysiecy? Kto
potrzebuje wiedzy w postaci kilkudziesieciu
tysiecy regul ?????
35 Klasyfikator wybawca ?
36Co nam daje DataMining ?
Stosujac zdroworozsadkowa analize zbioru danych
udalo sie odkryc zaleznosci pomiedzy polami
warunkujacymi a polem decyzyjnym. Czy to juz jest
Data Mining ? Prawie tak, ale niech to robi
komputer !
Eksploracja danych
dane
wiedza
gracnie if zachmurzeniesloncewilgotnoscwysoka
gractak if zachmurzeniepochmurnogractak if
zachmurzeniesloncewilgotnoscnormalnagracnie
if zachmurzeniedeszczwiatrsilnygractak if
zachmurzeniedeszczwiatrslaby
warunki
decyzje
37Metody eksploracji danych mozna podzielic, bardzo
ogólnie, na 6 zasadniczych klas. Odkrywanie
asocjacji Najszersza klasa metod obejmujaca,
najogólniej, odkrywanie róznego rodzaju
nieznanych zaleznosci w bazie danych. Metody te
obejmuja glównie odkrywanie asocjacji
pomiedzy obiektami. Generalnie, odkrywane
zaleznosci posiadaja pewne miary statystyczne
okreslajace ich wsparcie i ufnosc.
Klastrowanie Celem tych metod jest znajdowanie
skonczonego zbioru klas obiektów (klastrów) w
bazie danych posiadajacych podobne cechy. Liczba
klastrów jest nieznana, stad, proces klastrowania
przebiega, najczesciej, w dwóch cyklach cykl
zewnetrzny przebiega po liczbie mozliwych
klastrów, cykl wewnetrzny próbuje znalezc
optymalny podzial obiektów pomiedzy klastry.
Odkrywanie wzorców sekwencji Odkrywanie czasowych
wzorców zachowan, np. znajdowanie sekwencji
notowan gieldowych, zachowan klientów
ubezpieczalni, klientów supermarketów.
Odkrywanie klasyfikacji Celem tych metod jest
znajdowanie zaleznosci pomiedzy klasyfikacja
obiektów (klasyfikacja naturalna badz wprowadzona
przez eksperta) a ich charakterystyka.
Zastosowanie charakterystyka pacjentów, klientów
kart kredytowych, pozyczkobiorców. Odkrywanie
podobienstw w przebiegach czasowych Znajdowanie
podobienstw w przebiegach czasowych opisujacych
okreslone procesy. Wykrywanie zmian i
odchylen Znajdowanie róznic pomiedzy aktualnymi a
oczekiwanymi wartosciami danych znajdowanie
anomalnych zachowan klientów ubezpieczalni,
klientów kart kredytowych, klientów firm
telekomunikacyjnych.
38 Analiza danych w bazach danych
- wielkie bazy danych (Very Large Databases) i
magazyny danych (Data Warehouses) - rozmiary wspólczesnych systemów baz danych
- siec sprzedazy Wal-Mart gromadzi dziennie dane
dotyczace ponad 20 milionów transakcji - koncern Mobil Oil rozwija magazyn danych
pozwalajacy na przechowywanie ponad 100
terabajtów danych o wydobyciu ropy naftowej - system satelitarnej obserwacji EOS zbudowany
przez NASA generuje w kazdej godzinie dziesiatki
gigabajtów danych - niewielkie supermarkety rejestruja codziennie
sprzedaz tysiecy artykulów - wielkie wolumeny danych sa trudne w analizowaniu
- informacje o dotychczasowej dzialalnosci
przedsiebiorstwa, poziomie i strukturze sprzedazy
oraz cechach klientów moga posluzyc do
wspomagania podejmowania decyzji
39Data Mining - sukcesy
- Database Marketing w American Express
- Database Marketing polega na analizie danych o
klientach w celu znajdowania schematów ich
preferencji i nastepnie wykorzystywania tych
schematów dla precyzyjnej selekcji kolejnych
klientów. Database Marketing w American Express
doprowadzil do 10-15 wzrostu zakupów z
wykorzystaniem kart kredytowych. - Weryfikacja poprawnosci danych w Reuters
- Reuters stosuje techniki eksploracji danych dla
weryfikacji poprawnosci i wykrywania
prawdopodobnych przeklaman w wysokosci
publikowanych kursów wymiany walut. - Profil sluchacza w BBC
- BBC przy pomocy systemu eksploracji danych
przewiduje profil widowni programów telewizyjnych
w celu wyboru optymalnych pór ich nadawania. - Sklad zespolu w Orlando Magic
- trener Orlando Magic wykorzystuje data-mining do
ustalania skladu zespolu rozgrywajacego mecze -
rezultat likwidacja trendu spadkowego (2 wygrane
mecze)
40Data Mining sukcesy cd.
- Firma American Express podala, ze wykorzystanie
technik eksploracji na bazie danych klientów
pozwolilo zwiekszyc o 10 15 uzycie jej kart
kredytowych. - Bardzo duza firma handlowa dzieki ekstrakcji
potrafila okreslic 5-cio procentowy segment tych
klientów, którzy charakteryzuja sie tym, ze
regularnie udzielaja odpowiedzi na rózne
zapytania firmy. Klienci ci dostarczali 60
wszystkich odpowiedzi. Dzieki ustaleniu tego
faktu firma zwiekszyla 12- krotnie stope
odpowiedzi i zmniejszyla koszty oplat pocztowych
o 95 .
41Data Mining - Zaleznosci w bazach danych
wiek lat prawo kolor poj. moc razem kierowcy ja
zdy pojazdu silnika szkody -------------
------------- -------------- ------------- ------
------- 42 24 bialy 1610 100 0 19 1 czerwony
650 24 2500 28 4 czerwony 1100 40 0 41 20 c
zarny 1800 130 0 21 3 czerwony 650 24 1300 20
1 niebieski 650 24 0
- kierowcy, którzy jezdza czerwonymi samochodami o
pojemnosci 650 ccm, powoduja wypadki drogowe - kierowcy w wieku powyzej 40 lat jezdza
samochodami o pojemnosci wiekszej niz 1600 ccm - kierowcy, którzy posiadaja prawo jazdy dluzej niz
3 lata, nie powoduja wypadków - kierowcy w wieku ponizej 30 lat jezdza
samochodami koloru czerwonego
42 Drzewa decyzyjne - przyklad
43 Drzewa decyzyjne dla przykladu
44przyklad
nie
nie
nie
nie
nie
45 Rozklad obiektów do klas decyzyjnych
slonecznie
1,2,8,9,11
3 N 2 T
5/14
zachmurzenie
pochmurno
4/14
3,7,12,13
4 T 0 N
deszczowo
4,5,6,10,14
3 T 2 N
5/14
4/14
goraco
1,2,3,13
2 N 2 T
temperatura
lagodnie
6/14
4,8,10,11,12,14
4 T 2 N
zimno
5,6,7,9
3 T 1 N
4/14
wysoka
1,2,3,4,8,12,14
3 N 4 T
7/14
wilgotnosc
normalna
5,6,7,9,10,11,13
6 T 1 N
7/14
slaby
1,3,4,5,8,9,10,13
2 N 6 T
8/14
wiatr
2,6,7,11,12,14
3 T 3 N
6/14
silny
Entropia (rozklad)
46 Information Gain przyklad
W przykladzie golf jako pierwszy do podzialu
zostal wybrany atrybut zachmurzenie, bo jego
wskaznik gain byl najwiekszy S zawiera 14
elementów 2 klasy TAK (9 elementów) i NIE (5
elementów) E(S) -9/14 log 9/14 5/14 log 5/14
0.94 E(S/zachmurzenie) 5/14(-3/5log23/5
2/5log22/5) 4/14(-1log21 0log 20)
5/14(-3/5log23/5 2/5log22/5)
0.2 E(S/temperatura) 4/14(-2/4log22/4
2/4log22/4) 4/14(-3/4log23/4 1/4 log21/4)
6/14(-2/6log22/6 4/6log24/6)
0.48 E(S/wilgotnosc) 7/14(-4/7log24/7
3/7log23/7) 7/14(-6/7log26/7 1/7 log21/7)
0.43 E(S/wiatr) 8/14(-6/8log26/8 2/8log22/8)
6/14(-3/6log23/6 3/6log2 3/6) 0.71 Gain
Information(zachmurzenie) 0.94 0.2
0.74 Gain Information(temperatura) 0.94 0.48
0.46 Gain Information(wilgotnosc) 0.94 0.43
0.51 Gain Information(wiatr) 0.94 0.71
0.23 Najwiekszy zysk informacji dostarcza
atrybut zachmurzenie i to on bedzie korzeniem
drzewa
47R1 gracnie if zachmslonce and tempgoraco and
wilgwysoka and wiatrslaby R2 gracnie if
zachmslonce and tempgoraco and wilgwysoka and
wiatrsilny R14 gracnie if zachmdeszcz and
tempsrednio and wilgwysoka and wiatrsilny
gracnie if zachmurzeniesloncewilgotnoscwysoka
gractak if zachmurzeniepochmurnogractak if
zachmurzeniesloncewilgotnoscnormalnagracnie
if zachmurzeniedeszczwiatrsilnygractak if
zachmurzeniedeszczwiatrslaby
48 Jak zadziala SE z taka baza wiedzy ?
?
49 Inne metody analizy danych DM
- Metody eksploracji danych
- odkrywanie asocjacji
- odkrywanie wzorców sekwencji
- klasyfikacja
- analiza skupien - grupowanie
- szeregi czasowe
- wykrywanie zmian i odchylen
Grupowanie jest to podzial zbioru obiektów na
podzbiory taki by podobienstwo obiektów
nalezacych do jednego podzbioru bylo najwieksze a
obiektów nalezacych do róznych podzbiorów
najmniejsze.
50Grupowanie analiza skupien
Na czym polega grupowanie ?
Obiekt jest przydzielony do skupienia, którego
srodek ciezkosci lezy najblizej w sensie
odleglosci euklidesowej.
51 Analiza skupien cluster analysis
- Uczenie nienadzorowane
- dany jest zbiór uczacy, w którym obiekty nie sa
poklasyfikowane - celem jest wykrycie nieznanych klasyfikacji,
podobienstw miedzy obiektami
jak znajdowac podobienstwo ?
- Miary odleglosci,
- Miary podobienstwa.
X4 0 0 0 0 1 0 0 3 X22 0 0 0 0 1 1 0 3
52(No Transcript)
53 Analiza skupien przyklad
54Problem z wyszukiwaniem informacji
Internet to dzisiaj
- Uzytkownicy , dane 2
- Postep technologii
- Spadek wiarygodnosci
Coraz trudniej jest uzyskac wartosciowa informacje
PROBLEM
uzytkownik dzisiaj
Oczekiwanie dostepnosci informacji Latwo,
szybko i dokladnie
55(No Transcript)
56Za duzo !!!
57(No Transcript)
58(No Transcript)
59(No Transcript)
60http//www.cs.put.poznan.pl/dweiss/carrot/
61Analiza koszykowa to jest to !
Up-selling i cross-selling to 2 metody
maksymalizowania zysku z jednej transakcji, a tym
samym dochodów w ujeciu globalnym. Sa to
okreslenia dla dzialan majacych jeden cel aby
klient kupil wiecej niz planowal.
- Analiza koszykowa - wlasciwy krok w kierunku
cross- i up-sellingu - Maksymalizacja zysku jest mozliwa dzieki
- Zrozumieniu, które produkty (uslugi) sa kupowane
razem?, - Zrozumieniu, które produkty sa kupowane w
nastepnej kolejnosci ?. - Wykorzystanie narzedzi Data Mining pozwala nie
tylko znalezc odpowiedz na pytanie jakie produkty
zwykle wystepuja wspólnie w koszyku, ale takze
znalezc takie produkty, których obecnosc w
koszyku warunkuje obecnosc innych produktów i
okreslic jak wysoki jest poziom
prawdopodobienstwa tego typu zdarzen.
62Analiza koszykowa
Menedzerowie i analitycy moga uzywac "analiz
koszykowych", aby planowac miedzy innymi
kampanie promocyjne - obnizone ceny przy
zakupie na kolejne ze wspólkupowanych produktów,
kupony promocyjne rozdawane przy zakupie
okreslonych produktów itp. polozenie produktów
- ustawiac produkty wspólkupowane w sasiedztwie
jesli wspólkupowanie jest silne lub umieszczanie
produktów z dala od siebie, aby wymusic wiekszy
ruch obok pólek z innymi produktami w przypadku
produktów, dla których zakup jednego zasadniczo
determinuje zakup drugiego itp. sprzedaz w
czasie - jaka ilosc danego produktu zamówic,
jesli ostatnio szczególnie dobrze sprzedaja sie
produkty, które z nim sa zwykle kupowane w
sekwencjach o okreslonym interwale czasowym.
63Analiza koszykowa w hipermarkecie
64Analiza koszykowa w sklepie internetowym
65Binarne reguly asocjacyjne - podstawowe definicje
- wsparcie
- Regula X?Y posiada wsparcie s w bazie danych D,
jezeli s transakcji w D wspiera zbiór X n Y
tidj Tj
1 A,B,C,D
2 A,D
3 A,C
4 B,D,F
Wsparcie (A ?B) 25 Wsparcie (A ?C) 50
66Binarne reguly asocjacyjne - podstawowe definicje
- ufnosc
- Regula X ? Y posiada ufnosc c w bazie danych
jezeli c transakcji w D, które wspieraja zbiór
X, wspieraja równiez Y - ufnosc (X ?Y) wsparcie (X nY)/wsparcie (X)
tidj Tj
1 A,B,C,D
2 A,D
3 A,C
4 B,D,F
Ufnosc (A ?B) 33 Ufnosc (A ?C) 66
Zachodzaca regule A ? C wsparcie 50 , ufnosc
66 mozemy zinterpretowac nastepujaco 66 osób,
które kupily towar A kupily równiez towar C a
sytuacja ta zachodzi w 50 wszystkich transakcji.
67Jak to sie dzieje ? Ze dzieje sie tak?
Dania mrozone lt warzywa konserwowe piwo
(16533 16.7 0.874)
Regula
mówi nam, ze
16533 klientów wlozylo jednoczesnie do koszyka
warzywa konserwowe - piwo
stanowi to 16,7 sposród wszystkich klientów
poddanych analizie
Jednoczesnie 87,4 kupujacych warzywa konserwowe
i piwo kupilo takze dania mrozone
czyli z wysoka ufnoscia mozemy stwierdzic, iz
jesli ktos kupuje warzywa konserwowe i piwo to
kupi tez jakies danie mrozone
Warto tym klientom przyjrzec sie blizej
Jesli podzielimy klientów na dwie grupy, tych
którzy kupili i tych którzy nie kupili wiazki
produktów dania mrozone - warzywa konserwowe -
piwo
Taka cecha posluzy do poszukiwania charakterystyk
osób, które kupuja produkty w danej konfiguracji
Stosujac algorytm drzewa decyzyjnego uzyskamy
regulyi opis grupy
68Wyniki analizy
- Byli to mezczyzni o dochodach gospodarstwa
ponizej 1690,-PLN. - Sposród 16335 zakupów dokonanych przez tych
klientów w ok. 84 przypadków w koszykach
znalazla interesujaca nas wiazka produktów tzn.
dania mrozone - warzywa konserwowe - piwo. - Tego typu informacje moga byc bardzo istotne
zarówno z punktu widzenia planowanych akcji
promocyjnych, jak i wzajemnego usytuowania
produktów na pólkach.
Co bedzie dalej ?
Analiza mikromacierzy DNA tysiace genów podlega
grupowaniu
Analiza logów uzytkowników i budowa profili
uzytkowników personalizacja stron WWW
Optymalizacja systemów rozpoznawania mowy dzieki
grupowaniu wyrazów, zdan
69Wnioski
- Nalezy pamietac, ze poczatek AI to lata 60-te
- Wielki bum SE to lata 80-te i 90-te
- Nie radzilyby sobie one dzisiaj bez DM
- DM dostarcza wielu uzytecznych technik nie tylko
analizy wiedzy dla potrzeb statystycznych, ale i
dla wydobywania z danych ukrytej, uzytecznej
wiedzy
70Literatura
Carrot2 http//www.cs.put.poznan.pl/dweiss/ Wysz
ukiwarki Klopotek M., Inteligentne wyszukiwarki
internetowe, EXIT, 2001 http//data-minig.home.pl
/ Grupowanie http//www.statsoft.pl/textbook/stcl
uan.html Stapor K. ,(2005), Automatyczna
klasyfikacja obiektów, EXIT, Warszawa Everitt
B.S., (1993), Cluster Analysis (3rd edition),
London http//www.thearling.com/text/dmtechniques/
dmtechniques.htm http//spss.clementine.org
71Dziekuje za uwage
agnieszka.nowak_at_us.edu.pl
http//zsi.tech.us.edu.pl/anowak/