Alat za pretra - PowerPoint PPT Presentation

1 / 12
About This Presentation
Title:

Alat za pretra

Description:

to su tra ilice Kako funkcioniraju tra ilice Optimizacija pretra ivanja www se ne mo e pretra ivati direktno ve e se pretra uje pomo u specijaliziranih ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 13
Provided by: Josi55
Category:
Tags: alat | kids | pretra | spiders

less

Transcript and Presenter's Notes

Title: Alat za pretra


1
Alat za pretraživanje informacija na www-u
  • Što su tražilice
  • Kako funkcioniraju tražilice
  • Optimizacija pretraživanja

2
Pretražni alati
  • www se ne može pretraživati direktno vece se
    pretražuje pomocu specijaliziranih alata koji
    skupljaju podatke o web stranicama i formiraju ih
    u posebne baze podataka, omogucavajuci
    korisnicima da putem hipertekstnih poveznica
    (linkova) pristupaju pronadenim stranicama.
  • Kategorije
  • Pretraživaci i metapretraživaci,
  • Tematski katalozi (imenici)
  • Tematski vodici
  • Specijalizirane baze podataka

3
Web pretraživaci (tražilice)
  • Web pretraživaci (roboti, indeksi) koriste
    specijalne automatizirane programe za "uljanje",
    "gmizanje" po Webu ("to crawl the web") koji se
    nazivaju Web crawlers (gmizavac, unjalo) ili
    spiders (pauci) 4. Oni skaèu s Web mjesta na
    Web mjesto preko poveznika, prikupljajuci naslove
    svih mjesta, URL, i najmanje neke od njihovih
    tekstovnih sadržaja. Kada naðu mjesto, oni
    pretražuju (snimaju) (scan) Web stranice toga
    mjesta i zapisuju (record) sve informacije u
    indeks.
  • Program kojemu je funkcija indeksiranje
    ekstrahira informacije iz dokumenata i sprema ih
    u svoju katalošku bazu podataka. Cilj je spidera
    posjetiti milijune Web mjesta i ostati s njima u
    vezi koliko god je moguce. U svojemu hodu po
    mreži spideri raznih pretraživaca medusobno
    dijele više baza podataka koje doticu.
  • Web search engine skup programskih alata koji
    pretražuju informacije na WWW-u. Rezultati se
    prikazuju u popisu i nazivaju se pogotci.
    Informacija može sadržavati web stranicu, sliku,
    tekst i/ili ostale tipove datoteka. Neke
    tražilice imaju alate za rudarenje (u newsbook-u,
    bazi ili otvorenim direktorijima (katalog
    kategoriziranih linkova)

4
Kako rade tražilice search engines
  • Što imaju i kako rade alati (strojevi) za
    pretraživanje
  • Web crawling (pretraživanje plaženje po web i
    skidanje podataka o posjecenom URL-u)
  • Indeksiranje oznacavanje skinutog materijala
    prema definiranim kriterijima (naslovima,
    poglavljima, zaglavljima, posebnim poljima
    metatagovima) i formiranje baze podataka
  • Traženje upotrebom jezika upita (SQL-a)
    postavlja se zahtjev za traženje indeksne baze
    prema kriterijima za pretraživanje (kljucnim
    rijecima najcešce ili uz kombinaciju raspoloživih
    operatora logickih ili posebnih koje podržava
    SQL)
  • Problem kako rangirati dobivene rezultate
    pretraživanja ovisno o znacaju kojeg imaju za
    korisnika

5
Web crawler
  • Web crawler racunalni program koji pretražuje
    WWW na metodolški automatiziran nacin (mrav,
    automatski indekser, web spider, web robot, web
    skuter)
  • Kreiraju kopije posjecenih stranica za kasnije
    indeksiranje pomocu search engine-a koji ce
    indeksirati skinute stranice za kasnija
    pretraživanja. Koriste se takoder za
    prikupljanje specificnih tipova informacija kao
    što su e-mail adrese (na koje mogu poslati
    razliciti spam)
  • To je jedna vrsta softverskog agenta nacelno
    zapocinje s listom URL-a (sjemenje). Kada je
    crawler posjetio URL, identificirao je hiperveze
    na stranici dodao ih u listu URL-a (crawl
    frontier) koje se rekurzivno posjecuju prema
    skupu postavljenih politika.
  • Politike
  • Crawling je zahtjevan zadatak zbog
  • Broja URLa i velikog obujma crawleri mogu
    skidati samo dio (frakciju) web stranice u danom
    vremenu i moraju definirati prioritete
  • Brzine kojom se sadržaji mijenjaju crawler
    uzima stranicu u momentu kad je ona raspoloživa i
    vrlo je vjerojatno da ce se u njoj nešto ubzo
    mijenjati
  • Dinamicke prirode promjena na web stranicama
    server side scripting utice na dinamicke promjene
    sadržaja stranice što predstavlja dodatnu
    poteškocu u definiranju broja parametara koji ce
    se koristiti za pretraživanje (nacin sortiranja,
    vrsta prikaza, format datoteke, korisnicki
    parametri....)
  • Dodatni problem širina pristupnog pojasa
    (odreduje brzinu veze) odreduje takoder stopu
    osvježenja i efikasan nacin pretraživanja u
    ogranicenom vremenskom periodu
  • Yahoo Crawler (Slurp)
  • Google Crawler
  • WebCrawler

6
Politike web crawlinga
  • Politika izbora koju stranicu skinuti
  • važnot stranice je funkcija njoj svojstvene
    kvalitete popularnosti i broja posjeta ili
    domene problem ne može se znati unaprijed.
    Pretraživanje prvo u širinu pa u dubinu (Ako je
    pretraživaje prvo u dubinu vertikalne
    tražilice)
  • Restrikcije na linkove koji ce se slijediti (pr.
    Samo na .html, .asp, .php...)
  • Put k traženom pojmu
  • Fokusirani crawling
  • Duboki crawling pretraživanje pojmova ne samo u
    naslovu i zaglavljima vec bilo gdjeu tekstu (
  • Politika ponovnog pregleda kada provjeriti
    promjene na skinutim stanicama starost i stopa
    osvježenja definira se algoritam
  • Politika uljudnosti kojom se utvrduje kako
    izbjeci pretrpavanje web stranica djelomicno
    rješenje za problem pretrpavanja servera
    razlicitim robot exclusion protocol
    administratori odreduju koji dio servera se nece
    dozvoliti za pregledavanje od strane crawlera.
  • Politika paralelizacije kako koordinirati
    distribuirane web crawlere bilježenjem URL-a
    kojeg je jedan crawler pronašao
  • Optimizacija search engina cilj pozicionirati
    se na prva mjesta u upotrebi pretraživaca

7
Podjela pretraživaca
  • Opci (Major Search Engines) - najpopularniji su i
    najvažniji i pokrivaju cijeli svijet
  • (Google lthttp//www.google.com, - Yahoo
    lthttp//www.yahoo.comgt,
  • specijalizirani (Specialty Search Engines) - vode
    pretraživanje kroz baze podataka, grupe za
    novosti (Newsgroups), nalaze online programe itd.
  • Po vrstama sadržaja (npr. Multimedijalni)
  • Po temama
  • Opci pretraživaci sa specijalnim namjenama
    (lthttp//websearch.about.com)
  • metapretraživaci (Metacrawlers) - za razliku od
    pretraživaca, ne pretražuju Web sami da bi
    izgradili indekse. Metapretraživaci pretražuju
    nekoliko pretraživaca istodobno i rezultate
    prikazuju na zajednickoj stranici
  • (BYTESEARCH (http//www.bytesearch.com)
  • DOGPILE (http//www.dogpile.com) - brojni
    pretraživaci, Usenet, ima jednostavno i složeno
    pretraživanje, Boole
  • INFERENCE FIND (http//www.inference.com/ifind)
  • INTERNET SLEUTH (http//www.isleuth.com) -
    izvrstan za specijalizirana pretraživanja,
    omogucava odredivanje kategorije unutar koje se
    pretražuje (poduzetništvo, racunala, obrazovanje,
    sport)
  • MAMMA (http//www.mamma.com)
  • METACRAWLER (http//www.go2net.com/search.html) -
    izvrstan za dobivanje brzog odgovora
  • PROFUSION (http//www.profusion.com)
  • SAVVYSEARCH (http//www.savvysearch.com)
  • regionalni (Regional Search Engines) -
    pretraživaci za razne države i regije. Glavne su
    kategorije pretraživaèa svrstane po kontinentima
    pa zatim po državama
  • - pretraživaci novosti (News Search Engines) -
    službe tih pretraživaca daju iznimno dobre
    rezultate pretraživanja kurentnih dogodaja, jer
    pretražuju relevantna Web mjesta dnevno
  • - djecji (Kids Search Engines) - službe djecjih
    pretraživaca dizajnirane su prvenstveno za
    potrebe djece bilo u fokusiranju bilo u
    filtriranju mjesta koja bi bila nepodobna za
    djecu

8
Metapretraživaci
  • paralelni ili višestruki pretraživaci
  • simultano pretražuju više pretraživaca
  • na kraju se korisniku daju integrirani rezultati
    liste razlicitih pretraživaca s prozorom za svaki
    od njih
  • ne spadaju u prave metapretraživace
  • postoje i višestruki pretraživaci koji provode
    simultano pretraživanje, ali ne kombiniraju
    rezultate
  • Primjeri
  • BYTESEARCH (http//www.bytesearch.com)
  • DOGPILE (http//www.dogpile.com) - brojni
    pretraživaci, Usenet, ima jednostavno i složeno
    pretraživanje, Boole
  • INFERENCE FIND (http//www.inference.com/ifind)
  • INTERNET SLEUTH (http//www.isleuth.com) -
    izvrstan za specijalizirana pretraživanja,
    omogucava odredivanje kategorije unutar koje se
    pretražuje (poduzetništvo, racunala, obrazovanje,
    sport)
  • MAMMA (http//www.mamma.com)
  • METACRAWLER (http//www.go2net.com/search.html) -
    izvrstan za dobivanje brzog odgovora
  • PROFUSION (http//www.profusion.com)
  • SAVVYSEARCH (http//www.savvysearch.com)

9
Strategija pretraživanja
  • identificirati vlastiti koncept tražimo li
    informacijski izvor ili konkretan podatak
  • odabrati kljucne rijeci (samo jedna kljucna rijec
    možda ce nam dati previše pogodaka)
  • odrediti sinonime
  • odabrati Booleove operatore ili simbole
  • postaviti ogranicenja, filtre (jezik, domena, tip
    dokumenta, datum, naslovi, URL, poveznici, i
    drugo).
  • http//www.googleguide.com/web_address.html

10
Web direktoriji
  • Web direktorij održava ga urednicki tim daje
    popis web mjesta po kategorijama i
    subkategorijama
  • Unos sadržaja odreden je politikom uredništva
    sadrži RSS feeds (sadržaje koji su vezani uz
    neko podrucje mogucih interesa)
  • Primjer http//directory.google.com/

11
Imenicki servisi
  • Imenicki servisi omogucuju objavljivanje i
    pretraživanje elektronickih adresa i ostalih
    podataka o korisnicima mreže (White pages) kao i
    o uslugama i resursima te davateljima usluga na
    mreži (Yellow pages).
  • U Hrvatskoj pr. http//ds.carnet.hr

12
Izvori
  • http//www.googleguide.com/web_address.html
  • http//prelog.chem.pmf.hr/tezak/preinin/preinin/v
    je21I.html
Write a Comment
User Comments (0)
About PowerShow.com