Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id

Description:

Definisi IR Motivasi Data retrieval ... komputer Machine-learning banyak digunakan untuk ... (content) gambar http://wang.ist.psu.edu/IMAGE/ Pencarian jawaban ... – PowerPoint PPT presentation

Number of Views:87
Avg rating:3.0/5.0
Slides: 35
Provided by: Acti78
Category:

less

Transcript and Presenter's Notes

Title: Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id


1
Model dalam sistem temu kembali informasiyasmi
afrizal yasmi_afrizal_at_yahoo.co.id
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
2
Definisi IR
Pertemuan ke-2
  • Pencarian materi (biasanya dokumen) dari sesuatu
    yang sifatnya tak-terstruktur (unstructured,
    biasanya teks) untuk memenuhi kebutuhan informasi
    dari dalam koleksi besar (biasanya disimpan dalam
    komputer).
  • Representasi, penyimpanan, organisasi, pencarian
    dan akses ke item informasi untuk memenuhi
    kebutuhan informasi pengguna.
  • Penekanan pada proses retrieval informasi (bukan
    data).
  • Karakterisasi kebutuhan informasi tidaklah mudah.
    Harus ditranslasi ke dalam suatu query terlebih
    dahulu.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
3
Motivasi
Pertemuan ke-2
  • Data retrieval
  • Dokumen mana yang mengandung himpunan keyword?
  • Semantik didefinisikan dengan baik
  • Error dari suatu obyek mengakibatkan kegagalan!
  • Information retrieval
  • Informasi mengenai suatu subyek atau topik
  • Semantik dapat bersifat lepas (longgar)
  • Error kecil ditoleransi

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
4
...Motivasi
Pertemuan ke-2
  • IR di tengah pertunjukan
  • IR dalam 20 tahun terakhir
  • Klasifikasi dan kategorisasi
  • Sistem dan bahasa
  • Antarmuka pengguna dan visualisasi
  • Masih, area dilihat sebagai bidang yang sempit
  • Web mengubah persepsi ini
  • Repository pengetahuan universal
  • Akses universal gratis (biaya rendah)
  • Volume raksasa dari informasi tanpa editorial
    board terpusat
  • Meskipun banyak masalah IR merupakan kunci untuk
    menemukan solusi!

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
5
Sistem IR
Pertemuan ke-2
  • Menerima query pengguna yang mewakili kebutuhan
    informasi
  • Mencari dan menginterpretasikan content (isi)
    dari item-item informasi
  • Membangkitkan suatu ranking yang mencerminkan
    relevansi terhadap kebutuhan informasi tersebut
  • Ide mengenai relevansi adalah sangat penting

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
6
(No Transcript)
7
Kebutuhan IR
Pertemuan ke-2
  • WWW lebih 25 milyar halaman web, 1.3 milyar
    gambar dan lebih 1 milyar pesan Usenet yang
    diindeks pada Google (2006)
  • Berbagai kebutuhan informasi
  • Mencari dokumen yang masuk dalam topik tertentu
  • Mencari suatu informasi spesifik
  • Mencari jawaban dari suatu pertanyaan
  • Mencari informasi dalam bahasa berbeda
  • ...

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
8
Penjualan Software Text Retrieval
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
9
Information Retrieval (IR)
Pertemuan ke-2
  • Secara teknis indexing (pembuatan index) dan
    retrieval (pencarian keterangan) dokumen textual.
  • Pencarian halaman pada WWW adalah aplikasi paling
    ngetop saat ini
  • Fokus pertama meretrieve dokumen- dokumen yang
    relevan dengan query.
  • Fokus kedua meretrieve himpunan besar dokumen
    secara efisien.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
10
Information vs Data Retrieval
Pertemuan ke-2
  • Sistem data retrieval (seperti database)
    berurusan dengan structured data yang mempunyai
    semantik terdefinisi dengan baik dan kebutuhan
    meretrieve hasil yang pasti (exact)
  • Sistem IR berurusan dengan dokumen bahasa alami
    (natural language) dan error kecil dapat
    diabaikan.
  • Sistem IR harus menginterpretasikan content
    kemudian meranking daftar content sesuai dengan
    tingkat relevansinya.
  • Tujuan Meretrieve semua dokumen yang relevan
    sekaligus meretrieve sesedikit mungkin dokumen
    yang tidak relevan

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
11
Sistem IR
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
12
Contoh Sistem IR
Pertemuan ke-2
  • Conventional (katalog perpustakaan)
  • Pencarian dengan kata kunci, judul, penulis, dll.
  • Text-based (Google, Yahoo, ASK).
  • Pencarian dengan kata kunci (keyword). Pencarian
    terbatas menggunakan query dalam bahasa alami.
  • Multimedia (QBIC, WebSeek, SaFe)
  • Pencarian dengan penampilan visual (bentuk,
    warna,)
  • Sistem jawaban pertanyaan (AskJeeves, Answerbus)
  • Pencarian dalam bahasa alami (terbatas)
  • Lainnya
  • IR lintas-bahasa, music retrieval

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
13
Pertemuan ke-2
Sistem IR di Web
  • Pencarian halaman web http//www.google.com
  • Pencarian gambar http//images.google.com
  • Pencarian isi (content) gambar http//wang.ist.psu
    .edu/IMAGE/
  • Pencarian jawaban pertanyaan http//www.askjeeves.
    com
  • Pencarian musik? Hari-hati, jangan melanggar
    hukum.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
14
Relevansi
Pertemuan ke-2
  • Relevansi merupakan suatu judgment (keputusan)
    subyektif dan dapat didasarkan pada
  • topik yang tepat.
  • waktu (informasi terbaru).
  • otoritatif (dari suatu sumber terpercaya).
  • kebutuhan informasi dari pengguna.
  • Kriteria relevansi utama suatu sistem IR
    sebaiknya (harus) memenuhi kebutuhan informasi
    pengguna.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
15
Pencarian Keyword
Pertemuan ke-2
  • Ide paling sederhana dari relevansi apakah
    string query ada di dalam dokumen (kata demi
    kata, verbatim)?
  • Ide yang lebih fleksibel Berapa sering kata-kata
    di dalam query muncul di dalam dokumen, tanpa
    melihat urutannya (bag of words)?

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
16
Masalah dengan Keyword
Pertemuan ke-2
  • Mungkin tidak meretrieve dokumen relevan yang
    menyertakan synonymous terms.
  • restaurant vs. café
  • NDHU vs. National Dong Hwa University
  • Mungkin meretrieve dokumen tak-relevan yang
    menyertakan ambiguous terms.
  • bat (baseball vs. mamalia)
  • Apple (perusahaan vs. buah-buahan)
  • bit (unit data vs. perilaku menggigit)

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
17
Bukan Sekedar Keyword
Pertemuan ke-2
  • Kita akan mendiskusikan dasar-dasar IR berbasis
    keyword, tetapi
  • Fokus pada perluasan dan pengembangan terakhir
    untuk mendapatkan hasil terbaik.
  • Kita akan membahas dasar-dasar pembangunan sistem
    IR yang efisien, tetapi
  • Fokus pada algoritma dan kemampuan dasar, bukan
    masalah sistem yang memungkinkan pengembangan ke
    database ukuran industri.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
18
IR Cerdas
Pertemuan ke-2
  • Memanfaatkan pengertian atau makna dari kata yang
    digunakan.
  • Melibatkan urutan kata di dalam query.
  • Beradaptasi dengan pengguna berdasarkan pada
    feedback, langsung atau tidak langsung.
  • Memperluas pencarian dengan term terkait.
  • Mengerjakan pemeriksaan ejaaan/perbaikan tanda
    pengenal otomatis.
  • Memanfaatkan Otoritas dari sumber informasi.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
19
Indeks
Pertemuan ke-2
  • Sistem IR jarang mencari koleksi dokumen secara
    langsung. Berdasarkan pada koleksi dokumen,
    dibangun sebuah index. Pengguna mencari index
    tersebut.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
20
Indexing Otomatis
Pertemuan ke-2
  • Tujuan dari automatic indexing adalah membangun
    index dan meretrieve informasi tanpa intervensi
    manusia.
  • Ketika informasi yang dicari adalah teks, metode
    automatic indexing akan sangat efektif.
  • Penelitian automatic indexing fundamental dimulai
    oleh Gerald Salton, Professor of Computer Science
    di Cornell mahasiswa Pasca-Sarjananya (Sistem
    SMART).

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
21
IR dari Koleksi Besar
Pertemuan ke-2
  • Information retrieval dari koleksi sangat besar
    bersandar pada
  • Jumlah computer power yang besar untuk
    mengerjakan algoritma sederhana terhadap jumlah
    data yang sangat banyak.
  • komputasi kinerja-tinggi
  • Pemahaman pengguna terhadap informasi dan
    kemampuan dari sistem.
  • Interaksi manusia - komputer
  • Machine-learning banyak digunakan untuk
    mendapatkan kinerja terbaik.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
22
Searching Browsing
Pertemuan ke-2
Orang dalam perulangan
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
23
IR dari Koleksi Dokumen Teks
Pertemuan ke-2
  • Kategori utama dari metode
  • Ranking kemiripan terhadap query (vector space
    model).
  • Pencocokan exact (Boolean).
  • Ranking berdasarkan tingkat kepentingan dokumen
    (PageRank)
  • Kombinasi beberapa metode
  • Contoh Web search engine, seperti Google
    Yahoo, menggunakan metode kombinasi, berdasarkan
    pada pendekatan pertama dan ketiga, dengan
    kombinasi exact dipilih menggunakan machine
    learning

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
24
Istilah Penting
Pertemuan ke-2
  • Information retrieval sub-bidang ilmu komputer
    yang berurusan dengan penemuan kembali dokumen
    (khususnya teks) terotomatis berdasarkan pada
    content dan contextnya.
  • Searching Pencarian informasi spesifik di dalam
    badan informasi. Hasilnya adalah sehimpunan hit.
  • Browsing Eksplorasi tak-terstruktur dari badan
    informasi.
  • Linking Berpindah dari satu item ke item lain
    mengikuti link (sambungan) seperti rujukan
    (referensi).

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
25
...Istilah
Pertemuan ke-2
  • Query Suatu string teks, menggambarkan informasi
    yang sedang dicari pengguna. Setiap kata dari
    query dinamakan search term.
  • Query dapat berupa search term tunggal, string
    dari term, frase atau ekspresi tertentu
    menggunakan simbol khusus, misalnya regular
    expression.
  • Pencarian Full text Metode yang membandingkan
    query dengan setiap kata di dalam teks, tanpa
    membedakan fungsi dari berbagai kata.
  • Pencarian Bidang Metode pencarian pada bidang
    struktural atau bibliografis spesifik, seperti
    penulis atau judul.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
26
...Istilah
Pertemuan ke-2
  • Corpus Koleksi dokumen yang diindeks dan
    dijadikan target pencarian.
  • Daftar kata Himpunan semua term yang digunakan
    dalam indeks untuk suatu corpus (dikenal sebagai
    vocabulary file).
  • Pada pencarian full text, word list adalah semua
    term di dalam corpus, stop words dihapus. Term-
    term terkait dikombinasi dengan stemming.
  • Controlled vocabulary Metode indexing dimana
    word list bersifat tetap. Term-term dari
    vocabulary tersebut dipilih untuk mendeskripsikan
    setiap dokumen.
  • Keyword Nama untuk term-term dalam word list,
    terutama dengan controlled vocabulary

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
27
Mengurutan Ranking Hit
Pertemuan ke-2
  • Ketika pengguna men-submit suatu query ke sistem
    IR, sistem mengembalikan sehimpunan hit. Pada
    koleksi dokumen besar, himpunan hit akan sangat
    besar.
  • Nilai untuk pengguna sering tergantung pada
    urutan hit ditampilkan.
  • Tiga metode utama
  • Mengurutkan hit, misal berdasarkan tanggal
  • Meranking hit berdasarkan kemiripan antara
    query dan dokumen
  • Meranking hit berdasarkan kepentingan dari
    dokumen

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
28
IR Berbasis Teks
Pertemuan ke-2
  • Sebagian besar metode ranking didasarkan pada
    model ruang vektor (vector space model).
  • Sebagian besar metode pencocokan (matching)
    didasarkan ada operator Boolean.
  • Metode Web search mengkombinasikan model ruang
    vektor dengan ranking berdasarkan pada tingkat
    kepentingan dokumen.
  • Banyak sistem (dalam praktek) menggabungkan
    fitur- fitur dari beberapa pendekatan.
  • Pada bentuk dasar, semua pendekatan menganggap
    kata sebagai token terpisah, dengan usaha minimal
    untuk memahami kata-kata secara linguistik.

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
29
Frekuensi Kata
Pertemuan ke-2
  • Observasi Beberapa kata lebih umum daripada yang
    lain.
  • Statistika Koleksi sangat besar dari dokumen
    teks tak-terstruktur mempunyai karakteristik
    statistik serupa. Statistik ini
  • Mempengaruhi efektifitas dan efisiensi dari
    struktur data yang digunakan untuk mengindeks
    dokumen
  • Banyak model retrieval memanfaatkannya

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
30
...Frekuensi Kata
Pertemuan ke-2
  • Contoh Contoh berikut ini diambil dari
  • Jamie Callan, Characteristics of Text, 1997
  • 19 Juta kata sampel
  • Slide berikut memperlihatkan 50 kata yang
    paling umum, diranking (r) berdasarkan
    frekuensinya (f).

Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
31
...Frekuensi Kata
Pertemuan ke-2
32
Distribusi Ranking Frekuensi
Pertemuan ke-2
  • Untuk semua kata di dalam suatu dokumen, untuk
    setiap kata w
  • f adalah frekuensi munculnya w
  • r ranking dari w disusun menurut frekuensi.
    (kata yang paling umum muncul mempunyai rank 1)

33
Contoh Frekuensi Rank
Pertemuan ke-2
  • Slide berikut memperlihatkan kata-kata di dalam
    data Callan yang telah dinormalisasi. Dalam
    contoh ini
  • r adalah ranking dari kata w dalam sampel.
  • f adalah frekuensi kata w di dalam sampel.
  • n adalah jumlah total kemunculan kata di dalam
    sampel.

34
...Contoh Ranking Frekuensi
Pertemuan ke-2
Write a Comment
User Comments (0)
About PowerShow.com