Title: Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id
1Model dalam sistem temu kembali informasiyasmi
afrizal yasmi_afrizal_at_yahoo.co.id
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
2Definisi IR
Pertemuan ke-2
- Pencarian materi (biasanya dokumen) dari sesuatu
yang sifatnya tak-terstruktur (unstructured,
biasanya teks) untuk memenuhi kebutuhan informasi
dari dalam koleksi besar (biasanya disimpan dalam
komputer). - Representasi, penyimpanan, organisasi, pencarian
dan akses ke item informasi untuk memenuhi
kebutuhan informasi pengguna. - Penekanan pada proses retrieval informasi (bukan
data). - Karakterisasi kebutuhan informasi tidaklah mudah.
Harus ditranslasi ke dalam suatu query terlebih
dahulu.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
3Motivasi
Pertemuan ke-2
- Data retrieval
- Dokumen mana yang mengandung himpunan keyword?
- Semantik didefinisikan dengan baik
- Error dari suatu obyek mengakibatkan kegagalan!
- Information retrieval
- Informasi mengenai suatu subyek atau topik
- Semantik dapat bersifat lepas (longgar)
- Error kecil ditoleransi
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
4...Motivasi
Pertemuan ke-2
- IR di tengah pertunjukan
- IR dalam 20 tahun terakhir
- Klasifikasi dan kategorisasi
- Sistem dan bahasa
- Antarmuka pengguna dan visualisasi
- Masih, area dilihat sebagai bidang yang sempit
- Web mengubah persepsi ini
- Repository pengetahuan universal
- Akses universal gratis (biaya rendah)
- Volume raksasa dari informasi tanpa editorial
board terpusat - Meskipun banyak masalah IR merupakan kunci untuk
menemukan solusi!
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
5Sistem IR
Pertemuan ke-2
- Menerima query pengguna yang mewakili kebutuhan
informasi - Mencari dan menginterpretasikan content (isi)
dari item-item informasi - Membangkitkan suatu ranking yang mencerminkan
relevansi terhadap kebutuhan informasi tersebut - Ide mengenai relevansi adalah sangat penting
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
6(No Transcript)
7Kebutuhan IR
Pertemuan ke-2
- WWW lebih 25 milyar halaman web, 1.3 milyar
gambar dan lebih 1 milyar pesan Usenet yang
diindeks pada Google (2006) - Berbagai kebutuhan informasi
- Mencari dokumen yang masuk dalam topik tertentu
- Mencari suatu informasi spesifik
- Mencari jawaban dari suatu pertanyaan
- Mencari informasi dalam bahasa berbeda
- ...
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
8Penjualan Software Text Retrieval
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
9Information Retrieval (IR)
Pertemuan ke-2
- Secara teknis indexing (pembuatan index) dan
retrieval (pencarian keterangan) dokumen textual. - Pencarian halaman pada WWW adalah aplikasi paling
ngetop saat ini - Fokus pertama meretrieve dokumen- dokumen yang
relevan dengan query. - Fokus kedua meretrieve himpunan besar dokumen
secara efisien.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
10Information vs Data Retrieval
Pertemuan ke-2
- Sistem data retrieval (seperti database)
berurusan dengan structured data yang mempunyai
semantik terdefinisi dengan baik dan kebutuhan
meretrieve hasil yang pasti (exact) - Sistem IR berurusan dengan dokumen bahasa alami
(natural language) dan error kecil dapat
diabaikan. - Sistem IR harus menginterpretasikan content
kemudian meranking daftar content sesuai dengan
tingkat relevansinya. - Tujuan Meretrieve semua dokumen yang relevan
sekaligus meretrieve sesedikit mungkin dokumen
yang tidak relevan
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
11Sistem IR
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
12Contoh Sistem IR
Pertemuan ke-2
- Conventional (katalog perpustakaan)
- Pencarian dengan kata kunci, judul, penulis, dll.
- Text-based (Google, Yahoo, ASK).
- Pencarian dengan kata kunci (keyword). Pencarian
terbatas menggunakan query dalam bahasa alami. - Multimedia (QBIC, WebSeek, SaFe)
- Pencarian dengan penampilan visual (bentuk,
warna,) - Sistem jawaban pertanyaan (AskJeeves, Answerbus)
- Pencarian dalam bahasa alami (terbatas)
- Lainnya
- IR lintas-bahasa, music retrieval
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
13 Pertemuan ke-2
Sistem IR di Web
- Pencarian halaman web http//www.google.com
- Pencarian gambar http//images.google.com
- Pencarian isi (content) gambar http//wang.ist.psu
.edu/IMAGE/ - Pencarian jawaban pertanyaan http//www.askjeeves.
com - Pencarian musik? Hari-hati, jangan melanggar
hukum.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
14Relevansi
Pertemuan ke-2
- Relevansi merupakan suatu judgment (keputusan)
subyektif dan dapat didasarkan pada - topik yang tepat.
- waktu (informasi terbaru).
- otoritatif (dari suatu sumber terpercaya).
- kebutuhan informasi dari pengguna.
- Kriteria relevansi utama suatu sistem IR
sebaiknya (harus) memenuhi kebutuhan informasi
pengguna.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
15Pencarian Keyword
Pertemuan ke-2
- Ide paling sederhana dari relevansi apakah
string query ada di dalam dokumen (kata demi
kata, verbatim)? - Ide yang lebih fleksibel Berapa sering kata-kata
di dalam query muncul di dalam dokumen, tanpa
melihat urutannya (bag of words)?
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
16Masalah dengan Keyword
Pertemuan ke-2
- Mungkin tidak meretrieve dokumen relevan yang
menyertakan synonymous terms. - restaurant vs. café
- NDHU vs. National Dong Hwa University
- Mungkin meretrieve dokumen tak-relevan yang
menyertakan ambiguous terms. - bat (baseball vs. mamalia)
- Apple (perusahaan vs. buah-buahan)
- bit (unit data vs. perilaku menggigit)
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
17Bukan Sekedar Keyword
Pertemuan ke-2
- Kita akan mendiskusikan dasar-dasar IR berbasis
keyword, tetapi - Fokus pada perluasan dan pengembangan terakhir
untuk mendapatkan hasil terbaik. - Kita akan membahas dasar-dasar pembangunan sistem
IR yang efisien, tetapi - Fokus pada algoritma dan kemampuan dasar, bukan
masalah sistem yang memungkinkan pengembangan ke
database ukuran industri.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
18IR Cerdas
Pertemuan ke-2
- Memanfaatkan pengertian atau makna dari kata yang
digunakan. - Melibatkan urutan kata di dalam query.
- Beradaptasi dengan pengguna berdasarkan pada
feedback, langsung atau tidak langsung. - Memperluas pencarian dengan term terkait.
- Mengerjakan pemeriksaan ejaaan/perbaikan tanda
pengenal otomatis. - Memanfaatkan Otoritas dari sumber informasi.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
19Indeks
Pertemuan ke-2
- Sistem IR jarang mencari koleksi dokumen secara
langsung. Berdasarkan pada koleksi dokumen,
dibangun sebuah index. Pengguna mencari index
tersebut.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
20Indexing Otomatis
Pertemuan ke-2
- Tujuan dari automatic indexing adalah membangun
index dan meretrieve informasi tanpa intervensi
manusia. - Ketika informasi yang dicari adalah teks, metode
automatic indexing akan sangat efektif. - Penelitian automatic indexing fundamental dimulai
oleh Gerald Salton, Professor of Computer Science
di Cornell mahasiswa Pasca-Sarjananya (Sistem
SMART).
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
21IR dari Koleksi Besar
Pertemuan ke-2
- Information retrieval dari koleksi sangat besar
bersandar pada - Jumlah computer power yang besar untuk
mengerjakan algoritma sederhana terhadap jumlah
data yang sangat banyak. - komputasi kinerja-tinggi
- Pemahaman pengguna terhadap informasi dan
kemampuan dari sistem. - Interaksi manusia - komputer
- Machine-learning banyak digunakan untuk
mendapatkan kinerja terbaik.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
22Searching Browsing
Pertemuan ke-2
Orang dalam perulangan
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
23IR dari Koleksi Dokumen Teks
Pertemuan ke-2
- Kategori utama dari metode
- Ranking kemiripan terhadap query (vector space
model). - Pencocokan exact (Boolean).
- Ranking berdasarkan tingkat kepentingan dokumen
(PageRank) - Kombinasi beberapa metode
- Contoh Web search engine, seperti Google
Yahoo, menggunakan metode kombinasi, berdasarkan
pada pendekatan pertama dan ketiga, dengan
kombinasi exact dipilih menggunakan machine
learning
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
24Istilah Penting
Pertemuan ke-2
- Information retrieval sub-bidang ilmu komputer
yang berurusan dengan penemuan kembali dokumen
(khususnya teks) terotomatis berdasarkan pada
content dan contextnya. - Searching Pencarian informasi spesifik di dalam
badan informasi. Hasilnya adalah sehimpunan hit. - Browsing Eksplorasi tak-terstruktur dari badan
informasi. - Linking Berpindah dari satu item ke item lain
mengikuti link (sambungan) seperti rujukan
(referensi).
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
25...Istilah
Pertemuan ke-2
- Query Suatu string teks, menggambarkan informasi
yang sedang dicari pengguna. Setiap kata dari
query dinamakan search term. - Query dapat berupa search term tunggal, string
dari term, frase atau ekspresi tertentu
menggunakan simbol khusus, misalnya regular
expression. - Pencarian Full text Metode yang membandingkan
query dengan setiap kata di dalam teks, tanpa
membedakan fungsi dari berbagai kata. - Pencarian Bidang Metode pencarian pada bidang
struktural atau bibliografis spesifik, seperti
penulis atau judul.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
26...Istilah
Pertemuan ke-2
- Corpus Koleksi dokumen yang diindeks dan
dijadikan target pencarian. - Daftar kata Himpunan semua term yang digunakan
dalam indeks untuk suatu corpus (dikenal sebagai
vocabulary file). - Pada pencarian full text, word list adalah semua
term di dalam corpus, stop words dihapus. Term-
term terkait dikombinasi dengan stemming. - Controlled vocabulary Metode indexing dimana
word list bersifat tetap. Term-term dari
vocabulary tersebut dipilih untuk mendeskripsikan
setiap dokumen. - Keyword Nama untuk term-term dalam word list,
terutama dengan controlled vocabulary
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
27Mengurutan Ranking Hit
Pertemuan ke-2
- Ketika pengguna men-submit suatu query ke sistem
IR, sistem mengembalikan sehimpunan hit. Pada
koleksi dokumen besar, himpunan hit akan sangat
besar. - Nilai untuk pengguna sering tergantung pada
urutan hit ditampilkan. - Tiga metode utama
- Mengurutkan hit, misal berdasarkan tanggal
- Meranking hit berdasarkan kemiripan antara
query dan dokumen - Meranking hit berdasarkan kepentingan dari
dokumen
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
28IR Berbasis Teks
Pertemuan ke-2
- Sebagian besar metode ranking didasarkan pada
model ruang vektor (vector space model). - Sebagian besar metode pencocokan (matching)
didasarkan ada operator Boolean. - Metode Web search mengkombinasikan model ruang
vektor dengan ranking berdasarkan pada tingkat
kepentingan dokumen. - Banyak sistem (dalam praktek) menggabungkan
fitur- fitur dari beberapa pendekatan. - Pada bentuk dasar, semua pendekatan menganggap
kata sebagai token terpisah, dengan usaha minimal
untuk memahami kata-kata secara linguistik.
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
29Frekuensi Kata
Pertemuan ke-2
- Observasi Beberapa kata lebih umum daripada yang
lain. - Statistika Koleksi sangat besar dari dokumen
teks tak-terstruktur mempunyai karakteristik
statistik serupa. Statistik ini - Mempengaruhi efektifitas dan efisiensi dari
struktur data yang digunakan untuk mengindeks
dokumen - Banyak model retrieval memanfaatkannya
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
30...Frekuensi Kata
Pertemuan ke-2
- Contoh Contoh berikut ini diambil dari
- Jamie Callan, Characteristics of Text, 1997
- 19 Juta kata sampel
- Slide berikut memperlihatkan 50 kata yang
paling umum, diranking (r) berdasarkan
frekuensinya (f).
Jurusan Teknik Informatika Universitas Ahmad
Dahlan Semester Ganjil 2010/2011
31...Frekuensi Kata
Pertemuan ke-2
32Distribusi Ranking Frekuensi
Pertemuan ke-2
- Untuk semua kata di dalam suatu dokumen, untuk
setiap kata w - f adalah frekuensi munculnya w
- r ranking dari w disusun menurut frekuensi.
(kata yang paling umum muncul mempunyai rank 1)
33Contoh Frekuensi Rank
Pertemuan ke-2
- Slide berikut memperlihatkan kata-kata di dalam
data Callan yang telah dinormalisasi. Dalam
contoh ini - r adalah ranking dari kata w dalam sampel.
- f adalah frekuensi kata w di dalam sampel.
- n adalah jumlah total kemunculan kata di dalam
sampel.
34...Contoh Ranking Frekuensi
Pertemuan ke-2