All about model of information retrieval
Sejak November, tahun lalu (2007) topic tentang probability retrieval resmi menjadi milik saya. Walaupun awam tentang tentang tema ini, tetapi karena rasa banggaku karena mendapatkan dosen pembingbing TA dosen2 kaliber di cs ipb, aku terima tantangan ini. Awalnya cukup minder, karena berhadapan dengan dua dosen yang sangat dihormati di cs ipb dimana mempunyai kredibelitas yang tinggi dari sisi dedikasi, pengabdian dan keilmuan terhadap bidang information retrieval. Akhirnya bismillah …aku pelajari dari awal model probabilistic model walaupun ..(sumbernya dikit & susah).
Sekilas ini smoga bisa menggambarkan macam & bagaimana sebuah model IR bekerja.
Monday, 28/01/2008
Apa itu model information retrieval (temu kembali informasi)?
Model itu semacam framework atau sebuah cara operasi yang bagian-bagian tertentu yang menjadikan sebuah objek disebut berbeda. Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi:
1. representasi dokumen & query [baca juga]
2. fungsi pencarian (stemming ,indexing ,weighting kata) [baca juga]
3. notasi kesesuaian (relevance notation) dokumen terhadap query [baca juga]
Yang dimaksud representasi dokumen atau query?
Ya..itu semacam cara pandang sebuah dokumen ato query. Misalkan dokumen dipandang sebagai kumpulan kalimat. Bener? Ya iya..karena memang kenyataanya demikian, kalimat-kalimat menyatu menjadi paragraph trus menjadi bab, lalu menjadi satu buku trus disebut dokumen. Misalkan lagi dokumen dipandang sebgai kumpulan kata (term). Boleh? Ya boleh..karena kata-kata menyusun kalimat dan..dst. Atau dokumen kumpulan kata (term) yang membentuk sebuah vector. Ya boleh juga..ini yang mendasari model VSM. Tergantung kebutuhan nantilah. Yang ga boleh..dokumen dianggep sebagai bantal..yang bisa di jadikan tempat nyender kepala, getok kepala, nglempar kepala, dll..hehe:D
Trus, apa itu fungsi pencarian?
Ini merupakan formula yang dipake, bagaimana mesin mengolah kueri untuk dicocokan dengan dokumen, lalu mengambil dokumen yang relevan. Bagian ini terbagi menajdi, diantaranya :
1. cara memilih kata (term) untuk index [baca juga]
2. cara mengindex kata [baca juga]
3. cara membobot kata (term) [baca juga]
bagian ini yang paling signifikan pengaruhnya adalah pembobotan kata. Cara pembobotan kata mencirikan bagimana sebuah information retrieval dibangun. Jadi hati-hatilah jika nanti ketemu sama orang yang berbobot…halah..ga penting:D
else, apa itu notasi kesuaian?
Nah , untuk bisa dibilang dokumen yang ketemu di mesin pencari itu sesuai yang kita inginkan, maka ada formula untuk menyesuaikan keinginan kita dengan isi dokumen. Maka jika kueri yang kita ketik dianggap “cobek” maka akan dicarikan “uleg-uleg” atau “tukang pecel” atau bisa juga “bumbu”. Formula yang dipake kesesuaian “saling melengkapi”. Nah, kalo ada kueri “Tom” maka mesin pencari akan mencari “jerry” atau “kucing”?…nah kalo saya, tak jawab “sampah”. Kenapa? Tom kan bisa jadi tempat sampah.. Tom sampah… hehe..:D (back to topic).
Ada formula kesamaan kesesuaian model vector, semakin kecil sudut semakin mendekat, jadi semakin sama. Tetapi ada juga formula peluang, bahwa dokumen (sesuai)= (1- tidak sesuai). Wuih..judi bgt…ga ding ..ini ilmu.
Perkenalkan, ini model yang telah ada.
1. Model Boolean [baca juga]
2. Model Vektor [baca juga]
3. Model Probabilistik [baca juga]
Model Boolean itu yg gimana?
keyword : operasi himpunan,(intersect, union, dll)
Model Boolean dalam sistem temu kembali merupakan model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar Boolean. Dokumen adalah himpunan dari istilah (term) dan kueri adalah pernyataan Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak. Model ini menggunakan operator boolean. Istilah (term) dalam sebuah kueri dihubungkan dengan menggunakan operator AND, OR atau NOT. Metode ini merupakan metode yang paling sering digunakan pada`mesin penelusur (search engine) karena kecepatannya.
Gimana demonya?
Gini demonya…[disini]
Vector Space Model (VSM) itu yg gimana?
keyword : pengideks-an, pembobotan, similarity measure, peringkat dokumen.
Beberapa karakteristik dari Model vektor dalam sistem temu kembali adalah
1. Model vektor berdasarkan keyterm
2. Model vektor mendukung partial matching dan penentuan peringkat dokumen
3. Prinsip dasar vektor model adalah sebagaii berikut :
a. dokumen direpresentasikan dengan menggunakan vektor keyterm
b. Ruang dimensi ditentukan oleh keyterms
c. Kueri direpresentasikan dengan menggunakan vektor keyterm
d. Kesamaan document-keyterm dihitung berdasarkan jarak vektor
4. Model vektor memerlukan
b. Bobot keyterm untuk vektor dokumen
c. Bobot keyterm untuk kueri
d. Perhitungan jarak untuk vektor document-keyterm
5. Kinerja
a. Efisien
b. Mudah dalam representasi
c. Dapat diimplementasikan pada document-matching
Demo kan donk!!
Okeh..tak demokan…[disini]
Model Probabilistic yang gimana?
keyword : peluang, pendugaan
1. Melakukan pendugaan relevansi dengan menggunakan probabilistik
2. Mempunyai teoritical framework yang jelas
a. Berdasarkan prinsip statistik
b. Relevansi dokumen dapat diupdate
c. Adanya feed back dari user
3. Ide dasar
a. Kueri dapat menghasilkan jawaban yang benar
b. Menggunkan indeks term
c. Menggunakan pendugaan awal
d. Menggunakan initial hasil
e. Feed back dari user dapat memperbaiki probabilitas dari relavansi.
Demo dikit donk?!:D
Iya..ini tak demoin….[disini]
