rusidi 'n lina

February 5, 2008

tokenizer.class

Filed under: information retrieval — umatbersarung @ 6:29 am

tentunya parser.class aja belum cukup. harus ada kelas turunan yang nyambung
yang hasilnya sesuai yang diharapkan.

Sekarang ini adalah class tokenizer yang bertugas menyusun index token-token yang unik
Tentunya dalam ilmu IR index ini harus usdah dibersihkan dari stopwod.

ok selamat menikmati!! (more…)

parser.class

Filed under: information retrieval — umatbersarung @ 6:17 am

pemula seperti saya ini, harus step by step kalo mau buat program utuh

contohnya ni, waktu mau misahin kata demi kata dalam dokumen..

trus di buat index..

 

ni dikit bagi2…

pake php cukup mudah..trutama versi php 5 keatas

banyak fungsinya yang telah membantu membuat index istilah..

berikut scriptnya kira2..

(more…)

How to VSM work ?

Filed under: information retrieval — umatbersarung @ 4:15 am

Berikut aturan umum notasi [D, Q, F, R(qi, dj)].
• D adalah himpunan yang terdiri dari logical view bagi koleksi-koleksi dokumen
• Q adalah himpunan yang terdiri dari logical view bagi kebutuhan informasi user. Representasi tersebut disebut query.
• F adalah framework bagi representasi dokumen, query, dan hubungannya
• R(qi, dj) adalah fungsi rangking (peringkat) yang berasosiasi antara bilangan real dengan query qi Î Q dan representasi dokumen dj Î D. Rangking tersebut mendefinisikan urutan di antara dokumen-dokumen yang diambil dengan menggunakan query qi.

Misalkan kumpulan dokumen:
[D1]= ibu megawati mencuci piring dengan sabun mandi di sungai
[D2]=pak SBY memerintahkan untuk menangkap suharto
[D3]= dasar sungai ciliwung di keruk berdasar perintah sutiyoso
[D4]=sabun cuci sekarang mahal setelah ada SBY
*misal nama orang & tempat di anggap stopword (more…)

All about model of information retrieval

Filed under: information retrieval — umatbersarung @ 3:56 am

Sejak November, tahun lalu (2007) topic tentang probability retrieval resmi menjadi milik saya. Walaupun awam tentang tentang tema ini, tetapi karena rasa banggaku karena mendapatkan dosen pembingbing TA dosen2 kaliber di cs ipb, aku terima tantangan ini. Awalnya cukup minder, karena berhadapan dengan dua dosen yang sangat dihormati di cs ipb dimana mempunyai kredibelitas yang tinggi dari sisi dedikasi, pengabdian dan keilmuan terhadap bidang information retrieval. Akhirnya bismillah …aku pelajari dari awal model probabilistic model walaupun ..(sumbernya dikit & susah).

Sekilas ini smoga bisa menggambarkan macam & bagaimana sebuah model IR bekerja.
Monday, 28/01/2008
Apa itu model information retrieval (temu kembali informasi)?
Model itu semacam framework atau sebuah cara operasi yang bagian-bagian tertentu yang menjadikan sebuah objek disebut berbeda. Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi:
1.    representasi dokumen & query [baca juga]
2.    fungsi pencarian (stemming ,indexing ,weighting kata) [baca juga]
3.    notasi kesesuaian (relevance notation) dokumen terhadap query [baca juga]
(more…)

April 8, 2007

terrier for information retrieval

Filed under: information retrieval — umatbersarung @ 6:22 pm

trr.jpgTerrier is a software for the rapid development of Web, intranet and desktop search engines. More generally, it is a modular platform for the rapid development of large-scale Information Retrieval applications, providing indexing and retrieval functionalities.

Terrier has various cutting-edge features including parameter-free probabilistic retrieval approaches (such as Divergence from Randomness models), automatic query expansion/re-formulation methodologies, and efficient data compression techniques. Terrier comes with a powerful proof-of-concept Desktop search application [Screenshots], and full TREC capabilities including the ability to index, query and evaluate the standard TREC collections, such as AP, WSJ, WT10G, .GOV and .GOV2.

Terrier is written in Java [Requirements] and has been successfully used for adhoc retrieval, Web search and cross-language retrieval, in a centralised or distributed setting. Currently, it is also being used for running various applications.

A core version of Terrier is now available for download [What's new], as open source software (version 1.0.2) under the Mozilla Public License (MPL), with the aim to facilitate experimentation and research in the wider Information Retrieval community.

Terrier is a modular platform for the rapid development of large-scale Information Retrieval applications, providing indexing and retrieval functionalities. Terrier is based on the Divergence from Randomness (DFR) framework. It can index various document collections, including the standard TREC collections, such as AP, WSJ, WT10G, .GOV and .GOV2. It also provides a wide range of parameter-free weighting approaches and full-text search algorithms, aiming to offer a public testbed for performing Information Retrieval experiments.

Terrier is a modular platform for the rapid development of Information Retrieval applications with JAVA, providing indexing and retrieval functionalities, based on the Divergence from Randomness (DFR) framework. It can index standard TREC test collections, such as AP, WSJ, WT10G, .GOV and .GOV2. It also provides a wide range of parameter-free weighting approaches and full-text search algorithms, aiming to offer a public testbed for performing Information Retrieval experiments. Terrier has been successfully used for adhoc, Web search and cross-language retrieval, in a centralised or distributed setting. Currently it is used for running the departmental search engine.

A version of Terrier is now available for download as open source software . It is distributed under the Mozilla Public License (MPL).

–>

You can find more information about Terrier, the DFR Framework and how to install/run Terrier in the documentation section, and in the Terrier Wiki

Terrier was developed by members of the Information Retrieval Research Group, Department of Computing Science, at the University of Glasgow. The project is funded by a UK Engineering and Physical Sciences Research Council (EPSRC) grant, number GR/R90543/01.

Information Retrieval System ?

Filed under: information retrieval — umatbersarung @ 5:32 pm

Dalam temu kembali informasi, jumlah dokumen relevan yang ditemukembalikan akan dipengaruhi oleh jumlah kata kunci yang digunakan untuk pencarian. Masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan. Seringkali pilihan kata yang digunakan pengguna di dalam kueri berbeda dengan pilihan kata yang digunakan penulis. Selain itu, kebutuhan informasi dapat direpresentasikan dengan pilihan kata yang berbeda oleh pengguna yang berbeda

Beberapa istilah yang akan kita temui di Temu Kembali Informasi (Information Retrieval)
Sistem Temu Kembali Informasi (Information Retrieval System)
Menurut Lancaster (1968) dalam Rijsbergen (1979) : “Sebuah information retrieval system (IRS) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaan pengguna”.

Tokenizer
Tokenizer berfungsi untuk memecah suatu rangkaian kalimat menjadi token-token. Token-token ini kemudian dapat digunakan sebagai istilah indeks pada sistem.
Suatu token dapat diawali dengan huruf atau angka. Setiap token dipisahkan oleh karakter-karakter tertentu, misalnya whitespace, tanda baca, dll. tergantung pada konteks

Stoplist
Stoplist merupakan kumpulan kata-kata buang yang tidak akan digunakan sebagai istilah indeks. Kata-kata buang tersebut merupakan kata-kata yang tidak memiliki kemampuan dalam membedakan dokumen yang satu dengan yang lainnya.

Stemming
Stemming merupakan bagian yang sangat memerlukan pengetahuan bahasa karena penentuan stem suatu kata bergantung pada tata bahasa yang digunakan.

Pembobotan
Pembobotan bertujuan menentukan tingkat kepentingan suatu istilah dalam suatu dokumen. Dengan kata lain, pembobotan menunjukkan seberapa besar kemampuan suatu kata dalam membedakan dokumen yang satu dengan dokumen yang lain.

Recall dan precision
Recall dan precision mengukur kemampuan sistem dalam menemukembalikan dokumen-dokumen yang relevan dan menahan dokumen-dokumen yang tidak relevan. Recall merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen relevan di dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemukembalikan terhadap jumlah seluruh dokumen yang ditemukembalikan.

March 26, 2007

nih Google versi ku..ga tau bisa dicoba ato ga

Filed under: information retrieval — umatbersarung @ 3:55 pm

  var googleSearchIframeName = “results_007267704621638787056:t_r8r3kscf0″;
  var googleSearchFormName = “searchbox_007267704621638787056:t_r8r3kscf0″;
  var googleSearchFrameWidth = 600;
  var googleSearchFrameborder = 0;
  var googleSearchDomain = “google.com”;
  var googleSearchPath = “/cse”;
 

HARI INI TERAKHIR PENDAFTARAN GOOGLE SUMMER of CODE

Filed under: information retrieval — umatbersarung @ 3:14 pm

yah hari ini jam 21.00 wib. masih da tiga jam lagi tuk ngedaftar GosMCo. Yuuk pada parcipate to this event. This good event for U who Computer Science Student. Walopun cah kampong, yang sekolah di kampung, That not UrGent for participation di kegiatan ini. Ayoo tunjukan cah IPB Pertanian juga ada yang mau, peduli, dan ngeh pada event2 internasional. Walopun hanya participant. Heheheeee…..mayan tuk skedar tau aja kan ga papa…….. :D :D

Blog at WordPress.com.