rusidi 'n lina

me, my wife and my job

How to VSM work ?

leave a comment »

Berikut aturan umum notasi [D, Q, F, R(qi, dj)].
• D adalah himpunan yang terdiri dari logical view bagi koleksi-koleksi dokumen
• Q adalah himpunan yang terdiri dari logical view bagi kebutuhan informasi user. Representasi tersebut disebut query.
• F adalah framework bagi representasi dokumen, query, dan hubungannya
• R(qi, dj) adalah fungsi rangking (peringkat) yang berasosiasi antara bilangan real dengan query qi Î Q dan representasi dokumen dj Î D. Rangking tersebut mendefinisikan urutan di antara dokumen-dokumen yang diambil dengan menggunakan query qi.

Misalkan kumpulan dokumen:
[D1]= ibu megawati mencuci piring dengan sabun mandi di sungai
[D2]=pak SBY memerintahkan untuk menangkap suharto
[D3]= dasar sungai ciliwung di keruk berdasar perintah sutiyoso
[D4]=sabun cuci sekarang mahal setelah ada SBY
*misal nama orang & tempat di anggap stopword

Setelah tokenizing, stemming, indexing didapatkan:

cuci 2
dasar 2
mahal 1
mandi 1
merintah 2
nangkap 1
piring 1
sabun 2
sungai 2

Nah dikasih kueri
[Q]=dasar sungai

Demo Model VSM?
Akan dibuat matrik yang elemennya di hitung berdasarkan rumus bobot (w) tf*idf dibawah:
Contoh hitungan (jangan perhatikan angka).
How to VSM work ?

Berikut aturan umum notasi [D, Q, F, R(qi, dj)].
• D adalah himpunan yang terdiri dari logical view bagi koleksi-koleksi dokumen
• Q adalah himpunan yang terdiri dari logical view bagi kebutuhan informasi user. Representasi tersebut disebut query.
• F adalah framework bagi representasi dokumen, query, dan hubungannya
• R(qi, dj) adalah fungsi rangking (peringkat) yang berasosiasi antara bilangan real dengan query qi Î Q dan representasi dokumen dj Î D. Rangking tersebut mendefinisikan urutan di antara dokumen-dokumen yang diambil dengan menggunakan query qi.

Misalkan kumpulan dokumen:
[D1]= ibu megawati mencuci piring dengan sabun mandi di sungai
[D2]=pak SBY memerintahkan untuk menangkap suharto
[D3]= dasar sungai ciliwung di keruk berdasar perintah sutiyoso
[D4]=sabun cuci sekarang mahal setelah ada SBY
*misal nama orang & tempat di anggap stopword

Setelah tokenizing, stemming, indexing didapatkan:

cuci 2
dasar 2
mahal 1
mandi 1
merintah 2
nangkap 1
piring 1
sabun 2
sungai 2

Nah dikasih kueri
[Q]=dasar sungai

Demo Model VSM?
Akan dibuat matrik yang elemennya di hitung berdasarkan rumus bobot (w) tf*idf dibawah:
Contoh hitungan (jangan perhatikan angka).
formula

w1,4=bobot kata 1 dalam dokumen 4
N=jumlah dokumen semua
ni=jumlah dokumen yang memiliki istilah i
max l freq i,j = frekuensi maksimum istilah i didalam dokumen yang ada
freq i = ya dah pasti frekuensi kata i

Kalo kueri Q .silahkan gunakan rumus ini (ikata dan angka ga usah di lihat, liat rumusnya aja)

formula2

Didapatkan matrik ini :

Doc/t

Cuci

Dasar

Mahal

Mandi

Merintah

Nangkap

Piring

Sabun

Sungai

D1

0.3

0

0

0.6

0

0

0.6

0

0.3

D2

0

0

0

0

0.3

0.6

0

0

0

D3

0

0.6

0

0

0.3

0

0

0

0.3

D4

0.3

0

0.6

0

0

0

0

0.6

0

Q

0

0.45

0

0

0

0

0

0

0.23

Sampe disini hitung nilai kesamaan kueri Q dengan dokumen D.
Rumus yang dipake inner product:

formula3

setelah dinormalisasi (dibagi menjadi akar kuadrat jumlahnya)
=> [D1] 0.07 / [root(0.32+ 0.62+0.62+0.32)*root(0.45 2 +0.232 )] = 0.15
=> [D3] 0.34 / [root(0.62+0.32+0.32)*root(0.45 2 +0.232 )] = 0.91
formula4

Stelah itu dirangking dokumen hasil temu kembali :

nk

Doc

1

D3

2

D1

Ok? Sekarang dah dapet dokumen yang di temukan,..mudah bukan??!!!

Written by ucid

February 5, 2008 at 4:15 am

Leave a Reply

You must be logged in to post a comment.