How to VSM work ?
Berikut aturan umum notasi [D, Q, F, R(qi, dj)].
• D adalah himpunan yang terdiri dari logical view bagi koleksi-koleksi dokumen
• Q adalah himpunan yang terdiri dari logical view bagi kebutuhan informasi user. Representasi tersebut disebut query.
• F adalah framework bagi representasi dokumen, query, dan hubungannya
• R(qi, dj) adalah fungsi rangking (peringkat) yang berasosiasi antara bilangan real dengan query qi Î Q dan representasi dokumen dj Î D. Rangking tersebut mendefinisikan urutan di antara dokumen-dokumen yang diambil dengan menggunakan query qi.
Misalkan kumpulan dokumen:
[D1]= ibu megawati mencuci piring dengan sabun mandi di sungai
[D2]=pak SBY memerintahkan untuk menangkap suharto
[D3]= dasar sungai ciliwung di keruk berdasar perintah sutiyoso
[D4]=sabun cuci sekarang mahal setelah ada SBY
*misal nama orang & tempat di anggap stopword
Setelah tokenizing, stemming, indexing didapatkan:
cuci 2
dasar 2
mahal 1
mandi 1
merintah 2
nangkap 1
piring 1
sabun 2
sungai 2
Nah dikasih kueri
[Q]=dasar sungai
Demo Model VSM?
Akan dibuat matrik yang elemennya di hitung berdasarkan rumus bobot (w) tf*idf dibawah:
Contoh hitungan (jangan perhatikan angka).
How to VSM work ?
Berikut aturan umum notasi [D, Q, F, R(qi, dj)].
• D adalah himpunan yang terdiri dari logical view bagi koleksi-koleksi dokumen
• Q adalah himpunan yang terdiri dari logical view bagi kebutuhan informasi user. Representasi tersebut disebut query.
• F adalah framework bagi representasi dokumen, query, dan hubungannya
• R(qi, dj) adalah fungsi rangking (peringkat) yang berasosiasi antara bilangan real dengan query qi Î Q dan representasi dokumen dj Î D. Rangking tersebut mendefinisikan urutan di antara dokumen-dokumen yang diambil dengan menggunakan query qi.
Misalkan kumpulan dokumen:
[D1]= ibu megawati mencuci piring dengan sabun mandi di sungai
[D2]=pak SBY memerintahkan untuk menangkap suharto
[D3]= dasar sungai ciliwung di keruk berdasar perintah sutiyoso
[D4]=sabun cuci sekarang mahal setelah ada SBY
*misal nama orang & tempat di anggap stopword
Setelah tokenizing, stemming, indexing didapatkan:
cuci 2
dasar 2
mahal 1
mandi 1
merintah 2
nangkap 1
piring 1
sabun 2
sungai 2
Nah dikasih kueri
[Q]=dasar sungai
Demo Model VSM?
Akan dibuat matrik yang elemennya di hitung berdasarkan rumus bobot (w) tf*idf dibawah:
Contoh hitungan (jangan perhatikan angka).

w1,4=bobot kata 1 dalam dokumen 4
N=jumlah dokumen semua
ni=jumlah dokumen yang memiliki istilah i
max l freq i,j = frekuensi maksimum istilah i didalam dokumen yang ada
freq i = ya dah pasti frekuensi kata i
Kalo kueri Q .silahkan gunakan rumus ini (ikata dan angka ga usah di lihat, liat rumusnya aja)
Didapatkan matrik ini :
|
Doc/t |
Cuci |
Dasar |
Mahal |
Mandi |
Merintah |
Nangkap |
Piring |
Sabun |
Sungai |
|
D1 |
0.3 |
0 |
0 |
0.6 |
0 |
0 |
0.6 |
0 |
0.3 |
|
D2 |
0 |
0 |
0 |
0 |
0.3 |
0.6 |
0 |
0 |
0 |
|
D3 |
0 |
0.6 |
0 |
0 |
0.3 |
0 |
0 |
0 |
0.3 |
|
D4 |
0.3 |
0 |
0.6 |
0 |
0 |
0 |
0 |
0.6 |
0 |
|
Q |
0 |
0.45 |
0 |
0 |
0 |
0 |
0 |
0 |
0.23 |
Sampe disini hitung nilai kesamaan kueri Q dengan dokumen D.
Rumus yang dipake inner product:
setelah dinormalisasi (dibagi menjadi akar kuadrat jumlahnya)
=> [D1] 0.07 / [root(0.32+ 0.62+0.62+0.32)*root(0.45 2 +0.232 )] = 0.15
=> [D3] 0.34 / [root(0.62+0.32+0.32)*root(0.45 2 +0.232 )] = 0.91

Stelah itu dirangking dokumen hasil temu kembali :
|
nk |
Doc |
|
1 |
D3 |
|
2 |
D1 |
Ok? Sekarang dah dapet dokumen yang di temukan,..mudah bukan??!!!


