Minggu, 29 Maret 2015

Judul : Deteksi Keberadaan Kalimat Sama sebagai Indikasi Penjiplakan dengan Algoritma Hashing Berbasis N-Gram
Author : Diana Purwitasari, Putu Yuwono Kusmawan, Umi Laili Yuhana
Penerbit : Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya


Identifikasi Masalah dan tujuannya
Masalahnya sudah jelas, penulis mengatakan bahwa kasus penjiplakan itu sudah menjadi suatu tragedi dalam dunia pendidikan Indonesia. Terutama sekarang ini, banyak sekali penelitian-penelitian dalam bentuk digital yang di unggah ke dunia online. Sehingga informasi yang tersedia secara online itu sangat dengan mudah dilakukan kebiasaan copy-paste tanpa menyebutkan referensi. Maka penulis bermaksud untuk mendeteksi keberadaan kalimat sama sebagai indikasi dari hasil copy-paste.
Tujuan dari penelitian tersebut untuk mengurangi adanya tindak plagiarisme dari penelitian-penelitian yang sudah ada. Sehingga kedepannya akan menghasilkan penelitian-penelitian yang murni karya sendiri.

Metode
Metode yang digunakan, telah disampaikan dijudulnya, yaitu menggunakan metode Algoritma Hasinh berbasis N-Gram.

Proses untuk mendapatkan nilai hash tersebut :
1. Membuang karakter-karakter tidak relevan seperti tanda baca.
Contoh : machine learning and computational geometry.
Maka akan menjadi machinelearningandcomputationalgeomatry.

2. Membentuk rangkaian n-gram dari teks. misal n = 5.
Akan menjadi :
Machi achin chine hinel inele …………… metry

Untuk teks tersebut dihasilkan 35 gram.

3. Melakukan fungsi hash nya untuk setiap n-gram
Persamaan yang digunakan adalah :

H(c1…..ck) = c1 * b(k-1) + c2 * b(k-2) + ……. + c(k-1) * bk + ck
Dengan nilai ASCII karakter c, nilai basis bilangan prima b, dan banyak karakter k.

Contoh dari n-gram dari kata “machi” dengan b=3 dan k=5 memiliki hash :
H(machi) = ascii(m) * 34 + ascii(a) * 33 + ascii(c) * 32 + ascii(h) * 31 + ascii(i) * 30

H(machi) = (109*81) + (97*27) + (99*9) + (104*3) + (105*1) = 12756

4. Memilih fingerprint dari hasil hashing dengan pembagian hash berdasarkan satu nilai window w, dan kemudian dipilih nilai hash terkecil.
Semisal w = 4 sehingga window yang dibentuk dari 4 nilai-nilai hash adalah sejumlah 32 window sebagai berikut :
Jadi window dari kata machinelearningandcomputationalgeometry, setelah dilakukan tahap-tahap sebelumnya  itu seperti ini. Dan yang cetak tebal adalah yang dipilih karena nilai hash kecil.


Kemudian fingerprint yang dihasilkan adalah sejumlah 15 nilai hash dari 15 window yaitu 11891, 12203, 12411, 12261 ….. 12114, 12497. Sebagai catatan , untuk pasangan window 1-2 atau 3-4 atau 35-36 yang memiliki nilai hash terkecil sama maka window kanan yang dipilih yaitu wondow 2,5 dan 36.

Pencarian kesamaan tersebut menunjukan bahwa algoritma winnowing tidak bergantung pada posisi kata-kata dalam mencari adanya kesamaan.

Misalkan file teks D1 dan D2 dengan
fingerprint D1
11891  12203  12411  12261 12350  12803  12351 
12135  12211  12450  13351  12377  12891  12114 
12497

fingerprint D2
12232  12268  12411  12500  12195  12508  12756 
11891  12203  12411  12261

Maka akan diperoleh nilai kesamaan sebesar 19.05%.


Kesimpulan
Penulis mengatakan kalau deteksi kalimat ini dilakukan secara one-to-one. Sehingga akan membutuhkan waktu yang cukup lama jika akan melakukan pendeteksian dalam jumlah dokumen yang banyak.




Terima kasih.

0 komentar:

Posting Komentar