Judul : Deteksi Keberadaan Kalimat Sama sebagai Indikasi Penjiplakan dengan Algoritma Hashing Berbasis N-Gram
Author : Diana Purwitasari, Putu Yuwono Kusmawan, Umi Laili Yuhana
Penerbit : Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya
Author : Diana Purwitasari, Putu Yuwono Kusmawan, Umi Laili Yuhana
Penerbit : Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya
Identifikasi Masalah dan tujuannya
Masalahnya sudah jelas, penulis mengatakan bahwa kasus penjiplakan itu sudah menjadi suatu tragedi dalam dunia pendidikan Indonesia. Terutama sekarang ini, banyak sekali penelitian-penelitian dalam bentuk digital yang di unggah ke dunia online. Sehingga informasi yang tersedia secara online itu sangat dengan mudah dilakukan kebiasaan copy-paste tanpa menyebutkan referensi. Maka penulis bermaksud untuk mendeteksi keberadaan kalimat sama sebagai indikasi dari hasil copy-paste.
Tujuan dari penelitian tersebut untuk mengurangi adanya tindak plagiarisme dari penelitian-penelitian yang sudah ada. Sehingga kedepannya akan menghasilkan penelitian-penelitian yang murni karya sendiri.
Metode
Metode yang digunakan, telah disampaikan dijudulnya, yaitu menggunakan metode Algoritma Hasinh berbasis N-Gram.
Proses untuk mendapatkan nilai hash tersebut :
1. Membuang karakter-karakter tidak relevan seperti tanda baca.
Contoh : machine learning and computational geometry.
Maka akan menjadi machinelearningandcomputationalgeomatry.
2. Membentuk rangkaian n-gram dari teks. misal n = 5.
Akan menjadi :
Machi achin chine hinel inele …………… metry
Untuk teks tersebut dihasilkan 35 gram.
3. Melakukan fungsi hash nya untuk setiap n-gram
Persamaan yang digunakan adalah :
H(c1…..ck) = c1 * b(k-1) + c2 * b(k-2) + ……. + c(k-1) * bk + ck
Dengan nilai ASCII karakter c, nilai basis bilangan prima b, dan banyak karakter k.
Contoh dari n-gram dari kata “machi” dengan b=3 dan k=5 memiliki hash :
H(machi) = ascii(m) * 34 + ascii(a) * 33 + ascii(c) * 32 + ascii(h) * 31 + ascii(i) * 30
H(machi) = (109*81) + (97*27) + (99*9) + (104*3) + (105*1) = 12756
4. Memilih fingerprint dari hasil hashing dengan pembagian hash berdasarkan satu nilai window w, dan kemudian dipilih nilai hash terkecil.
Semisal w = 4 sehingga window yang dibentuk dari 4 nilai-nilai hash adalah sejumlah 32 window sebagai berikut :
Jadi window dari kata machinelearningandcomputationalgeometry, setelah dilakukan tahap-tahap sebelumnya itu seperti ini. Dan yang cetak tebal adalah yang dipilih karena nilai hash kecil.
Kemudian fingerprint yang dihasilkan adalah sejumlah 15 nilai hash dari 15 window yaitu 11891, 12203, 12411, 12261 ….. 12114, 12497. Sebagai catatan , untuk pasangan window 1-2 atau 3-4 atau 35-36 yang memiliki nilai hash terkecil sama maka window kanan yang dipilih yaitu wondow 2,5 dan 36.
Pencarian kesamaan tersebut menunjukan bahwa algoritma winnowing tidak bergantung pada posisi kata-kata dalam mencari adanya kesamaan.
Misalkan file teks D1 dan D2 dengan
fingerprint D1
11891 12203 12411 12261 12350 12803 12351
12135 12211 12450 13351 12377 12891 12114
12497
fingerprint D2
12232 12268 12411 12500 12195 12508 12756
11891 12203 12411 12261
Maka akan diperoleh nilai kesamaan sebesar 19.05%.
Kesimpulan
Penulis mengatakan kalau deteksi kalimat ini dilakukan secara one-to-one. Sehingga akan membutuhkan waktu yang cukup lama jika akan melakukan pendeteksian dalam jumlah dokumen yang banyak.
Terima kasih.
0 komentar:
Posting Komentar