Review Jurnal atau Prosiding (Tugas Seminar)

Judul : Deteksi Keberadaan Kalimat Sama sebagai Indikasi Penjiplakan dengan Algoritma Hashing Berbasis N-Gram
Author : Diana Purwitasari, Putu Yuwono Kusmawan, Umi Laili Yuhana
Penerbit : Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya

Identifikasi Masalah dan tujuannya

Masalahnya sudah jelas, penulis mengatakan bahwa kasus penjiplakan itu sudah menjadi suatu tragedi dalam dunia pendidikan Indonesia. Terutama sekarang ini, banyak sekali penelitian-penelitian dalam bentuk digital yang di unggah ke dunia online. Sehingga informasi yang tersedia secara online itu sangat dengan mudah dilakukan kebiasaan copy-paste tanpa menyebutkan referensi. Maka penulis bermaksud untuk mendeteksi keberadaan kalimat sama sebagai indikasi dari hasil copy-paste.

Tujuan dari penelitian tersebut untuk mengurangi adanya tindak plagiarisme dari penelitian-penelitian yang sudah ada. Sehingga kedepannya akan menghasilkan penelitian-penelitian yang murni karya sendiri.

Metode

Metode yang digunakan, telah disampaikan dijudulnya, yaitu menggunakan metode Algoritma Hasinh berbasis N-Gram.

Proses untuk mendapatkan nilai hash tersebut :

1. Membuang karakter-karakter tidak relevan seperti tanda baca.

Contoh : machine learning and computational geometry.

Maka akan menjadi machinelearningandcomputationalgeomatry.

2. Membentuk rangkaian n-gram dari teks. misal n = 5.

Akan menjadi :

Machi achin chine hinel inele …………… metry

Untuk teks tersebut dihasilkan 35 gram.

3. Melakukan fungsi hash nya untuk setiap n-gram

Persamaan yang digunakan adalah :

H(c1…..ck) = c1 * b(k-1) + c2 * b(k-2) + ……. + c(k-1) * bk + ck

Dengan nilai ASCII karakter c, nilai basis bilangan prima b, dan banyak karakter k.

Contoh dari n-gram dari kata “machi” dengan b=3 dan k=5 memiliki hash :

H(machi) = ascii(m) * 34 + ascii(a) * 33 + ascii(c) * 32 + ascii(h) * 31 + ascii(i) * 30

H(machi) = (109*81) + (97*27) + (99*9) + (104*3) + (105*1) = 12756

4. Memilih fingerprint dari hasil hashing dengan pembagian hash berdasarkan satu nilai window w, dan kemudian dipilih nilai hash terkecil.

Semisal w = 4 sehingga window yang dibentuk dari 4 nilai-nilai hash adalah sejumlah 32 window sebagai berikut :

Jadi window dari kata machinelearningandcomputationalgeometry, setelah dilakukan tahap-tahap sebelumnya itu seperti ini. Dan yang cetak tebal adalah yang dipilih karena nilai hash kecil.

Kemudian fingerprint yang dihasilkan adalah sejumlah 15 nilai hash dari 15 window yaitu 11891, 12203, 12411, 12261 ….. 12114, 12497. Sebagai catatan , untuk pasangan window 1-2 atau 3-4 atau 35-36 yang memiliki nilai hash terkecil sama maka window kanan yang dipilih yaitu wondow 2,5 dan 36.

Pencarian kesamaan tersebut menunjukan bahwa algoritma winnowing tidak bergantung pada posisi kata-kata dalam mencari adanya kesamaan.

Misalkan file teks D1 dan D2 dengan

fingerprint D1

11891 12203 12411 12261 12350 12803 12351

12135 12211 12450 13351 12377 12891 12114

12497

fingerprint D2

12232 12268 12411 12500 12195 12508 12756

11891 12203 12411 12261

Maka akan diperoleh nilai kesamaan sebesar 19.05%.

Kesimpulan

Penulis mengatakan kalau deteksi kalimat ini dilakukan secara one-to-one. Sehingga akan membutuhkan waktu yang cukup lama jika akan melakukan pendeteksian dalam jumlah dokumen yang banyak.

Terima kasih.

Review Jurnal atau Prosiding (Tugas Seminar)

0 komentar:

Posting Komentar

Popular Posts

Arsip Blog