Analisa Penggunaan K-Gram pada Karakter, Kata dan Kalimat untuk Mendeteksi Kesamaan Dokumen

Ida Widaningrum, Dyah Mustikasari, Rizal Arifin, Erika Dyah Cahyani
2020 Prosiding Seminar Nasional Teknoka  
Pemanfaatan teknologi digital menjadi sebuah kebutuhan saat ini, salah satu komponennya berupa dokumen. Pendeteksian kesamaan bisa menggunakan berbagi macam cara, diantaranya adalah metode fingerprinting. Fingerprint memiliki prinsip kerja menggunakan teknik hashing dan K-gram. Penelitian ini difokuskan pada model deteksi menggunakan K-gram dengan menggunakan algoritma winnowing dan python sebagai bahasa pemrograman. Pengujian parsing k-gram menggunakan 5 buah k yaitu k=2 k=3 k=4 k=5 k=6.
more » ... k=4 k=5 k=6. Hasilnya, parsing karakter mendapatkan presentase lebih besar dari presentase manual karakter. Presentase parsing kata, memiliki presentase yang paling mendekati dari presentase manual. Sedangkan pada kalimat, presentasenya paling rendah dari presentase manual
doi:10.22236/teknoka.v5i.333 fatcat:gprqfkmvpractlyxtbj6tyfgny