PENERAPAN ALGORITMA TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF) UNTUK TEXT MINING Mahasiswa S1 Program Studi Ilmu Komputer FMIPA Universitas Mulawarman 2,3) Dosen Program Studi Ilmu Komputer FMIPA Universitas Mulawarman

Musfiroh Nurjannah, Hamdani, Inda Astuti
2013 Jurnal Informatika Mulawarman   unpublished
ABSTRAK Algoritma Term Frequency Inverse-Document Frequency merupakan suatu algoritma yang menggalikan antara Term frequency dengan Inverse Document Frequency. Term frequency yaitu jumlah kemunculan sebuah term pada sebuah dokumen. Inverse Document Frequency yaitu pengurangan dominasi term yang sering muncul diberbagai dokumen, dengan memperhitungkan kebalikan frekuensi dokumen yang mengandung suatu kata. Text Mining pada umumnya adalah unstructured data, atau minimal semistructured. Maka
more » ... kan tantangan tambahan pada text mining yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Hasil dari penelitian menunjukan bahwa, penerapkan algoritma term frequency inverse-document frequency untuk text mining sangat membantu pengguna. untuk mendapatkan informasi pada kumpulan dokumen. Dengan format file txt berdasarkan kata kunci yang dimasukan oleh pengguna pada sistem. Dengan koleksi uji kata 'upaya' pada query maka didapatkan keluaran dengan bobot nilai 8.65441 yang merupakan jumlah kata terbanyak sesuai dengan query. Kata Kunci : TF-IDF, Text Mining, Ruang Vektor.. PENDAHULUAN Seiring dengan perkembangan informasi banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara selektif. Menemukan informasi berdasarkan kesesuaian dengan query (masukan berupa ekspresi kebutuhan informasi oleh pengguna) dari suatu kumpulan informasi yang relevan dengan kebutuhan dari penggunanya secara otomatis tidak mungkin dilakukan secara manual, karena kumpulan informasi yang sangat besar dan terus bertambah besar. Maka diperlukannya penambangan kata (Text Mining) yaitu banyaknya data yang berupa teks yang terdapat pada dokumen kemudian mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Berdasarkan penelitian sebelumnya pada skripsi dengan judul "Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi" (Zafikri,2008), penulis mencoba menggunakan objek penelitian dan kriteria kumpulan dokumen, begitu juga dengan programming yang digunakan. Dalam perancangan aplikasi ini, metode yang digunakan juga menggunakan algoritma Term Frequency-Inverse Document Frequency (TF-IDF). Metode ini merupakan algoritma yang melakukan penggabungan dua metode yaitu konsep frekuensi kemunculan term dalam sebuah dokumen dan inverse frekuensi dokumen yang mengandung kata tersebut, akan mampu meningkatkan proporsi jumlah dokumen yang dapat ditemukan kembali dan yang dianggap relevan secara sekaligus. Sehingga kriteria term yang paling tepat adalah term yang sering muncul dalam dokumen secara individu, namun jarang dijumpai pada dokumen lainnya. Berdasarkan uraian diatas, penulis merasa tertarik untuk meneliti lebih jauh mengenai metode Term Frequency-Inverse Document Frequency (TF-IDF) dengan mengambil konsep judul yaitu "Penerapan Algoritma Term Frequency-Inverse Document Frequency (TF-IDF) Untuk Text Mining" METODE PENELITIAN TF-IDF (TERMS FREQUENCY-INVERSE DOCUMENT FREQUENCY)
fatcat:uaygrrvxpzhrfbd4z4xnyf2q7y