Stopword Dinamis dengan Pendekatan Statistik

Mardi Utomo
unpublished
Stopword a fraction words that often appear in each document corpus. Those words do not have significant meaning for the document. The occurrence of these words make poor index and the retrieval becomes inaccurate. Stopword list or commonly called the stoplist be the most important part in the process of eliminating stopword filtering. Stoplist can be generate from a dictionary or from some references research that generates retrieval stopword list [1]. Stopword depends on the corpus language,
more » ... o the language provided by stoplist should be the same as the language used in the corpus. Corpus which consists of a variety of languages can not rely on such research stoplist static tuning, Especially if the corpus developed into more than one language and or domain [2].Some words that not include in general stopword could be a stopword inspecific domain corpus. For example the word "recipe" would be a stopword in recipes domain corpus. Abstrak-Stopword merupakan sebagian kecil kata yang sering muncil pada setiap dokumen korpus. Kata-kata tersebut tidak memberikan makna berarti pada dokumen, sehingga kemunculan kata-kata tersebut dalam indek membuat hasil temu kembali menjadi tidak akurat. Daftar stopword atau biasa disebut dengan stoplist menjadi bagian terpenting dalam proses filtering menghilangkan stopword dari indek temu kembali informasi. Stoplist bisa di dapatkan dari kamus bahasa atau dari beberapa referensi penelitian temu kembali yang menghasilkan daftar stopword [1]. Stopword sangat tergantung dengan bahasa yang digunakan di korpus, sehingga bahasa yang disediakan oleh stoplist harus sama dengan bahasa yang digunakan di korpus. Korpus yang terdiri dari bermacam-macam bahasa tidak bisa mengandalkan stoplist statis seperti pada penelitian tala, Terlebih apabila korpus tersebut berkembang menjadi lebih dari satu bahasa dan atau domain [2]. Demikian pula pada korpus-korpus pada domain yang lebih spesifik beberapa kata yang bukan stopword pada korpus kebanyakan bisa jadi menjadi stopword pada suatu domain korpus. Sebagai contoh kata "resep" akan menjadi stopword pada korpus dengan domain resep masakan. Kata kunci : stoplist dinamis, distribusi frekuensi PENDAHULUAN Perkembangan teknologi internet yang pesat membuat semakin banyaknya pilihan informasi yang tersedia. Terlebih aplikasi berbasis web merupakan aplikasi yang cukup banyak digunakan sekarang ini karena kemudahan dalam penggunaan, implementasi dan perawatan. Perkembangan ini membuat semakin banya informasi yang tersedia di internet tetapi hanya sedikit
fatcat:edokdszhi5gkdks4sv7xefjh6q