Metin Madenciliği ile Shakespeare Külliyatının İncelenmesi

Sadullah ÇELİK
2020 MANAS Sosyal Araştırmalar Dergisi  
Öz Metin madenciliği, doğal dil metninde yer alan yapılandırılmamış (metin) verilerin çeşitli yöntem, araç ve tekniklerin kullanılarak analiz edilmesidir. Bugün, kurum ve kuruluşların çoğu, veri ambarlarında ve bulut platformlarında büyük miktarda veri toplamakta ve depolamaktadır. Bu veriler, birden fazla kaynaktan gelen yeni verilerin gelmesiyle birlikte, üssel olarak artmaya devam etmektedir. Şirketlerin ve kuruluşların geleneksel araçlarla büyük miktardaki metin verilerini depolaması,
more » ... si ve analiz etmesi zordur. Bugün, gelişen Tableau gibi yazılımlar sayesinde bu problemler ortadan kalkmıştır. Bu çalışmanın amacı; metin madenciliği yöntemi ile Shakespeare eserlerindeki kahramanları ve olay örgülerini istatistiksel olarak saptamak ve edebiyat alanında çalışanlara bazı öngörüler sağlamaktır. Bu amaçla çalışmada, Tableau yazılımı kullanılarak Google BigQuery'nin alt yapısında bulunan Shakespeare veri setine kelime frekansları, görselleştirme ve kümeleme analiz yöntemi uygulanmıştır. Kümeleme analizi sonucunda "Hamlet" kelimesinin tüm eserlerin merkezinde yer aldığı ve Hamlet'in Shakespeare'in en önemli eseri olduğu bulunmuştur. Ayrıca, "Romeo ve Juliet" eserinde sırasıyla; "Romeo", "Juliet" ve "Love" en çok kullanılan kelimeler olarak bulunmuştur. Elde edilen bu bulgulardan eserin ana karakterlerinin "Romeo" ve "Juliet", konusunun ise "aşk" olduğu sonucuna varılmıştır. Abstract Text mining is the analysis of unstructured (text) data in natural language by using various methods, tools and techniques. Today, the most institutions and organizations collect and store large amounts of data in data warehouses and cloud platforms. These data continue to increase exponentially with the arrival of new data from multiple sources. It is difficult for companies and organizations to store, process and analyze large amounts of text data with traditional tools. Today, these problems have disappeared thanks to software like Tableau. The aim of this study is; to determine the characters and plot patterns in Shakespeare dataset by using text mining method and to give some predictions to the literature researchers. In this study, word frequencies, visualization and clustering analysis method was applied to Shakespeare dataset which is in Google BigQuery infrastructure by using Tableau software. As a result of the clustering analysis, it was found that "Hamlet" was at the center of all the works and Hamlet was the most important work of Shakespeare. In addition, in the work of "Romeo and Juliet" respectively; "Romeo", "Juliet" and "Love" were found to be the most commonly used words. It is concluded that the main characters of the work are "Romeo" and "Juliet" and "love" is the subject.
doi:10.33206/mjss.561919 fatcat:k5hkv5mspjhqzmxxzcbtzszpjq