Rasgele Orman Yönteminde Eksik Veri Probleminin İncelenmesi

Hülya Özen, Cengiz Bal
2019 OSMANGAZİ JOURNAL OF MEDICINE  
Random Forest is an ensemble method that combines many trees constructed from bootstrap samples of the original data. Random Forest is used for both classification and regression and provides many advantages such as having a high accuracy, calculating a generalization error, determining the important variables and outliers, performing supervised and unsupervised learning and imputing missing values with an algorithm based on proximity matrix. In this study, we aimed to compare the proximity
more » ... e the proximity based imputation method of Random Forest with k nearest neighbor imputation prior to fitting. Therefore, simulation studies were performed for a classification problem under various scenarios including different percentage of missing values, number of neighbors and correlation structures between predictor variables. The results showed that for highly correlated structures proximity matrix based imputation method should be used meanwhile k nearest neighbor imputation method should be preferred for low and medium correlated structures. Keywords: knn imputation method, missing value, proximity matrix, random forest Özet: Rasgele Orman, orijinal verilerin bootstrap örneklerinden oluşturulmuş pek çok karar ağacını bir araya getiren bir topluluk yöntemidir. Rasgele Orman, hem sınıflandırma hem de regresyon için kullanılır ve yüksek doğruluk oranı elde etme, genelleme hatası hesaplama, önemli değişkenleri ve aykırı değerleri belirleme, danışmanlı ve danışmansız öğrenmeyi gerçekleştirme ve yakınlık matrisine dayalı bir algoritma ile eksik gözlemlere değer atama gibi birçok avantaj sağlar. Bu çalışmada, Rasgele Orman'ın yakınlık matrisi temelli atama yöntemini, model kurulumundan önce kullanılan en yakın komşu ile değer atama yöntemiyle karşılaştırmayı amaçladık. Bu nedenle, farklı eksik değer yüzdeleri, komşuluk sayısı ve tahminci değişkenler arasındaki korelasyon yapıları dahil olmak üzere çeşitli senaryolar altında bir sınıflandırma problemi için simülasyon çalışması yapılmıştır. Sonuçlar, yüksek korelasyonlu yapılar için yakınlık matrisi tabanlı atama yönteminin kullanılması gerektiğini, orta ve düşük korelasyonlu yapılar için ise en yakın komşu ile değer atama yönteminin tercih edilmesi gerektiğini göstermektedir. Anahtar Kelimeler: knn atama yöntemi, eksik veri, yakınlık matrisi, rasgele orman ORCID ID of the authors: H.
doi:10.20515/otd.496524 fatcat:hkfs45ldendghgtpqbwoe55udy