MISMATCH OF DATA MINING SOFTWARE PREDICTION UNDER POSITIVE DEFINITE MATRIX PROBLEM

Ömer Utku ERZENGİN
2019 Anadolu University Journal of Science and Technology: B Theoretical Sciences  
ÖZET Bu çalışmada örnek veri olarak 2012 yılı Borsa İstanbul'da işlem gören 270 işletmenin bilanço ve gelir tabloları (BvGT) kullanılmıştır. Veri madenciliği yazılımları da (VMY) kullandıkları yöntemleri gerçekleştirmek için başvuru kitabı (reference manual) kullanırlar ve elde edilen sonuçların tutarlı olduğunu ve analizlerin hangi bilimsel dayanağa göre yapıldığını kullanıcılarına beyan ederler. VMY'lerin başvuru kitaplarının kaynakları birbirinden farklı olabilir ve aynı analizler farklı
more » ... ları için farklı sonuçlar ortaya çıkarabilir. Çalışmanın amacı aynı veri ve aynı analiz için farklı VMY' den elde edilen sonuçların uyuşmazlığını göstermektir. Edward I. Altman ve arkadaşları BvGT'ye bağlı finansal oranlara göre mali başarısızlıkbaşarı Altman Z Skora (AZS) yöntemlerini belirlemişlerdir. Çalışmada BvGT'deki kalemlere bağlı 21 oran elde edilmiştir ve bu oranlar kendi doğalarından ötürü birbiriyle istatistiksel açıdan ilişkili içindedirler. Ortaya çıkabilecek çoklu bağlantı sorunu temel bileşenler analizine (TBA) göre çözülmek istenmiştir ve boyut indirgemesi yapılmıştır. TBA'DA işleme alınan kovaryans matrisi (KM) positif tanımlı matris (PTM) olmadığı fark edilmiştir. Her VMY'nin PTM olmayan matris sorununu çözmek için kendi nümerik analiz yöntemlerini kullandığı anlaşılmıştır. İşletmelerin mali başarısızlık-başarıları AZS'ye göre kategorik olarak 0-1 şeklinde belirlenmiştir. TBA kullanılarak indirgenmiş sayıdaki değişkenler ikili lojistik regresyon (İLR) analizine sokulmuş ve mali başarı ve başarısızlık kestirilmiştir. Veri madenciliği yazılımlarının İLR'deki ayrıştırma performansı ROC eğrisine göre yapılmıştır. IBM Modeler (SPSS), Statistica, Stata, SAS, R, Weka, Orange yazılımlarında aynı işlemler tekrarlanmıştır. VMY'lerin PTM olmayan kovaryas matrisine bağlı sonuçlarının uyuşmazlığı tartışılmıştır. Çalışmada ücretli VMY'leri analizleri 258 gözlem üzerinden yapmış; hepsi 174 başarısız gözlemden 169 tanesini başarısız ve 84 başarlı gözlemden 75 tanesi başarılı bulmuştur. Özgür yazılımların VMY'ları 270 gözlem üzerinden yapılmış; 182 başarısız gözlemin 173 tanesi R tarafından başarısız, 176 tanesi Weka tarafından başarısız ve 173 tanesi Orange tarafından başarısız bulunmuştur. Özgür yazılımların VMY'leri 88 başarlı gözlemin R tarafından 82 tanesi, Weka tarafından 62 tanesi ve Orange tarafından 75 tanesi başarılı bulunmuştur. ABSTRACT In this study as a sample data, 270 balance sheet and income tables (BS&IT) of Borsa İstanbul companies were used in 2012. Data mining software (DMS) uses a guidebook (reference manual) to perform its methods and declares their results are consistent. DMS declares to the users that the results obtained are analyzed according to the scientific base. The sources of reference books of the DMS may be different and the same analyzes may produce different outcomes. The aim of the study is to show the mismatch of DMS results for the same analysis and data. Edward I. Altman et al. determined the financial distress procedure called Altman Z score (AZS) according to financial ratios of the balance sheet and income table (BS&IT). In this study according to items of BS&IT, 21 financial ratios were calculated. The financial ratios of BS&IT are related to each other because of BS&IT nature. The multicollinearity problem, that could occour, was wanted to solved with principal component analysis (PCA) and dimension was reduced. Covariance matrix that was analyzed with PCA, was found that it was not a positive definite matrix (PDM). It was understood each DMS use its own numerical analysis methods to solve non PDM problem. Financial distress companies were determined according to Altman Z score (AZS) as categorically labeled with 0-1. Using the PCA, reduced number of variables were analyzed by binary logistic regression (BLR) and the companies financial distress were predicted. BLR parsing performance of the data mining software was based on the to ROC curves. The same procedures were repeated in IBM Modeler (SPSS), Statistica, Stata, SAS, R, Weka, Orange software. The mismatch of DMS results was discussed. The shareware DMS completed analysis from 258 observation; all of them found 169 observations as unsuccessful among 174 unsuccessful observations and all of them found 75 as successful among 84 successful observations. The free DMS completed analysis from 270 observation; R found 173 observations as unsuccessful, Weka found 176 observations as unsuccessful, Orange found 173 observations as unsuccessful among 182 unsuccessful observations and R found 82 observations as successful, Weka found 62 observations as successful, Orange found 75 observations as successful among 84 successful observations.
doi:10.20290/aubtdb.422011 fatcat:vkxuzjt7tvfm7gyzq4eyxcy3hm