Identification and dealing with uncertainties in the form of incomplete data by data mining methods

Nataliia V. Kuznietsova
2016 Sistemnì Doslìdženâ ta Informacìjnì Tehnologìï  
Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об'єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не
more » ... реднім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів. ВСТУП Невизначеності навколишнього світу та об'єктів, що у ньому функціонують, безпосередньо або опосередковано впливають на діяльність людини, потребують урахування під час прогнозування розвитку множини супутніх процесів. Очікувані результати від застосування тих чи інших засобів можуть бути незадовільними або зовсім непередбачуваними внаслідок дії випадкових зовнішніх факторів. Коли ж зовнішні фактори строго визначені або хоча б відомі, то невизначеність природи та обмежень може бути врахована і, відповідно, можна запропонувати методи їх оброблення. Так, у задачах системного аналізу [1, 2] у загальному випадку розрізняють три основні види невизначеностей: невизначеність цілей; ситуаційну і природну невизначеність (невизначеність знань про можливі ситуації у процесі функціонування складних систем); інформаційну невизначеність (невизначеність поведінки навколишнього середовища та дій реального партнера чи супротивника). Розв'язування задачі розкриття концептуальної невизначеності щодо системного аналізу потребує розкриття множини різнорідних невизначеностей на підставі єдиних принципів, прийомів і критеріїв [3] . На практиці розв'язуються задачі дослідження невизначеності цілей розроблення і перспектив конкурентоспроможності виробу, аналізуються невизначеність динаміки ринків попиту та пропозиції і невизначеність активної протидії конкурентів, невизначеність динаміки розроблення, виробництва, збуту та експлуатації певного виробу тощо. Одним з проявів інформаційної невизначеності є невизначеність, зумовлена пропусками даних. Об'єктивні характеристики певних процесів можуть бути змінені або навіть спотворені внаслідок втрати частини даних під час
doi:10.20535/srit.2308-8893.2016.2.10 fatcat:c6uy3z7w25cvpmv3ozkyz3hjga