APPLYING DEEP LEARNING FOR SOLVING THE TASKS OF SELF-DIAGNOSIS OF DISTRIBUTED COMPUTER SYSTEMS
K.E. Kramarenko, O.V. Moldovanova
2016
IZVESTIYA SFedU ENGINEERING SCIENCES
К.Е. Крамаренко, О.В. Молдованова ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ САМОДИАГНОСТИКИ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ * Статья посвящена решению задачи самодиагностики распределенных вычислительных систем, которые состоят из множества, связанных между собой каналами связи, элементарных машин (узлов). С ростом числа узлов в системе возрастает вероятность возникновения отказов. Под отказом понимается событие, при котором элементарная машина теряет способность выполнять заданные
more »
... нкции по переработке информации. Отказ одного узла, участвующего в вычислительном процессе, может привести к некорректному результату вычислений и иметь разрушительные последствия для всей распределенной вычислительной системы. Поэтому актуальной является задача разработки алгоритмов самодиагностики, цель которых заключается в определении исправных и неисправных узлов системы по заданному синдрому распределенной вычислительной системы. Эту задачу можно свести к задаче классификации, эффективно решаемой алгоритмами глубокого обучения. В статье приведены постановка и ограничения задачи дешифрации синдрома распределенной вычислительной системы, описание разработанного алгоритма дешифрации синдрома распределенной вычислительной системы на основе сверточной нейронной сети и алгоритма генерации обучающих выборок. Программная реализация разработанных алгоритмов была выполнена c использованием пакета DeepLearnToolBox интерактивной среды Matlab. Проведены эксперименты на тестовых обучающих выборках с различным числом узлов в распределенной вычислительной системе и различным числом неисправных узлов. Экспериментально подобраны гиперпараметры сверточной нейронной сети: длина обучающей выборки, количество эпох обучения, шаг ядра свертки, количество и размеры ядер в слое свертки, количество слоев сверточной нейронной сети. Эффективность алгоритма оценивалась по зависимости количества точно диагностированных узлов от общего количества неисправных узлов в распределенной вычислительной системе. Проведенные эксперименты показали, что данный алгоритм стоит применять в распределенных вычислительных сиcтемах с числом неисправных узлов, не превышающем 30 % от общего числа узлов. Несмотря на небольшую длину обучающей выборки, сеть сохраняет хорошую обобщающую способность. Самодиагностика; распределённые вычислительные системы; искусственные нейронные сети; глубокое обучение; отказоустойчивость; сверточные нейронные сети. The article is devoted to solving the problem of self-distributed computer systems, which consist of a plurality of elementary machines (nodes), interconnected by channels of communication. With increasing number of nodes in the system the probability of faults increases. Fault is an event when the elementary machine loses its ability to perform specified functions of information processing. Fault of one node involved in the computation process can lead to incorrect result of calculations and have devastating consequences for the entire distributed computer system. Therefore, the urgent problem is the development of self-diagnostic algorithms, the aim of which is to identify the fault and fault-free system nodes using the given syndrome of the distributed computer system. This problem can be reduced to the problem of classification which is effectively solved by the deep learning algorithms. The paper presents the statement and limitation of the problem of * Работа выполнена при поддержке Российского фонда фундаментальных исследований (гранты 16-07-00712-а, 16-07-00992-а, 15-07-00048-a).
doi:10.18522/2311-3103-2016-11-113120
fatcat:kpa2m7pj4zgttcgxhdovnmv37e