Representative Sampling Algorithm for Database Systems Based on the Partitioned Parallelism
2014
Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"
unpublished
Сэмплинг является популярным подходом к обработке сверхбольших баз данных в ши-роком спектре приложений, связанных с интеллектуальным анализом данных, построением гистограмм, приблизительное исполнение запросов и др. Использование сэмпла вместо ориги-нальной базы данных может уменьшить точность результатов, но компенсируется сокраще-нием времени выполнения обработки. Репрезентативный сэмплинг позволяет сохранить в сэм-пле определенные характеристики базы данных. Однако существующие алгоритмы
more »
... резен-тативного сэмплинга не могут быть применены для параллельных систем баз данных, по-скольку не учитывают характеристики данных, распределяемых по вычислительным узлам кластерной системы. В данной статье предлагается алгоритм репрезентативного сэмплинга для параллельных реляционных систем баз данных на основе фрагментного параллелизма. Приведены результаты вычислительных экспериментов над предложенным алгоритмом, по-казавшие адекватное сохранение репрезентативности свойств базы данных, распределенной по узлам кластерной системы. Ключевые слова: реляционные базы данных, параллельные системы баз данных, репре-зентативный сэмплинг. Введение В настоящее время сэмплинг применяется в широком спектре приложений, связанных с обработкой сверхбольших баз данных: интеллектуальный анализ данных [23, 25], построение гистограмм [18], генерация баз данных для тестирования программного обеспечения [26], приблизительное исполнение запросов [5] и др. Сэмпл представляет собой часть оригинальной базы данных, имеющую меньший размер, что позволяет сократить время обработки базы данных за счет возможной потери точности результатов обработки. Случайный сэмплинг предполагает отбор кортежей базы данных без учета значений их атрибутов, что снижает точность и повторяемость результатов обработки. При репрезентативном сэмплинге отбор кортежей осуществляется с сохранением важных особенностей оригинальной базы данных: относительное количество кортежей, связанных посредством внешних ключей, относительное количество значений атрибута и др. [10]. На сегодня научное сообщество признает параллельные системы баз данных [3] как практически единственное эффективное средство для организации обработки сверхбольших баз данных. Базисной концепцией параллельных систем баз данных является фрагментный параллелизм, предполагающий разбиение отношений базы данных на горизонтальные фрагменты, которые могут обрабатываться независимо на разных узлах кластерной вычислительной системы. Однако существующие методы репрезентативного сэмплинга не приспособлены для систем баз данных на основе фрагментного параллелизма, поскольку не учитывают особенности распределения фрагментов отношений базы данных по вычислительным узлам кластерной системы. Информатика, вычислительная техника и управление 36 Вестник ЮУрГУ. Серия Вычислительная математика и информатикаа
fatcat:jt7s2tavzndchhwthu5ruffqg4