Time analysis of query in parallel column-oriented date store
Анализ времени выполнения запроса в параллельном колоночном хранилище данных

Ю.А. Григорьев, Е.Ю. Ермаков
2013 Engineering Journal Science and Innovation  
Анализ времени выполнения запроса в параллельном колоночном хранилище данных © Ю.А. Григорьев, Е.Ю. Ермаков МГТУ им. Н.Э. Баумана, Москва, 105005, Россия Проанализирован специфичный для параллельных колоночных хранилищ данных план запроса со скрытым соединением. Приведено преобразование Лапласа -Стилтьеса времени обработки запроса с подобным планом в параллельном колоночном хранилище данных. Выполнено сравнение среднего времени выполнения запроса со скрытым соединением и пересечением NLJ.
more » ... ые слова: колоночное хранилище данных, колоночные базы данных, параллельные базы данных, преобразование Лапласа -Стилтьеса, скрытое соединение. Введение. Являясь одними из наиболее значимых элементов ИТинфраструктуры предприятия, базы данных (БД) консолидируют информацию, необходимую для создания достоверных аналитических и управленческих отчетов. Они являются одними из крупнейших источников информации для современных аналитиков и, по оценке Gartner [1], в ближайшей перспективе останутся ключевым компонентом ИТ-инфраструктуры предприятий. При оценке характеристик производительности на этапе проектирования БД необходимо учитывать особенности предметной области. Результаты исследований [2] показывают, что при расчете времени реакции информационной системы надо учитывать параметры приложений: алгоритмы, запросы к БД и т.д. Время обработки этих запросов достаточно велико, его доля в общем времени выполнения прикладных программ превышает 90 %. Методы анализа временны´х характеристик для параллельных строчных БД (Oracle, MS SQL Server и т. д.), учитывающих специфику запросов к базе данных, уже разработаны и представлены в работах [2] [3] [4] [5] [6] . Но в настоящее время внедряются новые системы управления БД с иной организацией хранения данных, получившие название параллельных колоночных БД (ПКБД) [7] [8] [9] . Они впервые были внедрены при разработке больших БД, используемых при поддержке принятия решения, в частности, в аналитических расчетах, и сразу же дали хорошие результаты: почти 200-кратное сокращение объема вводавывода по сравнению с аналогичными строчными БД и значительное уменьшение времени выполнения запросов [8] . Это достигается за счет того, что из БД читаются только атрибуты (столбцы), участвующие в запросе, а также применяются эффективные методы сжатия столбцов [10] .
doi:10.18698/2308-6033-2013-11-1069 fatcat:stijmeifnvbgpbdqazoa3kwezq