Эволюционные алгоритмы распределения больших данных в вычислительно-интенсивных задачах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Насонов, Денис Александрович

  • Насонов, Денис Александрович
  • кандидат науккандидат наук
  • 2016, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 154
Насонов, Денис Александрович. Эволюционные алгоритмы распределения больших данных в вычислительно-интенсивных задачах: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2016. 154 с.

Оглавление диссертации кандидат наук Насонов, Денис Александрович

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 ТЕХНОЛОГИИ ХРАНЕНИЯ И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ

1.1 Методы и технологии работы с большими данными

1.2 Методы оптимизации размещения больших данных

1.3 Методы планирования высокопроизводительных вычислений с интенсивной обработкой больших данных

1.4 Выводы к главе 1

2 ТЕХНОЛОГИЯ ИСПОЛНЕНИЯ КОМПОЗИТНЫХ ПРИЛОЖЕНИЙ С СОВМЕЩЕННЫМИ МЕТОДАМИ ОПТИМИЗАЦИИ

2.1 Интеграция технологий высокопроизводительных вычислений и технологий работы с большими данными

2.2 Концепция iPSE и платформа CLAVIRE

2.3 Модели процессов в распределенной вычислительной среде

2.4 Выводы к главе 2

3 АЛГОРИТМЫ ОПТИМИЗАЦИИ РАЗМЕЩЕНИЯ СЛОЖНЫХ СТРУКТУР БОЛЬШИХ ДАННЫХ В СТАЦИОНАРНЫХ УСЛОВИЯХ

3.1 Формальное описание задачи оптимизации размещения сложных структур в стационарных условиях

3.2 Описание стационарных методов оптимизации размещения больших данных

3.3 Экспериментальные исследования стационарных методов оптимизации размещения больших данных

3.4 Выводы к главе 3

4 АЛГОРИТМЫ ОПТИМИЗАЦИИ РАЗМЕЩЕНИЯ СЛОЖНЫХ СТРУКТУР БОЛЬШИХ ДАННЫХ В НЕСТАЦИОНАРНЫХ УСЛОВИЯХ

4.1 Формальное описание задачи оптимизации размещения сложных структур в нестационарных условиях

4.2 Описание нестационарных методов оптимизации размещения больших данных

4.3 Экспериментальные исследования нестационарных методов оптимизации размещения больших данных

4.4 Выводы к главе 4

5 АЛГОРИТМЫ ПЛАНИРОВАНИЯ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛЕНИЙ С ИСПОЛЬЗОВАНИЕМ ОПТИМИЗАЦИИ РАЗМЕЩЕНИЯ СЛОЖНЫХ СТРУКТУР

5.1 Формальное описание задачи планирования вычислений с использованием сложных структур в нестационарных условиях

5.2 Описание методов планирования вычислений с использованием сложных структур

5.3 Экспериментальные исследования нестационарных методов оптимизации размещения больших данных

5.4 Выводы к главе 5

ЗАКЛЮЧЕНИЕ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Эволюционные алгоритмы распределения больших данных в вычислительно-интенсивных задачах»

Введение

Актуальность темы исследования обусловлена интенсивным развитием технологий электронной науки (еБаепсе), предназначенных для поддержки выполнения сложных расчетов с использованием больших объемов данных, размещенных в распределенной вычислительной среде. При этом на практике данные размещаются на распределенных узлах-носителях не равномерно по объему, а соответственно сложной структуре самих данных. Возможное динамическое изменение структуры данных во времени приводит к необходимости их постоянно перераспределять исходя из различных принципов. Например, расчеты могут быть ориентированы под данные и приоритизировать начальный выбор узла по объему данных на нем либо могут быть ориентированы на уменьшение времени расчетов, и условия перераспределения будут связаны с увеличением производительности ресурса. Как следствие, выполнение расчетов над большими данными требует, как максимизации использования процессорного времени, так и максимизации скорости работы с операциями ввода/вывода, то есть использования многоуровневого хранения данных на различных по скорости работы и внутреннему объему устройствах памяти. На сегодняшний день отсутствуют технологии и методы оптимизации работы со сложными структурами больших данных, которые учитывали бы все перечисленные особенности не только организации хранения и доступа, но и оптимизации вычислительных процессов, что делает актуальной постановку данного исследования.

Целью диссертационной работы является разработка нового математического, алгоритмического и программного обеспечения для оптимизации работы со сложными структурами больших данных при выполнении расчетов в распределенных вычислительных средах. Это включает в себя как алгоритмы планирования перераспределения данных, и выполнения комплексных расчетов, так и схему адаптации самой вычислительной среды.

Для достижения поставленной цели были решены следующие задачи.

- обзор и анализ существующих решений управления большими данными и инфраструктурных особенностей, оптимизации размещения больших данных и подходов алгоритмов планирования;

- выбор технологической платформы и формальзация постановки задачи, как для разрабатываемых алгоритмов, так и для вычислительной среды;

- реализазация алгоритмов перераспределения больших данных совмещенных с реализацией алгоритмов планирования интенсивно-вычислительных задач. в стационарных и нестационарных условиях внешней среды.;

- экспериментальные исследовния подтверждающие практическую значимость и ценность созданныъ алгоритмов.

Новизна, теоретическая и практическая значимость результатов исследования

обусловлены тем, что в работе впервые предложено семейство алгоритмов распределения сложноструктурированных данных в распределенной вычислительной среде, позволяющее обеспечивать их оптимальное размещение на вычислительных узлах с использованием ретроспективы эксплуатации системы, как в стационарных, так и в нестационарных условиях; обоснована целесообразность использования этих алгоритмов. На их основе разработаны новые алгоритмы динамического коэволюционного планирования композитных приложений на динамически реконфигурируемых вычислительных ресурсах. Программная реализация разработанных алгоритмов позволила повысить эффективность использования вычислительных ресурсов и снизить время обработки больших данных в 1,2-3 раза по сравнению с существующими аналогами.

Ценность результатов исследования заключается в расширении алгоритмического инструментария для решения практически значимых задач как управления эффективным распределением сложноструктурированных данных в стационарных и нестационарных средах, так и совмещаемых при этом алгоритмах коэволюционного планирования самих вычислений и ресурсов платформы. Теоретические результаты работы воплощены в наборе программных компонентов, обеспечивающих оптимизацию размещения больших данных и планирование вычислительной нагрузки в распределенных облачных средах под управлением платформы CLAVIRE.

Методы исследования. В работе использованы методы анализа и классификации существующих решений с дальнейшей формализацией и применением теории алгоритмов, теории вероятностей и математической статистики, а также методов моделирования и экспериментальных исследований с конечным обобщением полученных результатов.

На защиту выносятся:

- семейство алгоритмов оптимизации перераспределения сложноструктурированных данных для статической вычислительной среды с учетом параметров выполняемых задач, собранных по ретроспективным данным эксплуатации вычислительной среды в стационарных условиях;

- семейство алгоритмов оптимизации перераспределения сложноструктурированных данных для динамической вычислительной среды с учетом параметров выполняемых задач, собранных по ретроспективным данным эксплуатации вычислительной среды в нестационарных условиях;

- семейство алгоритмов динамического коэволюционного планирования композитных приложений на динамически реконфигурируемых вычислительных ресурсах, учитывающих специфику обработки больших сложноструктурированных данных.

Содержание работы. В первой главе диссертационной работы выполнен аналитический обзор технологий хранения и обработки больших данных, также проанализированы методы планирования перераспределения данных сложных структур и планирования выполнения задач с использованием больших данных. Во второй главе приведены особенности интеграции технологий высокопроизводительных вычислении и технологий обработки больших данных, а также модели данных, вычислений и распределенной среды с конечной постановкой задачи. В третьей главе представлены стационарные алгоритмы перераспределения сложноструктурированных данных с экспериментальными исследованиями повышения производительности для статического случая. В четвертой главе продемонстрированы нестационарные алгоритмы перераспределения данных для динамически изменяемой вычислительной среды; приведены результаты экспериментальных исследований, подтверждающие эффективность алгоритмов. В пятой главе приведено семейство коэволюционных алгоритмов планирования вычислений с учетом алгоритмов перераспределения данных; результаты экспериментальных исследований подтвердили повышение производительности системы.

Степень достоверности и апробация результатов. Степень достоверности подтверждается корректным использованием методов исследования, обоснованием постановок задач и

эксперементальными исследованиями разработанных алгоритмов, в том числе при сравнителном анализе с существующими подходами. Основные результаты были изложены на следующих научных и научно-практических конференциях:

- «International Conference on Computational Science», международная конференция, Барселона, Испания, 2013;

- «International Conference on Computational Science», международная конференция, Кэрнс, Австралия, 2014;

- «The 14th International Multidisciplinary Scientific GeoConference & EXPO SGEM 2014», Албена, Болгария, 2014;

- «International Conference on Application of Information and Communication Technologies», международная конференция, Астана, Казахстан, 2014;

- «The 9th International Conference on Soft Computing Models in Industrial and Environmental Applications», международная конференция, Билбао, Испания, 2014;

- «6th International Conference on Evolutionary Computation Theory and Applications», международная конференция, Рим, Италия, 2014;

- «International Conference on Computational Science», международная конференция, Рейкьявик, Исландия, 2015;

- «The 15th International Multidisciplinary Scientific GeoConference & EXPO SGEM 2015», Албена, Болгария, 2015;

- «7th International Conference on Evolutionary Computation Theory and Applications» международная конференция, Лиссабон, Португалия, 2015;

- «Young Science Conference», международная молодежная конференция, Афины, Греция, 2015;

- «International Conference on Computational Science», международная конференция», Сан-Диего, 2016.

Представление результатов работы. Результаты диссертационного исследования опубликованы в 21 научных работах (общий объем — 15,23 п.л., вклад соискателя — 5,75 п.л.) из них работ, опубликованных в рецензируемых научных журналах (из перечня ВАК, Scopus/W oS), — 21, свидетельств на программы для ЭВМ — 4.

1 Технологии хранения и обработки больших данных

В диссертационном исследовании под большими данными (Big Data) понимается информация, обработка и хранение которой сильно затруднены или невозможны в рамках одного вычислительного ресурса, представленного персональной рабочей станцией, сервером или, например, отдельным узлом суперкомпьютера [1]. Это приводит к необходимости использования многочисленных узлов для хранения больших данных, также совмещающих в себе вычислительные возможности по обработке этих данных. В основе решения этой задачи лежат технологии, предоставляющие достаточно понятные и мощные механизмы универсальной организации хранения и обработки больших данных в распределенной вычислительной среде. Использование подобных технологий порождает задачи оптимизации, связанные как с эффективным размещением, так и с организацией обработки данных. В свою очередь, от конечного пользователя скрываются все технические детали реализации технологий и делается акцент на непосредственной логике и методах обработки данных. В данной главе рассмотрены основные понятия, связанные с большими данными, а также существующие технологии организации размещения и обработки больших данных.

1.1 Методы и технологии работы с большими данными

Большие данные являются основным компонентом не только в вычислениях, ориентированных на обработку данных (Data-Driven Computing, DDC), но и в современных высокопроизводительных расчетах, например, при моделировании гидрометеорологических прогнозов, моделировании сложных социальных процессов или при расчете задач астрофизики по распознаванию и моделированию звездного неба и изучению радиоизлучения небесных тел [2-4]. С другой стороны, вычисления, ориентированные на большие данные (ВОБД), являются неотъемлемой частью аналитических задач выявления скрытых факторов, закономерностей, тенденций и статистических особенностей в современной науке и любом современном крупном и даже среднем бизнесе. Примером могут служить проекты большого адронного коллайдера, требующие обработки огромных массивов данных для поиска признаков наличия тех или иных частиц, сеть розничной торговли с анализом данных по продажам, авиакомпании, использующие методы обработки больших данных для мониторинга и диагностирования работы двигателей самолета [5, 6]. Определяющую роль ВОБД занимает в информационных технологиях и финансовом

секторе. Подавляющее число современных подходов и технологии появляются внутри IT-корпораций, таких как Google, Facebook, Yahoo, Twitter или Яндекс [7-10]. Основной причиной этого является сама специфика работы компаний с данными - продаются сервисы, основанные на больших данных или использующие их: начиная с поисковых систем, обрабатывающих петабайты данных для генерации релевантных списков ссылок по указанному пользователем запросу, и заканчивая распределенными системами обработки и хранения данных социальных сетей, способных ежесекундно принимать обновления гигабайтов данных, генерируемых миллионами пользователей. Однако парадигмы и технологии, порождаемые в определенных направлениях IT, имеют свою специфику, зачастую не в полной мере отражающую потребности всех направлений (в том числе и научных) использования больших данных в целом. Так, например, широко известные технологии и принципы (MapReduce, NoSQL подходы, решения Apache Hadoop, Apache Strom или даже база данных Cassandra), созданные для обработки в основном статически генерируемого простого контента (текст, фотографии, видео, музыка), не позволяют в полной мере эффективно обрабатывать сложноструктурированные большие данные, имеющие три, пять или более ярко выраженных характеристик или измерений к задаче оптимизации (гидрометеорологические данные, данные сложных социальных процессов и т.д.) [11, 12]. Так, в данных по гидрометеорологии важнейшими характеристиками являются: пространственная координата, временная координата и версионность (одни и те же данные, полученные разными способами - изменением или моделированием с определенной конфигурацией). Это порождает значительные проблемы при выполнении расчетов над подобными большими данными с использованием упомянутых технологий, так как возникают существенные накладные расходы при обработке таких сложных структур, связанные с переносом требуемых данных на вычислительный узел на время выполнения самого расчета, а также с приоритизацией размещения данных для более быстрого доступа и скоростной обработки. С другой стороны парадигмы, подобные MapReduce [10] или All-Pairs [11], направлены на выполнение массовых вычислительно несложных запросов над большими данными, зачастую, это методы базовой статистики и фильтрации, предполагают изначальную структуру данных, состоящую из относительно небольших записей, каждая из которых может быть обработана без необходимости использования какой-либо другой записи. В рамках современных научных исследований для решения сложных комплексных задач этого недостаточно, и потребность в наличии высокопроизводительных расчетов (High Performance Computing, HPC) определяет

необходимость использования принципов работы с большими данными. Это приводит к гибридному сочетанию HPC и DDC, выраженному в виде композитных приложений [12], ориентированных на использование больших данных.

1.1.1 Организация вычислений над большими данными в распределенных системах

Изучением вопроса организации и эффективной обработки больших данных активно занимаются научные группы под руководством ведущих мировых ученых: Я. Фостера[13], Е. Дилман [14], Д. Тейна[15], Я. Гордон, Р. Буйя[12], Т. Хей, Р. Продан[16], Ильин В.А.[17]. Такие работы также проводятся в исследовательских центрах крупных промышленных ИКТ-компаний, включая Google, Microsoft, Amazon и др. Для выявления существующих направлений стоит проанализировать возникающие при современных расчетах на больших данных [ 19, 20] проблемы и тенденции:

- создание новых алгоритмов, которые способны масштабироваться при поиске и обработке больших массивов данных;

- создание новых масштабируемых технологий управления метаданными сложных, гетерогенных и распределенных источников данных;

- создание новых подходов в области высокопроизводительных вычислительных платформ для обеспечения равномерного высокоскоростного доступа к мультитерабайтным структурам данных;

- создание специализированных коммуникационных гибридных архитектур для фильтрации и обработки потоков мультигигабайтных данных, происходящих от высокоскоростных сетей передачи данных, научных измерительных систем и систем моделирования в режиме реального времени;

- разработка высоконадежных высокопроизводительных распределенных файловых систем, ориентированных на обслуживание петабайтных массивов данных;

- создание новых алгоритмов для обеспечения мобильности расчетов на узлах, стоимость передачи данных с которых на другой узел слишком высока;

- появление гибких и упрощенных технологий, обеспечивающих интеграцию новых плагинов и программных компонентов, работающих на разных вычислительных платформах;

- развитие методов генерации подписей для данных с целью уменьшения размерности и увеличения скорости их обработки.

На сегодняшний день существует ряд подходов (парадигм), которые были разработаны для успешного решения задач обработки больших данных. Прежде всего, следует выделить два принципиально различных режима обработки: пакетный и режим реального времени (потоковый). Пакетный режим предполагает обработку статических данных и обычно не накладывает ограничений на время выполнения расчетов, ориентируясь в основном на результат обработки. Рассмотрим наиболее известные подходы к обеспечению этого режима.

Подход на основе абстракции Грид. Представителем классической концепции обработки больших данных через Грид технологии [19,20] является система, построенная в CERN - Gfarm (Grid Datafarm) [21]. В основе Gfarm лежат несколько базовых компонентов: распределенная файловая система (parallel file system), узлы ресурсов (nodes) и система выполнения расчетов. Распределенная файловая система, состоящая из расчетных узлов и сервисов метаданных, предоставляет огромный объем дискового пространства (измеряемый в петабайтах) и включает в себя возможности масштабирования пропускной способности на основные операции чтения-записи, а также функциональность по обеспечению отказоустойчивости.

Системы, основанные на этой парадигме, используют в качестве базы принцип Code-to-Data и выполняют запуск вычислительных расчетов непосредственно на узлах данных, тем самым, идеологически не отделяя их от вычислительного типа узлов. Плюсы: масштабируемость, позволяющая работать на уровне петабайтов; возможность планирования с учетом стоимости (в том числе и по времени) передачи данных для расчета и запуска любых пакетов внутри Грид; отказоустойчивость. Минусы: жесткая привязка к инфраструктурным особенностям Грид; отсутствие поддержки современных технологических решений (например, вычислительных облаков).

Попытки развития данного подхода были предприняты рядом научных групп, в том числе известных в сфере высокопроизводительных вычислений: группой создателя Grid Computing - Яна Фостера [22, 23], группой Ильина Вячеслава Анатольевича совместно с ведущим научным центром по физике высоких энергий ЦЕРН [17,24,25] и другие однако поскольку популярность Грид

продолжает стремительно падать, уступая место современным технологиям, подход можно считать малоперспективным (однако работы по оптимизации расчетов data-intensive с использованием различных техник планирования развиваются и сейчас [26]).

Подход на основе абстракции WMS. На смену традиционному механизму решения задач в Грид пришла концепция, поднявшая распределенные вычисления еще на один уровень абстракции. Речь идет об организации расчетов через систему управления цепочками задач (workflow) -Workflow Management Systems, WMS [27]. WMS отделяет абстрактное описание задачи от конкретного ресурса вычислительной среды, сама среда выходит за рамки конкретной системы организации инфраструктуры и использует Грид как один из возможных вычислителей, тем самым позволяя избегать необходимости изучения его внутренней структуры и отдавая право выполнения расчетов непосредственно ему. Несмотря на то что концепция, основанная на цепочках задач, изначально была создана для Грид [28], на текущий момент она с успехом применяется как в облачных вычислениях, так и в гетерогенных средах.

Традиционно цепочка задач (workflow, WF) представляет собой направленный ацикличный граф (directed acyclic graph, DAG) [29], однако многие системы управления потоками заданий (СУПЗ) допускают наличие циклов, равно как и условных переходов между узлами. WF состоит из узлов и связей между ними. Узлом является конкретное задание, обычно представленное расчетным пакетом, моделью или просто программным обеспечением с возможностью запуска из командной строки. Связи между узлами образованы зависимостями по данным - выходные данные одного расчетного пакета являются входными другого.

Каждая СУПЗ имеет внутренние механизмы работы с вычислительными ресурсами, на которых установлены или потенциально могут быть развернуты пакеты. Принимая на выполнение очередной WF, СУПЗ с помощью алгоритмов планирования соотносит каждый его шаг c имеющимся работоспособным ресурсом так, чтобы удовлетворить выбранному критерию оптимизации. В случае учета критерия оптимизации по передаче данных можно получить эффективное решение для обработки больших данных.

К основным плюсам данного подхода можно отнести независимость от используемой платформы, т.е. отсутствие привязки к конкретной вычислительной среде; многогранность реализаций алгоритмов оптимизации планирования, в том числе с учетом расчетов больших данных; высокий уровень абстракции при создании самих цепочек задач. К минусам относятся отсутствие

непосредственного контроля расчетов и высокоуровневая абстракция, которые могут привести к потерям производительности; выокая неопределенность в оценке времени выполнения шагов WF из-за многообразия учитываемых и не учитываемых параметров гетерогенной среды.

В современных трудах концепция использования WF для обработки больших данных развивается в направлении эффективной оптимизации планирования и поддержки различных схем вычислений в гетерогенной среде [28-31].

Подход на основе абстракции MapReduce. Самой распространенной парадигмой обработки больших объемов данных на сегодняшний день является MapReduce, предложенная Google в 2004 г. [32]. Основная идея парадигмы кроется в операциях Map и Reduce. Первая необходима для выполнения операции обработки на определенных данных, поступающих на вход в следующем виде: map (ключ1, значение1). Результатом применения Map является список вида (ключ2, значение2). Результат операций Map подается на вход задачи Reduce как (ключ2, список(значение2)). Reduce, в свою очередь, генерирует список значений. Такая простая схема позволяет решать огромный класс задач. Самым популярным программным решением, использующим данную концепцию, является платформа Hadoop [33], позволяющая описывать пользователю функции Map и Reduce, а далее выполнять их поверх распределенной файловой системы HDFS [34]. Существует целый класс сопутствующего программного обеспечения для упрощения и ускорения разработки скриптов, выполняемых на данных [35, 36].

К явным плюсам MapReduce можно отнести простоту использования (достаточно реализации двух операций, Map и Reduce); широкую применимость и техническую поддержку сообществом, обеспечивающую развитие парадигмы; высокую скорость обработки данных благодаря возможности имплементации низкоуровневых операций. К минусам можно отнести плохую абстракцию - пользователь не может думать иначе, как в логике обработки MapReduce; привязанность к вычислительной среде - традиционно MapReduce работает в едином кластере; наличие классов задач (например, задач "селекции данных"), демонстрирующих плохую производительность при использовании MapReduce за счет необходимости полного перебора; невысокую эффективность при выполнении операции Reduce в условиях значительного объема данных и предподготовки Shuffle [37].

На текущий момент исследования MapReduce направлены на решение описанных проблем [29] и развитие инструментария [38]. Однако Google утверждает, что MapReduce выработал свои

ресурсы и бурный рост объема генерируемых данных требует новых идей, и представил концепцию Dataflow-центра [39].

Подход на основе абстракции All-Pairs. Подход на основе абстракции All-Pairs представляет больше академический, нежели практический интерес [40], так как специфичен, однако он оказал существенный вклад в развитие альтернативных подходов. Идея этого подхода заключается в использовании простой операции All-Pairs, которая получает на вход функцию F, два множества A и B и строит на выходе матрицу значений F(ai, bi) [41, 42]. Однако несмотря на кажущуюся простоту непродуманная реализация операции может не только не обеспечить рост производительности, но и привести к ее падению в сравнении с однопоточным режимом.

Реализация All-Pairs позволяет избежать консервативной схемы доступа процессов обработки (заданий) к данным, когда система не знает, какие данные какому процессу будут необходимы, к схеме организации как вычислительных потребностей, так и необходимых данных для каждого процесса. Идею подхода можно представить в четырех главных этапах выполнения расчетов: моделирование системы, распределение данных, организация процессов обработки, очистка системы. Моделирование системы заключается в оценке распределения данных по возможным потенциальным процессам обработки с учетом стоимости передачи данных в распределенной среде, времени и объема самой обработки, что позволяет говорить о наличии концепции Code-to-Data в данном подходе.

Главным плюсом подхода можно назвать «глубокое» участие системы на этапе планирования распределенных вычислений, минусами - узкую направленность решаемых задач, незрелость и отсутствие широкой практической реализации. На текущий момент научного развития данного подхода не наблюдается.

Подходы к обработке больших данных в режиме реального времени. В отличие от пакетного режима, обработка больших данных в режиме реального времени - относительно новое направление развития ИКТ, и здесь можно выделить традиционные подходы, основанные на реализации общей очереди заданий (task queue) и процессов обработчиков (workers), и решения, подобные Storm [43] и Spark streaming [44].

Первый подход широко применяется вследствие простой идеи организации единой очереди заданий (возможно, и распределенной) и подключения масштабируемого числа распределенных процессов обработки, задача которых - по мере выполнения забрать из очереди следующее задание

[45]. Главным и минусом, и плюсом подобного подхода является его свобода в реализации и самостоятельность в уточнении деталей, что приводит как к удачным, так и неудачным решениям.

Решения, подобные Storm и Spark streaming, можно охарактеризовать как Hadoop (MapReduce) для обработки данных в реальном времени.

1.1.2 Анализ технологических решений для организации вычислений в распределенных системах над большими данными

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Насонов, Денис Александрович, 2016 год

Список литературы

Печатные издания на русском языке

17. Ильин В. А. и др. Способ запуска и обработки в гриде заданий, подготовленных для

различных сред исполнения //Вычислительные методы и программирование. - 2008. - Т. 9. -№. 2.

19. Кореньков В. В., Кутовский Н. А., Семенов Р. Н. Опыт адаптации прикладных программных пакетов для работы в грид-средах //Компьютерные исследования и моделирование. ISSN. -2012. - С. 2076-7633.

20. Афанасьев А. П. и др. Программный комплекс для решения задач дискретной оптимизации на распределенных вычислительных системах //Труды Института системного анализа Российской академии наук. - 2006. - Т. 25. - С. 5-17.

24. Демичев А. П. и др. Реализация программного интерфейса грид-сервиса Pilot на основе архитектурного стиля REST //Вычислительные методы и программирование. - 2010. - Т. 11. - №. 3. - С. 62-65.

25. Кореньков В. В., Ужинский А. В. На пути к адаптивности grid //Открытые системы. СУБД. -2009. - №. 9. - С. 18-21.

89. Ковальчук, С.В. Предметно-ориентированная технология хранения и обработки больших

объемов данных в облачной платформе CLAVIRE / С.В. Ковальчук, А.В. Разумовский, А.И. Спивак // Динамика сложных систем - XXI век. - 2013. - Т. 7. - № 3. - С. 106-109.

93. Зикратов И.А., Разумовский А.В., Спивак А.И. Многомерная модель разграничения доступа к объектам в системе контроля версий // Научно-технический вестник информационных технологий, механики и оптики -2012. - № 5 (81). - С. 139-143.

103. Попов Ю. В., Ушаков С. В. Повышение производительности веб-серверов с большой нагрузкой. - 2012.

115. Гергель В. П., Полежаев П. Н. Исследование алгоритмов планирования параллельных задач для кластерных вычислительных систем с помощью симулятора //Вестник Нижегородского университета им. НИ Лобачевского. - 2010. - №. 5-1.

117. Гергель В. П., Садовничий В. А. Современные языки и технологии параллельного программирования //М.: МГУ. - 2012.

118. Бухановский А. В., Ковальчук С. В., Марьин С. В. Интеллектуальные высокопроизводительные программные комплексы моделирования сложных систем: концепция, архитектура и примеры реализации // Изв. вузов. Приборостроение. 2009. - Т. 52, № 10. - C. 5—24.

169. Кореньков В. В., Нечаевский А. В., Трофимов В. В. Моделирование распределенной

системы сбора, передачи и обработки данных для крупных научных проектов (мегапроект ника) // Информационные технологии и вычислительные системы. - 2013. - №. 4. - С. 37-44.

Печатные издания на английском языке

1. Manyika J. et al. Big data: The next frontier for innovation, competition, and productivity. - 2011.

2. McAfee A. et al. Big data //The management revolution. Harvard Bus Rev. - 2012. - Т. 90. - №. 10. - С. 61-67.

3. Tan W. et al. Social-Network-Sourced Big Data Analytics //IEEE Internet Computing. - 2013. - Т. 17. - №. 5. - С. 62-69.

4. Chen M., Mao S., Liu Y. Big data: a survey //Mobile Networks and Applications. - 2014. - Т. 19. -№. 2. - С. 171-209.

5. Ayhan S. et al. Predictive analytics with aviation big data //Integrated Communications, Navigation and Surveillance Conference (ICNS), 2013. - IEEE, 2013. - С. 1-13.

8. Wu X. et al. Data mining with big data //IEEE transactions on knowledge and data engineering. -

2014. - Т. 26. - №. 1. - С. 97-107.

9. Hassanien A. E. et al. (ed.). Big data in complex systems: challenges and opportunities. - Springer,

2015. - Т. 9.

10. Knyazkov K. V. et al. Interactive workflow-based infrastructure for urgent computing //Procedia Computer Science. - 2013. - Т. 18. - С. 2223-2232.

11. Toga A. W. et al. Big biomedical data as the key resource for discovery science //Journal of the American Medical Informatics Association. - 2015. - С. ocv077.

12. Buyya R. et al. Big Data Analytics-Enhanced Cloud Computing: Challenges, Architectural Elements, and Future Directions //Parallel and Distributed Systems (ICPADS), 2015 IEEE 21st International Conference on. - IEEE, 2015. - С. 75-84.

13. Ranganathan K., Foster I. Decoupling computation and data scheduling in distributed data-intensive applications //High Performance Distributed Computing, 2002. HPDC-11 2002. Proceedings. 11th IEEE International Symposium on. - IEEE, 2002. - С. 352-358.

14. Deelman E., Chervenak A. Data management challenges of data-intensive scientific workflows //Cluster Computing and the Grid, 2008. CCGRID'08. 8th IEEE International Symposium on. -IEEE, 2008. - С. 687-692.

15. Tian Y. et al. From "think like a vertex" to "think like a graph" //Proceedings of the VLDB Endowment. - 2013. - Т. 7. - №. 3.

16. Wieczorek M., Prodan R., Fahringer T. Scheduling of scientific workflows in the ASKALON grid environment //ACM SIGMOD Record. - 2005. - Т. 34. - №. 3. - С. 56-62.

18. Tatebe O. et al. Grid datafarm architecture for petascale data intensive computing //Cluster

Computing and the Grid, 2002. 2nd IEEE/ACM International Symposium on. - IEEE, 2002. - C. 102-102.

21. Abdoli M., Entezari-Maleki R., Movaghar A. A Rank-Based Hybrid Algorithm for Scheduling Data-and Computation-Intensive Jobs in Grid Environments //Intelligent Computing, Networking, and Informatics. - Springer India, 2014. - C. 785-796.

22. Fox G. C., Gannon D. Special issue: Workflow in grid systems //Concurrency and Computation: Practice and Experience. - 2006. - T. 18. - №. 10. - C. 1009-1019.

23. Glatard T. et al. Flexible and efficient workflow deployment of data-intensive applications on grids with moteur //International Journal of High Performance Computing Applications. - 2008. - T. 22. - №. 3. - C. 347-360.

26. Venugopal S., Buyya R. An SCP-based heuristic approach for scheduling distributed data-intensive applications on global grids //Journal of Parallel and Distributed Computing. - 2008. - T. 68. - №. 4. - C. 471-487.

27. Szabo C. et al. Science in the cloud: Allocation and execution of data-intensive scientific workflows //Journal of Grid Computing. - 2013. - C. 1-20.

28. Chervenak A. L. et al. Integrating Policy with Scientific Workflow Management for Data-Intensive Applications //High Performance Computing, Networking, Storage and Analysis (SCC), 2012 SC Companion:. - IEEE, 2012. - C. 140-149.

29. Wang L. et al. G-Hadoop: MapReduce across distributed data centers for data-intensive computing //Future Generation Computer Systems. - 2013. - T. 29. - №. 3. - C. 739-750.

30. Deelman E. et al. Workflows and e-Science: An overview of workflow system features and capabilities //Future Generation Computer Systems. - 2009. - T. 25. - №. 5. - C. 528-540.

31. Tantawi M. M. et al. Fiducial feature reduction analysis for electrocardiogram (ECG) based biometric recognition //Journal of Intelligent Information Systems. - 2013. - T. 40. - №. 1. - C. 1739.

32. Dean J., Ghemawat S. MapReduce: simplified data processing on large clusters //Communications of the ACM. - 2008. - T. 51. - №. 1. - C. 107-113.

33. Borthakur D. The hadoop distributed file system: Architecture and design //Hadoop Project Website. - 2007. - T. 11. - C. 21.

35. Olston C. et al. Pig latin: a not-so-foreign language for data processing //Proceedings of the 2008 ACM SIGMOD international conference on Management of data. - ACM, 2008. - C. 1099-1110.

36. Thusoo A. et al. Hive: a warehousing solution over a map-reduce framework //Proceedings of the VLDB Endowment. - 2009. - T. 2. - №. 2. - C. 1626-1629.

37. Sakr S., Liu A., Fayoumi A. G. The family of MapReduce and large-scale data processing systems

//ACM Computing Surveys (CSUR). - 2013. - T. 46. - №. 1. - C. 11.

38. Chen Q. et al. HAT: history-based auto-tuning MapReduce in heterogeneous environments //The Journal of Supercomputing. - 2013. - T. 64. - №. 3. - C. 1038-1054.

40. Bayardo R. J., Ma Y., Srikant R. Scaling up all pairs similarity search //Proceedings of the 16th international conference on World Wide Web. - ACM, 2007. - C. 131-140.

41. Phillips P. J. et al. Overview of the face recognition grand challenge //Computer vision and pattern recognition, 2005. CVPR 2005. IEEE computer society conference on. - IEEE, 2005. - T. 1. - C. 947-954.

42. Huston L. et al. Diamond: A Storage Architecture for Early Discard in Interactive Search //FAST. -2004. - T. 4. - C. 73-86.

48. Wadkar S., Siddalingaiah M., Venner J. Pro Apache Hadoop //Apress. - 2014.

50. Karau H. Fast Data Processing with Spark. - Packt Publishing Ltd, 2013.

57. Isard M. et al. Dryad: distributed data-parallel programs from sequential building blocks //ACM SIGOPS Operating Systems Review. - ACM, 2007. - T. 41. - №. 3. - C. 59-72.

59. Yang F. et al. Druid: a real-time analytical data store // Proc. 2014 ACM SIGMOD Int. Conf. Manag. data - SIGMOD '14. New York, New York, USA: ACM Press, 2014. P. 157-168.

62. Malewicz G. et al. Pregel: a system for large-scale graph processing //Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. - ACM, 2010. - C. 135-146.

63. Valiant L. G. A bridging model for parallel computation //Communications of the ACM. - 1990. -T. 33. - №. 8. - C. 103-111.

65. DeCandia G. et al. Dynamo: amazon's highly available key-value store //ACM SIGOPS Operating Systems Review. - ACM, 2007. - T. 41. - №. 6. - C. 205-220.

66. Karger, D., Lehman, E., Leighton, T., Panigrahy, R., Levine, M., and Lewin, D. 1997. Consistent hashing and random trees: distributed caching protocols for relieving hot spots on the World Wide Web. In Proceedings of the Twenty-Ninth Annual ACM Symposi.

67. Stoica, I., Morris, R., Karger, D., Kaashoek, M. F., and Balakrishnan, H. 2001. Chord: A scalable peer-to-peer lookup service for internet applications. In Proceedings of the 2001 Conference on Applications, Technologies, Architectures, and Protocols F.

73. Wang F. et al. Understanding Lustre filesystem internals //Oak Ridge National Lab technical report ORNL/TM-2009/117. - 2009.

78. Zaharia M. et al. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing //Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation. - USENIX Association, 2012. - C. 2-2.

82. Saltzer R., Szegedi I., Schact P. Impala in action. Querying and Mining Big Data. Manning

Publications, 2014.

83. Russel J. Cloudera Impala. O'Reilly Media, 2014. ISBN 978-1-491-94535-3.

85. Lakshman A., Malik P. Cassandra: a decentralized structured storage system //ACM SIGOPS Operating Systems Review. - 2010. - T. 44. - №. 2. - C. 35-40.

86. Featherston D. Cassandra: Principles and application //University of Illinois. - 2010. - T. 7. - C. 28.

88. Patrick Fuhrmann, et al. dCache, the agile storage technology. NEC 2013.

90. V Knyazkov K. et al. CLAVIRE: e-Science infrastructure for data-driven computing //Journal of Computational Science. - 2012. - T. 3. - №. 6. - C. 504-510.

91. Tang Y. et al. Multi-file queries performance improvement through data placement in Hadoop //Computer Science and Network Technology (ICCSNT), 2012 2nd International Conference on. -IEEE, 2012. - C. 986-991.

92. Spivak A. et al. Evolutionary Replicative Data Reorganization with Prioritization for Efficient Workload Processing. // Procedia Comput. Sci. 2015. Vol. 51. P. 2357-2366.

94. Deursen A. van, Klint P., Visser J. Domain-Specific Languages: An Annotated Bibliography // ACM SIGPLAN Notices. 2000. V. 35. Issue 6. C. 26 - 36.

95. He Y. et al. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems // Proceedings - International Conference on Data Engineering. 2011. P. 11991208.

97. Lamb A. et al. The vertica analytic database: C-store 7 years later //Proceedings of the VLDB Endowment. - 2012. - T. 5. - №. 12. - C. 1790-1801.

98. Bear C., Lamb A., Tran N. The vertica database: Sql rdbms for managing big data //Proceedings of the 2012 workshop on Management of big data systems. - ACM, 2012. - C. 37-38.

99. A. Ailamaki, D. J. DeWitt, M. D. Hill, and M. Skounakis, "Weaving relations for cache performance," in VLDB, 2001, pp. 169-180.

100. Hankins R. A., Patel J. M. Data morphing: an adaptive, cache-conscious storage technique //Proceedings of the 29th international conference on Very large data bases-Volume 29. - VLDB Endowment, 2003. - C. 417-428.

101. Poyraz E., Xu H., Cui Y. Application-specific I/O Optimizations on Petascale Supercomputers //Procedia Computer Science. - 2014. - T. 29. - C. 910-923.

102. Newekk G. et al. Optimizing Storage and I/O for Distributed Processing on Enterprise & High Performance Compute (HPC) Systems for Mask Data Preparation Software (CATS). Synopsys, Inc., 2007.

108. H. Youssef, S.M. Sait, H. Adiche, Evolutionary algorithms, simulated annealing and tabu search: a

comparative study, Eng. Appl. Artif. Intell. 14 (2001) 167-11.

109. R. Hassan, B. Cohanim, O. De Week, G. Venter, A comparison of particle swarm optimization and the genetic algorithm., in: Proc. 1st AIAA Multidiscip. Des. Optim. Spec. Conf., 2005: pp. 18-21.

110. P. Wilke, J. Ostler, Solving the School Timetabling Problem Using Tabu Search, Simulated Annealing, Genetic and Branch & Bound Algorithms., in: Proc. 7th Int. Conf. Pract. Theory Autom. Timetabling (PATAT 2008), Montr., 2010.

111. T.R. Nair, K. Sooda, Comparison of genetic algorithm and simulated annealing technique for optimal path selection in network routing, arXiv Prepr. arXiv1001.3920. (2010).

112. Khan K., Sahai A. A comparison of BA, GA, PSO, BP and LM for training feed forward neural networks in e-learning context //International Journal of Intelligent Systems and Applications. -2012. - T. 4. - №. 7. - C. 23.

114. Weil S. A. et al. CRUSH: Controlled, scalable, decentralized placement of replicated data

//Proceedings of the 2006 ACM/IEEE conference on Supercomputing. - ACM, 2006. - C. 122.

116. Rahman M. et al. Adaptive workflow scheduling for dynamic grid and cloud computing

environment //Concurrency and Computation: Practice and Experience. - 2013. - T. 25. - №. 13. -C. 1816-1842.

119. Topcuoglu H., Hariri S., Wu M. Performance-effective and low-complexity task scheduling for heterogeneous computing //IEEE transactions on parallel and distributed systems. - 2002. - T. 13. -№. 3. - C. 260-274.

120. Blythe J. et al. Task scheduling strategies for workflow-based applications in grids //CCGrid 2005. IEEE International Symposium on Cluster Computing and the Grid, 2005. - IEEE, 2005. - T. 2. -C. 759-767.

121. Rahman M., Venugopal S., Buyya R. A dynamic critical path algorithm for scheduling scientific workflow applications on global grids //e-Science and Grid Computing, IEEE International Conference on. - IEEE, 2007. - C. 35-42.

122. Singh L., Singh S. A survey of workflow scheduling algorithms and research issues //International Journal of Computer Applications. - 2013. - T. 74. - №. 15.

123. Nasonov D., Butakov N. Hybrid Scheduling Algorithm in Early Warning Systems //Procedia Computer Science. - 2014. - T. 29. - C. 1677-1687.

124. Jakob W. et al. Fast rescheduling of multiple workflows to constrained heterogeneous resources using multi-criteria memetic computing //Algorithms. - 2013. - T. 6. - №. 2. - C. 245-277.

125. Delavar A. G., Aryan Y. HSGA: a hybrid heuristic algorithm for workflow scheduling in cloud systems //Cluster computing. - 2014. - T. 17. - №. 1. - C. 129-137.

126. Shen X. N., Yao X. Mathematical modeling and multi-objective evolutionary algorithms applied to dynamic flexible job shop scheduling problems //Information Sciences. - 2015. - T. 298. - C. 198-

127. Gkoutioudi K. Z., Karatza H. D. Multi-criteria job scheduling in grid using an accelerated genetic algorithm //Journal of Grid Computing. - 2012. - T. 10. - №. 2. - C. 311-323.

128. Nasonov D. et al. Hybrid Evolutionary Workflow Scheduling Algorithm for Dynamic Heterogeneous Distributed Computational Environment //International Joint Conference SOCO'14-CISIS'14-ICEUTE' 14. - Springer International Publishing, 2014. - C. 83-92.

129. Bolaji A. L. et al. University course timetabling using hybridized artificial bee colony with hill climbing optimizer //Journal of Computational Science. - 2014. - T. 5. - №. 5. - C. 809-818.

130. Paul P. V. et al. A new population seeding technique for permutation-coded Genetic Algorithm: Service transfer approach //Journal of Computational Science. - 2014. - T. 5. - №. 2. - C. 277-297.

131. Pooranian Z. et al. Hybrid Metaheuristic Algorithm for Job Scheduling on Computational Grids //Informatica. - 2013. - T. 37. - №. 2.

132. Behnamian J. A parallel competitive colonial algorithm for JIT flowshop scheduling //Journal of Computational Science. - 2014. - T. 5. - №. 5. - C. 777-783.

133. Pendharkar P. C. A multi-agent memetic algorithm approach for distributed object allocation //Journal of Computational Science. - 2011. - T. 2. - №. 4. - C. 353-364.

134. Nayak S. K., Padhy S. K., Panigrahi S. P. A novel algorithm for dynamic task scheduling //Future Generation Computer Systems. - 2012. - T. 28. - №. 5. - C. 709-717.

135. Zhang Y., Koelbel C., Cooper K. Hybrid re-scheduling mechanisms for workflow applications on multi-cluster grid //Cluster Computing and the Grid, 2009. CCGRID'09. 9th IEEE/ACM International Symposium on. - IEEE, 2009. - C. 116-123.

136. Rahman M., Li X., Palit H. Hybrid heuristic for scheduling data analytics workflow applications in hybrid cloud environment //Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW), 2011 IEEE International Symposium on. - IEEE, 2011. - C. 96.

137. Yu Z., Shi W. An adaptive rescheduling strategy for grid workflow applications //Parallel and Distributed Processing Symposium, 2007. IPDPS 2007. IEEE International. - IEEE, 2007. - C. 1-8.

138. Vasile M. A. et al. Resource-aware hybrid scheduling algorithm in heterogeneous distributed computing //Future Generation Computer Systems. - 2014.

139. Mandal A. et al. Scheduling strategies for mapping application workflows onto the grid //HPDC-14. Proceedings. 14th IEEE International Symposium on High Performance Distributed Computing, 2005. - IEEE, 2005. - C. 125-134.

140. Durillo J. J., Fard H. M., Prodan R. Moheft: A multi-objective list-based method for workflow scheduling //Cloud Computing Technology and Science (CloudCom), 2012 IEEE 4th International Conference on. - IEEE, 2012. - C. 185-192.

141. Lee Y. C., Zomaya A. Y. Rescheduling for reliable job completion with the support of clouds //Future Generation Computer Systems. - 2010. - T. 26. - №. 8. - C. 1192-1199.

142. Bittencourt L. F., Madeira E. R. M. HCOC: a cost optimization algorithm for workflow scheduling in hybrid clouds //Journal of Internet Services and Applications. - 2011. - T. 2. - №. 3. - C. 207227.

143. Batista D. M., da Fonseca N. L. S. Robust scheduler for grid networks under uncertainties of both application demands and resource availability //Computer Networks. - 2011. - T. 55. - №. 1. - C. 3-19.

144. de Oliveira D. et al. A provenance-based adaptive scheduling heuristic for parallel scientific workflows in clouds //Journal of Grid Computing. - 2012. - T. 10. - №. 3. - C. 521-552.

145. Deb K. et al. A fast and elitist multiobjective genetic algorithm: NSGA-II //Evolutionary Computation, IEEE Transactions on. - 2002. - T. 6. - №. 2. - C. 182-197.

146. Gen M., Lin L. Multiobjective evolutionary algorithm for manufacturing scheduling problems: state-of-the-art survey //Journal of Intelligent Manufacturing. - 2014. - T. 25. - №. 5. - C. 849-866.

147. Butakov N., Nasonov D., Boukhanovsky A. Evolutionary inheritance in workflow scheduling algorithms within dynamically changing heterogeneous environments // ECTA 2014 - Proceedings of the International Conference on Evolutionary Computation Theory and App.

148. Peng B. et al. R-storm: Resource-aware scheduling in storm //Proceedings of the 16th Annual Middleware Conference. - ACM, 2015. - C. 149-161.

149. Xu J. et al. T-storm: Traffic-aware online scheduling in storm //Distributed Computing Systems (ICDCS), 2014 IEEE 34th International Conference on. - IEEE, 2014. - C. 535-544.

150. Aniello L., Baldoni R., Querzoni L. Adaptive online scheduling in storm //Proceedings of the 7th ACM international conference on Distributed event-based systems. - ACM, 2013. - C. 207-218.

151. Eskandari L., Huang Z., Eyers D. P-Scheduler: adaptive hierarchical scheduling in apache storm //Proceedings of the Australasian Computer Science Week Multiconference. - ACM, 2016. - C. 26.

152. Agarwalla B. et al. Streamline: A scheduling heuristic for streaming applications on the grid //Electronic Imaging 2006. - International Society for Optics and Photonics, 2006. - C. 607107607107-15.

153. Alkaff H., Gupta I., Leslie L. M. Cross-layer scheduling in cloud systems //Cloud Engineering (IC2E), 2015 IEEE International Conference on. - IEEE, 2015. - C. 236-245.

154. Nasonov D et al. Metaheuristic coevolution workflow scheduling in cloud environment // IJCCI 2015 - Proceedings of the 7th International Joint Conference on Computational Intelligence. - C. 252-260.

155. Barish B. C., Weiss R. LIGO and the Detection of Gravitational Waves //Physics Today. - 1999. -T. 52. - C. 44-50.

156. Hluchy L. et al. Flood forecasting in a Grid computing environment //Parallel Processing and Applied Mathematics. - Springer Berlin Heidelberg, 2004. - C. 831-839.

157. Jablonski S., Bussler C. Workflow management: modeling concepts, architecture and implementation. - 1996.

158. Lin C., Lu S. Scheduling scientific workflows elastically for cloud computing //Cloud Computing (CLOUD), 2011 IEEE International Conference on. - IEEE, 2011. - C. 746-747.

159. Sakr S. et al. A survey of large scale data management approaches in cloud environments //Communications Surveys & Tutorials, IEEE. - 2011. - T. 13. - №. 3. - C. 311-336.

160. Sukhoroslov O., Rubtsov A. O., Volkov S. Y. Development of distributed computing applications and services with Everest cloud platform //Computer. - 2015. - T. 7. - №. 3. - C. 593-599.

161. Sukhoroslov O., Volkov S., Afanasiev A. A web-based platform for publication and distributed execution of computing applications //2015 14th International Symposium on Parallel and Distributed Computing. - IEEE, 2015. - C. 175-184.

162. Critchlow T., Van Dam K. K. (ed.). Data-Intensive Science. - CRC Press, 2013.

163. Szalay A. Extreme data-intensive scientific computing //Computing in Science & Engineering. -2011. - T. 13. - №. 6. - C. 34-41.

164. Deelman E. et al. Pegasus: A framework for mapping complex scientific workflows onto distributed systems //Scientific Programming. - 2005. - T. 13. - №. 3. - C. 219-237.

165. Ludäscher B. et al. Scientific workflow management and the Kepler system //Concurrency and Computation: Practice and Experience. - 2006. - T. 18. - №. 10. - C. 1039-1065.

166. Oinn T. et al. Taverna: a tool for the composition and enactment of bioinformatics workflows //Bioinformatics. - 2004. - T. 20. - №. 17. - C. 3045-3054.

167. Baranowski M., Belloum A., Bubak M. MapReduce Operations with WS-VLAM Workflow Management System //Procedia Computer Science. - 2013. - T. 18. - C. 2599-2602.

168. Jacob F. et al. Simplifying the development and deployment of MapReduce algorithms //J Next-Gener Comput. - 2011. - T. 2. - №. 2. - C. 123-142.

170. Wang J., Crawl D., Altintas I. Kepler+ Hadoop: a general architecture facilitating data-intensive applications in scientific workflow systems //Proceedings of the 4th Workshop on Workflows in Support of Large-Scale Science. - ACM, 2009. - C. 12.

173. Kovalchuk S., Larchenko A., Boukhanovsky A. Knowledge-based resource management for distributed problem solving //Knowledge Engineering and Management. - Springer Berlin Heidelberg, 2011. - C. 121-128.

174. Chen F., Koufaty D.A., Zhang X. Hystor: making the best use of solid state drives in high performance storage systems // Proceedings of the international conference on Supercomputing -

ICS '11. New York, New York, USA: ACM Press, 2011. P. 22.

175. He Y. et al. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems // 2011 IEEE 27th International Conference on Data Engineering. IEEE, 2011. P. 1199-1208.

176. Majors J., Manzanares A. Improving MapReduce performance through data placement in heterogeneous Hadoop clusters // 2010 IEEE International Symposium on Parallel & Distributed Processing, Workshops and Phd Forum (IPDPSW). IEEE, 2010. P. 1-9.

177. Yuan D. et al. A data placement strategy in scientific cloud workflows // Futur. Gener. Comput. Syst. 2010. Vol. 26, № 8. P. 1200-1214.

178. Eltabakh M.Y. et al. CoHadoop: flexible data placement and its exploitation in Hadoop // Proc. VLDB Endow. 2011. Vol. 4, № 9. P. 575-585.

179. Chervenak A. et al. Data placement for scientific applications in distributed environments // 2007 8th IEEE/ACM International Conference on Grid Computing. IEEE, 2007. P. 267-274.

180. Patel N., Hasan M., Patel M. Improving Data Transfer Rate and Throughput of HDFS using Efficient Replica Placement // Int. J. Comput. Appl. 2014. Vol. 86, № 2. P. 4-7.

182. Spivak A. et al. Evolutionary Replicative Data Reorganization with Prioritization for Efficient Workload Processing //Procedia Computer Science. - 2015. - T. 51. - C. 2357-2366.

183. White K G. Forgetting functions // Anim. Learn. Behav. 2001. Vol. 29, № 3. P. 193-207.

184. Darwin C. The origin of species. - Lulu. com, 1872.

185. Potter M. A. The design and analysis of a computational model of cooperative coevolution : guc. -George Mason University, 1997.

186. Anderson R. M., May R. M. Coevolution of hosts and parasites //Parasitology. - 1982. - T. 85. -№. 02. - C. 411-426.

187. Kim Y. K., Park K., Ko J. A symbiotic evolutionary algorithm for the integration of process planning and job shop scheduling //Computers & Operations Research. - 2003. - T. 30. - №. 8. -C. 1151-1171.

188. Merkel D. Docker: lightweight linux containers for consistent development and deployment //Linux Journal. - 2014. - T. 2014. - №. 239. - C. 2.

189. Juve G. et al. Characterizing and profiling scientific workflows //Future Generation Computer Systems. - 2013. - T. 29. - №. 3. - C. 682-692.

Ресурсы сети Интернет

6. Google [Электронный ресурс]: поисковая система. - Режим доступа: http://www.google.com -Загл. с экрана (дата обращения: 28.07.2016).

7. Яндекс [Электронный ресурс]: поисковая система. - Режим доступа: http://www.ya.ru/. - Загл. с экрана (дата обращения: 28.07.2016).

34. HDFS Architecture Guide [Электронный ресурс]: офиц. сайт. - Режим доступа:

http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html. - Загл. с экрана (дата обращения: 23.07.2016). [Electronic resource].

39. Google I/O: Hello Dataflow, Goodbye MapReduce [Электронный ресурс]: офиц. сайт. - Режим доступа: http://www.informationweek.com/cloud/software-as-a-service/google-i-o-hello-dataflow-goodbye-mapreduce/d/d-id/1278917. - Загл. с экрана (дата обращения: 28.11.2016 [Electronic resource].

43. Apache Storm [Электронный ресурс]: офиц. сайт. - Режим доступа: https://storm.apache.org/. -Загл. с экрана (дата обращения: 23.07.2016).

44. Spark Streaming [Электронный ресурс]: офиц. сайт. - Режим доступа: https://spark.apache.org/streaming/. - Загл. с экрана (дата обращения: 23.07.2016).

45. Queues [Электронный ресурс]: офиц. сайт. - Режим доступа: http://queues.io/. - Загл. с экрана (дата обращения: 23.07.2016). [Electronic resource].

46. Hadoop Cluster Setup [Электронный ресурс]: руководство пользователя. - Режим доступа: http://hadoop.apache.org/docs/r1.2.1/cluster_setup.html. - Загл. с экрана (дата обращения: 23.07.2016). [Electronic resource].

47. HDFS Users Guide [Электронный ресурс]: руководство пользователя. - Режим доступа: http://hadoop.apache.org/docs/r1.2.1/hdfs_user_guide.html. - Загл. с экрана (дата обращения: 23.07.2016). [Electronic resource].

49. Hadoop MapReduce Next Generation - Cluster Setup [Электронный ресурс]: руководство

пользователя. - Режим доступа: http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/ClusterSetup.html. - Загл. с экрана (дата обращения: 23.07.2016). [Electronic resource].

51. Running Spark on YARN [Электронный ресурс]: офиц. сайт. - Режим доступа: https://spark.apache.org/docs/1.1.0/running-on-yarn.html. - Загл. с экрана (дата обращения: 23.07.2016).

52. Manta Documentation [Электронный ресурс]: руководство пользователя. - Режим доступа: https://apidocs.joyent.com/manta/. - Загл. с экрана (дата обращения: 23.07.2016).

53. Ceph [Электронный ресурс]: офиц.сайт. - Режим доступа: http://ceph.com/. - Загл. с экрана (дата обращения: 23.07.2016).

54. From Relational to Riak [Электронный ресурс]: руководство пользователя. - Режим доступа: http://basho.com/assets/RelationaltoRiak.pdf. - Загл. с экрана (дата обращения: 23.07.2016).

55. Riakdocs. Using search [Электронный ресурс]: руководство пользователя. - Режим доступа: http://docs.basho.com/riak/latest/dev/using/search/. - Загл. с экрана (дата обращения: 23.07.2016).

56. Dryad [Электронный ресурс]: офиц.сайт. - Режим доступа: http://research.microsoft.com/en-us/projects/Dryad/. - Загл. с экрана (дата обращения: 23.07.2016).

58. Gluster [Электронный ресурс]: офиц.сайт. - Режим доступа: http://www.gluster.org/. - Загл. с экрана (дата обращения: 28.08.2016).

60. Druid Design [Электронный ресурс]: офиц.сайт. - Режим доступа: http://druid.io/docs/0.6.160/Design.html. - Загл. с экрана (дата обращения: 28.11.2015).

61. Storm support programming languages [Электронный ресурс]: офиц.сайт. - Режим доступа: http://storm.apache.org/about/multi-language.html. - Загл. с экрана (дата обращения:

28.11.2015).

64. Apache Hadoop 2.5.2 [Электронный ресурс]: офиц.сайт. - Режим доступа:

http://hadoop.apache.org/docs/r2.5.2. - Загл. с экрана (дата обращения: 28.11.2015).

68. Ранжирование баз данных [http://db-engines.com/en/ranking]. - Загл. с экрана (дата обращения:

28.08.2016).

69. Масштабирование SourceForge с помощью MongoDB [http://www.oscon.com/oscon2010/public/schedule/detail/13669]. - Загл. с экрана (дата обращения: 28.08.2016).

70. Большой адронный коллайдер [http://blog.mongodb.org/post/660037122/holy-large-hadron-collider-batman]. - Загл. с экрана (дата обращения: 28.08.2016).

71. MongoDB в eBay [http://www.slideshare.net/mongodb/mongodb-at-ebay]. - Загл. с экрана (дата обращения: 28.08.2016).

72. Шардинг в MongoDB[http://docs.mongodb.org/manual/sharding]. - Загл. с экрана (дата обращения: 28.08.2016).

74. Открытая система Lustre получает суперкомпьютеры [http://www.cnet.com/news/open-source-lustre-gets-supercomputing-nod]. - Загл. с экрана (дата обращения: 28.08.2016).

75. Обзор системы Титан [https://www.olcf.ornl.gov/kb_articles/titan-system-overview]. - Загл. с экрана (дата обращения: 28.08.2016).

76. Использование Sequoia [https://computing.llnl.gov/tutorials/bgq/].- Загл. с экрана (дата обращения: 28.08.2016).

77. Руководство по программированию Apache Spark-Streaming

[https://spark.apache.org/docs/latest/streaming-programming-guide.html]. - Загл. с экрана (дата обращения: 28.08.2016).

79. Проект Kryo [https://github.com/EsotericSoftware/kryo]. - Загл. с экрана (дата обращения: 28.08.2016).

80. Проект Apache Mesos [http://mesos.apache.org]. - Загл. с экрана (дата обращения: 28.08.2016).

81. Erickson J., Cloudera Impala: A Modern SQL Query Engine for Hadoop [Электронный ресурс]. Режим доступа: http://www.slideshare.net/cloudera/data-science-on-hadoop?related=1, - Загл. с экрана (дата обращения: 28.08.2016).

84. Chen Y. How Impala Works [Электронный ресурс]. Режим доступа:

http://www.slideshare.net/dataera/how-impala-works-38586729?related=2 - Загл. с экрана (дата обращения: 28.08.2016).

87. Apache Cassandra 2.0 documentation [Электронный ресурс]. Режим доступа:

http://www.datastax.com/documentation/cassandra/2.0/cassandra/gettingStartedCassandraIntro.htm l. Дата обращения 09.08.2016.

96. MonetDB [Электронный ресурс]. Режим доступа: https://www.monetdb.org/Home Дата обращения 23.07.2016.

104. Козлов И.А. Анализ и классификация нереляционных баз данных. Молодежный научно-технический вестник: электронный журнал. ФГБОУ ВПО «МГТУ им. Н.Э.Баумана» [Электронный ресурс]. Режим доступа: http://sntbul.bmstu.ru/doc/552121.html, дата обращения 07.10.2016.

105. Amazon Dynamo. Архитектура системы[Электронный ресурс]. Режим доступа: http://www.plaintech.ru/2011/09/amazon-dynamo-4-system-architecture.html. Дата обращения 07.10.2016.

106. Масштабирование баз данных - партиционирование, репликация и шардинг [Электронный ресурс]. Режим доступа: https://web-creator.ru/articles/partitioning_replication_sharding, дата обращения 07.10.2016.

107. Project Voldemort [Электронный ресурс]. Режим доступа: http://www.project-voldemort.com/voldemort/. Дата обращения 07.10.2016.

113. Amazon EC2 Instance Types [Электронный ресурс]: офиц.сайт. - Режим доступа:

https://aws.amazon.com/ec2/instance-types/?nc1=h_ls/. - Загл. с экрана (дата обращения: 01.04.2016).

171. Open-Source Community. Cascading. http://www.cascading.org/.- Загл. с экрана (дата обращения: 28.08.2016).

172. Apache. Oozie: Hadoop workflow system. http://yahoo.github.com/oozie/.- Загл. с экрана (дата обращения: 28.08.2016).

181. Cabral M. Redundancy in an heterogeneous distributed storage system [Electronic resource]. P. 11. - Загл. с экрана (дата обращения: 28.08.2016).

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.