Модели и методы построения параллельных алгоритмов анализа распределенных данных тема диссертации и автореферата по ВАК РФ 05.13.11, доктор наук Холод Иван Иванович
- Специальность ВАК РФ05.13.11
- Количество страниц 353
Оглавление диссертации доктор наук Холод Иван Иванович
ВВЕДЕНИЕ
1. АНАЛИЗ СУЩЕСТВУЮЩИХ МОДЕЛЕЙ И МЕТОДОВ ПОСТРОЕНИЯ ПАРАЛЛЕЛЬНЫХ АЛГОРИТМОВ АНАЛИЗА ДАННЫХ
1.1 Методы анализа данных
1.1.1 Задачи анализа данных
1.1.2 Представление моделей знаний
1.2.2 Алгоритмы анализа данных
1.2 Распределенный анализ данных
1.2.1 Распределенный анализ Больших данных
1.2.2 Анализ Больших данных на облачной платформе
1.2.3 Анализ данных в системах Интернета вещей
1.2.4 Анализ распределенных данных
1.3 Методы построения параллельных алгоритмов
1.3.1 Этапы построения параллельных алгоритмов
1.3.2 Декомпозиция алгоритма
1.3.3 Анализ зависимостей между блоками
1.3.4 Выбор модели параллельного выполнения
1.3.5 Реализация параллельного алгоритма
1.3.6 Размещение алгоритма на исполнителях
1.3.7 Распараллеливание алгоритмов решения ресурсоемких задач
1.3.8 Параллельные алгоритмы анализа данных
Выводы
2. ФОРМАЛЬНОЕ ПРЕДСТАВЛЕНИЕ АЛГОРИТМА АНАЛИЗА ДАННЫХ
2.1. Формальное описание набора анализируемых данных
2.1.1 Матрица данных
2.1.2 Описание распределенных данных
2.2 Модель представления знаний
2.2.1 Формальное представление модели знаний
2.2.2 Метаданные набора данных
2.2.3 Индексация элементов модели знаний
2.2.4 Параметры элементов модели знаний
2.2.5 Пример модели знаний
2.2.6 Операции над элементами модели знаний для параллельной обработки
2.3 Функциональная модель алгоритма анализа данных
2.3.1 Расширение теории лямбда-исчислений для описания анализа данных
2.3.2 Функция для выполнения последовательности функций обработки модели
2.3.3 Функция условного выполнения
2.3.4 Функция выполнения цикла
2.3.5 Пример представления алгоритма в виде функционального выражения
2.4 Метод оптимизации структуры алгоритма анализа к виду распределения данных
2.4.1. Оптимизация циклов в зависимости от типа распределения данных
2.4.2. Метод оптимизации структуры алгоритма анализа данных
2.4.3 Пример адаптации структуры алгоритма анализа данных
Выводы
3. ПОСТРОЕНИЕ ПАРАЛЛЕЛЬНЫХ АЛГОРИТМОВ АНАЛИЗА ДАННЫХ
3.1 Модель параллельного алгоритма анализа данных
3.1.1 Функции распараллеливания
3.1.2 Реализация модели MapReduce с помощью предложенной модели
3.1.3 Оптимальное число параллельных композиций функций обработки модели знаний
3.2 Условия параллельного выполнения функций обработки модели знаний
3.2.1 Условия Бернстайна для алгоритмов анализа данных
3.2.2 Условия параллельного выполнения при использовании общей памяти
3.2.3 Условия параллельного выполнения при использовании распределенной памяти
3.2.4 Метод проверки условий параллельного выполнения функций обработки модели
3.2.5 Пример проверки условий параллельного выполнения алгоритма анализа данных
3.3 Распараллеливание последовательного алгоритма анализа данных
3.3.1 Метод распараллеливания последовательного алгоритма анализа данных
3.3.2 Пример распараллеливания алгоритма анализа данных
Выводы
4. РАЗМЕЩЕНИЕ АЛГОРИТМА АНАЛИЗА ДАННЫХ В ЗАДАННОЙ СРЕДЕ
4.1 Среда выполнения алгоритма анализа данных
4.1.1 Формальное представление среды выполнения алгоритма анализа данных
4.1.2 Типы сред выполнения алгоритма анализа данных
4.2 Модель исполнителей функции обработки модели
4.2.1 Исполнитель композиции функций обработки модели
4.2.3 Метод построения дерева исполнителей
4.2.5 Пример модели исполнителей для алгоритма анализа данных
4.3. Метод размещения функций алгоритма анализа данных в среде выполнения
4.3.1 Постановка задачи
4.3.2 Эвристики для размещения исполнителей в среде выполнения
4.3.3 Метод размещение исполнителей до выполнения алгоритма анализа данных
4.3.4 Метод размещения исполнителей при выполнении алгоритма анализа данных
4.3.5 Пример размещения исполнителей для алгоритма анализа данных
4.4 Методика построения параллельного алгоритма анализа данных для выполнения в
заданной вычислительной среде
4.4.1 Основные этапы построения параллельного алгоритма анализа распределенных данных
4.4.2 Построения модели знаний для алгоритма анализа данных
4.4.3 Формирование композиции функций алгоритма анализа данных
4.4.4 Распараллеливание и размещение алгоритма анализа данных
Выводы
5. БИБЛИОТЕКА ПАРАЛЛЕЛЬНЫХ АЛГОРИТМОВ АНАЛИЗА
РАСПРЕДЕЛЕННЫХ ДАННЫХ
5.1 Отличия разработанной библиотеки от существующих аналогов
5.2 Архитектура библиотеки
5.2.1 Структура библиотеки
5.2.2 Реализация функции обработки модели
5.2.3 Классы для параллельного выполнения алгоритмов анализа данных
5.2.4 Среда параллельного и распределенного выполнения алгоритмов анализа данных
5.2.5 Выполнение алгоритмов в параллельной/распределенной среде
5.3 Программная реализация исполнителей для параллельного и распределенного
выполнения алгоритмов анализа данных
5.3.1 Исполнители для выполнения в сильно-связанной среде
5.3.2 Исполнители для выполнения в распределенной среде
5.3.3 Реализация исполнителей на основе потоков
5.3.4 Реализация исполнителей на основе акторов
5.4 Программная реализация параллельного алгоритма анализа данных с
использованием библиотеки
5.4.1 Добавление алгоритма анализа данных в библиотеку
5.4.2 Пример программной реализации алгоритма анализа данных
Выводы
6. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА РЕЗУЛЬТАТОВ
6.1 Преобразование последовательной формы алгоритма анализа данных к параллельной форме
6.1.1 Условия проведения эксперимента
6.1.2 Результаты экспериментов
6.1.3 Анализ результатов экспериментов
6.2 Параллельное выполнение алгоритмов анализа данных
6.2.1 Условия проведения эксперимента
6.2.2 Результаты экспериментов
6.2.3 Анализ результатов экспериментов
6.3 Распределенное выполнение алгоритмов анализа данных
6.3.1 Условия проведения эксперимента
6.3.2 Результаты экспериментов
6.3.3 Анализ результатов экспериментов
Выводы
7. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ В НАРОДНО-ХОЗЯЙСТВЕННОЙ ДЕЯТЕЛЬНОСТИ
7.1 Облачный сервис выполнения интеллектуального анализа данных в различных распределенных средах
7.1.1 Целевая задача
7.1.2 Решаемые проблемы
7.2.3 Используемые подходы
7.2 Единое информационное пространство отечественной орбитальной группировки
7.2.1 Целевая задача
7.2.2 Решаемые проблемы
7.2.3 Используемые подходы
7.3 Анализ результатов выполнения сеансов связи средствами НАКУ КА
7.3.1 Целевая задача
7.3.2 Решаемые проблемы
7.3.3 Используемые подходы
7.4 Сбор телеметрии с территориально распределенных измерительных средств
7.4.1 Целевая задача
7.4.2 Решаемые проблемы
7.4.3 Используемые подходы
Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ A. МОДЕЛИ ЗНАНИЙ
A.1 Элемент модели знаний - предикат
А.2 Модель знаний - набор классификационных правил
A.3 Модель знаний - наивный байесовский классификатор
A.4 Модель знаний - дерево решений
A.5. Модель знаний - регрессия
А.6 Модель знаний - опорные вектора
А.7 Кластерные модели знаний
А.8 Модель знаний - ассоциативные правила
А.9 Модель последовательностей
A.10 Модель знаний - нейронная сеть
ПРИЛОЖЕНИЕ Б. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ПАРАЛЛЕЛЬНОГО АЛГОРИТ
Б.1 Программная реализация не декомпозированного алгоритма 1R
Б.2 Программная реализация блока подсчета векторов
Б.3 Программная реализация блока добавления нового правила
Б.4 Программная реализация блока выбора лучшего правила
Б.5 Программная реализация декомпозированного алгоритма 1R
Б.6 Программная реализация алгоритма 1R распараллеленного по векторам
Б.7 Программная реализация алгоритма 1R распараллеленного по атрибутам
Б .8 Программная реализация теста для алгоритма 1R
Б.9 Программная реализация теста для выполнения эксперимента алгоритма 1R
ПРИЛОЖЕНИЕ В. ПРИМЕРЫ АЛГОРИТМОВ АНАЛИЗЫ ДАННЫХ
B.1. Алгоритм классификации Naïve Bayes
В 1.1 Описание алгоритма Naïve Bayes
В.1.2 Модель Naïve Bayes
В.1.3 Представление алгоритма Naïve Bayes в виде композиции функций обработки модели
знаний
В.1.4 Проверка условий параллельного выполнения функций алгоритма Naïve Bayes .... 326 В.1.5 Параллельные формы алгоритма Naïve Bayes
В.2 Алгоритм кластеризации kMeans
В.2.1 Описание алгоритма kMeans
В.2.2 Модель для алгоритма kMeans
В.2.3 Представление алгоритма kMeans в виде композиции функций обработки модели
знаний
В.2.4 Проверка условий параллельного выполнения функций алгоритма kMeans
В.2.5 Параллельные формы алгоритма kMeans
В.3. Алгоритм поиска частых наборов - Apriori TID
В.3.1 Описание алгоритма Apriori TID
В.3.2 Модель для алгоритма Apriori TID
В.3.3 Представление алгоритма Apriori TID в виде композиции функций обработки
моделей знаний
В.3.4 Проверка условий параллельного выполнения функций алгоритма Apriori TID
В.3.5 Параллельные формы алгоритма Apriori TID
Введение
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Средства создания параллельных алгоритмов интеллектуального анализа данных2013 год, кандидат технических наук Каршиев, Зайнидин Абдувалиевич
Алгоритмы и комплекс программ параллельных вычислений при математическом моделировании критичных по времени процессов2012 год, кандидат технических наук Попов, Александр Сергеевич
Моделирование и формирование структуры распределенных систем обработки крупноформатных изображений на основе динамической организации данных2010 год, доктор технических наук Попов, Сергей Борисович
Математическое и программное обеспечение систем управления базами знаний интеллектуальных систем прогнозирования2012 год, кандидат технических наук Пинчер, Денис Владимирович
Методы и средства распараллеливания программ линейного класса для выполнения на многопроцессорных вычислительных системах2024 год, кандидат наук Лебедев Артем Сергеевич
Введение диссертации (часть автореферата) на тему «Модели и методы построения параллельных алгоритмов анализа распределенных данных»
Актуальность темы исследования.
За последние десятилетия у человечества накоплены значительные объемы оцифрованных данных, которые содержат полезные знания. Они размещаются в хранилищах данных или на множестве территориально распределенных узлов, объединенных как локальными, так и глобальными средствами передачи данных, образующих распределенные вычислительные среды. С развитием технологии Интернета вещей (Internet of Things), источниками информации становятся не только люди, но и устройства (сенсоры, смартфоны, видеокамеры и т.п.) подключаемые к сети. Они формируют потоки разнородных данных, увеличивая количество распределенных источников информации. Лавинообразный рост источников и объемов информации, ее разнородность и распределенный характер хранения привели к необходимости пересмотра не только технологий сбора и хранения данных, но также и технологий анализа данных.
Анализ данных позволяет формировать новые знания, содержащие представления о характере объектов или явлений. К типовым задачам анализа данных относятся: классификация, кластеризация, нахождение ассоциаций, выявление аномалий, и др. Для решения таких задач разработано большое число алгоритмов анализа данных.
Большинство из известных алгоритмов анализа применяются к данным, хранящимся централизовано. Использование таких алгоритмов в случаях, когда данные размещены на распределенных источниках, предполагает их наличие в одном узле хранения данных, что приводит к следующим проблемам:
- затрачивается время на передачу информации, что может быть критично при ее обработке, например, в режиме реального времени;
- увеличивается сетевой трафик, что снижает возможности использования каналов связи с низкой пропускной способностью (спутниковых каналов связи, беспроводных каналов и т.п.);
- требуется передача информации, в том числе конфиденциальной, по открытым каналам передачи данных;
- повышается ценность собранной в одном месте информации, что требует повышенных мер обеспечения ее безопасности и надежности.
Исключить указанные недостатки можно за счет анализа непосредственно на источнике информации. Подобный подход предполагает также активно развивающаяся концепция «туманных» вычислений (Fog Computing) [1]. Однако для реализации данной концепции в области анализа данных необходимо создание новых методов и средств построения параллельных алгоритмов, позволяющих выполнять анализ больших объемов распределенных данных без их предварительного сбора в едином хранилище. Кроме того, новые методы и средства должны учитывать тип распределения данных. данные могут быть распределены горизонтально, когда на разных источниках хранится информация о разных объектах и явлениях, или вертикально, когда на разных источниках хранится информация о разных характеристиках одних и тех же объектов.
В диссертации предложены методы и модели для построения параллельных алгоритмов анализа распределенных данных. Полученные результаты позволяют решить крупную научную проблему, имеющую важное хозяйственное значение в области разработки распределенных аналитических систем - проблему анализа распределенных данных. данная проблема отражена также в рамках программы «Цифровая экономика Российской Федерации». Ее решение находится на стыке таких направлений как формирование исследовательских компетенций и технологических заделов, информационная инфраструктура и информационная безопасность. При этом она имеет непосредственное отношение к развитию таких
сквозных цифровых технологий как: большие данные, системы распределенного реестра, промышленный интернет и др.
Степень разработанности темы исследования
В настоящее время в области параллельных и распределенных вычислений, ведется большое число исследований. Можно выделить следующие уровни распараллеливания: уровень программ, уровень алгоритмов и уровень распределенных компонент.
Исследования на уровне программ направлены на разработку методов их автоматического распараллеливания, на этапе компиляции, для выполнения в параллельной среде. Такие исследования включают в себя методы анализа зависимостей, оптимизацию циклов и др. В этой области выделяются работы: Евстигнеева В. А., Бернстайна А., Беренжи У., Псариса К., и др.
Множество исследований посвящено построению параллельных алгоритмов. Они направлены как на создание общих методов построения и анализа параллельных алгоритмов, так и на построение параллельных алгоритмов решения отдельных ресурсоемких задач: систем линейных уравнений, вычислений с матрицами и векторами, сортировки данных, выполнения операций над графами, моделирования сложных процессов, а также задач обработки данных. В эту область существенный клад внесли отечественные и зарубежные ученные: Абрамов С. М., Болдырев Ю. Я., Бухановский А. В., Воеводин В. В., Воеводин Вл. В., Гергель В. П., Демьянович Ю. К., Евтушенко Ю. Г., Каляев А. В., Каляев И. А., Карпов В. Е., Левин В. К., Малышкин В. Э., Четверушкин Б. Н., Шагалиев Р. М., Якобовский М. В., Агравал Р., Амдаль Дж., Боксер Л., Миллер Р., Милнер Р., Нильсен М., Огихара М., Ортега Дж., Петри К., Талиа Д., Фостер Я., Хоар Ч. и др.
В области построения параллельных алгоритмов анализа данных можно выделить два основных подхода. Первый подход направлен на распараллеливание известных и проверенных на практике последовательных алгоритмов, в том
числе, и алгоритмов анализа данных. Авторами таких методов и алгоритмов являются известные отечественные и зарубежные ученные: Вапник В. Н., Горбань
A. М., Дьяконов А. Г., Загоруйко Н. Г., Зиновьев А. Ю., Мерков А.Б., Миркес Е. М., Пятецкий-Шапиро Г. И., Червоненкис А. Я., Агравал Р., Квинлан Дж., Кохонен Т., Уиллиамс У. Т. и др.
Основным недостатком такого подхода является сложность распараллеливания, связанная с возможным отсутствием внутреннего параллелизма в таких алгоритмах. Это приводит к высокой трудоемкости распараллеливания алгоритмов для разных условий выполнения (например, для работы с общей или распределенной памятью, для анализа горизонтально или вертикально распределенных данных и т.п.).
Альтернативным подходом является построение новых параллельных алгоритмов анализа данных, оптимизированных для выполнения в заданных условиях. Можно выделить работы следующих авторов в этой области: Агравал Р., Заки М., Каргупта Х., Кумар В., Огихара М. и др.
Недостатком такого подхода является необходимость проверки корректности новых алгоритмов на наборах данных с разными характеристиками. Кроме того, при изменении условий выполнения требуется разработка новых алгоритмов, что ведет к необходимости новых исследований.
На уровне распределенных компонент исследования направлены, в том числе, на создание новых методов и средств, оптимизирующих выполнение параллельных алгоритмов в различных распределенных средах и повышающих возможности их масштабирования. Авторами известных работ в этой области являются: брамов С. М., Бетелин В. Б., Бурцев В. С., Васильев В. В., Воеводин В.
B., Воеводин Вл. В., Глушков В. М., Евдокимов В. Ф., Евреинов Э. В., Забродин А. В., Иванников В. П., Игнатьев М. Б., Каляев А. В., Каляев И. А., Косарев Ю. Г., Корнеев В. В., Королев Л. Н., Лазарев В. Г., Лацис А. О., Лебедев С. А., Левин В. К., Левин И. И., Мельников В. А., Митропольский Ю. И., Поспелов Д. А.,
Прангишвили И. В., Пухов Г. Е., Рябов Г. Г., Шейнин Ю. Е., Томилин А. Н., Хетагуров Я.А., Хорошевский В. Г., Четверушкин Б. Н., Шокин Ю. И., Яненко Н. Н., Береснев В. Л., Мельник Э. В., Курносов М. Г., Бохари Ш. и др.
В области распределенной обработки данных наиболее популярным средством является программная модель MapReduce, предложенная специалистами компании Google Inc. Она предполагает явное разделение алгоритма обработки данных на две функции: map и reduce, копии которых могут выполняться параллельно на множестве вычислительных узлов. Это позволяет эффективно выполнять параллельную обработку данных из единого источника, с высокой степенью масштабирования. Однако данный подход требует наличие у распараллеливаемых функций свойств списочного гомоморфизма, не позволяет использовать общую память и распараллеливать по задачам.
Существующие модели и методы построения параллельных алгоритмов анализа данных не учитывают тип распределения данных и предполагают их применение к единому источнику информации. Они позволяют снизить время выполнения алгоритма анализа, но в случае распределенного хранения данных необходимость их сбора в едином хранилище требует дополнительных временных затрат, увеличивает сетевой трафик и повышает требования к безопасности.
В данной работе предложены модели и методы параллельного построения алгоритмов анализа данных для выполнения в распределенной среде с возможностью размещения части функций анализа на источниках информации. При этом учитывается тип распределения данных, что повышает производительность, снижает сетевой трафик и не требует повышенных мер безопасности.
Целью работы является разработка моделей и методов построения параллельных алгоритмов анализа данных с учетом условий их выполнения. При этом решаются следующие задачи:
1. Анализ существующих моделей, методов и средств построения параллельных алгоритмов, в том числе алгоритмов анализа данных.
2. Представление модели знаний, ориентированное на параллельное построение в общей и в распределенной памяти.
3. Представление алгоритма анализа данных в виде композиции унифицированных функций для его реструктуризации в зависимости от условий выполнения.
4. Разработка метода оптимизации структуры алгоритма анализа данных в зависимости от типа распределения данных.
5. Создание модели параллельного алгоритма анализа данных как для распределенной, так и для общей памяти.
6. Определение условий параллельного выполнения функций алгоритма анализа данных с использованием общей и распределенной памяти.
7. Разработка метода распараллеливания последовательных алгоритмов анализа данных по задачам и по данным, для выполнения с использованием общей и распределенной памяти.
8. Разработка метода размещения функций параллельных алгоритмов анализа данных в заданной среде выполнения с учетом способа размещения данных.
9. Разработка методики построения параллельных алгоритмов анализа данных с использованием предложенных моделей и методов.
10.Программная реализация предложенных моделей и методов построения параллельных алгоритмов анализа данных.
11. Экспериментальные исследования построения параллельных алгоритмов анализа данных с учетом условий их выполнения.
Объектом исследования данной работы являются параллельные алгоритмы анализа данных.
Предметом исследования данной работы являются модели и методы построения параллельных алгоритмов анализа данных для выполнения в заданной среде.
Методология и методы исследований: методология проектирования параллельных алгоритмов, методы анализа зависимостей, теория алгоритмов, теория графов, функциональный анализ, методы оценки алгоритмов, теория А-исчислений, теория множеств.
Обоснованность и достоверность результатов, выводов и рекомендаций, сформулированных в диссертации, подтверждаются корректным применением математического аппарата, совпадением результатов исследования с экспериментальными данными и результатами практической апробации, обсуждением результатов исследования на международных и всероссийских научных конференциях, а также публикациями результатов исследования в рецензируемых научных изданиях.
Основные положения, выносимые на защиту
1. Представлена модель знаний, описывающая выявляемые закономерности в виде списка деревьев и включающая в себя функции, обеспечивающие их параллельное построение алгоритмом анализа данных в общей и распределенной памяти [2, 3].
2. Предложена функциональная модель алгоритма анализа данных в виде композиции унифицированных потокобезопасных функций, которая может быть сформирована с учетом заданных условий выполнения [4, 5].
3. Разработан метод оптимизации структуры алгоритма анализа данных, трансформирующий циклы с учетом типа распределения данных для минимизации времени его выполнения [6].
4. Предложена модель параллельного алгоритма анализа данных, использующая специальные функции высшего порядка, для выполнения как в общей, так и в распределенной памяти [7, 8, 9, 10, 11].
5. Определены условия параллельного выполнения функций алгоритмов анализа данных, уточняющие условия Бернстайна и учитывающие особенности общей и распределенной памяти [3, 7].
6. Предложен метод распараллеливания последовательных алгоритмов анализа данных, как по задачам, так и по данным, учитывающий возможность использования общей и распределенной памяти [7, 12].
7. Разработан метод размещения функций алгоритма анализа данных в заданной среде выполнения, минимизирующий время выполнения алгоритма и сетевой трафик [13, 14, 15, 16].
8. Предложена методика построения параллельных алгоритмов анализа данных, использующая предложенные модели и методы и позволяющая оптимизировать структуру алгоритмов для минимизации времени выполнения и сетевого трафика с учетом условий выполнения [17, 18].
9. Разработана библиотека для построения параллельных алгоритмов анализа данных, включающая в себя программные реализации предложенных моделей и методов и позволяющая учитывать условия их выполнения [19-25].
Научная новизна
1. Модель представления знаний имеет структуру и функции, ориентированные на ее параллельное построение алгоритмами анализа данных в общей и распределенной памяти.
2. Функциональная модель алгоритма анализа данных отличается от существующих представлением вычислительных и структурных блоков алгоритма в виде унифицированных функций, что позволяет реструктурировать алгоритм в зависимости от условий его выполнения.
3. Метод оптимизации структуры алгоритма анализа данных в отличие от известных адаптирует структуру алгоритма в соответствии с типом распределения анализируемых данных.
4. Модель параллельного алгоритма анализа данных, отличающаяся от существующих возможностью его распараллеливания как по задачам, так и по данным, для выполнения в общей и распределенной памяти.
5. Условия параллельного выполнения функций алгоритма анализа данных, уточняющие условия Бернстайна и учитывающие особенности использования общей и распределенной памяти.
6. Метод распараллеливания последовательного алгоритма анализа данных, отличающийся от существующих формированием оптимального числа параллельных ветвей, с учетом типа памяти.
7. Метод размещения функций алгоритма анализа данных в среде выполнения, оптимизирующий время его выполнения и сетевой трафик с учетом способа хранения данных.
Теоретическая значимость работы
1. Модель знаний позволяет унифицировать функции алгоритма анализа данных и осуществить проверку условий возможности их параллельного выполнения.
2. Функциональная модель алгоритма анализа данных, позволяет проводить анализ структуры алгоритма с целью выявления потенциальных мест его распараллеливания.
3. Модель параллельного алгоритма анализа данных обеспечивает его распараллеливание, как по задачам, так и по данным для выполнения в общей и распределенной памяти.
4. Условия параллельного выполнения функций алгоритмов анализа данных, позволяют определить возможности их распараллеливания для общей и распределенной памяти.
Практическая значимость работы
1. Метод оптимизации структуры алгоритма анализа данных, обеспечивает повышение производительности за счет уменьшения числа переключений между распределенными источниками данных.
2. Метод распараллеливания последовательного алгоритма анализа данных, позволяет на основе проверенных практикой последовательных алгоритмов, строить параллельные алгоритмы, использующие как общую, так и распределенную память.
3. Метод размещения функций алгоритмов анализа данных, обеспечивает минимизацию времени выполнения и сетевого трафика анализа распределенных данных.
4. Методика построения параллельных алгоритмов анализа данных определяет порядок применения полученных результатов для выполнения анализа данных в параллельной и распределенной среде без необходимости сбора информации в едином хранилище.
5. Библиотека параллельных алгоритмов анализа данных обеспечивает использование полученных результатов при разработке прикладных систем, выполняющих анализ распределенных данных.
Внедрение результатов работы. Теоретические и практические результаты работы были использованы в программных средствах, разработанных в СПбГЭТУ «ЛЭТИ» для облачного сервиса интеллектуального анализа данных в рамках НИР поддержанных Министерством образования РФ. Также полученные результаты
были использованы в АО «НИЦ СПб ЭТУ» при выполнении НИР и ОКР по заказу отраслевых министерств и ведомств.
Апробация результатов. Результаты работы обсуждались более чем на 30 конференциях, включая: международные конференции в Германии, Польше, Черногории и России, национальный суперкомпьютерный форум в Переяславль-Залеском и отраслевые научно-технические конференции.
Публикации. Основное содержание диссертационной работы опубликовано более чем в 70 печатных работах общим объемом более 60 п.л. (личный вклад автора - более 50 п.л.), в том числе: 1 диссертация (лично), 7 монографий, 17 статей в журналах, входящих в перечень ВАК, более 30 публикаций в изданиях индексируемых Web of Science/Scopus.
Структура и объем.
Диссертация состоит из введения, 7 глав с выводами по каждой главе, заключения, 3 приложений и списка литературы, содержащего 371 наименование. Общий объем работы составляет 353 страницы машинописного текста, включая 79 рисунков и 14 таблиц.
1. Анализ существующих моделей и методов построения параллельных алгоритмов анализа данных
Настоящее время характеризуется широким применением цифровых технологий и всеобщей информатизацией общества. В результате у человечества накоплены огромные объемы данных. Однако без их анализа и извлечения новых полезных знаний они не представляют особой ценности.
За несколько последних десятилетий было разработано большое количество методов и алгоритмов, как последовательных, так и параллельных, успешно решающих различные задачи анализа данных: классификации, кластеризации, выявления аномалий и т.п. Они успешно применяются к данным хранящимся в базах данных, хранилищам данных и т.п. В то же время, анализ требуется не только по отношению к данным, предварительно собранным и хранящимся централизовано, но и к распределенным данным, а также к данным поступающих от различных устройств: видео- и фотокамер, датчиков, сенсоров и др. С развитием технологии Интернета вещей, увеличивается число устройств, объединяемых в сети. По информации издания Gartner1 к 2020 году к Интернету будет подключено около 26 миллиардов устройств.
В новых условиях требуется не только повышение быстродействия алгоритмов анализа данных, за счет их распараллеливания, но и их выполнение в распределенных средах с множеством источников информации. Исследования в области параллельных и распределенных вычислений ведутся давно на разных уровнях. В данной главе описан анализ существующих методов и средств построения параллельных алгоритмов, в том числе алгоритмов анализа данных.
1 Gartner Says the Internet of Things Installed Base Will Grow to 26 Billion Units By 2020. Gartner. 12 December 2013. Retrieved 2 January 2014
1.1 Методы анализа данных 1.1.1 Задачи анализа данных
Под анализом данных (информации) понимают совокупность действий осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. Такие представления необходимы для классификации явления, его ассоциирования и т.п. [26].
Алгоритмы анализа данных обрабатывают массивы информации с целью получения новых знаний. К наиболее ранним методам анализа данных можно отнести методы математической статистики [27, 28, 29, 30, 31, 32, 33, 34, 35]. Они применялись к числовым данным для расчетов разных параметров: математического ожидания, дисперсии, трендов, аппроксимации и т.п.
Развитием этих методов являются методы интеллектуального анализа: методы машинного обучения (machine learning) [36, 37, 38, 39], data mining [40, 41, 42, 43, 44, 45, 46, 47], глубинный анализ (deep learning) [49, 50, 51] и т.п.
Л
Интеллектуальный анализ данных (ИАД ) - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [48].
Формальное представление извлеченных знаний будем называть моделью знаний. Извлеченные модели знаний позволяют выполнять различные аналитические функции, основными из них являются [41, 44, 52, 53]:
- классификация - определение класса объекта по его характеристикам (множество классов, к которым может быть отнесен объект, заранее известно);
В англо язычной литературе для интеллектуального анализа данных используется термин Data Mining.
- регрессия - определение по известным характеристикам объекта значения некоторого его параметра (в отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел);
- поиск частых наборов - нахождение частых зависимостей (ассоциаций) между объектами или событиями;
- кластеризация - поиск независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных;
- анализ временных рядов - вычисление статистических и других характеристик данных изменяющихся во времени;
- выявление аномалий - поиск выбросов и аномальных значений в данных.
1.1.2 Представление моделей знаний
Знания, извлекаемые алгоритмами анализа данных, представляются для их использования в системах поддержки принятия решений. Существуют различные способы формального представления знаний:
- продукционные модели;
- семантические сети;
- фреймы;
- логические модели.
Продукционная модель (модель, основанная на правилах) [54] позволяет представить знания в виде предложений, называемых продукциями, вида:
«Если (условие), то (действие)». Под условием (антецедентом) понимается некоторое предложение-образец. Под «действием» (консеквентном) понимается операция, выполняемая при успешном исходе условия. Достоинством продукционной модели является наглядность, высокая модульность, легкость внесения дополнений и изменений и простотой механизм логического вывода. Недостатком является накопление
достаточно большого количества (порядка нескольких сотен) продукций, которые могут противоречить друг другу. Рост противоречивости продукционной модели может быть ограничен путем введения механизмов исключений и возвратов.
Механизм исключений означает, что вводятся специальные правила-исключения. Их отличает большая конкретность в сравнении с обобщенными правилами. При наличии исключения основное правило не применяется.
Механизм возвратов означает, что логический вывод может продолжаться даже в том случае, если на каком-то этапе вывод привел к противоречию: просто необходимо отказаться от одного из принятых ранее утверждений и осуществить возврат к предыдущему состоянию.
Семантическая сеть это ориентированный граф, вершины которого отображают некоторые понятия предметной области, а дуги - отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений. Идея систематизации на основе каких-либо семантических отношений не раз возникала в ранние периоды развития науки. Прародителями современных семантических сетей можно считать экзистенциальные графы (existential graph), предложенные Чарльзом Пирсом (Charles Sanders Peirce) в 1909 г [55]. Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу [56]. Количество типов отношений в семантической сети определяется ее создателем исходя из конкретных целей. В реальном мире их число стремится к бесконечности.
Фрейм это абстрактный образ для представления некоторого стереотипа информации. Представление знаний в виде фреймов, организованных в древовидную структуру было предложено М. Минским в 1979 [57].
Различают фреймы-образцы (прототипы), хранящиеся в базе знаний, и фреймы-экземпляры, которые создаются для отображения реальных фактических ситуаций на основе поступающих данных. Модель фрейма является достаточно
универсальной, поскольку позволяет отобразить все многообразие знаний о мире через:
- фреймы-структуры, использующиеся для обозначения объектов и понятий (заем, залог, вексель);
- фреймы-роли (менеджер, кассир, клиент);
- фреймы-сценарии (банкротство, собрание акционеров, празднование именин);
- фреймы-ситуации (тревога, авария, рабочий режим устройства) и др. Традиционно структура фрейма может быть представлена как список
свойств:
(ИМЯ ФРЕЙМА
(имя 1-го слота: значение 1-го слота), (имя 2-го слота: значение 2-го слота),
(имя N-го слота: значение N-го слота)
).
Логические модели основываются на классическом исчислении предикатов I-го порядка, когда предметная область или задача описываются в виде набора аксиом. Чаще всего эти логические модели строятся при помощи декларативных языков логического программирования, наиболее известным представителем которых, является язык Пролог (Prolog). Они удобны для представления логических взаимосвязей между фактами и хорошо формализованы.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Развитие методов, алгоритмов и программных средств для формирования транзакций на основе решения задач поиска кратчайших гамильтоновых путей в произвольных графах распределенных баз данных2020 год, кандидат наук Фильгус Дмитрий Игоревич
Средства кластеризации распределенных данных на основе нейронных сетей Кохонена2020 год, кандидат наук Рукавицын Андрей Николаевич
Распараллеливание программ для суперкомпьютеров с параллельной памятью и открытая распараллеливающая система2004 год, доктор технических наук Штейнберг, Борис Яковлевич
Разработка моделей и алгоритмов повышения эффективности нечеткого вывода в продукционных интеллектуальных системах2017 год, кандидат наук Шварц Александр Юрьевич
Методы создания и эквивалентных преобразований параллельных программ с учетом информационных зависимостей2014 год, кандидат наук Шичкина, Юлия Александровна
Список литературы диссертационного исследования доктор наук Холод Иван Иванович, 2018 год
Список литературы
1. Bonomi, F., Fog Computing and its Role in the Internet of Things [Text] / R. Milito, J. Zhu, S. Addepalli // Proceeding of MCC. - 2012, pp. 13-16.
2. Kholod, I., Unification of Mining Model for Parallel Processing [Text]/ I. Kholod, A. Shorov. // Proceeding of 2017 IEEE North West Russia Section Young Researchers in Electrical and Electronic Engineering Conference. - 2017. pp. 450455.
3. Холод, И.И. Метод определения возможностей параллельного выполнения функций алгоритмов анализа данных [Текст] / И.И. Холод // Программные продукты и системы. - 2018. - №2. - С. 268-274.
4. Kholod, I. The formal model of data mining algorithms for parallelize algorithms. [Text]/ I. Kholod, Z. Karshiyev, A. Shorov // Soft Computing in Computer and Information Science. AISC. - 2015. -vol. 342. - pp. 385-394.
5. Kholod, I. Decomposition of Data Mining Algorithms into Unified Functional Blocks [Text] / I. Kholod, M. Kupriyanov, A. Shorov // Mathematical Problems in Engineering. - 2016. - 11 pages.
6. Холод И.И. Архитектура системы разработки алгоритмов интеллектуального анализа распределённых данных / Холод И.И. // Известия СПбГЭТУ «ЛЭТИ». -2011. - № 9. - с.48-55.
7. Kholod, I. A functional approach to parallelizing data mining algorithms in java. [Text]/ I. Kholod, A. Shorov, S. Gorlatch // Springer LNCS. - 2017. - vol. 10421. -pp. 459-472.
8. Kholod, I. Parallelization of data mining algorithms for multicore processors. [Text]/ I. Kholod, M. Kuprianov, A. Shorov // Proceeding of 4th Mediterranean Conference on Embedded Computing (MECO). - 2015. - pp. 262-267.
9. Kholod, I. Data Mining Algorithms Parallelizing in Functional Programming Language for Execution in Cluster. [Text] / I. Kholod, A. Malov, S. Rodionov // Springer LNCS. - 2015. - vol. 9247. - pp. 140-152.
10. Kholod, I. Constructing Parallel Association Algorithms from Function Blocks. [Text] / I. Kholod, M. Kuprianov, A. Shorov // Springer LNAI. - 2015. - vol. 9165. - pp. 62-68.
11. Kholod, I. Creation of Data Mining Algorithms as Functional Expression for Parallel and Distributed Execution [Text] / I. Kholod, I. Petuhov // Springer LNCS. -2015 - vol. 9251. - pp. 62-68.
12. Холод, И. И. Метод построения параллельных алгоритмов интеллектуального анализа данных из потоконезависимых функциональных блоков [Текст] / И. И. Холод, З. А. Каршиев // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2013. - № 8. - C. 38-45.
13. Холод, И.И. Возможности выполнения алгоритмов интеллектуального анализа в распределенных системах. [Текст] / И. И. Холод // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2014. - № 9. - C. 38-44.
14. Холод, И.И. Сбор измерительной информации с распределенных измерительных средств в режиме реального времени [Текст]/ И.И. Холод. // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2016. - № 10. - C. 34-40.
15. Kholod, I. Application of actor model for distributed execution of data mining algorithms. [Text] / I. Kholod, I. Petuhov, N. Kapustin // Proceeding of Soft Computing and Measurements (SCM). - 2015. - pp. 208-210.
16. Kholod, I. Data Mining for the Internet of Things with Fog Nodes. [Text] / I. Kholod, I. Petuhov, M. Efimova // Springer LNCS. - 2016. - vol. 9870. - pp. 25-36.
17 Холод, И. И. Метод оценки эффективности анализа данных в распределенной среде [Текст]/ И.И. Холод, И.В. Петухов // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2017. - № 1. - C. 16-22.
18. Холод, И.И. Методика распараллеливания алгоритмов интеллектуального анализа данных. [Текст] / И.И. Холод, З. А. Каршиев // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2013. - № 3. - C. 38-45.
19. Kholod, I. Creation of Data Mining Cloud Service on the Actor Model. [Text] / I. Kholod, I. Petuhov, N. Kapustin // Springer LNCS. - 2015. - vol. 9247. - pp. 585599.
20. Kholod, I. Distributed Execution Environment for Data Mining as Service. [Text] / I. Kholod, K. Borisenko // Proceeding of 2016 IEEE North West Russia Section Young Researchers in Electrical and Electronic Engineering Conference. - 2016. -pp. 236-241.
21. Kholod, I. Cloud for Distributed Data Analysis Based on the Actor Model. [Text] / I. Kholod, I. Petukhov, A. Shorov // Scientific Programming. - 2016. - vol. 2016. -11 pages.
22. Kholod, I. Parallel and Distributed Data Mining in Cloud. [Text] / I. Kholod, M. Kuprianov, I. Petukhov // Springer LNAI. - 2016. - vol. 9728. - pp. 349-362.
23. Kholod, I. Distributed Data Mining Based on Actors for Internet of Things. [Text] / I. Kholod, M. Kuprianov, I. Petukhov // Proceeding 5th Mediterranean Conference on Embedded Computing (MECO). - 2016. - pp. 262-267.
24. Kholod, I. Framework for multi threads execution of data mining algorithms. [Text] / I. Kholod // Proceeding of 2015 IEEE North West Russia Section Young Researchers in Electrical and Electronic Engineering Conference. - 2015. - pp. 7480.
25. Куприянов М. С. Информационные системы интеллектуального анализа данных и процессов (проблема Big Date) [Текст] / М. С. Куприянов, И. И. Холод, А. В. Шоров, Ю. А. Шичкина // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2016. - № 5. - C. 42-54.
26. Социологический словарь. [Текст] / отв. ред. Г.В. Осипов, Л.Н. Москвичев. М.: Норма, 2008. - 608 с.
27. Hastie, T. The elements of statistical learning: data mining, inference and prediction. [Text] / Hastie, T., Tibshirani, R., Friedman, J. - Springer.: - New York, 2001. - 533 p.
28. Вальд, А. Последовательный анализ [Текст]: пер. с англ./ А. Вальд. — М.: Физматгиз, 1960. — 328 с.
29. Ширяев, В. Д. Статистический последовательный анализ. Оптимальные правила остановки [Текст]/ В. Д. Ширяев. — М.: Наука, 1976. - 272 с.
30. Харман, Г. Современный факторный анализ. [Текст]/ Г. Харман. — М.: Статистика, 1972. — 486 с.
31. Айвазян, С. А. Прикладная статистика: основы моделирования и первичная обработка данных. [Текст]/ С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1983. — 471 с.
32. Айвазян, С. А. Прикладная статистика: исследование зависимостей [Текст]/ С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1985. —487с.
33. Айвазян, С. А. Прикладная статистика: классификация и снижение размерности. [Текст]/ С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1989. — 607 с.
34. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным. [Текст]/ В. Н. Вапник. — М.: Наука, 1979. - 448 с.
35. Vapnik, V.N. Statistical learning theory. [Text] / V.N. Vapnik. — N.Y.: John Wiley & Sons, Inc., 1998. — 740 p.
36. Флах, П. Машинное обучение. [Текст] / Флах П. — М.: ДМК Пресс, 2015. — 400 с.
37. Mitchell, T. Machine Learning. [Text] / T. Mitchell. — McGraw-Hill Science/Engineering/Math, 1997. — 414 p.
38. Michalski, R. S. Machine Learning: An Artificial Intelligence Approach. [Text] / R. S. Michalski, J. G. Carbonell, T. M. Mitchell. — Berlin.: Springer-Verlag Berlin Heidelberg, 1983. — 572 p.
39. Wang, L. Machine Learning for Human Motion Analysis. [Text] / L. Wang, L. Cheng, G. Zhao. — IGI Global, 2009. — 318 p.
40. Witten, I.H. Data Mining: Practical Machine Learning Tools and Techniques. [Text] / I.H. Witten, E. Frank — Morgan Kaufmann, 2005. — 560 p.
41. Чубукова, И. А. Data Mining: учебное пособие. [Текст]/ И. А. Чубукова — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с.
42. Дюк, В., Data Mining: учебный курс. [Текст]/ В. Дюк, А.Самойленко — СПб.: Изд. Питер, 2001. — 368 с.
43. Han, J. Data mining: Concepts and Techniques. [Text]/ Han J., Kamber M. -Morgan Kaufmann Publishers. - 2001. - 744 p.
44. Методы и модели анализа данных: OLAP и Data Mining. [Текст]/ А.А. Барсегян [и др.] - СПб.: БХВ-Петербург, 2004. - 336 с.
45. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. [Текст] /А. А. Барсегян [и др.]. - СПб.: БХВ-Петербург, 2007. - 384 с.
46. Анализ данных и процессов. [Текст] /А.А.Барсегян [и др.]. - СПб.: БХВ-Петербург, 2009. - 512 с.
47. Analysis of Data and Processes: From Standard to Realtime Data Mining. [Text]/ A. Barsegian. - Re Di Roma-Verlag. 2014. - 299 p.
48. Piatetsky-Shapiro, Knowledge Discovery in Databases. [Text]/ G. Piatetsky-Shapiro, W. Frawley. - AAAI Press/MIT Press. 1991. - 539 p.
49. Schmidhuber, J. Deep Learning in Neural Networks: An Overview. [Text]/ J. Schmidhuber // Neural Networks. - 2015. - vol. 61 - p. 85-117.
50. Bengio, Y. Deep Learning [Text]/ Y. Bengio, Y. LeCun, G. Hinton // Nature. -2015. -vol. 521 - p. 436-444.
51. Deng, L. Deep Learning: Methods and Applications [Text]/ L. Deng, D. Yu, Foundations and Trends in Signal Processing. - 2014. - vol. 7 (3-4) - p. 1-199.
52. JSRs: Java Specification Requests. JSR 73: Data mining API. (http: //www.j cp .org/en/j sr/detail ?id=73).
53. JSRs: Java Specification Requests. JSR 247: Data mining 2.0. (http://www.jcp.org/en/jsr/detail?id=247).
54. Гаврилова, Т. А. Базы знаний интеллектуальных систем. Учебник. [Текст] / Т. А. Гаврилова, В. Ф. Хорошевский — СПб.: Питер, 2000 - 384 c.
55. Roberts, D. The Existential Graphs of Charles S. Peirce. [Text]/ D. Roberts. -Paris.: Mouton &Co,1973 - 169 p.
56. Lehmann, F. Semantic networks in artificial intelligence. [Text]/ F. Lehmann, E. Y. Rodin. - NewYork: Pergamon Press, 1992 - p. 758.
57. Минский, М. Фреймы для представления знаний : Пер. с англ. [Текст]/ М. Минский - М.: Энергия, 1979 - 152 c.
58. Data Mining Group. PMML 4.2. - General Structure (http://dmg.org/pmml/v4-2-1/GeneralStructure.html).
59. Holte, R.C. Very Simple Classification Rules Perform Wellon Most Commonly Used Datasets. [Text]/ R.C. Holte // Machine Learning. - 1993. - vol. 11. - p 63-90.
60. Kurgan, L. A. Highly Scalable and Robust Rule Learner: Performance Evaluation and Comparison [Text]/ L. A. Kurgan, K. J. Cios, S. Dick // IEEE SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS. - 2006.- vol. 36. - p. 32-53.
61. Aksoy, S. A review of rules family of algorithms [Text]/ S. Aksoy // Mathematical and Computational Applications^ - 2008ro - vol. 13. - pp. 51-60.
62. Minsky, M. Steps to ward artificial intelligence [Text]/ M. Minsky Proceedings of the IRE. - 1961. - vol.49, no.1. - pp.8-30.
63. Langley, P. Induction of selective Bayesian classifiers [Text]/ P. Langley, S. Sage // Proceedings of the 10th International Conference on Uncertainty in Artificial Intelligence. - 1994 - p.399-406.
64. Kononenko, I. Semi-naive Bayesian classifier [Text]/ I. Kononenko // Springer LNAI.- 1991. - vol. 482, p.206-219.
65. Zhengand, F. Tree Augmented Naive Bayes [Text]/ F. Zhengand, G. I. Webb, // Springer. - 2010. - p. 990-991.
66. Jiang, L.Learning tree augmented naive bayes for ranking [Text]/ L. Jiang, H. Zhang, Z. Cai, J. Su, // Proceedings of the 10th International Conference on Database Systems for Advanced Applications (DASFAA'05). - 2005. - p. 688-698.
67. Sahami M. Learning limited dependence Bayesian classifiers [Text]/ M. Sahami // Proceedings of the 2nd International Conferenceon Knowledge Discovery and Data Mining. - 1996. - pp. 335-338.
68. Friedman, N. Learning belief networks in the presence of missing value sand hidden variables [Text]/ N. Friedman / Proceedings of the 14th International Conferenceon Machine Learning. - 1997. - p.125-133.
69. Lei, Y. Visual tracker using sequential Bayesian learning: discriminative, generative, and hybrid[Text]/ Y. Lei, X. Q. Ding, S. J. Wang // IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. - 2008. - vol.38, no.6. - p.1578-1591.
70. Geiger, D. Knowledge representation and inference in similarity networks and Bayesian multinets [Text]/ D. Geiger, D. Heckerman // Artificial Intelligence. - 1996. - vol.82, no.1-2. - p.45-74.
71. Therneau, T. M. RPART: recursive partitioning. [Text]/ T. M. Therneau, B. R. Atkinson //R package version 3. - 2008. - p. 1-41.
72. Quinlan, J. R. Induction of decision trees [Text]/ J. R. Quinlan // Machine Learning. - 1986. - vol.1, no.1. - pp.81-106.
73. Quinlan, J. R. C4.5: Programs for Machine Learning [Text]/ J. R. Quinlan. -Morgan Kaufmann, 1993. - 302 p.
74. Breiman, L. Classification and regression trees. [Text]/ L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone. - Monterey: Brooks/Cole Publishing, 1984. -358 p.
75. Diepen, M. Evaluating chi-squared automatic interaction detection [Text]/ M. Diepen, P. H. Franses // Information Systems/ - 2006/ - vol. 31, no.8. - pp. 814 - 831.
76. Friedman, J. H. Multivariate Adaptive Regression Splines [Text]/ J. H. Friedman // The Annals of Statistics. - 1991. - vol. 19 n.1. - p. 1-67.
77. Loh, W. Y. Tree-structured classification via generalized discriminant analysis [Text]/ W. Y. Loh, N. Vanichsetakul // J Am Stat Assoc. - 1988. - vol. 83. - p. 715 -728.
78. Kim, H. Classification trees with unbiased multiway splits [Text]/ H. Kim, WY. Loh // J Am Stat Assoc. - 2001. - vol.96. - p. 589- 604.
79. Kim, H. Classification trees with bivariate linear discriminant node models [Text]/ H. Kim, WY. Loh // J Comput Graphical Stat. - 2003. - vol. 12. - p. 512 -530.
80. Loh, WY Improving the precision of classification trees. [Text]/ WY Loh, C. Chen, W. Hordle, A. Unwin // Ann Appl Stat. - 2009. - vol.3. - p. 1710 - 1737.
81. Loh, WY. Split selection methods for classification trees [Text]/ WY. Loh, Y. Shih // Stat Sin. - 1997. - vol.7. - p.815-840.
82. Hothorn, T. Unbiased recursive partitioning: a conditional inference framework [Text]/ T. Hothorn, K. Hornik, A. Zeileis // J Comput Graphical Stat. - 2006. -vol.15. - p. 651-674.
83. Larose, D. T. k-nearest neighbor algorithm [Text]/ D. T. Larose // Discovering Knowledge in Data: An Introduction to Data Mining. - 2005. - pp.90-106.
84. Hwangand, W. J. Fast kNN classification algorithm based on partial distance search [Text]/ W. J. Hwangand, K.W.Wen // Electronics Letters. - 1998. - vol.34, no.21. - p. 2062 - 2063.
85. Jeng-Shyang, P. Fast k-nearest neighbors classification algorithm [Text]/ P. Jeng-Shyang, Q. Yu-Long, S. Sheng-He // IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences. - 2004. - vol. 87, no. 4. - p. 961-963.
86. Pan, J.-S. An efficient encoding algorithm for vector quantization based on subvector technique [Text]/ J.-S.Pan, Z.-M.Lu, S.-H.Sun // IEEE Transactions on Image Processing. - 2003. - vol. 12, no. 3. - p. 265 - 270.
87. Lu, Z.-M. Equal-average equal-variance equalnorm nearest neighbor search algorithm for vector quantization [Text]/ Z.-M. Lu, S.-H. Sun // IEICE Transactions on Information and Systems. - 2003. - vol. 86, no.3. - p.660 - 663.
88. Linear Models: Least Squares and Alternatives. Springer Series in Statistics [Text]/ C. R. Rao, et al. - Berlin: Springer. - 1995. - 353 p.
89. Wolberg, J. Data Analysis Using the Method of Least Squares: Extracting the Most Information from Experiments [Text]/ J. Wolberg. - Berlin: Springer. - 2005. -250 p.
90. Cortes, C. Support-vector networks [Text]/ C. Cortes, V. Vapnik // Machine Learning. Springer. - 1995. - vol. 20 n.3. - p. 273 - 297.
91. Tang, Y. Granular support vector machines for medical binary classification problems [Text]/ Y. Tang, B. Jin, Y. Sun, Y.-Q. Zhang // Proceedings of the IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB'04). - 2004. - p.73 - 78.
92. Guo H.-S., A novel learning model-kernel granular support vector machine [Text]/ H.-S. Guo, W.-J. Wang, C.-Q. Men // Proceedings of the International Conferenceon Machine Learning and Cybernetics. - 2009. - p. 930 - 935.
93. Lian, K. Study on a GAbased SVM decision-tree multi-classification strategy [Text]/ K. Lian, J. Huang, H. Wang, B. Long //Acta Electronica Sinica. - 2008. -vol.36, no.8. - pp.1502 - 1507.
94. Lin, C.-F. Fuzzy support vector machines [Text]/ C.-F. Lin, S.-D. Wang // IEEE Transactions on Neural Networks^ - 2002. - vol. 13, no. 2. - p. 464 - 471.
95. Huang, H.-P. Fuzzy support vector machines for pattern recognition and data mining [Text]/ H.-P.Huang, Y.-H.Liu // International Journal of Fuzzy Systems. -2002. - vol.4, no.3. - p.826 - 835.
96. Yanand, W.-Y. Multi-class fuzzy support vector machine based on dismissing margin [Text]/ W.-Y.Yanand, Q. He // Proceedings of the International Conferenceon Machine Learning and Cybernetics. - 2009. - p.1139-1144.
97. Tian, Z.Qi,Y. Robust twin support vector machine for pattern classification [Text]/ Z.Qi,Y.Tian, Y.Shi // Pattern Recognition. - 2013. - vol.46, no.1. - p. 305 -316.
98. Khemchandani, R. Twin support vector machines for pattern classification [Text]/ R. Khemchandani, S. Chandra // IEEE Transactions on Pattern Analysis and Machine Intelligences - 2007. - vol. 29, no. 5. - p. 905- 910.
99. Qi, Z. Structural twin support vector machine for classification [Text]/ Z. Qi, Y. Tian, Y. Shi // Knowledge-Based Systems. - 2013. - vol. 43, p. 74-81.
100. Tsyurmasto, P. Value-atrisk support vector machine: stability to outliers [Text]/ P. Tsyurmasto, M. Zabarankin, S. Uryasev // Journal of Combinatorial Optimization. - 2014. - vol. 28, no.1. - p.218-232.
101. Herbrich, R. Large margin rank boundaries for ordinal regression [Text]/ R. Herbrich, T. Graepel, K. Obermayer // Advances in Neural Information Processing Systems. - 1999. - pp.115-132.
102. Ward, J. H. Hierarchical Grouping to Optimize an Objective Function [Text]/ J. H. Ward // Journal of the American Statistical Association. - 1963. - vol. 58 n. 301. -p. 236 - 244.
103. Sokal, R. A statistical method for evaluating systematic relationships. [Text]/ R. Sokal, C. Michener // University of Kansas Science Bulletin. - 1958. - vol. 38. - p. 1409-1438.
104. Sibson, R. SLINK: an optimally efficient algorithm for the single-link cluster method. [Text]/ R. Sibson // The Computer Journal. British Computer Society. -1973. -vol. 16 n. 1. - p. 30-34.
105. Defays, D. An efficient algorithm for a complete link method [Text]/ D. Defays // The Computer Journal. British Computer Society. - 1977. - vol. 20 n. 4 - p.364-366.
106. Guha, S. CURE: an efficient clustering algorithm for large databases [Text]/ S. Guha, R. Rastogi, K. Shim // ACM SIGMOD Record. - 1998. - vol. 27, no.2. - p.73-84.
107. Berry, M. W. Understanding Search Engines: Mathematical Modeling and Text Retrieval [Text]/ M. W. Berry, M. Browne. - SIAM, 2005. - 136 p.
108. Kaufman, L. Finding Groups in Data - An Introduction to Cluster Analysis. [Text]/ L. Kaufman, P. J. Roussew. - Hoboken, New Jersey: John Wiley & Sons, Inc., 2005. - 355 p.
109. Lloyd, S. P. Least squares quantization in PCM [Text]/ S. P. Lloyd, // IEEE Transactions on Information Theory. - 1982. - vol. 28 n. 2. - p. 129-137.
110. Wallace, C.S. Intrinsic classification by MML the Snob program [Text]/ Wallace C. S., Dowe D. L. // Proceedings of the 7th Australian Joint Conference on Artificial Intelligence. - 1994. - pp.37-44.
111. Fraley, C. MCLUST version 3 :an Rpackage for normal mixture modeling and model-based clustering. Technical Report No. 504. [Text]/ C.Fraley, A.E.Raftery. -Seattle : Department of Statistics University of Washington, 2006. - 58 p.
112. MacQueen, J. B. Some Methods for classification and Analysis of Multivariate Observations [Text]/ J. B. MacQueen // Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press. - 1967. - p. 281-297.
113. Schikuta, E. The BANG-clustering system: grid based data analysis [Text]/ E. Schikuta, M. Erhart // Advances in Intelligent Data Analysis Reasoning about Data. LNCS Springer. - 1997. - vol. 1280. - pp.513-524.
114. Dempster, A. P. Maximum likelihood from incomplete data via the EM algorithm [Text]/ A. P. Dempster, N. M. Laird, D. B. Rubin // Journal of the Royal Statistical Society. - 1977. - vol.39. n.1. p. 1 - 38.
115. Neal, R. A view of the EM algorithm that justifies incremental, sparse, and other variants [Text]/ R. Neal, G. E. Hinton // In Learning in Graphical Models. - 1998. - p 355-368.
116. McLachlan, G. J. The EM Algorithm and Extensions [Text]/ G. J. McLachlan, T. Krishnan. - New York:Wiley,. 1997. - 400 p.
117. Agrawal, J. Modification of density based spatial clustering algorithm for large data base using naive's bayes' theorem [Text]/ J. Agrawal et. al. // Proceedings of the 4th International Conference on Communication Systems and Network Technologies(CSNT'14). - 2014. - pp.419-423.
118. Ester, M. A density-based algorithm for discovering clusters in large spatial data bases with noise [Text]/ M. Ester et. al. // Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96). - 1996. - p. 226 -231.
119. Ankerst, M. OPTICS: Ordering Points To Identify the Clustering Structure [Text]/ Ankerst, M. et. al. // ACM SIGMOD international conference on Management of data. ACM Press. - 1999. - p. 49-60.
120. Achtert, E. DeLi-Clu: Boosting Robustness, Completeness, Usability, and Efficiency of Hierarchical Clustering by a Closest Pair Ranking. [Text]/ Achtert, E.; Böhm, C.; Kröger, P. // Advances in Knowledge Discovery and Data Mining. LNCS Springer. - 2006. - vol. 3918. - p. 119-128.
121. Cheng, Y. Mean Shift, Mode Seeking, and Clustering [Text]/ Y. Cheng // IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE. - 1995. - vol.17 n.8. - p. 790-799.
122. Barrow, J. D. Minimal spanning trees, filaments and galaxy clustering. [Text]/ J.D. Barrow, S.P. Bhavsar, D.H. Sonoda // Mon. Not. R. Astron. Soc. - 1985. - vol. 216. - p. 17-35.
123. Guha, S. ROCK: a robust clustering algorithm for categorical attributes [Text]/ S. Guha, R. Rastogi, K. Shim // Proceedings of the 15th international conference on data engeneering. - Elsevier Ltd, 1999. - p. 512-521.
124. Karypis, G. Chameleon: hierarchical clustering using dynamic modeling [Text]/ G. Karypis, E.-H. Han, V. Kumar // IEEE Comput. - 1999. - vol. 32. n. 8. - p. 6875.
125. Agrawal, R. Fast Algorithms for Mining Association Rules [Text]/ R. Agrawal, R. Srikant // Proceedings of the 20th VLDB Conference. - San Francisco: Morgan Kaufmann Publishers Inc, 1994. - p. 487-499.
126. Savasere, A. An Efficient Algorithm for Mining Association Rules in Large Databases [Text]/ A. Savasere, E. Omiecinskia, Sh. Navathe // Proceedings of the 21th VLDB Conference. - San Francisco: Morgan Kaufmann Publishers Inc, 1995. -p. 432 - 444.
127. Luo, C. Efficient mining of maximal sequential patterns using multiple samples [Text]/ C. Luo, S. M. Chung // Proceedings of the 5th SIAM International Conference on Data Mining (SDM'05). - SIAM, 2005. - pp. 415-426.
128. Yang, Z. LAPIN-SPAM: an improved algorithm for mining sequential pattern [Text]/ Z. Yang, M. Kitsuregawa // Proceedings of the 21st International Conference on Data Engineering Workshops. - IEEE Computer Society, 2005. - p. 1222 - 1226.
129. Han, J. Mining frequent patterns by pattern-growth: methodology and implications [Text]/ J.Han and J.Pei // ACM SIGKDD Explorations Newsletter. -2000. - vol.2, no.2. - p.14-20.
130. Zaki, M. J. Scalable algorithms for association mining [Text]/ M. J. Zaki. // IEEE Transactions on Knowledge and Data Engineering. - 2000. - vol. 12 n.3. -372-390.
131. Deng, Z. H. Fast mining frequent itemsets using Nodesets.http://www.sciencedirect.com/science/article/pii/S0957417414000463 [Text]/ Z. H. Deng, S. L. Lv // Expert Systems with Applications. - 2014. - vol. 41 n.10. - p. 4505-4512.
132. Deng, Z. H. A New Algorithm for Fast Mining Frequent Itemsets Using N-Lists [Text]/ Z. H. Deng, Z. Wang, J. Jiang // SCIENCE CHINA Information Sciences. -2012. - vol. 55 n. 9. - p. 2008 - 2030.
133. Deng, Z. H. A New Fast Vertical Method for Mining Frequent Patterns [Text]/ Z. H. Deng, Z. Wang // International Journal of Computational Intelligence Systems. - 2010. - vol. 3 n. 6. - p. 733 - 744.
134. Park, J. S. Using a Hash-Based Method with Transaction Trimming and Database Scan Reduction for Mining Association Rules [Text]/ J. S. Park, M.-S Chen, P.S. Yu // IEEE Transactions on Knowledge and Data Engineering. - 1997. -vol. 9. - p. 813-825.
135. Hidber, C. Online Association Rule Mining [Text]/ C. Hidber // SIGMOD 1999, Proceedings ACM SIGMOD International Conference on Management of Data. -NY.: CM, 1999. - pp.145-156.
136. Huang, K. Prowl: an efficient frequent continuity mining algorithm on event sequences [Text]/ K. Huang, C. Chang, K. Lin // Data Warehousing and Knowledge Discovery. LNCS Springer. - 2004. - vol. 3181 . - pp. 351-360.
137. Huang, K. Y. Efficient mining of frequent episodes from complex sequences [Text]/ Y. Huang, C. H. Chang // Information Systems. - 2008. - vol.33, no.1. - p.96-114.
138. Kalpakis, K. Distance measures for effective clustering of ARIMA time-series [Text]/ K.Kalpakis, D. Gada, V. Puttagunta // Proceedings of the IEEE International Conference on Data Mining (ICDM '01). - IEEE, 2001. - pp. 273-280.
139. Kumar, N. Time-series bitmaps: a practical visualization tool for working with large time series databases [Text]/ N. Kumar, et. al. // Proceedings of the 5th SIAM International Conference on Data Mining (SDM '05). - SIAM, 2005. - p. 531-535.
140. Chan, F. K.-P. Haar wavelets for efficient similarity search of time-series: with and without time warping [Text]/ F. K.-P. Chan, A. W.-C. Fu, and C. Yu // IEEE Transactions on Knowledge and Data Engineering. - 2003. - vol. 15, no. 3. - p. 686705.
141. Shasha, D. E. High Performance Discovery in Time Series: Techniques and Case Studies [Text]/ D. E. Shasha,Y. Zhu. - Springer, 2004. - 190 p.
142. Keogh, E. Dimensionality reduction for fast similarity search in large time series databases [Text]/ E. Keogh, et. al. // Knowledge and Information Systems. - 2001. -vol. 3, no. 3. - p. 263-286.
143. Vlachos, M. Indexing time-series under conditions of noise [Text]/ M. Vlachos, D. Gunopulos, G. Das // Data Mining in Time Series Databases. - 2004. - vol. 57. - p. 67-100.
144. Megalooikonomou, V. A dimensionality reduction technique for efficient similarity analysis of time series databases [Text]/ V. Megalooikonomou, G. Li, Q. Wang // Proceedings of the 13th ACM International Conference on Information and KnowledgeManagement (CIKM '04). - NY.:ACM, 2004. - p. 160-161.
145. Chen, Q. Indexable PLA for efficient similarity search [Text]/ Q. Chen, et. al. // Proceedings of the 33rd International Conference onVery LargeData Bases. - VLDB Endowment, 2007. - p. 435 - 446.
146. Dong, X. L., Research on shapebased time series similarity measure [Text]/ X. L. Dong, C. K. Gu, Z. O. Wang // Proceedings of the International Conference on Machine Learning and Cybernetics. - 2006. - pp. 1253-1258.
147. Megalooikonomou, V. A multiresolution symbolic representation of time series [Text]/ V. Megalooikonomou, Q. Wang, G. Li, C. Faloutsos // Proceedings of the 21st International Conference onData Engineering (ICDE '05). - IEEE, 2005. - p. 668-679.
148. Топорков, В. В. Модели распределенных вычислений [Текст]/ В. В Топорков — М.: ФИЗМАТЛИТ, 2004. - 320 с.
149. Assent, I. The TStree: efficient time series search and retrieval [Text]/ I. Assent, et. al // Proceedings of the 11th International Conference on Extending Database Technology: Advances in Database Technology (EDBT '08). - NY.:ACM, 2008. -p.252-263.
150. Gogoi, P. A survey of outlier detection methods in network anomaly identification [Text]/ P. Gogoi, et.al. // The Computer Journal. - 2011. - vol. 54, no. 4. - p. 570-588.
151. Laney, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety. META Group Research Note, Stamford. [Text]/ D. Laney - META Group Inc, 2001 - (https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf)
152. Dean, J. MapReduce: Simplified data processing on large clusters [Text]/ J. Dean, S. Ghemawat // Proceedings of Operating Systems Design and Implementation. - NY.:ACM, 2004. - p. 107 - 113.
153. Lammel, R. Google's MapReduce programming model — revisited [Text]/ R. Lammel // Science of Computer Programming. - 2008. - vol. 70 n.1. - p.1 - 30, 2008.
154. Gorlatch, S. Extracting and implementing list homomorphisms in parallel program development [Text]/ S. Gorlatch // Science of Computer Programming. -1999. - vol.33, n.1. - p. 1-27.
155. Machine Learning Library (MLlib) Guide. -(http://spark.apache.org/docs/latest/mllib-guide.html).
156. Apache Hadoop - (http://hadoop.apache.org)
157. Ng, A. Y., Map-Reduce for machine learning on multicore [Text]/ A. Y. Ng, et.al. // Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems. - NY.:ACM, 2006. - p. 281-288.
158. Ajin, V. W. Big Data and Clustering Algorithms [Text]/ V. W. Ajin, D. K. Lekshmy // Proceeding of International Conference on Research Advances in Integrated Navigation Systems (RAINS - 2016). - IEEE, 2016. - p. 1-5.
159. Kiran, M. Verification and Validation of MapReduce Program Model for Parallel Support Vector Machine [Text]/ Kiran, M., et. al. // International Journal of Computer Science Issues. - 2013. - vol. 10 n.3. - p. 317-325.
160. Dai, W. A MapReduce Implementation of C4.5 Decision Tree Algorithm [Text]/ W. Dai, W. Ji // International Journal of Database Theory and Application. - 2014. -vol. 7. n. 1 - p. 49-60.
161. Han, J. A Scalable Random Forest Algorithm Based on MapReduce [Text]/ J. Han, Y. Liu, X. Sun // 4th IEEE International Conference on Software Engineering and Service Science. - IEEE, 2013. - p. 849-852.
162. Ayma, V. A. Classification algorithms for Big data analysis, a Map Reduce approach [Text]/ V. A. Ayma, et.al. // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. - 2015. - vol. XL-3/W2. - p. 1 -10.
163. Pakize, S. Comparative Study of Classification Algorithms Based On MapReduce Model [Text]/ S. Pakize, A. Gandomi // International Journal of Innovative Research in Advanced Engineering. - vol. 1. n. 7. - p. 215-254.
164. Lin, M.Y. Apriori-based frequent itemset mining algorithms on MapReduce [Text]/ M.Y. Lin, P.Y. Lee, S.C. Hsueh // Proceedings of the international conference on ubiquitous information management and communication. - NY.: ACM. - 2012. -p. 76:1-76:8.
165. Leung, C.S. Reducing the search space for big data mining for interesting patterns from uncertain data [Text]/ C. S. Leung, R. MacKinnon, F. Jiang // Proceedings of the international congress on big data. - IEEE, 2014. - p. 315-322.
166. Ingersoll, G. Introducing Apache Mahout [Text]/ G. Ingersoll -(http: //www.ibm.com/developerworks/j ava/library/j -mahout/)
167. Apache Ignite. Documentation. Machine Learning. -(https: //apacheignite.readme.io/docs/machine-learning)
168. De Francisci Morales, G.. SAMOA: Scalable Advanced Massive Online Analysis [Text]/ G. De Francisci Morales, A. Bifet // Journal of Machine Learning Research. - 2015. - vol. 16. - p. 149-153.
169. Bifet, A. Big Data Stream Learning with SAMOA [Text]/ A. Bifet, G. De Francisci Morales // 2014 IEEE International Conference on Data Mining Workshop. - IEEE, 2014. - p. 1-7.
170. De Francisci Morales G. SAMOA: A Platform for Mining Big Data Streams [Text]/ G. De Francisci Morales // RAMSS'13: 2nd International Workshop on RealTime Analysis and Mining of Social Streams @WWW'13. - NY.: ACM, 2013 - p. 777 - 778.
171. Goetz, P. T. Storm blueprints: Patterns for distributed real-time computation [Text]/ P. Taylor Goetz, , Brian O'Neill. - Packt Publishing Ltd, 2014 - 336 p.
172. Toshniwal, A. Storm @Twitter [Text]/ A. Toshniwal, et. al. // SIGMOD. -ACM, 2014. - p. 147 - 156.
173. Neumeyer, L. S4: Distributed Stream Computing Platform [Text]/ L. Neumeyer, et. al. // ICDMW '10: 10th International Conference on Data Mining Workshops. -IEEE, 2010. - p. 170-177.
174. Samza. Comparison Introduction. - 2016. -(http: //samza.apache. org/learn/documentation/ latest/comparisons/introduction.html).
175. Bifet, A. MOA: Massive Online Analysis [Text]/ A. Bifet, et. al. // Journal of Machine Learning Research. - 2010. - (http://moa. cms.waikato.ac.nz/).
176. Langford, J. Vowpal wabbit [Text]/ J. Langford, A. Strehl, L. Li. -2007. -(http://hunch.net/ ~vw).
177. Gronlund, C. J. Introduction to machine learning on Microsoft Azure. A guide for technical professional [Text]/ C. J. Gronlund. - Chappell & Associates, 2015 -(https://azure.microso^.com/en-gb/documentation/articles/machine-learning-what-is-machine-learning/).
178. Yu, L. BC-PDM: data mining, social network analysis and text mining system based on cloud computing [Text]/ Yu, L., et. al. // Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. -ACM, 2008. - p. 1496-1499.
179. Barr, J. Amazon Machine Learning - Make Data-Driven Decisions at Scale. Amazon Machine Learning [Text]/ J. Barr. - 2016. -(https://aws.amazon.com/ru/blogs/aws/amazon-machine-learning-make-data-driven-decisions-at-scale/).
180. Google Cloud Machine Learning at Scale. (https://cloud.google.com/products/machine-learning/).
181. Lally, A. Question analysis: How Watson reads a clue [Text]/ Lally, A. et. al. // IBM Journal of Research and Development. - 2012. - vol. 56, n.3.4. - p. 1-2.
182. Холод, И.И. Архитектура «облака» интеллектуального анализа данных на основе библиотеки алгоритмов с блочной структурой [Текст]/ И.И. Холод // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2014. - № 6. - C. 34-40.
183. Evans, D. The Internet of Things. How the Next Evolution of the Internet Is Changing Everything. Cisco White Paper. [Text]/ D. Evans. - Cisco Systems, 2011. -p. 1-7.
184. Tsai, C.-W. Future internet of things: open issues and challenges [Text]/ C.-W. Tsai, C.-F. Lai, A. V. Vasilakos // Wireless Networks. - 2014. - vol. 20, n. 8. - p. 2201-2217.
185. Chen, F. Data Mining for the Internet of Things: Literature Review and Challenges [Text]/ F. Chen. et.al. // International Journal of Distributed Sensor Networks. - 2015.- vol.2015, article ID 431047. - 14 p. -(http://dx.doi.org/10.1155/2015/431047)
186. Gubbi, J. Internet of Things (IoT): A Vision, Architectural Elements, and Future Directions [Text]/ J. Gubbi, et.al. // Future Generation Computer Systems. - 2013. -vol. 29, issue 7. - p. 1645-1660.
187. Холод, И. И. Выбор типа параллельного выполнения алгоритмов интеллектуального анализа данных в зависимости от вида распределения данных [Текст]/ И. И. Холод // Сборник докладов XVI Международной конференции по мягким вычислениям и измерениям SCM'2013. - .СПБ.: Изд-во СПбГЭТУ «ЛЭТИ», 2013. - том 1. - с. 158-162.
188. Интеллектуальный анализ распределенных данных на базе облачных вычислений [Текст]/М.С. Куприянов, и др. - СПБ.: Изд-во СПбГЭТУ «ЛЭТИ», 2011. - 148 с.
189. Интеллектуальный анализ данных в распределенных системах [Текст]/ М.С. Куприянов, и др. - СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2012. - 110 с.
190. Каршиев, З. А. Средства создания параллельных алгоритмов интеллектуального анализа данных [Текст]: дис... канд. тех. наук: 05.13.11:/ Каршиев, Зайнидин Абдувалиевич. -СПб., 2013. -183 с.
191. Миллер, Р. Последовательные и параллельные алгоритмы: общий подход [Текст]/Р. Миллер, Л. Боксер. - М. : БИНОМ, 2006. - 406 с.
192. Карпов, В. Е. Введение в распараллеливание алгоритмов и программ [Текст]/В. Е. Карпов // Компьютерные исследования и моделирование. - 2010, -Т. 2, № 3, - С. 231-272
193. Гергель, В.П. Теория и практика параллельных вычислений [Текст]/ В.П. Гергелью - М.: Интернет-университет информационных технологий.; БИНОМ: Лаборатория знаний, 2007 - 423 с.
194. Воеводин, В. В. Параллельные вычисления [Текст]/ В. В. Воеводин, Вл. В. Воеводиню - СПБ: ВХВ-Петербург, 2002. - 608 с.
195. Foster, I. Designing and Building Parallel Programs: Concepts and Tools for Software Engineering. Reading [Text]/ I. Foster. - MA: Addison-Wesley, 1995. -370 p.
196. Miller, R. Algorithms Sequential and Parallel: A Unified Approach [Text]/ R. Miller, L. Boxer. - Cengage Learning, 2013. - 450 p.
197. Cormen, T.H. Introduction to Algorithms, 3rd ed. [Text]/ T.H. Cormen, et.al. -The MIT Press, 2009. - 1312 p.
198. Miller, R. Efficient parallel convex hull algorithms [Text]/ R. Miller, Q.F. Stout // IEEE Transactions on Computers. - 1988. - n. 37. - p. 1605-1619.
199. Leighton, F.T. Introduction to Parallel Algorithms and Architectures: Arrays, Trees, Hypercubes [Text]/ F.T. Leighton. - CA.: Morgan Kaufmann Publishers, 1992. - 847 p.
200. Itzhaky, S. Deriving Divide-and-Conquer Dynamic Programming Algorithms Using Solver-Aided Transformations [Text]/ S. Itzhaky, et. al. //Proceedings of the ACM SIGPLAN International Conference on Object-Oriented Programming, Systems, Languages & Applications (OOPSLA 2016). - Amsterdam:ACM, 2016. -p. 145-164.
201. Quinn, M. J. Parallel Computing Theory and Practice [Text]/ M. J. Quinn. -NY.: McGraw-Hill, Inc, 1994. - 446 p.
202. Chowdhury, R. A. Basic Parallel Algorithmic Techniques. [Text]/ R. A. Chowdhury. - Department of Computer Science SUNY Stony Brook Spring, 2012. -463 p.
203. Karp, R.M. A survey of parallel algorithms for shared memory machines [Text]/ R.M. Karp, V. Ramachandran // Handbook of Theoretical Computer Science: Algorithms and Complexity. - The MIT Press, 1990. - p. 869-941.
204. JaJa, J. An Introduction to Parallel Algorithms / J. JaJa. - Massachusetts: Addison-Wesley, 1992. - 576 p.
205. Гергель, В.П. Высоко производительные вычисления для многоядерных многопроцессорных систем. Учебник. [Текст]/ В.П. Гергель. - ННГУим. Н.И.Лобачевского, 2010 - 421 с.
206. Гергель, В.П. Теория и практика параллельных вычислений [Текст]/ Гергель В.П. - М.: Интуит, 2016. — 500 c.
207. Гергель, В.П. Основы параллельных вычислений для многопроцессорных вычислительных систем [Текст]/ В.П. Гергель, Р.Г. Стронгин. - Н.Новгород, ННГУ, 2003. - 84 с.
208. Воеводин, В.В. Математические основы параллельных вычислений [Текст]/ В.В. Воеводин. - М.: Наука, 1986. - 296 стр.
209. Абрамов, В. М. Анализ алгоритмов в целях распараллеливания вычислений [Текст]/ В. М. Абрамов // Вычислительные системы и автоматизация научных исследований. - М.: МФТИ, 1980. - с. 53—63.
210. Muchnick, S. S. Advanced Compiler Design and Implementation [Text]/ Muchnick S. S. — San Francisco: Morgan Kaufmann Publishers, 1997. — 856 с.
211. Banerjee, U. Data dependence in ordinary programs [Text]/ U. Banerjee // Univ. III. Technical Rep. — Urbana, 1976. — p. 76-837.
212. Banerjee, U. An introduction to a formal theory of dependence analysis [Text]/ U. Banerjee // The J. of Supercomputing. — 1988. — Vol. 2. — p. 133-149.
213 Bernstein, A. J. Program Analysis for Parallel Processing [Text]/ A. J. Bernstein // IEEE Trans. on Electronic Computers. - IEEE, 1966. - p. 757-762.
214. Корнеев, В. В. Параллельное программирование в MPI [Текст]/ В. В. Корнеев. - Новосибирск: Изд-во ИВМиМГ СО РАН, 2002. - 215 с.
215. Group, W. Using MPI. Portable Parallel Programming with the Message-Passing Interface [Text]/ W Group et.al. // Scientific Programming. -1996. - p.275-276.
216. Quinn, M.J. Parallel Programming in C with MPI and OpenMP [Text]/ M.J. Quinn. - NY: McGraw-Hill, 2003. - 544 p.
217. Andrews, G.R. Foundations of Multithreading, Parallel and Distributed Programming [Text]/ G.R. Andrews - Addison-Wesley, 1999. - 664 p.
218. Kurzak, J. Scientific Computing with Multicore and Accelerators [Text]/ J. Kurzak, D.A. Bader, J. Dongarraю - Boca Raton: CRC Press, 2010. - 514 p.
219. Rauber, T. Parallel Programming for Multicore and Cluster Systems [Text]/ T. Rauber, G. Runger. - NY.: Springer-Verlag, 2010. - 516 p.
220. Проблемы вычислений в распределенной среде [Текст]/ Подред. С. В. Емельянова, А.П. Афанасьева. - М.: ИСАРАН, 2003. -288 c.
221. Немнюгин, С. Параллельное программирование для многопроцессорных вычислительных систем [Текст]/ С. Немнюгин, О. Стесик - СПб.: БХВ-Петербург, 2002. - 400 c.
222. Богачев, К.Ю. Основы параллельного программирования [Текст]/ К.Ю. Богачев. - М.: БИНОМ. Лабораториязнаний, 2003. - 324 с.
223. Себеста, Р. В. Основные концепции языков программирования [Текст]/ Р. В. Себеста. — 5-е изд. — М.: «Вильямс», 2001. — С. 672.
224. Бьёрн, С. Язык программирования C++ [Текст]/ Бьёрн С. — 3-е изд. — СПб.; М.: Невский диалект — Бином, 1999. — 991 с.
225. Шилдт, Г. Теория и практика С++ для профессионалов [Текст]/ Г. Шилдт. — СПб.: BHV — Санкт-Петербург, 1996. - 416 с.
226. Вирт, Н. Паскаль. Руководство для пользователя и описание языка [Текст]/ Н. Вирт, К. Йенсен — М.: Финансы и статистика, 1982. — 151 с.
227. Культин, Н.Б. Delphi 6. Программирование на Object Pascal [Текст]/ Культин Н.Б. — СПб.:БХВ-Петербург, 2001.— 528 с.
228. Карпов, В.Э.. Классическая теория компиляторов — Учебное пособие [Текст]/ В.Э. Карпов - 2-е изд. — Москва, 2011.— 91с.
229. Бартеньев, О.В. Современный Фортран [Текст]/ О.В. Бартеньев — М.: Диалог МИФИ, 2005. - 449 с.
230. Бар, Р. Дж. Язык Ада в проектировании систем [Текст]/ Р. Бар — М.: «Мир», 1988. — С. 318.
231. Горелик, А.М. Программирование на современном Фортране. [Текст]/ А.М. Горелик. — Москва: Финансы и статистика, 2006. — 352с.
232. Chandra, R. Parallel Programming in OpenMP [Text]/ Chandra, R. et. al. -Morgan Kaufinann Publishers, 2000. - 231 p.
233. Вальковский, В.А. Параллельное выполнение циклов. Метод параллелепипедов [Текст]/ В.А. Вальковский // Кибернетика. - 1982. - N 2. - с. 51-62.
234. Вальковский, В. А. Параллельное выполнение циклов. Метод пирамид [Текст]/ В.А. Вальковский // Кибернетика. - 1983. - N 5. - с. 51-55.
235. Вольф, М. Перестановка циклов. Векторизация программ: теория, методы, реализация [Текст]/ Вольф М // Сб. статей. - М.: Мир. 1991. - С. 48 - 65.
236. Штейнберг, Б. Я. Математические методы распараллеливания рекуррентных циклов для суперкомпьютеров с параллельной памятью [Текст]/ Б. Я. Штейнберг - Ростов-на-Дону: Изд-во Ростовского университета, 2004. -192 с.
237. Эккель, Б.. Философия Java / Б. Эккель — 3-е изд. — СПб.: Питер, 2003. — 976 с.
238. Шилдт, Г. Java 8. Полное руководство [Текст]/ Г. Шилдт - 9-е издание. — М.: «Вильямс», 2015. — 1376 с.
239. Скит, Д. C# для профессионалов: тонкости программирования [Текст]/ Д. Скит - 3-е издание. — М.: «Вильямс», 2014. — 608 с.
240. Хейлсберг, А. Язык программирования C#. Классика Computers Science [Текст]/ А. Хейлсберг, М. Торгерсен, С. Вилтамут - 4-е издание.— СПб.:«Питер», 2012.— 784с.
241. Грэм, П.. ANSI Common Lisp [Текст]/ П. Грэм — СПб.: Символ-Плюс, 2012. — 448 с.
242. Хювёнен, Э. Мир Лиспа. В 2-х т. [Текст]/ Э. Хювёнен, Й. Сеппянен — М.: Мир, 1990. -
243. Душкин, Р. В. Функциональное программирование на языке Haskell [Текст]/ Р. В. Душкин .—М.: ДМК Пресс,, 2008.— 544 с.
244. B. O'Sullivan. Real World Haskell [Text]/ B. O'Sullivan, J. Goerzen, D. Stewart
— O'Reilly, 2008 — 710 c.
245. Эббинхауз, Г.Д. Машины Тьюринга и рекурсивные функции [Текст]/ Эббинхауз Г.Д. [и др.]. — М.: Мир, 1972. — 262 с.
246. Turing, A. M. On Computable Numbers, with an Application to the Entscheidungs problem [Text]/ A. M. Turing // Proceedings of the London Mathematical Society— 1937. — vol.42. — p.230-265.
247. Church, A. A set of postulates for the foundation of logic [Text]/ A. Church // Annals of Mathematics. Series 2. - 1932. - vol. 33 n. 2 - p. 346-366.
248. Barendregt, H. P. The Lambda Calculus: Its Syntax and Semantics [Text]/ H. P. Barendregt // Studies in Logic and the Foundations of Mathematics. - 1981. - vol 103.
- 638 p.
249. Ali, H. H. Task Scheduling in Parallel and Distributed Systems [Text]/ H. H. Ali, H. El-Rewini, T. G. Lewis // PTR Prentice Hall. - 1994.
250. Bokhari, S. H. On the mapping problem [Text]/ S. H. Bokhari // IEEE Transaction on Computers - 1981.- vol.30, n 3. - p. 207 - 214.
251. Lo, V. M. Heuristic Algorithms for Task Assignment in Distributed Systems [Text]/ V. M. Lo // IEEE Transaction on Computers. - 1988 - vol.37, n.11. - p. 13841397.
252. Braun, T. D. A Comparison Study of Static Mapping Heuristic for a Class of Meta-task [Text]/ T. D. Braun et. al. // Proceedings. Eighth Heterogeneous Computing Workshop (HCW99). - IEEE,1999. - p. 1-16.
253. Хорошевский, В.Г. Алгоритмы распределения ветвей параллельных программ по процессорным ядрам вычислительных систем [Текст] /В.Г. Хорошевский, М.Г. Курносов // Автометрия. - 2008. - Т. 44,№ 2. - С. 56-67.
254. Yadav, V. K. Relaible Task Allocation in heterogeneous Distributed System with random node Failure: Load Sharing approach [Text]/ V. K. Yadav, M. P. Yadav, D. K. Yadav // International conference on Computing Sciences. - 2012 - p. 187-192.
255. Semchedine, F. Task Assignment policies in distributed server systems: A survey [Text]/ F. Semchedine, L. B. Medjkoune, D. Aissani // Journal of network and Computer Applications. - 2011. - p. 1123-1129.
256. Kaur, S. A Review of Load Balancing Strategies for Distributed Systems [Text]/ S. Kaur, G. Kaur // International Journal of Computer Applications . - 2015. - vol. 121, n.18. - p. 45-47.
257. Patni, J. Ch. Load balancing strategies for Grid computing [Text]/ J. Ch. Patni //
- IEEE, 2011. - p. 239-243.
258. Bertsekas, D.P. Parallel and Distributed Computation. Numerical Methods [Text]/ D.P. Bertsekas, J.N. Tsitsiklis — NJ.:Prentice Hall, Englewood Cliffs, 1989.
- 715 p.
259. Butenhof, D. R. Programming with POSIX Threads [Text]/ D. R. Butenhof. -Addison-Wesley, 1997. - 400 p.
260. Lewis, B. Threads Primer: A Guide to Multithreaded Programming [Text]/ B. Lewis. - Prentice Hall, 1995. - 352 p.
261. Thomas, E. Service-Oriented Architecture (SOA): Concepts, Technology and Design [Text]/ E. Thomas. - Prentice Hall Professional Technical Reference, 2005 -c. 760.
262. Биберштейн, Н. Компас в мире сервис-ориентированной архитектуры (SOA) [Текст]/ Н. Биберштейн. - КУДИЦ-Пресс. 2007 - c. 256.
263. Hewitt, C.. A universal modular ACTOR formalism for artificial intelligence [Text]/ C. Hewitt, P. Bishop, R. Steiger // In IJCAI. - 1973. - p 235-245.
264. Hewitt, C. Actors and continuous functional [Text]/ C. Hewitt, H. Baker. -Cambridge. Massachusetts. USA: Massachusetts Institute of Technology, 1977. - 290 p.
265. Clinger, W. Foundations of Actor Semantics [Text]/ W. Clinger. - Cambridge. Massachusetts. USA: Massachusetts Institute of Technology, 1981. - 178 p.
266. Wooldridge, M. An Introduction to MultiAgent Systems [Text]/ M. Wooldridge. - John Wiley & Sons Ltd, 2002. - 366 p.
267. Ferber, J. Multi-Agent Systems: An Introduction to Artificial Intelligence [Text]/ J. Ferbero - Addison-Wesley, 1999. - 528 p.
268. Miller, R. Parallel Algorithms for Regular Architectures: Meshes and Pyramids [Text]/ R. Miller, Q.F. Stout. - Cambridge, Massachusetts : The MIT Press, 1996. -310 p.
269. Boxer, L. Efficient Coarse Grained Permutation Exchanges and Matrix Multiplication [Text]/ L. Boxer // Parallel Processing Letters. - 2009. - vol.19. - p. 477-484.
270. Almasi, G. S. Highly Parallel Computing [Text]/ G. S. Almasi, A. Gottlieb. -NY.: The Benjamin/Cummings Publishing Company, 1994. - 689 p.
271. Stout, G.W. High Performance Computing [Text]/ G.W. Stout. - Massachusetts : Addison-Wesley, 1995. - p. 1 -5.
272. Самарский, А. А. Численные методы [Текст]/ А. А.Самарский, А.В. Гулин — М.: Наука. Гл. ред. физ-мат. лит., 1989.— 432 с.
273. Dongarra, J.J. Numerical Linear Algebra for High Performance Computers (Software, Environments, Tools) [Text]/ Dongarra J.J., et.al. - Soc. for Industrial & Applied Math., 1999. - 336 p.
274. Akl, S.G. Parallel Sorting Algorithms [Text]/ S.G. Akl. - Orlando, FL: Academic Press, 1985. - 244 p.
275. Kumar, V. Introduction to Parallel Computing [Text]/ V. Kumar, et. al. — The Benjamin/Cummings Publishing Company, Inc., 2003. - 656 p.
276. Barnard, S. PMRSB: Parallel multilevel recursive spectral bisection [Text]/ S. Barnard //Preceding Supercomputing '95.- IEEE, 1995 - p. 234-243.
277. Gilbert, J. A parallel graph partitioning algorithm for a message-passing multiprocessor [Text]/ J. Gilbert, E. Zmijewski // International Journal of Parallel Programming. - 1987. - p. 498 - 513.
278. Heath, M. Cartesian parallel nested dissection algorithm [Text]/ M. Heath, P. A. Raghavan // SIAM Journal of Matrix Analysis and Applications. - 1995. - vol.16. n. 1. - p. 235-253.
279. Karypis, G. A parallel algorithm for multilevel graph partitioning and sparse matrix ordering [Text]/ G. Karypis, V. Kumar // Journal of Parallel and Distributed Computing. - 1988. - vol.48, n.1. - p. 71-95.
280. Karypis, G. Parallel multilevel k-way partitioning scheme for irregular graphs [Text]/ G. Karypis, V. Kumar // Siam Review. - 1999. - vol.41, n.2. - p. 278 - 300.
281. Raghavan, P. Parallel ordering using edge contraction. Technical Report CS-95-293 [Text]/ P. Raghavan // Parallel Computing. - 1995.-vol.23. - n 8. - p.1045-1067.
282. Walshaw, C. Parallel optimization algorithms for multilevel mesh partitioning. Techical Report 99/IM/44 [Text]/ C. Walshaw, M. Cross.// Parallel Computing-1999. - vol.26. - n 12. - p. 1635-1660.
283. Asaithambi, N. S. Numerical Analysis: Theory and Practice [Text]/ N. S. Asaithambi. - Fort Worth : Saunders College Publishing, 1995. - 830 p.
284. Burden, R. L. Numerical Analysis [Text]/ R.L. Burden and J.D. Faires. - Boston : PWS-Kent Publishing Company, 1993. - 912 p.
285. Yakowitz, S. An Introduction to Numerical Computations [Text]/ S. Yakowitz, F.Szidarovszky. - NJ.: Prentice Hall, Upper Saddle River, 1990. - 462 p.
286. Akl, S.G. Parallel Computational Geometry [Text]/ S.G. Akl, K.A. Lyons. // Algorithmica - Prentice Hall, 1993. - p. 293-327.
287. Lee, C.C. On a Cover-Circle Minimization Problem [Text]/ C.C. Lee, D.T. Lee // Information Processing Letters. - 1984. - vol. 18. - 180-185.
288. Bertossi, A. A. Parallel circle-cover algorithms / A.A. Bertossi // Information Processing Letters. - 1988 - vol. 27. - p.133-139.
289. Atallah, M.J. An Optimal Parallel Algorithm for the Minimum Circle-Cover Problem [Text]/ M.J. Atallah, D.Z. Chen // Information Processing Letters. - 1989 -vol. 32 - p. 159-165.
290. Boxer, L. A Parallel Circle-Cover Minimization Algorithm [Text]/ L. Boxer, R. Miller // Information Processing Letters. - 1989. - vol. 32 - p. 57-60.
291. Sarkar, D. An Optimal Parallel Circle-Cover Algorithm [Text]/ D. Sarkar, I. Stojmenovic // Information Processing Letters. - 1989. - vol.32. - p. 3-6.
292. Kahng, A. B. Optimal Algorithms for Extracting Spatial Regularity in Images [Text]/ A.B. Kahng, G. Robins // Pattern Recognition Letters. - 1991 - vol. 12 - p. 757-764.
293. Boxer, L. Parallel Algorithms for All Maximal Equally Spaced Collinear Sets and All Maximal Regular Coplanar Lattices [Text]/ L. Boxer, R. Miller // Pattern Recognition Letters. - 1993-. vol. 14. - p. 17-22.
294. Boxer, L. Scalable Parallel Algorithms for Geometric Pattern Recognition [Text]/ L. Boxer, R. Miller, A. Rau-Chaplin // Journal of Parallel and Distributed Computing. - 1999. - vol. 58. - p. 466-486.
295. Robins, G. On Detecting Spatial Regularity in Noisy Images [Text]/ G. Robins, B.L. Robinson, B.S. Sethi // Information Processing Letters. - 1999. - vol. 69. - p. 189-195.
296. Boxer, L. A Parallel Algorithm for Approximate Regularity [Text]/ L. Boxer, R. Miller // Information Processing Letters. - 2001. - vol. 80. - p. 311-316.
297. Sujni, P. Parallel and Distributed Data mining [Text]/ P. Sujni // New Fundamental Technologies in Data mining. - 2011. - p. 43-54.
298. Talia, D. Parallelism in Knowledge Discovery Techniques [Text]/ D. Talia // Proceedings of the 6th International Conference on Applied Parallel Computing Advanced Scientific Computing. - London, UK.: Springer-Verlag, 2002. - p. 127138.
299. Satuluri, V. A survey of parallel algorithms for classification [Text]/ V. Satulur. - 2007. - (http://citeseerx.ist.psu. edu/viewdoc/summary?doi=10.1.1.126.5567).
300. Zaki, M.J. Parallel classification for data mining on shared memory multiprocessors [Text]/ M. J. Zaki, C.T. Ho, R. Agrawal // 15th IHHH Intl. Conf. on Data Engineering. - IEEE,1999. - p. 1 - 8.
301. Mehta, M. SLIQ: A fast scalable classier for data mining [Text]/ M. Mehta, R. Agrawal, J. Rissanen // Proc. of the Fifth Intl Conference on Extending Database Technology (HDBT). - 1996. - p. 18 -33.
302. Shafer, J. Sprint: A scalable parallel classier for data mining [Text]/ J. Shafer, R. Agrawal, M. Mehta // 22nd VLDB Conference. - 1996. - 544--555
303. Kufrin, R. Decision trees on parallel processors [Text]/ R. Kufrin // Parallel Processing for Artificial Intelligence. - Elsevier-Science, 1997 - p. 11 - 20.
304. Joshi, M. ScalParC: A New Scalable and Efficient Parallel Classification Algorithm for Mining Large Datasets [Text]/ M. Joshi, G. Karypis, V. Kumar // Proceedings of the First Merged International Parallel Processing Symposium and Symposium on Parallel and Distributed Processing. - IEEE,1998. - p. 1-8.
305. Chattratichat, J. Large scale data mining: Challenges and responses [Text]/ J. Chattratichat, et al. // In 3rd Intl. Conf. on Knowledge Discovery and Data mining. -AAAI, 1997. - p.143 - 146.
306. Kim, W. Parallel clustering algorithms: survey. [Text]/ W. Kim. - Spring, 2009. - 32 p.
307. Zaki, M.J. Agrawal R. Parallel classification for data mining on shared memory multiprocessors [Text]/ M.J. Zaki, C.T. Ho // 15th IEEE Intl. Conf. on Data Engineering. - IEEE, 1999. - p. 1 -22.
308. Amado, N. Exploiting Parallelism in Decision Tree Induction [Text]/ N. Amado, J. Gama, F. Silva. //Parallel and Distributed computing for Machine Learning. Cavtat-Dubrovnik, Croatia. - 2003. - 1-9.
309. Williams, G. J. Inducing and Combining Decision Structures for Expert Systems. PhD thesis [Text]/ Williams G. J. - The Australian National University, 1990. - 183 p.
310. Provost, F. J. Scaling up: Distributed machine learning with cooperation [Text]/ F. J. Provost, D. N. Hennessy // Thirteenth National Conference on Artificial Intelligence (AAAI-96). - 1996. - p. 74-79.
311. Hall, O. L. Learning rules from distributed data [Text]/ O. L. Hall, N. Chawla, W. K. Bowyer // In Workshop on Large - Scale Parallel KDD Systems (KDD99). -1999. p. 77-83.
312. Chan, P. Experiments on multistrategy learning by meta-learning [Text]/ Chan P., Stolfo S. // Proceeding of the second international conference on information knowledge management. - AAAI Press, 1993. - p. 314-323.
313. Chan, P. Toward scalable learning with non-uniform class and cost distribution: A case study in credit card fraud detection. [Text]/ Chan P., Stolfo S. // Proceeding of the fourth international conference on knowledge discovery and data mining. - AAAI Press, 1998. - p.164 - 168.
314. Chan, P. Toward parallel and distributed learning by meta-learning [Text]/ Chan P., Stolfo S. // Working notes AAAI work knowledge discovery in database. - AAAI Press, 1993. - p. 227-240.
315. Ranka, S. Clustering on a Hypercube Multicomputer [Text]/ S. Ranka, S.Sahni // IEEE Transactions on Parallel and Distributed Systems. - 1991.- vol. 2, n.2. - p. 129137.
316. Johnson, H. Collective, Hierarchical Clustering From Distributed, Heterogeneous Data. [Text]/ H. Johnson, H. Kargupta // In Large-Scale Parallel KDD Systems. Lecture Notes in Computer Science, Springer. - 1999. - vol. 1759. - p. 221-244.
317. Goil, S. H. N. MAFIA: Efficient and scalable subspace clustering for very large data sets. Technical Report 9906-010 [Text]/ S. H. N. Goil, A. Choudhary - Center for Parallel and Distributed Computing, Northwestern University. - 1999. - 20 p.
318. Judd, D. Large-scale parallel data clustering [Text]/ D. Judd, P. McKinley, A. Jain // Intl Conf. Pattern Recognition. - IEEE, 1996. - p. 871 - 876.
319. Kashef, R. Cooperative Clustering Model and Its Applications. PhD thesis [Text]/ R. Kashef. - University of Waterloo, Department of Electrical and Computer Enginnering, 2008. - 170 p.
320. Hammouda, K. M. Distributed collaborative web document clustering using cluster keyphrase summaries [Text]/ K. M. Hammouda, M. S. Kamel // Information Fusion. - 2008. - vol. 9, n.4. - p 465 - 480.
321. Deb, D. Distributed document clustering using word-clusters [Text]/ D. Deb, R. A. Angryk // Computational Intelligenceand Data mining. CIDM 2007. IHHH Symposium. - 2007. - p. 376-383.
322. Li, T. Algorithms for Clustering High Dimensional and Distributed Data [Text]/ T. Li, S. Zhu, M. Ogihara // Intelligent Data Analysis Journal. - 2003. - 7(4) - p. 136.
323. Kargupta, H. Scalable, distributed data mining using an agent based architecture [Text]/ H. Kargupta, I. Hamzaoglu, B. Stafford // Proceedings the Third International Conference on the Knowledge Discovery and Data mining. - Menlo Park, California: AAAI Press, 1997 - p. 211-214.
324. Samatova, N. F. An efficient cover-based merging of clustering hierarchies from distributed datasets [Text]/ N. F. Samatova et.al. // Distrib. Parallel Databases. -2002. - 11(2). - p. 157-180.
325. Kargupta, H. Distributed clustering using collective principal component analysis [Text]/ Kargupta H., et.al. // Knowl. Inf. Syst. - 2001. - 3(4). - p. 422-448.
326. Dhillon, I. S. A data-clustering algorithm on distributed memory multiprocessors [Text]/ I. S. Dhillon, D. S. Modha // Workshop on Large-Scale Parallel KDD Systems. -. London : Springer-Verlag, 2000. - p. 245-260.
327. Zhang, B. Accurate recasting of parameter estimation algorithms using sufficient statistics for efficient parallel speed-up: Demonstrated for center-based data clustering algorithms [Text]/ B. Zhang, Hsu Meichun, G. Forman // In PKDD '00. -London: Springer-Verlag, 2000. - p. 243-254.
328. Januzaj, E. DBDC: Density based distributed clustering [Text]/ E. Januzaj, H.-P. Kriegel, M. Pfeifle // EDBT. Lecture Notes in Computer Science. Springer. - 2004. -vol. 2992 - p. 88-105.
329. Xu, X. A fast parallel clustering algorithm for large spatial databases [Text]/ X. Xu, J. Jager, H.-P. Kriegel // Data Min. Knowl. Discov. - 1999. - 3(3). - p. 263-290.
330. Klusch, M. Agent-based distributed data mining: The KDEC scheme. Intelligent Information Agents: The AgentLink Perspective [Text]/ M. Klusch, S. Lodi, G. Moro // Lecture Notes in Computer Science. Springer. - 2003. - vol. 2586. - p. 104-122.
331. Klusch, M. Distributed clustering based on sampling local density estimates [Text]/ M. Klusch, S. Lodi, G. Moro // International Joint Conference on Artificial Intelligence (IJCAI), Acapulco, Mexico. - 2003. - p. 485-490.
332. Zaki, M. Parallel and distributed association mining: a survey [Text]/ M. Zaki // IEEE Concurrency.- 1999. - 7(4). - p.14- 25.
333. Strehl, A. Cluster ensembles - a knowledge reuse framework for combining multiple partitions [Text]/ A. Strehl, J. Ghosh // Mach. Learn. Res. - 2003. - 3. - P. 583-617.
334. Fred, A. L. N Data clustering using evidence accumulation [Text]/ A. L. N. Fred, A. K. Jain // Pattern Recognition proceedings 16th International Conference. -London : Springer-Verlag, 2002. - vol.4. - p. 443-452.
335. Nicoloyannis, J. A method for aggregating partitions, applications in k.d.d. [Text]/ J. Nicoloyannis, N. Nicoloyannis // PAKD. Lecture Notes in Computer Science. Springer. - 2003. - vol. 2637. - p. 411-422.
336. Merugu, S. Privacy-preserving distributed clustering using generative models [Text]/ S. Merugu, J. Ghosh // ICDM. IEEE Computer Society. - IEEE, 2003. - p. 211-218.
337. Vaidya, J. Privacy-preserving k-means clustering over vertically partitioned data [Text]/ J. Vaidya, C. Clifton // KDD. ACM. - NY.: ACM, 2003. - p. 206-215.
338. Hammouda, K. M. HP2PC: Scalable hierarchically-distributed peer-to-peer clustering [Text]/ K. M. Hammouda, M. S. Kamel // In SDM. SIAM. - IEEE, 2007. -p. 681 - 698.
339. Datta, S. K-means clustering over a large, dynamic network [Text]/ S. Datta, C. Giannella, H. Kargupta // Proceedings of the 2006 SIAM International Conference on Data Mining. - SIAM, 2006. - p. 153 - 164.
340. Zaki, M. J. Parallel algorithms for discovery of association rules [Text]/ Zaki M. J., et. al. // Data mining and Knowledge Discovery. An International Journal, special issue on Scalable High-Performance Computing for KDD. - 1997. - 1(4). - p. 343373.
341. Pramudiono, I. Tree structure based parallel frequent pattern mining on PC cluster [Text]/ I. Pramudiono, M. Kitsuregawa // Proc. of the 14th Int'l Conf. on Database and Expert Systems Applications. - Springer, 2003. - p. 537-547.
342. Zaki, M.J. Parallel data mining for association rules on shared-memory multiprocessors [Text]/ Zaki M. J., et. al. //Supercomputing'96. - Springer, 1996. - p.1-18.
343. Cheung, D. Asynchronous parallel algorithm for mining association rules on shared-memory multi-processors [Text]/ D. Cheung, K.Hu, S. Xia // 10th ACM Symp. Parallel Algorithms and Architectures. - NY.:ACM, 1998. - p. 279-288.
344. Shintani, T. Hash based parallel algorithms for mining association rules [Text]/ T. Shintani, M.Kitsuregawa // 4th Intl. Parallel and Distributed Info. Systems. -IEEE, 1996. - p. 19-30.
345. Zaki, M.J. Parallel algorithms for fast discovery of association rules/ Zaki M. J., et. al. // Data mining and Knowledge Discovery: An International Journal. -1997. -vol.1(4). - p. 343-373.
346. Mueller. Fast Sequential and ParallelAlgorithms for Association Rule Mining: A Comparison [Text]/ Mueller // Tech. Report CS-TR-3515. - College Park, Md: Univ. of Maryland,1995 - 76 p.
347. Park, J.S. Efficient Parallel Data mining for Association Rules [Text]/ J. S. Park, M. Chen, P. S. Yu // Proc. ACM Intl Conf. Information and Knowledge Management. - NY.: ACM Press. - 1995. - p. 31-36.
348. Cheung, D. A Fast Distributed Algorithm for Mining Association Rules [Text]/ D. Cheung et al. // Proc. 4th Intl Conf. Parallel and Distributed Information Systems. - IEEE, 1996. - p. 31-42.
349. Agrawal, R. Parallel Mining of Association Rules [Text]/ R. Agrawal, J. C. Shafer // IEEE Transactions on Knowledge and Data Engineering. - 1996. - vol. 8, n. 6. - p. 962 - 969.
350. Han, E.-H. Scalable Parallel Data Mining For Association Rules [Text]/ E.-H. Han, G. Karypis, V. Kumar // Proceedings of the ACM SIGMOD Conference. -1997. - p. 277-288.
351. Zaki, M. J. New Parallel Algorithms for Fast Discovery of Association Rules [Text]/ M. J. Zaki, et.al // Data Mining and Knowledge Discovery. - 1997. - vol. 1, n. 4. - p. 343-373.
352. Harada, L. Dynamic Skew Handling in Parallel Mining of Association Rules [Text]/ L. Harada et. al. // Proceedings of the 7th International Conference on Information and Knowledge Management. - 1998. - p.76-85.
353. Себеста, Р.У. Основные концепции языков программирования [Текст]/ Р.У. Себеста— 5-е изд. — М.: Вильямс, 2001. - 672 c.
354. Church, A. Some properties of conversion [Text]/ A. Church, J. Barkley Rosser // Trans. AMS. - 1936. - 39. - 472-482.
355. Keller, R. M. A fundamental theorem of asynchronous parallel computation [Text]/ Keller R. M // Proc. of the Sagamore Comput. Conf. Parallel Process. Lecture Notes on Computer Science. V. 24. — Berlin: Springer-Verlag, 1975. — p. 102-112.
356. Bishop, C. Pattern recognition and machine learning [Text]/ Bishop, C. - Berlin: Springer, 2006 - 738 p.
357. Кнут, Д. Искусство программирования, том 1. Основные алгоритмы [Текст]/ Д. Кнут — 3-е изд.— М.: «Вильямс», 2006. — С. 720.
358 Lee, C. Y. An algorithm for path connection and its applications [Text]/ C. Y. Lee // IRE Transactions on Electronic Computers. - 1961. - EC-10(3). - p. 346-365.
359 Hockney, R. W.. The communication challenge for MPP: Intel Paragon and Meiko CS2 [Text]/ Roger W. Hockney // Parallel Computing. —1994. — Vol. 20, no. 3. — P. 389-398
360 Vu, N. A SLOC Counting Standard [Text]/ Vu N. et.al. - Center for Systems and Software Engineering , University of Southern California, 2007. - p. 1-15.
361. Холод, И.И. Архитектура «облака» интеллектуального анализа данных на основе библиотеки алгоритмов с блочной структурой [Текст]/ И.И. Холод // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2014. - № 6. - C. 34-40.
362 Холод, И.И. Подготовка распределенных разнородных данных к интеллектуальному анализу данных [Текст]/ И.И. Холод и др. // Сборник докладов XVIII Международной конференции по мягким вычислениям и измерениям SCM'2015. - СПб.: изд. Известия-ЛЭТИ, 2015. - с. 205-207.
363 Холод, И. И. Интерфейс к облачному сервису интеллектуального анализа данных [Текст]/ И. И. Холод, И. А. Строев, О. С. Беляева // Сборник докладов XVIII Международной конференции по мягким вычислениям и измерениям SCM'2015. - СПб.: изд. Известия-ЛЭТИ, 2015. - с. 202-204.
364 Макаренко, Д.М. На орбитальных рубежах [Текст]/ Д.В. Макаренко, А. Ю. Потюпкин. - М.: Academia, - 2008. - 280 с.
365 Холод, И.И. Построение единого унифицированного информационно-аналитического пространства на базе защищенных облачных технологий [Текст]/ И.И. Холод, Е.В. Постников // III Всероссийская научно-техническая конференция. Радиотехнические Информационные Системы ВК0-2015. - М.: изд-во МГТУ им. Н.Э. Баумана, 2015 -c.405 - 412.
366 Холод, И. И. Единая информационно-аналитическая платформа на базе защищенных облачных технологий для космических войск [Текст]/ И.И. Холод, С.А. Беляев, А. И. Вайнтрауб // II Всероссийская научно-техническая конференция. Теоретические и прикладные проблемы развития и совершенствования автоматизированных систем управления военного назначенияю - 2015. - с.230 - 238.
367 Холод, И.И. Технология трёхмерного моделирования космической обстановки на основании информации, поступающей в реальном времени
[Текст]/ И.И. Холод, С.А. Беляев, В.А. Ежов // III Всероссийская научно-техническая конференция. Современные проблемы создания и эксплуатации вооружения, военной и специальной техники. - 2016. - с.217-221.
368 Холод, И.И. Сбор измерительной информации с распределенных измерительных средств в режиме реального времени [Текст]/ И.И. Холод. // ИЗВЕСТИЯ СПбГЭТУ «ЛЭТИ». - 2016. - № 9. - C. 34-40.
369 Kholod, I. Distributed Measurement Data Gathering about Moving Objects [Text]/ I. Kholod, N. Plokhoy, A. Shorov // Wireless Communications and Mobile Computing. -2017. - vol. 2017. - p. 1-13.
370 Kholod, I. Fog computing for telemetry gathering from moving objects [Text]/ I. Kholod, N. Plokhoi, A. Shorov // Springer. Lecture Notes in Computer Science. -2017. - vol. 10531. - p. 498-509.
371 Kholod, I. A. Smart collection of measurement from moving objects [Text]/ Kholod, I. et. al. // Vibroengineering Procedia. - 2017. - vol. 12. - p. 166-171.
Приложение A. Модели знаний
A.1 Элемент модели знаний - предикат
Одним из основных элементов многих моделей знаний является предикат, который описывает некоторое условное выражение. В стандарте PMML он представлен как тип PREDICATE (Рисунок А.1).
Рисунок А.1 - PMML модель предиката. Формально он может быть описан как элемент модели знаний: e = <{aj, op, Vj.q, bo}, (eb e2, ..., eb ..., eg}>, где
- aj - атрибут входного набора данных aj е A;
- op - операция сравнения принимающая одно из следующих значений: equal, notEqual, lessThan, lessOrEqual, greaterThan, greaterOrEqual, isMissing, isNotMissing;
- Vj.q - значение атрибута aj (vj.qeD(aj));
- bo - булевский оператор, принимающий одно из следующих значений: and, or, xor или surrogate;
- ei - предикат входящий в состав составного предиката.
А.2 Модель знаний - набор классификационных правил
В стандарте PMML набор правил представлен моделью RuleSet (Рисунок А.2.). В соответствии с этим модель знаний, представляющая набор правил описывается следующим образом:
mR = {eo, ei} = {eo, <{curr, size, n}, {eu, ei.2,..., ei.p, ..., ei.g}>}, где
- n e PC- вычисляемый параметр элемента модели знаний e1, определяющий количество векторов удовлетворяющих правилам (корректных векторов) входящих в множество e1.L (данное свойство соответствует атрибуту nbCorrect элемента RuleSet);
- e2p - классификационное правило, простейший вид которого может быть определен как набор параметров:
ei.p = <p, n>, где
- идентификационными параметрами P1 являются:
- p - предикат правила (соответствует элементу SimplePredicat);
CC
- вычисляемым параметром P является: пе P свойство, определяющее количество корректных векторов - векторов для которых данное правило является верным (соответствует атрибуту nbCorrect элемента SimpleRule на):
n = |{Xj : Xj eX, (ak(Xj) = ук.чи at(xj) = vtp)}|.
Рисунок А.2 - PMML модель знаний - набор классификационных правил.
A.3 Модель знаний - наивный байесовский классификатор
В стандарте PMML модель знаний, описывающая наивный байесовский классификатор (Naïve Base), представлена PMML моделью NaiveBayesModel (Рисунок А.3). В соответствии с этим модель знаний, представляющая байесовскую модель, описывается следующим образом:
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.