Разработка методов и средств защищенного сбора данных окружений Интернета Вещей (ИВ) тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат наук Аунг Мьо То

  • Аунг Мьо То
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.15
  • Количество страниц 297
Аунг Мьо То. Разработка методов и средств защищенного сбора данных окружений Интернета Вещей (ИВ): дис. кандидат наук: 05.13.15 - Вычислительные машины и системы. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2020. 297 с.

Оглавление диссертации кандидат наук Аунг Мьо То

Оглавление

Реферат

Synopsis

Введение

Глава 1. Анализ моделей, методов и средств сбора данных

в интернете вещей

1.1. Основные характеристики потоков данных в сетях ИВ

1.2. Анализ коммуникационных технологий для сбора данных в ИВ

1.2.1. Протоколы обмена сообщениями

1.2.2. Протоколы беспроводной связи

1.3. Анализ технологий сбора данных ИВ

1.4. Анализ архитектур систем ИВ и систем социального ИВ

1.5. Анализ угроз безопасности сетей ИВ

1.5.1. Угрозы безопасности систем ИВ на физическом уровне

1.5.2. Угрозы безопасности систем ИВ на сетевом уровне

1.5.3. Угрозы безопасности систем ИВ на уровне обработки данных

1.5.4. Угрозы безопасности систем ИВ на прикладном уровне

1.6. Выводы по первой главе

Глава 2. Определение требований к сбору данных в сетях мобильного ИВ

2.1. Основные требования к сбору данных в сетях ИВ

2.2. Особенности сетей динамического ИВ

2.3. Ограничения возможностей сбора данных в сетях ИВ

2.4. Анализ моделей сбора данных в сетях ИВ

2.5. Постановка задачи исследования

2.5.1. Требования к сбору данных с учетом свойств

сетей мобильного ИВ

2.5.2. Требования к управлению данными в сетях мобильного ИВ

2.5.3. Требования к безопасности сбора данных

в сетях мобильного ИВ

2.6. Выводы по второй главе

Глава 3. Комплексная модель сбора данных в сетях мобильного ИВ

3.1. Структура комплексной модели сбора данных

в сетях мобильного ИВ

3.2. Модель сбора данных в сетях мобильного ИВ

на физическом и сетевом уровнях

3.2.1. Модели и методы социальных сетей для мобильного ИВ

на физическом и сетевом уровнях

3.2.2. Модели и методы маршрутизации данных для мобильного ИВ

на физическом и сетевом уровнях

3.2.3. Модели и методы, обеспечивающие безопасность сбора данных

в мобильном ИВ на физическом и сетевом уровнях

3.3. Модель сбора данных в сетях мобильного ИВ

на уровне обработки данных

3.3.1. Модели и методы интеллектуального анализа данных

для мобильного ИВ

3.3.2. Модели и методы классификации данных для мобильного ИВ

3.3.3. Модели и методы кластеризации данных для мобильного ИВ

3.4. Комплексная модель сбора данных в сетях мобильного ИВ на основе существующих моделей и методов ИВ

и методов анализа социальных сетей

3.5. Выводы по третьей главе

Глава 4. Методы сбора данных в сетях мобильного ИВ

4.1. Методы сбора данных в сетях мобильного ИВ на физическом уровне

4.1.1. Маршрутизация данных в сетях мобильного ИВ

4.1.2. Методы обеспечения безопасного сбора данных

в сетях мобильного ИВ

4.1.3. Методы повышения эффективности сбора данных в сетях мобильного ИВ на основе моделей и методов социальных сетей

4.2. Методы обработки данных мобильного ИВ

на основе облачных и туманных вычислений

4.3. Выводы по четвертой главе

Глава 5. Экспериментальные исследования разработанных моделей и методов

на модельных данных и оценка результатов моделирования

5.1. Экспериментальные исследования методов сбора данных в сетях мобильного ИВ на основе технологий кластеризации и Fog-технологий

5.1.1. Разработка средств сбора данных в сетях мобильного ИВ

5.1.2. Экспериментальное исследование метода маршрутизации данных на основе алгоритма LEACH-M в среде Fog

5.1.3. Алгоритм построения моделей энергопотребления сетей

5.1.4. Экспериментальное исследование метода обеспечения безопасного сбора данных с использованием

алгоритма маршрутизации LEACH-M в среде Fog

5.2. Экспериментальное исследование метода повышения эффективности сбора данных на основе методов и моделей социальных сетей

5.2.1. Алгоритм определения дружеских отношений

между мобильными устройствами

5.2.2. Моделирование установления дружеских отношений

между устройствами

5.3. Экспериментальное исследование метода повышения эффективности классификации разнородных данных, полученных от устройств ИВ

5.3.1. Структура модели классификации данных

на основе Fog-вычислений

5.3.2. Алгоритм классификации данных на основе Fog-вычислений

5.3.3. Моделирование классификации данных

на основе Fog-вычислений

5.4. Применение моделей, методов и средств сбора данных

при решении прикладных задач

5.5. Выводы по пятой главе

Заключение

Список литературы

Список рисунков

Список таблиц

Приложение 1. Акты внедрения

Приложение 2. Тексты публикаций

РЕФЕРАТ

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка методов и средств защищенного сбора данных окружений Интернета Вещей (ИВ)»

Общая характеристика работы

Интернет вещей (ИВ; Internet of Things, IoT) - это новая концепция, которая позволяет людям и умным вещам взаимодействовать друг с другом в любое время, в любом месте. Такими умными вещами могут быть датчики / исполнительные механизмы, которые способны управлять и передавать данные внешним потребителям или внутри сети без вмешательства человека. В последние годы ИВ стал оказывать большое влияние на развитие многих областей, таких как промышленность, здравоохранение, транспорт, системы управления для государственных организаций, также все большую популярность набирает концепция умных городов; было реализовано много приложений ИВ, которые позволили расширить возможности существующих информационных систем, повысить их производительность [1].

Обзоры технологий, используемых в ИВ, и приложений ИВ представлены в работах [2]-[5]. К применяемым в ИВ технологиям относятся: технологии проектирования архитектур систем; сетевые технологии; коммуникационные технологии; технологии обнаружения и поиска информации; технологии обеспечения безопасности и конфиденциальности данных. Разработано множество приложений ИВ, среди которых: умные сети, умный транспорт, умный город, умный трафик и умное здравоохранение.

Основные фундаментальные положения ИВ определяют следующие новые возможности для развития таких предметных областей, как:

- связь с глобальной информационной и коммуникационной инфраструктурой;

- взаимодействие между устройствами, имеющими различные аппаратные и программные платформы, использование ими различных сетей передачи данных;

- динамическое изменение состояния и поведения устройств, их местоположения.

В период с 1994 по 1999 г. ИВ разрабатывался на основе технологий RFID (Radio-Frequency Identification); в начале 2000 г. в ИВ стали использоваться бес-

проводные сенсорные сети. В последующие годы умные устройства, веб-приложения / сервисы постоянно совершенствовались.

До 2010 г. интернет вещей был в основном ориентирован на киберфизические системы (КФС, англ. Cyber-Physical System - CPS), велась разработка приложений в различных экспериментальных областях, исследовались вопросы обеспечения взаимодействия между виртуальным и физическим миром. Результаты исследований показали, что возможности КФС и ИВ частично совпадают. КФС и ИВ могут получать информацию о состоянии физических объектов с помощью интеллектуальных сенсорных устройств без участия человека. После обработки и анализа собранные данные предоставляются приложениям через интеллектуальные сервисы. Основное различие между КФС и ИВ заключается в том, что КФС рассматривается как «система», а ИВ - как «интернет-технология». Однако требования, предъявляемые к КФС и ИВ, и проблемы, возникающие при их реализации, являются схожими.

Впоследствии усилия исследователей сосредоточились на конвергенции CPS и социальных систем, в результате чего появились киберфизические социальные системы (КФСС, англ. Cyber-Physical Social System - CPSS) [6]. В CPSS рассматриваются социальные отношения и социальные взаимодействия, наблюдаемые в социальных сетях, таких как Facebook, Twitter, LinkedIn и др., применительно к объектам физического мира. Применение методов анализа социальных сетей позволяет устанавливать так называемые «социальные взаимоотношения» между устройствами. В результате создаются оверлейные социальные сети, которые используются для сбора и поиска информации. Концепции CPS и CPSS перекрываются в случае создания систем социального интернета вещей (СИВ) [7]. В работе [8] представлены первые идеи применения методов анализа социальных сетей к ИВ. Согласно работе [8], применение концепций социальных сетей в ИВ позволяет получить следующие преимущества:

- гарантия навигации по сети;

- возможность устанавливать уровень доверия между устройствами;

- возможность повторного использования решений из области социальных сетей для решения проблем ИВ;

- прогнозирование поведения устройств ИВ.

К 2030 г., в соответствии с прогнозом "Cisco", 500 миллиардов устройств будут подключены к Интернету, будет происходить интеграция интернета вещей со многими другими технологиями, начнут появляться новые экосистемы.

Традиционно к ИВ предъявляются следующие общие требования: надежный и безопасный сбор данных при ограничениях на время сбора и обработки данных, объемы потребляемой энергии.

Основными задачами ИВ являются: сбор и хранение больших объемов данных, управление данными, совместное использование и управление ресурсами, агрегирование и извлечение информации, а также обеспечение высокого качества обслуживания сети (Quality of Service - QoS).

Актуальность темы исследования. В настоящее время сложность задачи сбора данных в ИВ существенно возросла, что связано с переходом от использования отдельных простых статических устройств к использованию множества интеллектуальных мобильных устройств, таких как мобильные телефоны, умные часы, умные транспортные средства, мобильные устройства в умном городе. Современные сети мобильных устройств представляют собой гетерогенные сети со сложной динамической структурой. При сборе данных в таких сетях возникают следующие новые проблемы:

1) появляются новые возможности для атак. При динамическом изменении сетевой структуры возникают сложности с определением уровня доверия между устройствами;

2) часто возникают ситуации, когда данные не могут быть своевременно собраны и обработаны, а также ситуации, когда требуемые данные получены быть не могут. Основной причиной возникновения таких ситуаций является сложная структура сети;

3) увеличивается энергопотребление. Из-за мобильности устройства потребляют больше энергии, при этом их ресурсы остаются прежними.

Таким образом, сбор данных в динамических сетях ИВ со сложной структурой - актуальная проблема. Требуется новое решение, обеспечивающее выполнение основных требований, предъявляемых к ИВ, при сборе данных в сетях мобильных устройств.

Степень разработанности темы исследования. Для решения проблем безопасности при сборе данных в мобильном ИВ могут использоваться платформы промежуточного программного обеспечения. Такие платформы рассмотрены в работах Nikos Fotiu, Ryuji Oma, Hongyan Cui, Amir Modarresi и Prasenjit Maiti [9]-[12]. В создаваемых на их основе системах для обеспечения безопасной передачи данных предусматривается применение систем шифрования. Многие из существующих алгоритмов шифрования не применимы при использовании устройств с ограниченными ресурсами, которые достаточно широко распространены в ИВ. Шифрование данных приводит к дополнительным накладным расходам на передачу данных, в результате чего увеличивается трафик в сети. Это обусловливает рост энергопотребления сети и сокращение времени ее жизни. Вопросы безопасной передачи данных между конечными устройствами и серверами в ИВ с применением механизмов шифрования рассматривались в работах Dattana, Tao Zhu и др. [13], [14].

Проблемы задержек при сборе и передаче данных и высокого энергопотребления решаются за счет использования алгоритмов кластерного анализа. Методы кластерного анализа для ИВ разрабатывались Alkhamisi, Rahman и L. González-Manzano [15], [16], [19]. Их применение позволяет снизить потребление энергии и задержку передачи данных. Однако в указанных работах проблемы безопасности передачи данных не рассматриваются.

Таким образом, в настоящее время отсутствуют решения, обеспечивающие одновременное выполнение трех основных требований, предъявляемых к ИВ: безопасности сбора и передачи данных, высокой скорости отклика сети и низкого уровня энергопотребления.

Цель диссертационного исследования - разработка моделей, методов и средств сбора данных для мобильного ИВ, одновременно отвечающих повышенным требованиям к скорости сбора, обработки и передачи данных, объемам затрачиваемых энергоресурсов, уровню безопасности передаваемых данных в условиях динамического изменения структуры сетей.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Выполнить анализ имеющихся возможностей для сбора данных в мобильном ИВ, а также возможные угрозы безопасности сетей мобильного ИВ и ожидаемые негативные последствия при реализации данных угроз.

2. Разработать требования к моделям, методам и средствам сбора данных в сетях мобильного ИВ с учетом динамической структуры сетей и широкого использования в них устройств с ограниченными ресурсами.

3. Разработать модели сбора данных, а также методы, обеспечивающие выполнение требований по уровню безопасности данных, скорости их сбора, обработки и передачи потребителям, объемам затрачиваемых энергоресурсов для сетей мобильного ИВ.

4. Провести экспериментальные исследования разработанных моделей и методов на модельных данных и оценить результаты моделирования.

5. Разработать средства сбора данных на основе предложенных новых моделей и методов для систем мобильного ИВ, в частности систем умного транспорта, умного города, умных зданий.

Объектом исследования являются процессы сбора данных в мобильном интернете вещей.

Предметом исследования являются модели, методы и средства сбора данных, обеспечивающие выполнение требований, предъявляемых к мобильному ИВ.

Научная новизна результатов, выносимых на защиту:

1. Разработана комплексная модель сбора данных в мобильном ИВ, отличающаяся тем, что позволяет одновременно выполнять требования по скорости реакции сети, объемам потребляемых энергоресурсов, безопасности данных в условиях сетей с динамической структурой за счет совместного использования существующих моделей и методов, применяемых при работе в ИВ, и динамической настройки мобильных устройств, а также применения моделей и методов анализа социальных сетей.

2. Разработан метод, обеспечивающий повышение эффективности маршрутизации данных мобильного ИВ, позволяющий сократить время задержки при сборе, обработке и передаче данных пользователям, а также снизить объемы потреб-

ляемой при этом энергии в условиях сетей с динамической структурой за счет формирования кластерной структуры сетей и построения для них моделей энергопотребления.

3. Предложен метод, обеспечивающий безопасный сбор данных в мобильном ИВ, отличающийся тем, что позволяет осуществлять безопасный сбор данных с мобильных устройств, в том числе имеющих ограниченные вычислительные ресурсы, за счет использования технологий кластеризации при применении существующих моделей и методов обеспечения безопасного сбора данных в сетях ИВ.

4. Разработан метод повышения эффективности сбора данных в мобильном ИВ, позволяющий повысить уровень безопасности данных, сократить время их сбора, обработки и передачи и объемы расходуемых сетями ресурсов за счет использования моделей и методов анализа социальных сетей в сетях мобильных устройств.

5. Предложен метод обработки данных мобильного ИВ, отличающийся тем, что позволяет обеспечить эффективную обработку данных мобильных устройств в туманных (Fog) и облачных средах за счет преобразования собираемых данных и применения при их обработке методов классификации.

Теоретическая значимость. Разработаны модели и методы, которые обеспечивают решение задач сбора данных в новых условиях, определяемых мобильным ИВ. Новые возможности обеспечиваются за счет снижения объема потребляемой энергии, сокращения времени сбора, передачи и обработки данных ИВ, а также повышения уровня безопасности сетей относительно существующих решений. Предлагаемое решение является интеграционным с возможностями динамической настройки. Его основу составляют многие связанные между собой существующие модели, методы и алгоритмы ИВ, а также модели и методы анализа социальных сетей и методы машинного обучения. При этом существующие методы получили развитие в контексте сетей мобильных устройств. В частности, определены схемы «дружбы» между устройствами, а также схемы минимизации и максимизации «количества друзей», предложены способы формирования «списков друзей».

Практическая значимость. Результаты исследования могут быть применены при сборе данных в системах мобильного ИВ, требующих высокого уровня безопасности, высокой скорости сбора и обработки данных в сети и низкого уровня энергопотребления. Предложенные модели и методы позволяют разрабатывать и использовать программные системы мобильного ИВ для решения прикладных задач в различных областях. Основой для создания новых прикладных программных систем могут служить разработанные программные реализации предложенных в диссертационной работе моделей, методов и алгоритмов.

Положения, выносимые на защиту:

1. Разработанная комплексная модель сбора данных в сетях мобильного ИВ, основанная на совместном использовании технологии Fog-вычислений и технологии кластеризации данных, обеспечивает требуемую производительность сбора и обработки данных в сетях с динамической структурой.

2. Существующие методы повышения эффективности маршрутизации данных ориентированы на использование в статических сетях. Разработанный новый метод для сетей мобильного ИВ обеспечивает сокращение задержек при сборе, обработке и передаче данных, а также за счет выявления «мертвых» узлов позволяет снижать объемы потребляемой сетями энергии.

3. Разработанный метод безопасного сбора данных в мобильном ИВ, в отличии от существующих методов, предназначенных для использования в статических сетях, обеспечивает требуемый уровень безопасности за счет выявления возможных вредоносных узлов в сетях ИВ, которые не могут использоваться в качестве центральных элементов кластеров устройств и осуществлять сбор данных с конечных узлов и их передачу Fog-сервисам.

4. Разработанный метод повышения эффективности сбора данных в сетях мобильного ИВ, основанный на использовании моделей социальных сетей, которые предусматривают установление «социальных отношений» между устройствами, в частности отношений «дружбы», позволяет повысить безопасность сбора и передачи данных между элементами сетей, сократить время их сбора и объемы расходуемых сетями ресурсов.

5. Разработанный метод обработки данных мобильного ИВ, основанный на модели классификации данных, позволяет в туманных и облачных средах за счет ее применения обеспечить высоую эффективность обработки данных мобильного ИВ.

Апробация. Результаты работы апробированы в ряде конференций, где были представлены соответствующие доклады и рабочие модели, включая конференции FRUCT 26 (Finnish-Russian University Cooperation in Telecommunication), MECO 2020 (Mediterranean Conference on Embedded Computing), DTGS 2020 (Digital Transformation & Global Society), IS' 2020 (the 10th International Conference on Intelligent System), CIS 2020 (Congress on Intelligent Systems), ИТУ-2020 (Информационные технологии в управлении).

Методы исследования. Для решения поставленных задач использовались методы обеспечения безопасности вычислительных сетей, модели и методы Fog-вычислений, алгоритмы кластерного анализа, методы оптимизации передачи данных, а также модели и методы анализа социальных сетей.

Соответствие диссертации паспорту научной специальности. Диссертационная работа соответствует паспорту научной специальности 05.13.15 «Вычислительные машины, комплексы и компьютерные сети», а проведение исследования формуле специальности. Исследование соответствует следующим пунктам паспорта специальности:

2. Теоретический анализ и экспериментальное исследование функционирования вычислительных машин, комплексов и компьютерных сетей с целью улучшения их технико-экономических и эксплуатационных характеристик.

3. Разработка научных методов и алгоритмов организации арифметической, логической, символьной и специальной обработки данных, хранения и ввода-вывода информации.

5. Разработка научных методов и алгоритмов создания структур и топологий компьютерных сетей, сетевых протоколов и служб передачи данных в компьютерных сетях, взаимодействия компьютерных сетей, построенных с использованием различных телекоммуникационных технологий, мобильных и специальных компьютерных сетей, защиты компьютерных сетей и приложений.

Степень достоверности и апробация результатов. Достоверность полученных результатов обеспечивается за счет того, что новые модели, методы и алгоритмы основаны на известных апробированных решениях. Предложенные варианты использования существующих решений в рамках новых моделей, методов и алгоритмов являются логически обоснованными, способы их применения корректными. Кроме того, достоверность научных результатов подтверждается результатами экспериментов, проведенных на модельных и реальных данных, а также результатами апробации на научных конференциях различного уровня, в том числе международных.

Внедрение результатов работы. Результаты диссертационной работы использовались при выполнении работ по бюджетной теме «Теоретические основы и алгоритмические модели когнитивного управления, взаимодействия и анализа состояния групп гетерогенных робототехнических комплексов» в рамках выполнения Санкт-Петербургским Федеральным исследовательским центром Российской академии наук государственного задания, утвержденного Минобрнауки России, в 2019-2020 гг., а также внедрены в учебный процесс Университета ИТМО и СПбГЭТУ «ЛЭТИ».

Публикации. По материалам диссертации опубликовано 5 статей, из них 2 - в изданиях, рецензируемых Web of Science или Scopus, 1 - в журнале из перечня ВАК.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения и списка использованных источников, содержащего 165 наименований. Объем работы составляет 171 страницу. Работа содержит 46 рисунков и 19 таблиц.

Содержание работы

Во введении обоснована актуальность диссертационной работы, определены цели и основные задачи исследования, формулируются научная новизна и практическая значимость полученных результатов работы.

В первой главе выполняется анализ протоколов, моделей, методов и средств сбора данных в Интернете вещей (ИВ). Базовая концепция ИВ предполагает повсеместное присутствие вещей (объектов, устройств), которые могут

взаимодействовать друг с другом для достижения общих целей. В сетях ИВ формируется множество потоков данных, каждый из которых имеет собственные характеристики. Можно выделить следующие базовые варианты взаимодействия устройств: два или более устройства ИВ напрямую соединяются и обмениваются данными друг с другом, в качестве посредника используется сервер приложений; устройство подключается напрямую к облачному сервису, управление обменом данных и трафиком сообщений выполняется поставщиком услуг; потоки данных от устройств направляются к Fog-узлам, которые размещаются максимально близко к пользователями.

В современных системах ИВ используется большое количество разных протоколов, и число их продолжает расти. Чаще всего это следующие протоколы: для передачи данных между устройствами - DDS (Data Distribution Service), WiFi; для взаимодействия с серверами: MQTT (Message Queuing Telemetry Transport), HTTP (Hypertext Transfer Protocol), XMPP (Extensible Messaging and Presence Protocol), CoAP (Constrained Application Protocol); для обмена данными между серверами - AMQP (Advanced Message Queuing Protocol). В ИВ активно используются протоколы беспроводной связи: спутниковый протокол для обмена информацией между машинами "M2M" ("Machine to Machine"); WiFi-протокол, Bluetooth-технологии, протокол ZigBee или ZWave, а также технологии RFID (Radio-Frequency Identification).

В первой главе рассмотрены также используемые в ИВ технологии сбора данных. Основными являются следующие: технологии облачных вычислений, промежуточных платформ, технологии Fog-вычислений, сенсорные технологии, шифрование данных, методы социальных сетей и методы маршрутизации данных.

В разработанной модели главное внимание сосредоточено на технологиях Fog-вычислений, методах социальных сетей и методах маршрутизации данных, поскольку именно эти методы позволяют эффективно решить поставленные задачи.

Отдельный параграф гл. 1 посвящен архитектурам систем ИВ и социального ИВ. В современных системах ИВ чаще всего используются следующие архитектурные решения: трехуровневая архитектура систем ИВ, архитектура систем ИВ с

промежуточными платформами, архитектура систем Fog-вычислений и систем социального ИВ.

Трехуровневую архитектуру можно рассматривать как классическую. В ней выделяют три уровня: физический, сетевой и уровень приложений или сервисов (прикладной). В таких системах сервисы независимы друг от друга и от физического оборудования, за счет чего обеспечивается легкий доступ к ресурсам сети из прикладного уровня.

В системах ИВ технология промежуточных платформ появилась параллельно с концепцией Fog-вычислений. Такие платформы позволяют выполнять требования по повышению уровня безопасности данных, совместному использованию ресурсов и призваны обеспечивать доступ к собираемым данным об объектах внешней среды и их взаимодействиях в любое время, в любом месте и с любого устройства.

Архитектура Fog-вычислений ориентирована на децентрализованную обработку исходных данных, собираемых с устройств. Для обработки могут применяться различные методы анализа данных, включая методы машинного обучения. Fog-обработка осуществляется в непосредственной близости от источников данных. Повышение производительности систем достигается за счет сокращение объема данных, передаваемых в облако для обработки, анализа и длительного хранения.

Архитектура систем социального ИВ предусматривает наличие в системах ИВ следующих новых функций: регистрация новых социальных объектов, создание новых групп устройств, определение «социальных отношений» между устройствами, управление установленными отношениями. Социально ориентированный подход к описанию сетей ИВ позволяет расширить традиционные модели ИВ, дополняя их социальными элементами.

Безопасность сетей ИВ должна обеспечиваться с учетом возможности возникновения задержек при передаче данных, а также ограничений на объемы энергоресурсов. Вообще проблемы безопасности применительно к ИВ стоят достаточно остро. К возможным атакам, наносящим вред безопасности данных, проводящимся злоумышленниками на сетевом уровне, относятся: атаки типа «отказ в об-

служивании» (DoS), «человек посередине», атаки на шлюзы, хранилища данных, а также атаки, построенные на основе анализа трафика, и спуфинг-атаки.

Атаки на облачные сервисы и Fog-узлы являются одними из наиболее распространенных. Наибольшим угрозам подвержены данные, передаваемые и размещаемые в облаке. Поэтому проблему обеспечения безопасности данных, размещаемых в облаке, можно считать одной из основных проблем безопасности систем ИВ. На уровне приложений возникновение проблем безопасности связано с созданием и использованием компьютерных вирусов, червей, троянских коней, шпионских программ и другого вредоносного программного обеспечения.

Выполненный анализ протоколов, моделей, методов и средств сбора данных и архитектурных решений, используемых при построении систем ИВ, показывает следующее:

- для построения систем ИВ на разных уровнях используется большое число разнообразных технологий, платформ и архитектур, что вызвано в первую очередь спецификой систем ИВ и жесткостью предъявляемых к ним требований;

- основные противоречия возникают между требованиями к скорости сбора, обработки и передачи данных, к потребляемым сетью энергоресурсам и к безопасности данных;

- для систем ИВ остро стоит вопрос безопасности, поскольку, с одной стороны, передаваемые по беспроводным сетям данные достаточно легко доступны, с другой - возможность использования «тяжелых» протоколов шифрования ограничена;

- требования должны выполняться для сетей с динамической структурой.

Кроме того, понятие «сбор данных» включает большое количество конкретных

задач. Выделение этих задач - отдельная проблема, которая рассматривается в гл. 2.

Во второй главе определяются основные требования к сбору данных в системах мобильного ИВ, рассматриваются существующие модели сбора данных, дается оценка их соответствия требованиям систем мобильного ИВ. Обозначенные требования достаточно тесно связаны друг с другом.

Современные сети ИВ имеют сложную динамическую структуру: в состав сети входит значительное число разнородных устройств, количество которых постоянно увеличивается. Производительность имеющихся сетей зависит от количества ресурсов, которые затрачиваются на сбор и обработку данных. Увеличение производительности напрямую влияет на срок жизни сетей, безопасность данных и скорость работы. Для сбора данных, их своевременной обработки и передачи потребителям системы ИВ должны быть способны воспринимать большие объемы данных, поступающие от множества устройств, а также реагировать на изменения структуры сети. Для обеспечения сбора, обработки и хранения данных ИВ требуется создание систем управления данными, а для обеспечения безопасности этих процессов - система управления безопасностью данных.

Проведен анализ требований, предъявляемых к сбору данных в динамических сетях мобильного ИВ. Определены требования к производительности систем и к безопасности. Проведенный анализ имеющихся моделей, методов и средств сбора данных в ИВ показал, что существующие решения ориентированы на выполнение отдельных требований. Общего решения, позволяющего выполнить все выявленные требования, в настоящее время не имеется.

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Список литературы диссертационного исследования кандидат наук Аунг Мьо То, 2020 год

Литература

1. Suwandhada K, Panyim K. ALEACH-Plus: An Energy Efficient Cluster Head Based Routing Protocol for Wireless Sensor Network. 7th International Electrical Engineering Congress (iEECON) (Hua Hin, Thailand, Mar. 6-8, 2019). IEEE. 2019. Pp. 1-4. DOI: 10.1109/ iEECON45304.2019.8938948.

2. Rady A, Sabor N., Shokair M, El-Rabaie E.-S.M. Mobility based genetic algorithm hierarchical routing protocol in mobile wireless sensor networks. International Japan-Africa Conference on Electronics, Communications and Computations (JAC-ECC) (Alexandria, Egypt, Dec. 17-19, 2018). IEEE. 2018. Pp. 83-86. DOI: 10.1109/JEC-ECC.2018.8679548.

3. Zhang D., Qiu J.-N., Zhang T., Wu H. New energy-efficient hierarchical clustering approach based on neighbor rotation for edge computing of loT. 28th International Conference on Computer Communication and Networks (ICCCN) (Valencia, Spain, 29 July - 1 Aug. 2019). IEEE. 2019. Pp. 1-2. DOI: 10.1109/ICCCN.2019.8847073.

4. Hao F., Kodialam M., Lakshman T.V., Mukherjee S. Online allocation of virtual machines in a distributed cloud. IEEE/ACM Transactions on Networking. 2017. Vol. 25. Iss. 1. Pp. 238-249. DOI: 10.1109/ TNET.2016.2575779.

5. Жукова Н. А., Панькин А. В. Принципы организации управления процессами обработки и анализа многомерных измерений в ИГИС // Материалы 5-й Рос. мультиконф. по проблемам управления «Информационные технологии в управлении» (ИТУ-2012) (СПб., 9-11 окт. 2012 г.). СПб.: АО Концерн «ЦНИИ "Электроприбор"», 2012. С. 403-414.

6. Zhukova N. Dynamic resources management in agile IGIS. Information Fusion and Geographic Information Systems (IF&GIS' 2015): 7th International Workshop on Information Fusion and Geographic Information Systems: Deep Virtualization for Mobile (Grenoble, France, May 18-20, 2015). V. Popovich, C. Claramunt, M. Schrenk, K. Korolenko, J Gensel (eds.). Springer International Publishing, 2015. Pp. 125-145. (Lecture notes in Geoinformation and Cartography).

7. Водяхо А.И., Жукова Н.А., Климов Н.В. и др. Вычислительные модели когнитивных систем мониторинга // Морские интеллектуальные технологии. 2018. Т. 3. № 4 (42). С. 147-153.

References

1. Suwandhada K., Panyim K. ALEACH-Plus: An Energy Efficient Cluster Head Based Routing Protocol for Wireless Sensor Network. 7th International Electrical Engineering Congress (iEECON) (Hua Hin, Thailand, Mar. 6-8, 2019). IEEE. 2019. Pp. 1-4. DOI: 10.1109/ ÍEECON45304.2019.8938948.

2. Rady A, Sabor N., Shokair M, El-Rabaie E.-S.M. Mobility based genetic algorithm hierarchical routing protocol in mobile wireless sensor networks. International Japan-Africa Conference on Electronics, Communications and Computations (JAC-ECC) (Alexandria, Egypt, Dec. 17-19, 2018). IEEE. 2018. Pp. 83-86. DOI: 10.1109/JEC-ECC.2018.8679548.

3. Zhang D., Qiu J.-N., Zhang T., Wu H. New energy-efficient hierarchical clustering approach based on neighbor rotation for edge computing of loT. 28th International Conference on Computer Communication and Networks (ICCCN) (Valencia, Spain, 29 July - 1 Aug. 2019). IEEE. 2019. Pp. 1-2. DOI: 10.1109/ICCCN.2019.8847073.

4. Hao F., Kodialam M., Lakshman T.V., Mukherjee S. Online allocation of virtual machines in a distributed cloud. IEEE/ACM Transactions on Networking. 2017. Vol. 25. Iss. 1. Pp. 238-249. DOI: 10.1109/ TNET.2016.2575779.

5. Zhukova N.A., Pankin A.V. The principles of organization management for the processing and analysis of multidimensional measurements in GIS. Materials of the 5th multiconference on management problems "Information technologies in management" (ITU-2012) (St. Petersburg, Oct. 9-11, 2012). St. Petersburg: AO Concern "TsNII 'Electropribor' ", 2012. Pp. 403-414. (In Russ.)

6. Zhukova N. Dynamic resources management in agile IGIS. Information Fusion and Geographic Information Systems (IF&GIS' 2015): 7th International Workshop on Information Fusion and Geographic Information Systems: Deep Virtualization for Mobile (Grenoble, France, May 18-20, 2015). V. Popovich, C. Claramunt, M. Schrenk, K. Korolenko, J Gensel (eds.). Springer International Publishing, 2015. Pp. 125-145. (Lecture notes in Geoinformation and Cartography).

7. KorobovD.A., LapaevM.V, VodyakhoA.I.,ZhukovaN.A. Computational models of cognitive monitoring systems. Marine Intelligent Technologies. 2018. Vol. 3. No. 4 (42). Pp. 147-153. (In Russ.)

8. Osipov V.U., Vodyaho A.I., Klimov N.V. et al. Computational and technological models of cognitive monitoring systems // Advances in Science, Technology and Engineering Systems Journal. 2019. Vol. 2. Iss. 1. Pp. 197-202.

9. Vodyaho A., Zhukova N. System of ontologies for data processing applications based on implementation of data mining techniques. Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts, AIST 2014 (Yekaterinburg, Russia, April, 2014). 2014. Vol. 1197. Pp. 102-116.

10. Коробов Д.А., Лапаев М.В., Водяхо А.И., Жукова Н.А. Модели представления данных в области медицины // Известия СПбГЭ-ТУ «ЛЭТИ». 2016. № 7. С. 7-13.

11. Водяхо А.И., Мустафин Н.Г., Жукова Н.А. Онтологический подход к построению систем мониторинга ресурсов в сетях кабельного телевидения // Известия СПбГЭТУ «ЛЭТИ». 2017. № 2. C. 29-38.

12. Жукова Н.А. Онтологические модели трансформации данных о состоянии технических объектов // Онтология проектирования. 2019. Т. 9. № 3 (33). С. 345-360.

8. Osipov V.U., Vodyaho A.I., Klimov N.V. et al. Computational and technological models of cognitive monitoring systems. Advances in Science, Technology and Engineering Systems Journal. 2019. Vol. 2. Iss. 1. Pp. 197-202.

9. Vodyaho A., Zhukova N. System of ontologies for data processing applications based on implementation of data mining techniques. Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts, AIST 2014 (Yekaterinburg, Russia, April, 2014). 2014. Vol. 1197. Pp. 102-116.

10. Korobov D.A., Lapaev M.V., Vodyakho A.I., Zhukova N.A. Data presentation models in the field of medicine. News of SPbGETU "LETI". 2016. No. 7. Pp. 7-13. (In Russ.)

11. Vodyakho A.I., Mustafin N.G., Zhukova N.A. Ontological approach to the construction of resource monitoring systems in cable television networks. News of SPbGETU "LETI". 2017. No. 2. Pp. 29-38. (In Russ.)

12. Zhukova N.A. Ontological models of data transformation on the state of technical objects. Ontology Engineering. 2019. Vol. 9. No. 3 (33). Pp. 345-360. (In Russ.)

Статья проверена программой Антиплагиат

Рецензент: Семенов А.С., канд. техн. наук; начальник отдела АО «Научно-исследовательский центр электронной вычислительной техники» (АО "НИЦЭВТ"); доцент Московского государственного университета имени М.В. Ломоносова; ведущий научный сотрудник, Высшая школа экономики. Москва, Российская Федерация. ORCID: 0000-0003-4878-6287. ResearcherlD: V-4265-2018. Scopus, AuthorlD: 57061601800

Статья поступила в редакцию 28.08.2020, принята к публикации 25.09.2020 The article was received on 28.08.2020, accepted for publication 25.09.2020

СВЕДЕНИЯ ОБ АВТОРАХ

Аунг Мьо То, аспирант факультета программной инженерии и компьютерной техники Университета ИТМО. Санкт-Петербург, Российская Федерация. E-mail: aungmyothaw52660@gmail.com

Аббас Саддам Ахмед, аспирант кафедры вычислительной техники Санкт-Петербургского электротехнического университета (ЛЭТИ) им. В.И. Ульянова. Санкт-Петербург, Российская Федерация. E-mail: saddamabbas077@ gmail.com

Жукова Наталия Александровна, кандидат технических наук, доцент; старший научный сотрудник Санкт-Петербургского института информатики и автоматизации Российской академии наук. Санкт-Петербург, Российская Федерация. РИНЦ Author ID: 222968. ORCID: 0000-0001-5877-4461. E-mail: nazhukova@mail.ru Чернокульский Владимир Викторович, аспирант Санкт-Петербургского электротехнического университета (ЛЭТИ) им. В.И. Ульянова. Санкт-Петербург, Российская Федерация. E-mail: vladimir.chernokulsky@gmail.com

ABOUT THE AUTHORS

Aung Myo Thaw, PhD student at the Faculty of Software Engineering and Computer Engineering of the ITMO University. St. Petersburg, Russian Federation. E-mail: aungmyothaw52660@gmail.com

Abbas Saddam Ahmed, PhD student at the Department of Computer Science and Engineering of the Saint-PetersburgElectrotechnicalUniversity(LETI).St.Petersburg, Russian Federation. E-mail: saddamabbas077@gmail.com Natalia A. Zhukova, Cand. Sci. (Eng.), Assoc. Prof.; senior researcher at the St. Petersburg Institute of Informatics and Automation of the Russian Academy of Sciences. St. Petersburg, Russian Federation. Researcher ID: K-9143-2018. Scopus ID: 56406142300. E-mail: nazhukova@ mail.ru

Vladimir V. Chernokulsky, PhD student of the Saint-Petersburg Electrotechnical University (LETI). St. Petersburg, Russian Federation. E-mail: vladimir.chernokulsky@ gmail.com

Fog Oriented Model for Data Collection in the Networks of Mobile Devices

Alexander Vodyaho St. Petersburg State Electrotechnical University St. Petersburg, Russia aivodyaho@mail.ru

Radoslav Yoshinov Educational Telematics Bulgarian Academy of Sciences Sofia, Bulgaria yoshinov@cc.bas .bg

Nataly Zhukova St. Petersburg Institute for Informatics and Automation Russian Academy of Sciences St. Petersburg, Russia nazhukova@mail. ru

Aung Myo Thaw Department of Informatics and Applied Mathematics ITMO University St. Petersburg, Russia aungmyothaw52660@gmail.com

Abbas Saddam Ahmed St. Petersburg State Electrotechnical University St. Petersburg, Russia saddamabbas077@gmail.com

Abstract—In the current state of IoT systems development, the fog techniques become the key solution of latency and energy consumption reducing when collecting and processing end user data. Instead of processing and storing data in the cloud, the fog technique extends the responsibility of cloud nearer to the end user and it allows improve QoS and decrease communication cost. In this paper a fog-oriented data collection model which uses processing functions in the fog layer is presented. Moreover, the responsibilities of cloud service and fog data processing are defined for deferent smart application.

Keywords-networks; mobile devices; data collection; smart cities; management and security models.

I. Introduction

To date hundreds and thousands of various devices are used in everyday life. The examples of such devices are mobile phones and smart watches with GPS. Some of them are managed by the users, others can be considered as autonomous. They are connected with each other within local and global networks. The wide usage of interconnected mobile devices allows develop different applied smart services. This approach is used to build smart cities, smart transport, smart vehicles, smart infrastructure services and many more [1, 2, 3]. Smart transport requires real time data collection and short response time from smart devices and vehicles [4]. Smart health care requires secure data collection, improved user privacy and user data security [5]. Smart garbage collection should require low energy consumption because the devices cans use batteries that have limited energy resources [6]. The networks of mobile devices can have different topologies that reflect the arrangement of the elements of a communication network. Due to the mobility of

the devices the structure of these networks and their devices changes over time. Today the problem of data collection in static networks has been almost solved [7]. But data collection in dynamic networks is a much more difficult problem. The problem of data collection in mobile networks can be defined as it is necessary to collect the data that meet the needs of the end users taking into account the requirements for a high level of data and user privacy, network latency, low energy consumption. Thus, it is necessary to solve a complex optimization problem with multiple restrictions for the network parameters. The problem can be also formulated in a different way. For example, latency can be considered as a parameter to be optimized, restrictions can be set on the values of other parameters. Also, on the basis of this definition, a set of specific problems can be defined. In the statements of specific problems restrictions can be set only on the limited number of parameters. Also, sometimes it is possible not to set restrictions. So, the data collection problem is a set of optimization problems that have different levels of complexity. Different models and methods are required to solve this problem. Existing systems allow solve data collection tasks with multiple restrictions on network parameters for static networks [8]. They also can be used for data collection in dynamic networks, but only when separate parameters are considered, so they can solve only specific tasks [9, 10].

In the paper a new model for data collection is proposed. The model allows solve the problem of data collection in dynamic networks. The proposed model allows reduce energy consumption and latency, ensure security of the data. It is based on usage of existing techniques of data collection and data processing techniques.

978-1-7281-5456-5/20/S31.00 ©2020 IEEE

The paper has the following structure. In the second section an overview of the existing techniques and models for data collection are presented. In the third section the proposed model for data collection in dynamic networks is described. In the fourth section the application of the model for solving specific data collection tasks is considered. The fifth section contains a set of data collection models for smart cities. Finally, future directions of R&D in this domain are conceded.

II. Background

The majority of modern systems for data collection from interconnected devices have been developed within the concept of Internet of Things. To date IoT provides a considerable number of data collection techniques and data collection models.

1) Data Collection Techniques

There are different techniques for data collection, including middleware service platforms, lightweight data encryption techniques, fog techniques, etc. Middleware techniques assume building middleware service platforms. They can be considered as the basis which allows use different systems for solving data collection tasks. Commonly, these platforms are built in order to fulfill specific requirements such as minimizing energy consumption, security improving or re-source sharing. So each of the middleware techniques can be used only in limited number of cases [11].

Data encryption techniques allow prevent unauthorized access, misusing of data, unregulated data monitoring and data modification when collecting, processing and storing data. Traditional cryptography algorithms cannot be used to provide security of resource constrained devices. For data collection lightweight data encryption techniques have been developed [12].

Fog techniques assume the usage of fog nodes that are located closely to the end users. They provide computation services for data processing and temporal storages for real time data. Fog techniques, as well as clustering, refer to middleware techniques [13]. Fog computing can address such a problem as high latency of data transmission. Traditional graph techniques can be used to represent data processing flows, including data generation. They are often used to implement the schemes of resources sharing in the networks [14].

2) Models of Data Collection

In order to decrease latency, cost execution and cost transmission, in [15] the model oriented to IoT application is described, which is known as a DAG (Directed Acyclic Graph) graph. This model assumes that the data processing elements are distributed over the fog and the cloud continuum. By applying the Gravitational Search Algorithm (GSA) meta-heuristic technique, the proposed model defines the latency of the request and the response time between complex IoT applications and fog/cloud resources. As a result, the fog computing usage can decrease the average latency of response time for IoT applications' requests. However, the model can improve QoS for real time and latency, but it does not take into account other requirements.

A fog function model is proposed which can improve laten-

cy, scalability and efficiency for an IoT service provider [16]. To meet the requirements of the clouds and edge service provider, the model solves many problems of composed and managed data and is based on context driven orchestration and content-based discovery. By controlling the hundreds of fog nodes in a large-scale network, the proposed model can be modified for the service processing logic to add or remove required functions. But this model is oriented only to IoT services as a fog nodes controller. The fog-oriented system model that provides request offloading to balance the overload of the fog-to-fog collaboration layer is suggested [17]. The basic idea of this model is computing the size of requests from the IoT devices and offloading the heavy requests to the neighboring fog node when the target fog node suffers from congestion. The usage of this model can effectively decrease the delay time for user requests and improve energy computation, but it meets with the problem of the privacy user when user data are saved at a neighboring fog node. The fog computing middleware for supporting scalable and flexible distributed cooperative data analytics (DCDA) is suggested [18]. In the proposed platform, all fog nodes can communicate and cooperate with each other with the purpose of resources sharing and work together on a specific task. Therefore, the middleware of fog nodes can solve the problems of sending raw data to the cloud and balance computation overhead. But this platform can't be conceded as secure and low latency.

The conceptual model of the fog node is proposed, which includes developed analytics tools, collaboration techniques, data processing, security measures and other modules [19]. On the base of this model of fog node, the data collection system architecture for interaction between the edge device, fog and cloud service is developed. However, the proposed model can be effectively used for incoming data processing, but it can suffer latency and energy consumption due to cryptography technique for resource limited sensor devices. The multi-tier fog computing model for improving analytics service of smart city application is proposed [20]. On the basis of fog-to-fog collaboration, fog modules are developed with the effective function such as job admission, services, resource management, resource allocation, security and offloading. The goal of this proposal is to improve the latency, computing costs. The resource management schemes are oriented to improving performance of the real-time service of the smart city fog node. But the model does not take into account security and energy computation.

The analysis of the existing solutions for data collection in the IoT allows make the following conclusions:

• The encryption technique and the usage of middleware service platform can increase energy consumption, overhead and latency in the networks due to resources required for key management and management of security agreements;

• Most of lightweight schemes cannot provide the necessary level of security for resource constrained devices;

• Using data processing techniques can improve the majority of the network parameters, but in existing data collection models these techniques can be used only for solving separate subtasks;

• Data analysis performed by resource-rich nodes leads to high overload, the use of resource constrained nodes allows reduce energy consumption and latency;

• Using fog techniques for data processing and storing on the intermediate level of the networks structure allows reduce latency, increase bandwidth and improve other parameters of the networks.

Therefore, the new models should be based on the usage of data processing techniques, including clustering, classification techniques, etc. The data are processed on fog nodes that can provide enough computational resources. Data processing techniques are also used by the security services. This allows provide high level of the security of the IoT data.

III. Structure of Fog-Oriented Data-Collection Model Based on Data Processing

Suggested data collection models have three layers: a physical layer, a fog layer and a cloud layer. At the physical layer data are collected from heterogeneous devices which are organized as a cluster head-based network. Real time data are processed by fog services that are deployed in fog nodes. The initial data and the results of their processing can be provided to end users according to their requests. Cloud services are used to store historical data and analyze them. The system can provide predictions about the future state of the networks. The structure of the data collection model is given in Fig. 1 with a focus on data processing in the fog layer.

Figure 1. Structure of the fog-oriented data-collection model based on data processing

The usage of data processing techniques at the fog layer allows improve the parameters of the networks, including security level, energy consumption, latency. Below the description of the model elements is given.

a) Required Data Classification Technique. The data classification allows detect useful data for the user or for the system according to their interests. The goal of context aware classification processes in the fog is to divide multiple incom-

ing data into required and not required information based on the user's interests. It is proposed to use such classification algorithms as K-NN, SVM and ID3. For example, K-NN assumes finding the nearest neighbors to the classified elements and predicting their values using the values of the neighbors. If the collected data is redundant or has low accuracy, then they are not used. In the case when data are complete and have enough high accuracy, they are sent to the fog nodes for further processing.

b) Data Format Converter Technique. In the network's different types of mobile devices, such as RFID, ZigBee sensors, GPS devices, temperature sensors are used. They produce a large volume of heterogeneous data which are presented in different formats, in particular, JSON, BSON, CBOR, Msgpack, JSONC, Protobuf, etc. All these different formats are considered as special formats. Using different data formats defines the need to convert data to an uniform format. The common data formatting technique is as follows. The special formats are registered in data collection systems and the corresponding program code for their processing is written. Thus, the gathered data that have one of the special formats can be processed by these systems. After processing the data are converted to the uniform format. After that they are sent for compression.

c) Lossless and Lossy Data Compression Technique. The large amount of data needs huge storages and much energy for its transmission through the network. Therefore, fog nodes are used to compress the data in order to reduce its volume and thus reduce the requirements to storages in the cloud and fog temporary storages. The proposed technique defines the need to use data compression algorithms such as lossy delta encoding algorithm or bubble sort to sort the dataset. For example, the algorithm can calculate the mean values of two consecutive values of the data set and round them by using the "round" function which removes the fractional parts of the values. Finally, the file with calculated mean values is generated and sent to IDS (Intrusion Detection System) classifier.

d) IDS based Security Technique. IDS can classify the data and separate modified data from normal. Modified data can appear as the result of network attacks, in particular, packet sniffing or port scanning. By using KNN (K-nearest Neighbors) or SVM (Support-vector Machine) algorithms the incoming datasets are matched with data patterns in order to analyze networks' behavior and thus identify the imminent attacks or malicious data. The patterns are built using training data sets. For example, the classifier can use patterns of malicious data and classify new cases based on a similarity measure. If according to the results of the classification the data are normal, they are stored in temporary storage. If there are deviations in the data, then the situation is considered as a situation of a possible threat and the level of the system security is increased.

e) Fog Temporary Storage. In the cases when data must be stored, it is necessary to determine in which storage it is reasonable to place them. In our case there are two types of storages: a cache data storage and a persistent data storage. In

the cache, the data is temporarily stored and aggregated. The data are stored until the time of storage is expired. The data that need persistent storage are sent to the cloud service management systems. They can be received back from the cloud by the request. In the proposed technique temporary storages such as Redis, SQL, MySQL, SQE and an auxiliary storage pool can be used. For example, Redis can be used as a module for saving realtime and frequently used data. Redis can deal with rich data structures such as lists of groups or things, sets of values, hash tables. It can also sort data by weights. Based on the sorted set of values of time or location attributes, it is possible to search records that relate to smart devices using queries. Furthermore, data records of smart things have Identity (ID) and are stored in the associated table list. Therefore, a data record can be searched through its ID. Due to the limited storage capacity and the memory in the temporary storage, a time and memory usage configuration trigger mechanism is used to send the data to the cloud database.

Figure 2. Cloud storage for history data

f) Cloud Storage. Cloud storage is used for storing history data. One can update and synchronize data, make regular backups, provide required information to the fog nodes. There are many types of storages such as a file system, RDBMS, NOSQL DBMS, DBMS and SQL. Sufficient storage space to store historical data can be provided using the HBase database with HDFS file system or DBMS with NOSQL and XML files in HDFS. In the storage, the defined tables can use indexes based on time, location, type and keyword attributes. The data that are sent by the fog nodes to the cloud are compressed data. Thus, when the user requests the data, it is necessary to decompress data in the cloud. At the decompression step, the cloud service gets the compressed data file according to the request of the user. Then, the data is decompressed and the file with the decompressed data is sent to the user.

IV. Data Collection Models for Smart Cities

The proposed model can be used for secure data collection in various services developed for smart cities. In smart cities multiple static and mobile devices are used. These devices form dynamic networks. Using the proposed model allows improve the capabilities of the existing services. Below data collection models for a number of smart services are presented.

a) Smart Traffic. The traffic control systems based on fog computing can be considered as smart traffic platform. By controlling dynamic changes in vehicle networks, it is possible

to decrease traffic congestion and avoid accidents. Also fog services provide access to the information about real time vehicles density to the users. The sensing process of fog service developed by applying CH-based clustering algorithm. The system operates in a following way.

Figure 3. Smart traffic platform

A user makes request to the fog service about the current situation of traffic. Then the request is processed by the gateway which classifies the requested devices with an IDS black list or an access control list, where there is a malicious and a threat base, communication history and data transmission activity. Moreover, the user must be registered and have a permeation to use this fog service. If the user is registered, the fog service processes the required real time data of users' base on the requested keyword by sensing the CH sensors of a cluster network. If the user needs history or prediction data, then needed data are loaded from the cloud storage.

b) Smart Infrastructure. The proposed data collection model allows improve modern traffic, weather prediction, public safety, sanitation, electrical and other services of smart cities.

Figure 4. Data Process in Smart City

Narrow bandwidth, high energy consumption and low security are current issues of many of the existing services. They can be countered by deploying the services in fog nodes and use of clustering based network topology. In order to get access to any information about the city it is enough to register in the fog node using one of the provided applications. In the case of smart city, a user request is checked for registration and IDS phase is realized. After that the user can search required information using keyword. On the basis of keyword, the fog service generates real time or history information from associated CH-sensor or cloud storage.

c) Smart Buildings. In both commercial and noncommercial buildings many devices are deployed. They are fire and human motion detectors, air pollution and temperature sensors, parking space sensors and other electrical devices.

Figure 5. Smart Buildings

Some of the devices are static and some are mobile. To date clustering-based topologies have been developed for static WSNs targeted on energy efficiency and improved security. Using fog computing also allows assure short response time of the devices that is primarily important in many emergency situations. Moreover, the residents can receive information about the current state of building by means of requesting provider fog service. After receiving the request from the user, the fog service extracts the required information from the related CH-based cluster network and cloud storage.

V. Conclusion

In the paper a new data collection model for mobile IoT networks is suggested. This model can be used for reducing energy consumption and latency, and providing a high level of security. The distinguishing feature of suggested model is the mutual usage of clustering techniques and fog node techniques. The proposed model is oriented to the active usage of machine learning models and methods in order to increase the efficiency of management of data collection in IoT. We hope that the usage of the suggested model can be useful for building different kinds of mobile networks data collection systems.

References

[1] J. Zenkert et al., "Big data analytics in smart mobility: modeling and analysis of the Aarhus smart city dataset," 2018 IEEE Industrial Cyber-Physical Systems (ICPS), 2018, pp. 363-368.

[2] L. Barreto et al., "Urban mobility digitalization: towards mobility as a service (MaaS)," 2018 International Conference on Intelligent Systems

(IS), 2018, pp. 850-855.

[3] G. Tsochev, R. Trifonov, O. Nakov, S. Manolov, G. Pavlova, Mobile agents in Intrusion Detection Systems: Advantages and Disadvantages, WSEAS Transactions on Information Science and Applications, 2020, vol. 17,pp. 61-68.

[4] S. Djahel et al., "A communications-oriented perspective on traffic management systems for smart cities: challenges and innovative approaches," IEEE Communications Surveys & Tutorials, vol. 17, 2015, pp. 125-151.

[5] D. He et al., "Privacy in the internet of things for smart healthcare," IEEE Communications Magazine, vol. 56, 2018, pp. 38-44.

[6] Raaju, V. Aswin et al, "IOT based smart garbage monitoring system using ZigBee," 2019 IEEE International Conference on System, Computation, Automation and Networking (ICSCAN), 2019, pp. 1-7.

[7] Ch.-Ts. Cheng et al., "Concurrent data collection trees for IoT applications," IEEE Transactions on Industrial Informatics, vol. 13, 2017, pp. 793-799.

[8] D. Zhou et al., "A survey on network data collection," J. Network and Computer Applications, vol. 116, 2018, pp. 9-23.

[9] H. Xie et al., "Data collection for security measurement in wireless sensor networks: a survey," IEEE Internet of Things Journal, vol. 6 2019, pp. 2205-2224.

[10] I. Stankov, G. Tsochev, "Vulnerability and protection of business management systems: threats and challenges," Problems of Engineering Cybernetics and Robotics, vol. 72, 2020, pp. 29-40.

[11] Bandyopadhyay, Soma et al., A Survey of Middleware for Internet of Things, 2011).

[12] S. Sallam, and B. D. Beheshti, "A survey on lightweight cryptographic algorithms," TENCON 2018 - 2018 IEEE Region 10 Conference, 2018, pp. 1784-1789.

[13] R. Mahmud, and R. Buyya, "Fog computing: a taxonomy, survey and future directions," ArXiv abs, 1611.05539, 2018.

[14] N. Kouvelas et al., "On inferring how resources are shared in IoT ecosystems; a graph theoretic approach," 2018 IEEE 4th World Forum on Internet of Things (WF-IoT), 2018, pp. 760-766.

[15] A. Karamoozian et al., "On the fog-coud coperation: how fog computing can address latency concerns of IoT applications," 2019 Fourth International Conference on Fog and Mobile Edge Computing, 2019, pp. 166172.

[16] B. Cheng et al., "Fog function: serverless fog computing for data intensive IoT services," 2019 IEEE International Conference on Services Computing, 2019, pp. 28-35.

[17] M. Al-khafajiy et al., "IoT-fog optimal workload via fog offloading," 2018 IEEE/ACM International Conference on Utility and Cloud Computing Companion, 2018, pp. 359-364.

[18] J. Clemente et al., "Fog computing middleware for distributed cooperative data analytics," 2017 IEEE Fog World Congress (FWC), 2017, pp. 1-6.

[19] J. Tuvakov, and K. Park, "On the fog node model for multi-purpose fog computing systems," 2018 IEEE 9th Annual Information Technology, Electronics and Mobile Communication Conference (IEMCON), 2018, pp. 1211-1214.

[20] J. He et al., "Multitier fog computing with large-scale IoT data Analytics for smart cities," IEEE Internet of Things Journal, vol. 5, 2018, pp. 677686.

Meta Mining Ontology Framework for Domain Data

Processing

Man Tianxing1*, Alexander Vodyaho3, Nataly Zhukova12, Nikolay Mustafin 3, Aung Myo Thaw1

* 1ITMO University, St. Petersburg, Russia { mantx626, aungmyothaw52660}@gmail.com

2St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS),

St. Petersburg, Russia

3St. Petersburg Electrotechnical University "LETT' (ETU), St. Petersburg, Russia {nazhukova, aivodyaho}@mail.ru

ngmustafin@etu.ru

Abstract—Extracting knowledge from real-life data through data mining is a complicated process. Meta-learning helps optimize algorithm parameters to improve the performance of data mining. And semantic meta mining helps build workflows based on knowledge models. This paper proposes a data mining ontology integration framework for adaptive data processing based on the concept of semantic meta mining. It allows building domain-oriented ontology for data mining tasks. The ontology helps to choose suitable solutions and formats of the processing process based on data characteristics and task requirements. For helping to process the data sets adaptively, an ontology merging method is presented for the application of the proposed ontology in various domains. As an example, this article presents the application of the proposed ontology and method on the domain of time series classification.

I. Introduction

In the era of big data, data analysis is everywhere. But the diversity of algorithms and the clutter of data make the knowledge discovery process very unfriendly to many noncomputer professional researchers. Even for the data researchers, it is still challenging to find the best solutions for specific tasks quickly. An intuitive and easy-to-understand intelligent assistant is needed.

Today meta-learning is very popular since it uses machine learning (ML) algorithms to learn from ML experiments for obtaining the best algorithms and parameters. And Melanie Hilario proposed a new optimization solution: Semantic meta mining. It relies on extensive background knowledge concerning data mining (DM) itself.

In the field of semantic meta mining, it is necessary to have a suitable description framework to make clear the complex relationships between tasks, data, and algorithms at different stages in the data mining process. ontology is a computer-understandable description language. Naturally, it has become a choice when building DM intelligent assistants for various application scenarios.

The existing DM ontologies are usually dedicated to expressing one or several stages of the DM process in detail.

This concentration on parts makes them lose the integrity of the description of the DM process.

The performance of DM algorithms in each category makes them suitable for dealing with specific data characteristics. However, these data characteristics are defined differently in different scenarios. The various constraints of data set characteristics in different domains to make it challenging to propose a general and applicable description ontology.

This article presents a meta mining ontology framework to build a domain-oriented ontology. The main contributions are as follows:

• Define the structure of domain-oriented ontology as the general core ontology for data processing by integrating existing DM ontologies. The ontology describes the knowledge of each stage of DM.

• Within the general core ontology, an "INPUT" ontology is proposed for the description of data characteristics and task requirements, which are the basis for selecting suitable algorithms.

• Propose an ontology merging method for the application of the domain-oriented ontology in various domains. The labels of data characteristics are defined both in general core ontology and domain ontology. Domain experts describe the specific definitions of characteristics in the domain ontologies. A domain-oriented core ontology is generated by merging general core ontology and the corresponding domain ontology.

The rest of this paper is organized as follows: Section 2 describes the relevant background knowledge involved in this paper. Section 3 presents the meta mining ontology framework. Section 4 presents the ontology merging method. Section 5 presents the content of the domain-oriented ontology. Section 6 presents an application of the domain-oriented ontology for time series classification. Section 7 presents the main conclusion and points directions for future work.

ISSN 2305-7254

II. Background

A. Meta-learning and semantic meta mining

Meta-learning [1] is defined as the application of ML techniques to past ML experiments, and its purpose is to modify certain aspects of the learning process to improve the performance of the results. Traditional meta-learning treats the learning algorithm as a black box, correlating the observed performance of the output model with the characteristics of the input data. However, the internal characteristics of algorithms with the same input/output type may vary.

Semantic meta mining [2] mines DM metadata through querying DM expertise in the knowledge base. It is different from the general meta-learning:

• Meta-learning methods are data-driven. And semantic meta mining is based on related knowledge and internal relations. So, developers usually represent knowledge in the form of ontology.

• Meta-learning for algorithm or model selection mainly involves mapping the dataset attributes to the observed performance of the algorithm as a black box. The parameters are updated based on experimental results, and the internal mechanisms of the algorithms are not the determining factor. In contrast, semantic meta mining complements the data set description by in-depth analysis and characterization of the algorithm: the primary hypothesis of the algorithm, the optimization goals and strategies, and the structure and complexity of the generated models and patterns.

• Meta-learning focuses on the learning phase of data mining, that is, the performance of the generated model. But semantic meta mining is oriented towards the entire data mining process. Based on the characteristics of the data to be processed and the task requirements, it provides users with complete corresponding solutions.

compared with the conventional way of selecting algorithms based on the intuition of researchers, the main advantages of semantic meta mining are:

1) Ontologies contain factual knowledge about real-world

entities and the relations between them, which can be efficiently utilized in various natural language processing, information retrieval, and any data mining applications.

2) Ontologies can be used to help solve more particular problems in specific domains through the proposed ontology merging method.

According to the above analysis, the role of classical meta-learning and semantic meta mining are not conflicting. The learning goals of meta-learning are more detailed (such as the parameters of the algorithms). And semantic meta mining provides the appropriate algorithm selection and formulates the execution process. These suggestions are more general. Such semantic meta mining can usually also solve the cold start problem of meta-learning to ensure that the learning process is in the correct direction.

B. CRISP-DM model

To avoid meaningless operations in data analysis, it is necessary to have a structured framework to implement data mining effectively and correctly. A suitable DM process model is the basis for building DM ontologies. Today, there exist three common frameworks CRISP-DM [4], SEMMA [5], and KDD [3] to format the DM process.

The KDD model is the process of extracting the hidden knowledge according to databases. KDD requires relevant prior experience and a brief understanding of the application domain and goals. The KDD process model is iterative and interactive so that it is too complicated as the framework of ontology building.

The SEMMA (Sample, Explore, Modify, Model, and Access) is the data mining method developed by the SAS institute. It offers and allows understanding, organization, development, and maintenance of data mining projects. But it ignores the steps "Task understanding" and "Deployment," which we are going to describe in the ontology.

CRISP-DM provides a uniform framework and guidelines for data miners. It consists of six phases or stages which are well structured and defined for ontology building as Fig. 1 shows.

C.

Fig. 1. The phases of CRISP-DM

Based on the characteristics of several frameworks, the simplicity and completeness of CRISP-DM make it suitable for DM ontology building.

Existing data mining ontologies

Recently, many intelligent assistants have been developed to optimize the DM process. Comparative studies are discussed in [7], [8]. Many DM ontologies have also been designed to help users build DM processes.

Panov et al. [9], [10] proposed a data mining ontology OntoDM, which includes formal definitions of basic DM entities, such as DM tasks, DM algorithms, and DM implements. The definition is based on the proposal of a general data mining framework presented by Dzeroski [11]. This ontology is one of the first depth and heavyweight ontologies used for data mining. But it is just used for the

description of DM knowledge, so the algorithm characteristics are not covered.

To allow the representation of structured mining data, Panov et al. developed a separate ontology module, named OntoDT, for representing the knowledge about data types [12]. OntoDT defines basic entities, such as datatype, properties of datatypes, specifications, characterizing operations, and a datatype taxonomy. But the problem in the application of ontoDT is that the underlying data information is not enough to help users choose the appropriate algorithm. The application of OntoDT in this article is to use it as an upper-level ontology to help domain experts describe the characteristics of the dataset.

Hilario et al. [13] present the data mining optimization ontology (DMOP), which provides a unified conceptual framework for analyzing data mining tasks, algorithms, models, datasets, workflows, and performance metrics, as well as their relationships. As the authors of the concept of semantic meta mining, they use a broad set of customized special-purpose relations in DMOP. But DMOP only covers 3 phases of CRISP-DM. And the structure of the ontology is so complicated to be unfriendly to non-professional users.

In the existing ontologies, the CRISP-DM process, which is composed of the 6 phases, is the basic framework. As Fig. 2. shows, most ontologies only focus on specific phases (DMOP covers three phases that can be best automated: from data preparation to evaluation; OntoDM the last four phases; OntoDT only provides a general description of data types for the first phase).

Fig. 2. The comparison of DM ontology coverage

There are several other data mining ontologies currently existing, such as the Knowledge Discovery (KD) Ontology [14], the KDDONTO Ontology [15], the Data Mining Workflow (DMWF) Ontology [16], which are also based on similar ideas.

III. Meta mining ontology framework

The primary attributes of the data sets, which are described in OntoDT, couldn't be used for algorithm selection. The general characteristics of the data set and task requirements are the basis for algorithm selection. Data in different fields have different standards for defining characteristics. Fig. 3 presents the meta mining ontology framework.

Fig. 3. The meta mining ontology framework

We can't know the explicit values of the dataset attributes suitable for specific algorithms, but the corresponding data categories (i.e., characteristics) can be summarized from previous experiments. The attributes could be used as parameters to define the characteristics. We define OntoDT at the upper level as a common data attribute set.

In general, in core ontology, we enumerate the data characteristics in advance. Experts define these characteristics with their knowledge based on upper-level restrictions and import them into general core ontology. It means a core ontology for a specific domain is generated as a domain-oriented ontology.

Users can query directly on the ontology to get the DM process for specific tasks. According to the characteristics of the data to be processed and task requirements, users obtain suitable solutions. Since the solutions have pre-processers and post-processers, complete DM processes are generated.

IV. Ontology merging method

Since we hope to assist in the phases of CRISP-DM: business understanding and data understanding, how to present the input content accurately and flexibly is the critical problem.

We propose a new method to describe the data set through merging related ontologies. In general core ontology, the data characteristics are described and linked to the corresponding algorithm properties by the relation "isSuitableFor." However, the concrete definitions of the data characteristics are different in different domains.

As Fig. 4. shows, the idea is to describe data characteristics definitions in corresponding domain ontologies. While dealing with a concrete task, we merge the general core ontology with corresponding domain ontology. Then we can obtain an ontology containing specific definitions and descriptions of data characteristics.

Fig. 4. Data representation through merging different domain ontologies

A. Ontology notations

An ontology is made up of a set of concepts (C), properties (P), property mappings (T), and relationships between the concepts (R) [6, 22].

Let O define an ontology.

Let C define the set of concepts in the ontology.

Let P define the set of properties of the concepts.

Let T define the set of property mappings, mapping properties to concepts.

Let R define the set of relationships that relate one concept to another.

which is O = {C, P, T, R}.

Concepts are the nodes or objects that identify something that exists. Relationships are used to indicate a similarity between two concepts within an ontology. They can either link two concepts together or loop back and link to the same concept. Properties provide extra features used to identify the concept. The property mapping element is similar to a relationship element, but it links a property to a concept rather than one concept to another.

The merge process occurs in general core ontology Og and domain ontology Od. In general, core ontology, concepts Cdm and relationships Pdm, Tdm, Rdm in the field of data mining are described. The concepts Cg of data characteristics are also included as part of the algorithm performance description.

Which is Og

{Cdm, Cg, Pdm, Tdm, Rdm} ■

In the domain ontology Od, domain experts define the concepts Cd (Cd E Cg) and specific descriptions (internal connections) Pd, Td, Rd of the domain data characteristics according to the particular situation of the domain dataset.

Which is Od = {Cd, Pd, Td, Rd}.

B. Ontology merging

For the ontology merging technology, the problem of finding common points for merging is crucial [19, 20, 21]. Knowledge workers must ensure that as many merge points as possible are included in the original ontology to ensure a strong merge. And the ontologies to be merged are complete and valid at the beginning of the merge process.

In our ontology construction, general core ontology is a complete and valid ontology that has been created. The concepts in the domain ontology have been preset. The domain experts only need to specify the range and values of the data characteristics definitions and ensure that these values do not conflict.

The merging steps are as follows:

1) Check for consistency completeness of the initial ontologies Og and Od.

2) Check that there is at least one valid merging point Cd in both sets.

3) Merge Og and Od at each of the merge points Cd.

a) Replace the domain data characteristics name Cd in Og with Cd in Od.

b) Add the domain data characteristics definitions

{Pdm, Tdm, Rdm}.

4) Generate the domain-oriented ontology Ogd = { Cdm, Cg, P P T T R R }

1 dm 1 d 1 dm 1 d -l^df ■

5) Check for the validity of the new merged ontology Ogd.

6) Check for semantic completeness of the merged ontology Ogd.

It is worth noting that domain ontology and general core ontology describe distinct domains: data characteristics and algorithmic knowledge. Their only intersection is the conceptual names of the data characteristics, i.e., Cd, which are identified as the merging points.

Because Og and Od are highly independent, problems usually don't appear in completeness and validity checks.

V. Domain-oriented ontology content

In the initialization phase, core ontology is a general ontology, including an "INPUT" ontology and some other existing DM ontologies (DMOP, OntoDT, OntoDM, and DMWF).

Domain ontology is built through defining the existing entities of data characteristics in general core ontology.

Then experts import domain knowledge in the form of domain ontology, and we merge the domain ontology and the general core ontology to obtain a core ontology for a specific domain, i.e., domain-oriented ontology (see Fig. 5.).

properties cannot directly influence the DM generation process. The selection of the DM algorithm is based on the data set characteristics and task requirements. However, the definitions of these characteristics are different in different fields.

Fig. 5. The general structure of the domain-oriented ontology

A. INPUT ontology for data understanding and business understanding

We create "INPUT" ontology as the input interface for the user query. Its primary contents are:

• Define data characteristic entities corresponding to algorithmic characteristics.

• Describe the requirements of the DM task, that is, the output of the DM algorithm.

• Supplement the missing algorithm characteristics and measure characteristics in the existing DM ontologies.

INPUT ontology is the part directly associated with the user's queries. It makes the use of ontology more explicit. Users do not need to understand other internal structures of the ontology.

B. Data characteristic description in INPUT ontology

For building domain ontology, the critical point is to provide restrictions for the description of the domain ontology at the upper level. In the previous work, there is no suitable method to describe the data set in the form of ontology entities. In the general data type ontology OntoDT, the basic properties of the data set are defined. However, these

Fig. 6. The definition of data characteristic "LargeTrainTSDataset"

To make the ontology adaptively present data sets in various domains, we use the OntoDT classes as parameters to specify the definition (value or range) of data characteristics in general core ontology. Domain experts describe domain knowledge or existing domain ontology in general core ontology, making it suitable for data analysis tasks in this domain. An example of the definition in the domain of time series classification (TSC) is shown in Fig. 6.

The suitable DM processes are obtained by querying the generated core ontology for a specific domain.

C. The integration of existing DM ontologies for other DM phases

INPUT ontology is also the core part of integrating existing DM ontologies. The integration operation is based on the purpose of generating suitable solutions and processes.

In the process of integration, to reduce the complexity of the ontology, we discarded contents that were useless for this purpose and restructured the structures. The main classes in the domain-oriented ontology are shown in Table I.

The reconstruction contents are as follows:

• OntoDT is fully retained as an upper-level restriction that defines the characteristics of the data.

• The class "Goals" in DMWF and class "DM-Task" in OntoDM are extracted for the description of task requirements.

• Although DMOP provides more than a hundred DM algorithms and their characteristics, we have reconstructed its structure. As components of the DM algorithms, the classes "Measure," "Output," "Evaluation," and "DM Algorithm" itself are included in a new class "Process" so that it is more understandable for the users.

• OntoDM describes the last CRISP-DM phase, "Development." The classes "DM Implementation" and "Parameter" in OntoDM are integrated for the possible parameters setting. And "DM Execution" presents where and how to execute the selected algorithms.

Table I. The main classes in the domain-oriented ontology

Class source Annotation

Data Description INPUT Describes the dataset characteristics in the form of ontology entities. Domain experts define their value and ranges.

Task Requirement INPUT Describes the task requirements in the form of ontology entities.

Measure Characteristic INPUT Existing DM ontologies do not describe the performance of measures (i.e., distance functions). In the INPUT ontology, we describe and name it "MeasureCharacteristic."

Algorithm Characteristic INPUT /DMOP Describes the performance of DM algorithms, including tolerating some data set defects (such as Missing value, Noise value), suitable for some task requirements (such as two-class, multi-class).

Data Type OntoDT Provide basic data types that describe the characteristics of the data set (such as sample, label)

Goals DMWF Provide a description of the task requirements. It mainly focuses on the generalization of the types of output results.

DM-Tasks OntoDM Provide a description of the task requirements. It mainly focuses on the description of specific details of the task.

Data Characteristic DMOP Provided by DMoP, the names of the characteristic of the dataset.

DM Algorithm DMOP Describe all DM algorithms that have been designed to perform any of the DM tasks, such as feature selection, missing value imputation, or modeling (or induction).

Measure DMOP Describes the distance functions and similarity functions, which usually directly affect the performance of DM algorithms.

Output DMOP Describe the output models of the DM algorithms (such as decision tree structure, probability distribution structure).

Evaluation DMOP Describe the evaluation functions of the DM algorithms (such as external validity model function for clustering algorithms).

DM Implementation OntoDM Provide a DM algorithm implementation scheme and parameter settings

DM Execution OntoDM Provide executable solutions for DM algorithms (such as R, python package, Weka)

parameter OntoDM Provide parameters for DM algorithms (such as distance threshold, number of clusters and variance threshold for K-means algorithm)

In order to build the logical structure of core ontology, the relevant properties are defined in Table II.

Table II. The relevant properties in the domain-oriented

ontology

Property Domains Ranges Answering the competency questions

availableFor INPUT Characteri stics Given data characteristics or task requirements, which characteristics should the DM algorithms have so that they are suitable for?

suitableFor INPUT Characteri stics Given data characteristics or task requirements, which characteristics should the DM algorithms have so that they are available?

hasQuality Process Characteri stics Which characteristics does the given process have?

hasPreprocess or hasPostproces sor DM Algorithm Process Which processes do the DM algorithm have?

hasOutput hasMeasure hasEvaluation

isConcretized As DM Algorithm DM Implemen tation How can we implement the DM algorithm?

hasParameter DM Implemen tation Parameter Which parameters should we set when we implement the DM algorithm?

isRealizedBy DM Implemen tation DM Execution Where and how can we execute the DM algorithm?

VI. Usage

As long as the structure of the ontologies is reasonable, they can be operated on the corresponding editing software, for instance, Protégé. Based on the relations presented in Table 2, users can query for suitable solutions with the following workflow.

A. General Workflow

The workflow of domain-oriented ontology for data analysis in a specific domain is as follow:

1) Based on the restrictions of OntoDT, domain experts define the characteristics of domain data in the form of ontology.

2) Merge the domain ontology and the general core ontology to obtain the core ontology for the specific domain.

3) Manually obtain task requirements and data sets and describe them in the form of ontology entities as the inputs.

4) Execute the selection process on this core ontology for a specific domain.

a) Input the entities of input-data description and task requirements. Based on the relation "suitableFor", obtain the characteristics which the solutions should have.

b) According to the relation "hasQuality," obtain the algorithms or measures which have suitable characteristics.

If the results are measures, obtain the algorithms according to the relation "hasMeasure."

c) Choose the most suitable algorithms which meet the characteristics as many as possible. They are the selected solutions.

d) According to the relation "hasPre/Postprocessor," obtain the entire DM process.

e) According to the relation process of the selected solutions.

f) According to the relation "isConcretizedAs, the implementations and parameter variants.

"hasPart," obtain the

obtain

g) According to the relation "isRealizedBy, available executions

obtain the

B. The application for time series classification

Domain-oriented ontology can be flexibly applied to the data analysis process in different fields. As an application example, we constructed an ontology oriented on solving the time series classification (TSC) tasks. The entities of TSC data characteristics have been named in "INPUT" ontology. For describing the TS datasets in the form of these entities, explicit definitions are needed.

Fig. 7. Merging TSC domain ontology with general core ontology

Expert knowledge of the definition of characteristics of TSC data comes from [17]. We define them in domain ontology, then merge them with the labels in "INPUT ontology" as the Fig. 7. shows. Then users can represent the TS datasets in the domain-oriented ontology.

The interaction between the users and domain-oriented ontology takes place on "INPUT" ontology. Users can describe the dataset and query the corresponding entities of data characteristics in the following form:

"TSDataset and hasTrainSize exactly 40 sample"

Then users can receive the corresponding entity "SmallTrainDataset".

INPUT ontology allows formulating the tasks in the common form. For example, the query for suitable solutions is:

"Algorithm

and suitableFor some SmallTrainTSDataset

and suitableFor some LargeTestTSDataset

and suitableFor some LongTSDataset

and suitableFor some FewClassTSDataset

and suitableFor some ECGTSDataset"

Which the entities "SmallTrainTSDataset," "LargeTestTSDataset," "LongTSDataset," and

"ECGTSDataset" are characteristics of the data set and the entities "FewClassTSDataset" means the task requirement is a few classes.

As Fig. 8. shows, BOSS (Bag of SFA Symbols), COTE (Collection of Transformation E), EE (Elastic Ensemble), MSM_1NN (Move-Split-Merge) and ST (Shapelet Transform) are selected as the answer to this query since these algorithms are suitable for all the conditions. For more concrete examples, please refer to [18].

Fig. 8. An example of the query in the domain-oriented ontology

We used 45 available TSC algorithms to process the dataset, which has the example characteristics. A comparison of the accuracy of all algorithms is shown in Fig. 9. The selected algorithms have shown excellent performance. The average accuracy of selected algorithms (0.9364) is significantly better than the average accuracy of all algorithms (0.7660).

123456789101112131415161718192021222324252627282930313233343536373839404142434445

Accuracy of selected algorithms ' ' Accuracy of unselected algorithms ■ — Average accuracy of all algorithms (0.766) ......Average accuracy of selected algorithms (0.9364)

Fig. 9. A comparison of algorithm accuracy for the example dataset

VII. Conclusion

This paper proposes a meta mining ontology framework for domain data adaptive processing. It allows constructing the domain-oriented ontology through creating an "INPUT" ontology that describes the characteristics of the data and task requirements and reconstructing and integrating existing DM ontologies. The domain-oriented ontology can be used as an intelligent assistant for domain data mining. The basic usage has been presented in this paper.

We also propose an ontology merging method to solve the problem of describing domain-oriented data characteristics in the ontology. The data characteristics in the field of time series classification are described in the ontology by the proposed method.

Although, the ontology is focusing on building the foundation of data mining, it can be used by practitioners in real-world applications to optimize knowledge discovery processes by sequentially querying the suitable solutions based on specific task requirements and data characteristics. Meanwhile, domain-oriented ontology is intended to be extensible and will continue to be updated to reflect future advancements in using it for building high-quality data-analytical processes rapidly.

References

[1] Jankowski, Norbert, Wlodzislaw Duch, and Krzysztof Grqbczewski,

eds. Meta-learning in computational intelligence. Vol. 358. Springer, 2011.

[2] Hilario, Melanie, et al. "A data mining ontology for algorithm selection

and meta-mining." Proceedings of the ECML/PKDD09 Workshop on 3rd generation Data Mining (SoKD-09). 2009.

[3] Brachman, Ronald J., and Tej Anand. "The process of knowledge

discovery in databases." Advances in knowledge discovery and data mining. 1996. 37-57.

[4] Chapman, Pete, et al. "CRISP-DM 1.0: Step-by-step data mining

guide." SPSS inc 9 (2000): 13.

[5] SAS Enterprise Miner - SEMMA. SAS Institute, 2014 [online]

available:

http://www.sas.com/technologies/analytics/datamining/miner/ semma. html (September 2014.)

[6] Bhatt, Mehul, et al. "A distributed approach to sub-ontology

extraction." 18th International Conference on Advanced Information Networking and Applications, 2004. AINA 2004.. Vol. 1. IEEE, 2004.

[7] Serban, Floarea, et al. "A survey of intelligent assistants for data

analysis." ACM Computing Surveys (CSUR) 45.3 (2013): 1-35.

[8] Ristoski, Petar, and Heiko Paulheim. "Semantic Web in data mining

and knowledge discovery: A comprehensive survey." Journal of Web Semantics 36 (2016): 1-22.

[9] Panov, P., Dzeroski, S., & Soldatova, L. (2008, December). OntoDM:

An ontology of data mining. In 2008 IEEE International Conference on Data Mining Workshops (pp. 752-760). IEEE.

[10] Panov, Pance, Saso Dzeroski, and Larisa N. Soldatova. "Representing entities in the OntoDM data mining ontology." Inductive Databases and Constraint-Based Data Mining. Springer, New York, NY, 2010. 27-58.

[11] Ristoski, P., & Paulheim, H. (2016). Semantic Web in data mining and knowledge discovery: A comprehensive survey. Journal of Web Semantics, 36, 1-22.

[12] Panov, Pance, Larisa N. Soldatova, and Saso Dzeroski. "Generic ontology of datatypes." Information Sciences 329 (2016): 900-920.

[13] Hilario, Melanie, et al. "A data mining ontology for algorithm selection and meta-mining." Proceedings of the ECML/PKDD09 Workshop on 3rd generation Data Mining (SoKD-09). 2009.

[14] Zakova, Monika, et al. "Automating knowledge discovery workflow composition through ontology-based planning." IEEE Transactions on Automation Science and Engineering 8.2 (2010): 253-264.

[15] Diamantini, Claudia, Domenico Potena, and Emanuele Storti. "Kddonto: An ontology for discovery and composition of kdd algorithms." Third Generation Data Mining: Towards Service-Oriented Knowledge Discovery (SoKD'09) (2009): 13-24.

[16] Kietz, Jörg-Uwe, et al. "Towards cooperative planning of data mining workflows." (2009).

[17] Bagnall, Anthony, et al. "The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances." Data Mining and Knowledge Discovery 31.3 (2017): 606660.

[18] Tianxing, Man, Nataly Zhukova, and Nikolay Mustafin. "A Knowledge-based Recommendation System for Time Series Classification." Proceedings of the 24th Conference of Open Innovations Association FRUCT. FRUCT Oy, 2019.

[19] Corbett, Dan. "Interoperability of ontologies using conceptual graph theory." International Conference on Conceptual Structures. Springer, Berlin, Heidelberg, 2004.

[20] McGuinness, Deborah L., et al. "An environment for merging and testing large ontologies." KR. 2000.

[21] Bakhtouchi, Abdelghani, et al. "MIRSOFT: mediator for integrating and reconciling sources using ontological functional dependencies." International Journal of Web and Grid Services 8.1 (2012): 72-110.

[22] Wouters, Carlo. A formalization and application of ontology extraction. Diss. La Trobe University, 2005.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.