Система управления базами знаний для управления процессами интеллектуального анализа данных тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Мань Тяньсин

  • Мань Тяньсин
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 436
Мань Тяньсин. Система управления базами знаний для управления процессами интеллектуального анализа данных: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2021. 436 с.

Оглавление диссертации кандидат наук Мань Тяньсин

Contents

РЕФЕРАТ

Общая характеристика работы

Содержание работы

Synopsis

General thesis summary

Thesis Contents

Introduction

CHAPTER 1. Fundamentals

1.1. Introduction

1.2. Data Mining Process Models

1.3. Algorithm selection and workflow construction

1.3.1. RICE model

1.3.2. Revised RICE model

1.3.3. Requirements to the workflow construction

1.4. Semantic meta mining

1.5. Data Mining Ontologies

1.6. Efficiency indicators

1.7. Conclusions

CHAPTER 2. Meta mining framework

2.1. Introduction

2.2. Architecture of the meta mining framework

2.2.1. Analysis layer

2.2.2. Representation layer

2.2.3. Service layer

2.2.4. Application layer

2.3. Meta mining framework

2.4. Evaluation

2.5. Conclusions

CHAPTER 3. DM ontologies

3.1. Introduction

3.2. DM core ontology

3.2.1. Content of DM core ontology

3.2.2. Classes and properties of DM core ontology

3.2.3. Statistical metrics for DM core ontology

3.3. DM dataset characterization ontology

3.3.1. Data characterization for algorithm selection

3.3.2. Design of the dataset characterization ontology

3.3.3. Main Classes in dataset characterization ontology

3.3.4. Case study

3.4. DM process ontology

3.4.1. Existing DM process models and ontologies

3.4.2. Design of the DM process ontology

3.4.3. Main classes in DM process ontology

3.4.4. Case study

3.4.5. Statistical metrics for DM process ontology

3.5. Conclusions

CHAPTER 4. Collaborative methods

4.1. Introduction

4.2. Ontology merging method

4.2.1. Existing ontology merging methods

4.2.2. Ontology merging method

4.2.3. Conclusions

4.3. Sub-ontology extraction method

4.3.1. Definitions

4.3.2. Existing Sub-ontology Extraction Methods

4.3.3. Sub-ontology extraction method

4.3.4. Evaluation

4.3.5. Conclusions

4.4. Rule-based interactive interface

4.4.1. DL query

4.4.2. Drools

4.4.3. The rule-based interactive interface

4.4.4. Users' requests

4.4.5. Query generation

4.4.6. Conclusions

4.5. Algorithm selection/Workflow construction

4.6. Conclusions

CHAPTER 5. Experimental evaluation of the proposed framework

5.1. Introduction

5.2. Methodology for the experiments

5.3. Evaluation of the results for the TS dataset

5.3.1. Construction of the DM ontology for TSC problem

5.3.2. Workflow construction for TSC problem

5.3.3. Evaluation of the experiments on 50 TS datasets

5.4. Evaluation of the results for general classification problem

5.4.1. Evaluation of the experiments on LFW dataset

5.4.2. Evaluation of the experiments on other datasets

5.5. Conclusions

CHAPTER 6. Conclusions

Bibliography

List of Figures

List of Tables

List of abbreviations

Glossary of terms

Appendix 1 TSC algorithms in DM ontologies

Appendix 2 The corresponding entities and results of the 50 TS dataset

Appendix 3 Акты внедрения

Appendix 4 Тексты публикаций

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система управления базами знаний для управления процессами интеллектуального анализа данных»

РЕФЕРАТ Общая характеристика работы

Актуальность темы исследования. В настоящее время в прикладных предметных областях генерируются огромные объемы данных. Наблюдается значительная потребность в извлечении знаний из этих данных с применением интеллектуальной обработки и анализа данных (Intelligent Data Processing and Analysis, IDP&A). Обработка данных (Data Processing, DP) изменяет форму, в которой представляются данные, и упрощает их просмотр. Анализ данных (Data Analysis, DA) представляет собой процесс организации необработанных данных с целью их использования для выработки обоснованных решений. Для обработки и анализа данных широко используются алгоритмы интеллектуального анализа (Data Mining, DM), которые направлены на извлечение полезной информации из данных большого объема [20].

К настоящему времени разработано значительное число алгоритмов DM. Эффективность их использования на практике зависит от условий их применения, в частности характеристик данных, требований решаемой задачи и наличия доступных ресурсов. В различных условиях следует использовать разные алгоритмы.

До настоящего времени задача выбора алгоритмов DM для обработки данных требует знаний уровня эксперта в области DM. Это приводит к неоправданному расходованию значительных людских ресурсов и задержкам во времени.

Межотраслевой стандартный процесс для интеллектуального анализа данных (Cross-Industry Standard Process for Data Mining, CRISP-DM [17]) описывает типовые процессы DM, которые формализованы в виде шести фаз, включающих в себя сотни активностей (рис. 1).

Рис. 1. Модель CRISP-DM с шестью фазами DM.

Для каждой фазы специалисты должны выбирать операторы/алгоритмы, которые реализуют активности. При выборе операторов/алгоритмов эксперты полагаются на многолетний накопленный опыт, который трудно выразить в явном виде. Начинающие специалисты не знают, какие алгоритмы необходимо применять, и часто прибегают к методу проб и ошибок.

Количество операторов/алгоритмов и видов активностей постоянно увеличивается [3]. Существует острая потребность в поддержке как новичков, так и экспертов при решении задач анализа данных. Традиционно такого рода поддержку оказывают эксперты/консультанты. Однако, они часто недоступны и также сталкиваются с проблемой растущего числа алгоритмов.

Степень разработанности темы исследования. Для решения задач анализа данных был предложен ряд систем, поддерживающих процесс DM:

• Knowledge Discovery Assistant (KDA)

• RapidMiner [1]

• OpenML[2]

• Google: Cloud AutoML[3], Google's Prediction API[4]

• Microsoft: Custom Vision[5], Azure Machine Learning[6]

• Amazon: Amazon Machine Learning[7]

• IBM: Cognos Analytics[8]

• SAS[9]

• Weka [10]

• Другие: BigML.com[11], Wise.io[12], SkyTree.com[13], Dato.com[14], Prediction.io[15], DataRobot.com [16]

Эти системы реализованы на основе следующих технологий:

• Мета-обучение (Meta learning) [20], то есть обучение обучению, определяется как применение методов машинного обучения (Machine Learning, ML) к метаданным о прошлых экспериментах по машинному обучению с целью изменения некоторых аспектов процесса обучения для повышения производительности результирующей модели.

• Мета майнинг (Meta mining) [21] определяется как интеллектуальный анализ процессов DM, управляемый одновременно метаданными и коллективным опытом майнеров данных, которые формализованы в виде онтологии DM и базы знаний.

• AutoML [22] - это процесс автоматизации применения ML при решении практических задач. AutoML предусматривает мета-обучение и гиперпараметрическую оптимизацию.

В отличие от традиционного мета-обучения, для оптимизации DM с помощью выбора алгоритмов/моделей был предложен семантический мета майнинг [21]. Он представляет собой фреймворк для описания и уточнения сложных взаимосвязей между задачами, данными и алгоритмами на разных этапах процесса DM. Семантический мета майнинг предполагает извлечение метаданных о процессах DM путем запросов к базам знаний. При этом опыт, представленный в виде знаний, должен храниться в машинно-интерпретируемом формате, чтобы его можно было автоматически извлекать и использовать для решения новых задач.

Существующие БЫ системы, основанные на семантическом мета майнинге, предоставляют существенную помощь при определении последовательности операторов в процессах анализа данных, а также выборе их параметров [23]. Однако, большинство существующих систем поддерживают только отдельные этапы общего процесса БЫ и требуют использования специальных аннотаций при описании алгоритмов БЫ [24], [25]. Это ограничивает возможности таких систем, поскольку, как правило, необходимо оказать специалистам помощь в формировании всего процесса интеллектуального анализа данных - от сбора необработанных данных до извлечения знаний. При поддержки всего процесса БЫ, система должна рассматривать каждый шаг с учетом других шагов.

В семантическом мета майнинге базы знаний представляются в виде онтологий, поскольку онтологии позволяют описывать знания на понятном для машины языке. Для области БЫ были разработаны следующие онтологии БЫ:

• Оп1;оБЫ [26] - включает формальные определения основных сущностей БЫ, таких как задачи БЫ, алгоритмы БЫ, описание реализации алгоритмов. Однако, в онтологии характеристики алгоритмов не рассматриваются.

• Оп1;оБТ[27] - разработана для представления знаний о типах данных. В Оп1;оБТ определяются базовые сущности, такие как типы данных, свойства типов данных, спецификации и таксономия типов данных.

• Оп1;оБЫ-КББ [28] описывает модель процесса СМБР-БЫ. Онтология позволяет описывать процессы БЫ в общем виде.

• БЫОР [29] - предоставляет собой единую концептуальную основу для анализа задач, алгоритмов, моделей, наборов данных и процессов БЫ, а также их взаимосвязей, но она охватывает только 3 фазы СМБР-БЫ: подготовка данных, моделирование и оценка.

• БЫЖР [30] использует правила [31] для определения условий применения и влияния операторов БЫ, учет которых необходим при построении процессов БЫ.

Таблица 1. Существующие онтологии DM и фазы в CRISP-DM, для

описания которых онтологии могут применяться

DMOP OntoDM OntoDT OntoDM-KDD DMWF

Понимание задачи (Business Understanding) - V - - -

Понимание данных (Data Understanding) - - V - -

Подготовка данных (Data Preparation) V V - V V

Моделирование (Modelling) V V - V V

Оценка (Evaluation) V V - V V

Разработка (Deployment) - V - - V

В таблице 1 представлены существующие онтологии DM и фазы СМБР-ОМ,

для описания которых онтологии могут применяться. Существуют ряд факторов,

препятствующих автоматизации решения задач обработки данных:

• Не существует единой онтологии для поддержки общего процесса DM.

• Отсутствует возможность представления характеристик наборов данных, на основе которых осуществляется выбор алгоритмов DM.

В дополнение к проблемам поддержки общего процесса DM и использования существующих онтологий DM возникают следующие проблемы:

1) Обрабатываемые данные различны в разных предметных областях. При применении онтологий DM для анализа набора данных в определенной области следует предварительно скорректировать онтологию, описывающую данные и их характеристики.

2) Онтологии DM, как правило, являются крупномасштабными, выполнение запросов к ним занимает значительное время.

Для решения перечисленных проблем разработана новая программная платформа для построения процессов интеллектуальной обработки и анализа данных

(meta mining ontology framework, мета майнинг фреймворк), основанная на механизме мета майнинга, для платформы разработаны коллаборативные методы.

Сравнение возможностей существующих систем поддержки процесса DM и возможностей, предоставляемых предлагаемой платформой, приведено в таблице 2. Таблица 2. Сравнение возможностей существующих систем поддержки DM процесса и возможностей, предоставляемых предлагаемой платформой.

(Полнота - количество поддержанных фаз DM; Перенастраиваемость - возможность применения платформы в разных областях за счет реструктуризации онтологии; Генерация процесса DM - возможность генерации процесса DM; Высокая эффективность - низкая вычислительная сложность построения процесса DM; Выбор алгоритмов - поддержка возможности выбора алгоритмов DM при построении процесса DM; Настройка параметров -возможность настройки параметров алгоритмов DM)

Meta mining Meta learning AutoML Предложенный фреймворк

Бизнес уровень V - - V

Понимание данных V - - V

Полнота (CRISP-DM) Подготовка данных V - V V

Моделирование V V V V

Оценка V - - V

Разработка V - - V

Реконфигурация - - - V

Генерация процесса DM V - V V

Высокая эффективность - - - V

Выбор алгоритмов V V V V

Настройка параметров алгоритмов - V V -

По сравнению с существующими системами, предложенная платформа поддерживает выбор алгоритмов анализа данных и построение общего процесса DM. Платформа является реконфигурируемой и позволяет строить процессы DM с низкой вычислительной сложностью за счет использования разработанных коллаборативных методов.

Цель работы. Целью исследования является обеспечение основанной на знаниях поддержки общего процесса обработки и анализа данных для решения прикладных задач в предметных областях с использованием методов искусственного интеллекта.

В соответствии с целью исследования были решены следующие научно-технические задачи:

1) Системный анализ основанных на знаниях методов и моделей обработки и анализа данных (Мета-обучение (Meta Learning), Семантический мета-анализ (Semantic Meta Mining), Онтологии DM (DM Ontology)).

2) Разработка программной платформы для построения процессов интеллектуальной обработки и анализа данных (мета майнинг фреймворка), которая позволяет выбирать алгоритмы обработки и анализа данных и строить общие процессы DM.

3) Построение онтологий DM для представления характеристик данных, процессов DM и алгоритмов DM. (Онтология характеристик наборов данных, онтология процессов DM и онтология ядра DM).

4) Разработка нового метода слияния онтологии ядра DM с доменными онтологиями, который позволяет строить доменные онтологии ядра DM для различных предметных областей на основе характеристик доменных данных.

5) Разработка нового метода для извлечения подонтологий из доменной онтологии ядра DM, позволяющего уменьшать размер онтологии и снижать сложность выполнения запросов к онтологии.

6) Разработка человеко-машинного интерфейса для генерации запросов, описываемых с использованием дискрипционной логики (Description Logic, DL), на основе запросов пользователей, формулируемых на естественном языке.

7) Экспериментальное исследование разработанных онтологий и методов слияния онтологий и извлечения подонтологий и оценка полученных результатов.

Объект исследования.

Процесс обработки данных для решения прикладных задач в предметных областях с использованием информационных систем.

Предмет исследования.

Программная платформа для построения процессов обработки и анализа данных (мета майнинг фреймворк), ориентированных на решение прикладных задач в предметных областях с использованием методов интеллектуального анализа данных.

Научная новизна.

1. Набор моделей, методов и программных инструментов, организованных в виде программной платформы для построения процессов интеллектуальной обработки и анализа данных (мета майнинг фреймворка), позволяющей, в отличии от существующих, за счет использования разработанных онтологий обеспечить автоматизацию обработки и анализа исходных данных при решении практических задач в предметных областях.

2. Человеко-машинный интерфейс для взаимодействия пользователей с разработанной программной платформой (мета майнинг фреймворком), основанный на применении продукционных правил, который, в отличии от существующих, позволяет пользователям формировать запросы на построение процессов обработки и анализа данных на естественном языке, а также с использованием специализированных терминов предметных областей.

Теоретическая значимость.

Состоит в развитии теории построения процессов интеллектуальной обработки и анализа данных в части автоматизации построения этих процессов, обеспечиваемой за счет разработки и использования онтологий области интеллектуального анализа данных.

Практическая значимость.

Разработанная и реализованная программная платформа (фреймворк) позволяет специалистам предметных областей применять на практике методы интеллектуальной обработки и анализа данных при решении широкого круга прикладных задач.

Соответствие паспорту специальности.

Диссертационная работа соответствует паспорту научной специальности ВАК РФ 05.13.11 - «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей» по п. 3 «Модели, методы, алгоритмы, языки и программные средства для организации взаимодействия программ и программных систем» и п. 7 «Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения».

Методы исследования.

Для решения поставленных задач использованы методы и модели системного анализа, теории искусственного интеллекта, инженерии требований, методы анализа семантических данных, теории управления бизнес процессами, программной инженерии, инженерии знаний, в частности онтологического инжиниринга, разработки и сопровождения программных систем.

Научные положения, выносимые на защиту

1. Набор моделей, методов и программных инструментов, организованных в виде программной платформы для построения процессов интеллектуальной обработки и анализа данных (мета майнинг фреймворка).

2. Человеко-машинный интерфейс для взаимодействия пользователей с разработанной программной платформой (мета майнинг фреймворком).

Достоверность полученных результатов.

Достоверность полученных результатов обеспечивается за счет того, что новые модели, методы и алгоритмы основаны на хорошо известных проверенных решениях. Предлагаемые варианты использования существующих решений при разработке новых моделей, методов и алгоритмов логически обоснованы, а способы их применения корректны. Кроме того, достоверность научных результатов подтверждается результатами экспериментов, проведенных на данных из различных предметных областей, а также результатами апробации на научных конференциях, в том числе международных.

Апробация результатов.

Результаты работы были представлены на ряде конференций, в том числе на следующих: FRUCT22 (Финско-Российское сотрудничество университетов в области телекоммуникаций), IJERTCS (Международный журнал встроенных систем связи и систем реального времени), IJKSS (Международный журнал знаний и системных наук), ICCSA2019 (Международная конференция по вычислительной науке и ее приложениям), FRUCT24, ICINCO2019 (Международная конференция по информатике в управлении, автоматизации и робототехнике), PeerJ CS (Компьютерные науки PeerJ), ICCSA2020, FRUCT 26, IS'2020 (10-я Международная конференция по информационным системам), INTELS 14 (Международная конференция по интеллектуальным системам), FRUCT28, CPSC (Международная конференция по киберфизическим системам и управлению), Intellisys 2021 (Конференция по интеллектуальным системам), ICCSA2021.

Внедрение результатов исследования.

Результаты диссертационной работы были использованы при выполнении работы по бюджетной теме «Теоретические основы и алгоритмические модели когнитивного управления, взаимодействия и анализа состояния групп разнородных робототехнических комплексов» в рамках выполнения государственного задания Санкт-Петербургским федеральным исследовательским центром Российской академии наук, утвержденного Министерством образования и науки России, в 2019-

2020 годах, а также были использованы в учебном процессе университетов ИТМО и ЭТУ "ЛЭТИ".

Личный вклад автора.

Автор разработал, внедрил и доказал эффективность программной платформы для построения процессов интеллектуальной обработки и анализа данных (мета майнинг фреймворка), которая включает в себя ряд онтологий DM (онтология ядра DM, онтология характеристик DM и онтология процессов DM), предоставляет коллаборативные методы для слияния онтологий, извлечения подонтологий и включает модуль генерации запросов DL. Разработанный фреймворк был использован при решения различных прикладных задач для выбора алгоритмов и построением процессов DM.

Основные результаты по теме диссертации представлены в 18 публикациях, 12 статей проиндексированы в базе данных Scopus.

Жукова Н. А. во всех совместно проведенных исследованиях осуществляла общее руководство, давала рекомендации по разработке моделей и методов, консультировала при написании статей.

Вклад Мань Тяньсин в работы, выполненные в соавторстве, состоит в разработке и реализации программной платформы, онтологий и методов работы с ними, подготовке рукописей статей.

Другие соавторы оказали значимую помощь при проведении исследований, требовавших привлечения специалистов смежных или прикладных предметных областей.

Объем и структура диссертации.

Работа состоит из введения, 6 глав и заключения. Полная диссертация состоит из 192 страниц текста с 54 рисунками и 15 таблицами. Список литературы содержит 116 наименований.

Содержание работы Глава 1.

В первой главе приведены положения, которые составляют основу для представляемого исследования.

Известные модели интеллектуального анализа данных. Существует довольно большое количество моделей БЫ для поддержки процессов интеллектуального анализа данных. СМБР-ОМ [17] - шестифазная модель процесса интеллектуального анализа, которая включает в себя следующие фазы: понимание задачи, понимание данных, предварительная обработка данных, моделирование, оценка и разработка. КББ [18] - модель интеллектуального анализа и обнаружения знаний, содержащая детальное описание фаз СМБР-БМ. В KDD фазы определены более детально: разработка приложения, создание целевого набора данных, очистка и предобработка данных, преобразование данных, выбор задачи интеллектуального анализа данных, выбор алгоритма, применение алгоритма, интерпретация извлеченных данных, интерпретация полученных шаблонов и использование полученных знаний. В отличие от CRISP-DM и KDD, модель SEMMA [33] фокусируется в основном на управлении данными. В SEMMA описаны пять фаз: выборка, исследование, модификация, моделирование и оценивание. Проблемы понимания и внедрения сгенерированных моделей не рассматриваются. В настоящее время все модели процессов интеллектуального анализа данных формируются вручную.

Подробное сравнение процессных моделей БЫ представлено в таблице 3.

Таблица 3. Сравнение процессов интеллектуального анализа данных в моделях СМБР^М, SEMMA и KDD.

КББ СШБР-БМ БЕММЛ

Л о о и Разработка приложения Понимание бизнес-процессов

СТ О С Формирование набора данных Понимание данных Выборка

Очистка и предобработка данных Исследование

Преобразование данных Подготовка данных Модификация

Выбор задачи интеллектуального

анализа

Выбор алгоритма интеллектуального анализа Моделирование Модель

Применение алгоритма

интеллектуального анализа

Интерпретация шаблонов полученных Оценивание Оценка

Использование знаний полученных Развертывание (внедрение)

Задача выбора алгоритма. Задача выбора алгоритма формулируется на основе формальной модели Райса [34] (рис. 2), которая включает в себя пространство задач X (Problem Space X), пространство характеристик (признаков) F (Problem Space F), пространство алгоритмов A (Algorithm Space A) и пространство метрик E для оценки эффективности применения алгоритмов при решении задач (Efficiency Indicator Space E). Пусть определены: пространство задач X или набор задач, описываемых в терминах признаков пространства F, пространство алгоритмов A или набор алгоритмов для решения задач из X, пространство показателей эффективности E, определяющее показатели эффективности применения алгоритмов. Тогда задача выбора алгоритма может быть сформулирована следующим образом: для задачи x £ X, характеризуемой f (x) £ F, найти алгоритм а £ A посредством выбора отображения S (f (x)), такого, что показатель эффективности e ( а (x)) £ E будет достигать максимума (рис. 2).

Рис. 2. Модель Райса

Однако, отношения между набором данных и характеристиками алгоритма в модели Райса не описываются. В [30] была предложена усовершенствованная модель Райса (рис. 3). Она включает дополнительное пространство признаков G для описания характеристик алгоритмов (Feature Space G); показатели эффективности применения алгоритмов определяются на основе метрик производительности из пространства P (Performance Space P). В результате функция отображения становится зависимой как от решаемых задач, так и от характеристик алгоритмов. В этих условиях формулировка задачи выбора алгоритма приобретает вид: для задачи x £ X, характеризующийся f (x) £ F, и алгоритмов a £ A, характеризующихся g (a) £ G, найти алгоритм a £ A с помощью отображения S (f (x) , g (a)), при котором производительность p (a (x)) £ P является максимальной.

Рис. 3. Усовершенствованная модель Райса

На основе усовершенствованной модели автором предлагается построить мета майнинг фреймворк, который позволяет автоматизировать построение процессов обработки и анализа данных за счет выбора алгоритмов DM на основе использования опыта, хранящегося в онтологиях.

Существующие онтологии. Онтологии DM создаются для семантического описания данных предметной области интеллектуального анализа данных. Большинство онтологий предоставляют описания основных понятий, используемых при интеллектуальном анализе. Панов и др. предложили онтологию OntoDM, которая представляет собой набор онтологий для описания алгоритмов [26], процессов [28] и типов данных области DM [27]. Hilario и др. обобщили характеристики алгоритмов интеллектуального анализа для описания понятий, применяемых при поддержке выбора алгоритмов DM [29]. OntoKDD предоставляет подробное описание абстрактных процессов интеллектуального анализа [28]. В онтологии DMWF [30] используются правила SWRL [31] для определения условий и влияния операторов, которые необходимо учитывать при поддержке построения

процессов DM. Учет условий и влияния операторов, как правило, вызывает значительные сложности у конечных пользователей.

Глава 2.

Во второй главе представлена программная платформа для построения процессов интеллектуальной обработки и анализа данных (мета майнинг фреймворк) для поддержки всего процесса DM, логическая структура фреймворка показана на рис. 4. Онтология описания набора данных (DM Characterization Ontology) и онтология ядра DM (DM Core Ontology) определяют основные понятия, используемые для описания характеристик данных, и основные понятия области DM. Онтология процессов интеллектуального анализа (DM Process Ontology) позволяет описывать процессы на разных уровнях абстракции. В предлагаемом фреймворке для слияния онтологий и извлечения подонтологий разработаны новые методы [35]. Механизм логического вывода (Inference Engine), сервер онтологий (Ontology Server) и модуль запросов, обеспечивающий выполнение запросов к онтологиям (Query), позволяют выполнять поиск алгоритмов в соответствии с требованиями решаемой задачи (Task Requirements) и характеристиками обрабатываемых данных (Data Characteristics) с использованием знаний, предоставляемых онтологиями. Обработка данных с применением выбранных алгоритмов может быть выполнена с использованием существующих инструментов и библиотек (Weka, RapidMiner и т. д.). Результаты могут использоваться для обновления знаний о предметной области.

Рис. 4. Логическая структура мета майнинг фреймворка для обработки данных

В фреймворке запросы пользователей обрабатываются модулем запросов. Модуль запросов требует построения запросов на языке дискрипционной логики (DL). Запросы должны быть сформулированы с использованием достаточно сложного синтаксиса Manchester OWL [36]. Большинство предполагаемых пользователей фреймворка не являются специалистами в области информационных технологий и не могут составлять запросы вручную. Это затрудняет практическое применение модуля запросов. Для упрощения взаимодействия пользователя с фреймворком, предлагается новый интерактивный интерфейс, основанный на работе с логическими правилами, который позволяет автоматически конвертировать запросы пользователей в DL запросы.

Глава 3.

В третьей главе подробно рассмотрены предлагаемые онтологии интеллектуального анализа данных. Разработанные онтологии DM включают онтологию ядра DM (DM Core Ontology), онтологию процессов DM (DM Process Ontology) и онтологию описания наборов данных (Data Characterization Ontology) (рис 5).

Рис. 5. Онтологии DM для построения процесса DM.

Онтология ядра DM описывает общие знания, включая алгоритмы, процессы, характеристики, задачи и т. д. В состав онтологии ядра DM включены следующие существующие онтологии: OntoDM [26], DMOP [29] и DMWF [30]. В онтологии ядра DM характеристики наборов данных и требования к решаемым задачам определяют условия выбора алгоритмов. На основе этих условий выбираются алгоритмы DM и критерии оценки результатов. Описание алгоритмов содержит информацию, позволяющую определять их параметры и выполнять их [37]. Основные классы онтологии ядра DM представлены на рис .6.

Рис. 6. Основные классы онтологии ядра DM Онтология характеристик наборов данных определяет семантику характеристик наборов данных в виде, интерпретируемом машинами. Характеристики наборов данных описываются тремя классами: стандартные меры, статистические меры и теоретико-информационные меры. Эта информация помогает в процессе выбора DM алгоритмов. Онтология построена на основе существующих онтологий анализа OntoDT [27] и IAO [38], и новых классов, которые описывают характеристики наборов данных (рис. 7).

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Мань Тяньсин, 2021 год

- ' I I

•ubOoiOl

j0TW_Rn 1NN c I

M.nOf i»bCU»»or MUMC1 MkCUiiOf tc«.«..U'

MSW1NN Q

IMCDCNN c . Jc—flX*»«- c "3J ^ C

UCN* c -Ï MLP c 1 R

I . 1 c, In c .

"1 SAXVSM c '0—0' . .. m

|*fc I //MUWL SF

.„b. SVMQ -

TWEJNN c Tims-CNN ( TSBF c

1 WODTW INN «

C ,

I ' C

i

i

I|ST C |K

COTE c I I

i

i

j Algw«imBM«dOnSI,ap0eto -

Fig. 2. TSC algorithms and class "AlgonthuiBasedOnShapelets" ill ontology

Algorithm - algorithms for data processing that can be common machine learning algorithms (ML Algorithm) [27] and special algorithms oriented on time series classification (shown in table I). The main TSC algorithms are shown in Fig. 2.

TABLE I ALGORITHMS IN KBRS

22 Loástie Logs tic iegiession

23 LPS I earned Pattern Smnlaritv

24 LS Leamed Shapelets

25 MCDCNN Multi Channel Deep Convohltional Neural Netnnk

26 MCNN Mula-scaleCousolunoiial Neiual Netsurk

27 MLP Multi-lawi Paceptrou

28 MSM INN More-Split-Merge

29 KB Naive Baves

50 PS power spectnimtrairsicrm

31 RandF Random Ftrest

32 ResNei Residual Netsvuk

33 RotF Rotatusi Forest

34 SAXVSM Svinbolic Ageresite approximation and Vector Space Model

35 ST Slrapelet Tiausfcmi

36 SVML SuppctT Vecttr Machine mill linear kernel

37 SVMQ Suppat Veda Maclnue '.sith quadranc kanel

38 Time-CNN Tune Cmvdutioial Neural Network

39 t-LtfJet Tune Le-Net

40 TSBF Tune Senes Bae of Features

41 TSF Time Series Faesl

42 TWE INN Tune Warp Edit Distance

43 TWŒSN Tune Warping Invariant Echo State Netss-ak

44 WDDTW INN Weighted Derivative Dvnanic Tune Warping

45 \VDT\V INN WeightedDvnaimc Tune Waiping

characteristics of input datasets, including features of the output data and users'

DataFeature ■ size, length etc.

Output Feature requirements.

Mathematics - mathematics base of the algorithms.

Measure - measures for estimating expected and actual results of data processing and corresponding similarity functions.

Model - basic algorithms models;

Representation - The common time series representation methods. The authors summarize the comparation of these methods in table II and describe them in ontology. The KBRS describes the difference in system. So sometimes users can consider these comparerions as the conditions to choose suitable algorithms.

TABLE II THE COMPARATION OF TIME SERIES REPRESENTATION

(Methods in table: DFT- Discrete Fourier Transform; DWT- Discrete Wavelet Transform; SVD- Singular Value Decomposition; P.LI- Piecewise Aggregate Approximation; .IPC'A- Adaptn-e Aggregate Constant Approximation; PLA-Piecewise Linear Approximation; PRA-Piecewise Regression Approximation;

S.VC-Symbolic Aggregate approximation. Columns in table: 1- Time domain frequency domain transfoim; 2-Dimensionality reduction; i-Linear computational complexity>; 4-Symbolization; 5-Pivcessing variable length sequences; 6-Dynamic

No. Name in KBRS Fnfl Name

1 ACF AntocaTelaliai fiurtiai

2 BN bavesum netssoik

3 BoP BagofPattans

4 BOSS Bag ctf SFA Svrnbds

5 C45 C4.5

6 CID DIW Conplemlv-bnanani Distance

7 COTE Collecnon of TrausfonmnouE

8 DD DTW DerisanveDvuanic TinieWarpmg

9 DDIW R1 INN Denvauve Dvnaiuic Tune Warping "i"ii Ml ssarpuigsviudoiv

10 DDTft'RnINN Derivative Dynamic Time Warpuig vrth "arping window set through cross vahdatitn

11 DTD C Denvause TrausfbmiDlstance

12 DTW F Druainic Tune Warping Features

13 DTWR1 INN Dynamic Time Waiprng mtli Ml sharping window

14 DTW Ru INN- Dsnaunc Tune Waipmgsuth nailing windwv set thrcugh cross validauon

15 EE Elastic Ememble

16 Eircder Eucoder

17 ERP INN Edit Distance for Real Sequences 1-nearest ueighbcralgcnthui

18 Euclidean INN Euchdean 1-nearest neidrbct algonthm

19 FCN Fullv Convolutioual Neuial Neftioik

20 FS Fast Shapelel Tree

21 LCSS INN Longest Conmon Subsequence 1-nearest neighboi algcrithm

Representation Method 1 2 3 4 5 6 7 8

DFT V V X X V X X X

DWT V V X X X X X X

SVD V V X X V X X X

PAA X V V X V •J V X

APCA X N/ X X V V V X

PIA X V X X V NI V X

PRA X V V X V NI X X

Polynomial fitting X < X X V X X X

Clipper Data X X V V V V V X

SAX X >/ V V V ; V X

Landmarks X V X v1 ; V V

Important point X V X V V V

C. Properties in KBRS

Custom properties make ontology more flexible than taxonomy. The authors define some necessary properties to describe the relationship between classes.

Employ-hsks the algorithm and the measures, representation and other algorithm that can be used to explain the principle of algorithms;

hasComponent-lmks the algorithms considering them as the steps of data processing;

This KBRS is applied on two classical TS data sets: 'Meat' and 'CinCECGtorso'.

Food spectrographs are used in chemometrics to classify food types, a task that has obvious applications in food safety and quality assurance. The classes in data set "Meat' are 'chicken', 'poik' and 'turkey'. Duplicate acquisitions are taken from 60 independent samples. The data set is obtained using Fourier transform infrared (FTIR) spectroscopy with attenuated total reflectance (ATR) sampling [25].

The data set 'CinCECGtorso' is derived from one of the Computers in Cardiology challenges, an annual competition that rims with the conference series of the same name and is hosted on pliysionet. Data is taken from ECG data for multiple torso-surface sites. There are 4 classes (4 different people) [26].

Firstly, the characteristics of these data sets should be summarized and described with the ontology entities, which are shown in TABLE III [32],[33],

TABLE in THE CORRESPONDING ENTITIES OF CHARACTERISTICS OF DATA SETS IN ONTOLOGY

JciQDTW c (

I MgoriihmSiitoMeFo'SnullTidinTSDd (

I"

I

^ AlgoiiUimByTrainSiM q

Data Set Category Value of data set Range of Class Value Ontology Class

CinCECGtorso Traill size 40 hasSize some xsd:inreger[< 100] SmallTrainTSDataset

Test size 1380 hasSize some xsdintegir[> 10001 LargeTestTSDataset

Length 1639 hasSize some xsd inreger[> 7001 LongTSDataset

No of classes 4 hasSize some xsdmtegerf< 101 FewClassT SDataset

Data area ECG ECG ECGTSDataset

Meat Train size 60 hasSize some xsd:inregerf< 1001 SmallTrainTSDataset

Test size 60 hasSize some xsd inregerf< 3001 SmallTestTSDataset

Length 448 Less than 300 MediumTSDataset

No. of classes 3 hasSize some xsd:integ?r!< 101 FewClassT SDataset

Data area SPECTRO SPECTRO SPECTROTSDataset

| AigonihmByPwIofnianco

Fig. 5. Algorithms winch are suitable for the data set with small size tram data set

As the result of selection all the suitable algorithms are shown in TABLE IV (for 'CinCECGtorso') and TABLE V (for 'Meat').

TABLE IV ALL SUITABLE ALGORITHMS FOR 'CINCECGTORSO'

(The symbol Vmeans this algorithm is suitable for thedataset in this Categoty. And the highlight algorithms are the selected algorithms which are

These description entities are used to locate the suitable algorithms as inputs, hi Fig. 5 the algorithms which are suitable for the characteristic 'Small Train Data set' are presented. Through this way, when users input some requirements or some characteristics, they can receive the suitable algorithms. Sometimes they can get more than one choice. But in KBRS the details of the algorithms such as model, measure and function are described. Users can make decision by themselves depending on these points. This is flexible and user-friendly design. The descriptions of the time series classification algorithms could provide information to make decisions such as the comparison of the data representation methods in TABLE II.

Algorithm Train size Test size Length No. of classes Data area

BOSS V V V V V

CID_DTW V V V

COTE V V V V V

DD_DTW V

DTD_C V

DTW_F V V V V

EE V V V V V

ERPJLNN V

LCSS INN V

LPS V V V

LS V V V

MSMJLNN V V V V V

PS V

ST V V V V V

SVMQ V

TSBF V V V

TSF V V V

TABLE V ALL SUITABLE ALGORITHMS FOR 'MEAT'

Algorithm Train size Test size Length No. of classes Data area

BOSS V V V V V

OD DTW V

COTE V V V V

DDJDTW V

DTWJ= V V V V

EE V V V V

Logistic V

LPS V V V V

LS V V V V

MLP V

MSM INN V V V

RandF V

RotF V

SAXVSM V

ST V V V V

SVML V

SVMQ V

TSBF V V V V V

TSF V V V

It's worth noting that sometimes the user's needs are so high that no algorithm can satisfy all the conditions. There are two solutions depending on the needs of the user:

1). Delete the conditions that the user thinks are least important, and then find the intersection.

2). Select the algorithms that are appropriate for the conditions that the user considers to be the most important in all the candidate algorithms.

hi these two experiments BOSS, COTE, EE, MSM1NN and ST are selected for data set 'CinCECGtorso' and BOSS and TSBF are selected for data set 'Meat' by KBRS, since these algorithms are suitable for all the conditions as the Fig. 6 and Fig. 7 shown.

♦ untitled ontology 57 - Search...

Active Ontology x Entities x Individuals by class x OWLViz x DL Query x OntoGraf

Inferred - Query (class expression)

^ untitled-ontology-57 (httpy/www.se manticweb.org/admi... — □ File Edit View Reasoner Tools Refactor Window Mastro Ontop Help

Execute Add to ontology Query results

Equivalent classes (0 of 0)

Subclasses (5 of 6)

Query for

Direct superclasses Superclasses " Equivalent classes Direct subclasses 'Subclasses Instances

Fig. 6. Algorithms which are suitable for the data set 'CinCECGtorso'

untitled-ontology-57 (http://www.semanticweb.org/admi... — □ X File Edit View Reasoner Tools Refactor Window Mastro Ontop Help < «untitled-ontology-57 • Search-

Execute Add to ontology Query results

Equivalent classes (0 of 0) Subclasses (2 of 3)

8

Query for

Direct superclasses Superclasses ' Equivalent classes Direct subclasses ' Subclasses Instances

Fig. 7 Algorithms which are suitable for the data set 'Meat'

Authors apply all the TSC algorithms on these two data sets and give a rank in TABLE VI and TABLE VII.

TABLE VI THE ACCURACY RANK OF ALL TSC ALGORITHMS ON 'CINCECGTORSO'

Rank .Algorithm Accuracy Rank .Algorithm .Accuracy

1 COTE 0983 24 LPS 0.743

2 TSF 0.974 25 FS 0.741

3 CID DTW 0.954 26 DD DTW 0.731

4 EE 0946 27 RandF 0.731

5 DDTW Rn INN 0.944 28 SAXVSM 0.730

6 WDDTW INN 0.93S 29 DDTW R1 INN 0717

7 MSM INN 0.935 30 TSBF 0.716

S LCSS INN 0.928 31 BoP 0.716

9 DTW Rn INN 0.928 32 DTW F 0.714

10 ST 0.918 33 RotF 0.712

11 WDTW INN 0.908 34 DTW R1 INN 0.674

12 BOSS 0 900 35 SVMQ 0.657

13 ERP INN 0 899 36 MCDCNN 0643

14 Euclidean INN 0 891 37 C45 06«

15 PS 0.888 38 Time-CNN 0.600

16 LS 0.855 39 Encoder 0.573

17 NB 0 847 40 TOTE SN 0.553

18 TWE INN 0 846 41 MCNN 0.533

19 ResNet 0 844 42 t-LeNet 0.533

20 DTD C 0 820 43 SVML 0462

21 FCN 0 814 44 MLP 0.462

22 BN 0 803 45 Logistic 0.379

23 ACT 0.7S6

TABLE VII THE ACCURACY RANK OF ALL TSC ALGORITHMS ON 'MEAT'

Rank .Algorithm Accuracy Rank Algorithm Accuracy

1 MLP 0999 24 DD DTW 0969

2 SVML 0997 25 LPS 0968

3 SVMQ 0996 26 ResNet 0968

4 RotF 09M 27 TWŒSN 0968

5 Logistic 0993 28 ST 0966

6 DTW F 0983 29 BoP 0.962

8 Euclidean INN 0 981 31 C45 0.940

9 ERP INN 0981 32 ACT 0927

10 COTE 0981 33 FS 0.924

12 DTW Rn INN 0.980 35 Ttme-CNN 0902

13 CID DTW 0.980 36 FCN 0.853

14 RandF 0979 37 DDTW Rn INN 0.821

15 EE 0.979 38 LS 0.814

16 TSF 0978 39 WDDTW INN 0 790

17 DTD C 0.97S 40 DDTW R1 INN 0.759

18 BN 0.977 41 Encoder 0.742

19 MSM INN 0977 42 MCDCNN 0 705

20 TWE INN 0976 43 LCSS INN 0 611

21 DTVV R1 INN 0 971 44 MCNN 0.333

22 WDTW INN 0.971 45 t-LeNct 0.333

23 NB 0.971

As the tables shown all chosen algorithms are obviously in the upper half and have good performance. At least, with the help of KBRS they have not made bad choices.

VI. Conclusion

Obviously, the recommendation system based on ontology has better flexibility than a taxonomy. With the support of ontology technology authors flexibly define more relationships to describe the knowledge about TSC. Such a recommendation system effectively helps those non-computer science researchers choose and understand the appropriate TSC method.

References

[1]Xing, Zhengzheng, Jian Pei, and Eamonn Keogh. "A brief survey on sequence classification." ACM Sigkdd Explorations Newsletter 12.1 (2010): 40^8.

[2]Rakthanmanan, Thanawm, et aL "Searching and mining trillions of tune series subsequences under dynamic time warping." Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012.

[3]McGovem, Amy, et al. "Identifying predictive multi-dimensional time series motifs: an application to severe weather prediction" Data Mining and Knowledge Disco\>ery22.1-2 (2011): 232-258.

[4]Hartmann, Bastian, and Noibert Link "Gesture recognition with mertial sensors and optimized DTW prototypes." Systems Man and Cybernetics (SMC), 2010 IEEE International Conference on. IEEE, 2010.

[5]Ratanamahatana, Cliotirat, et al. "A novel bit level tune series representation with unplication of similanty search and clustering." Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2005.

[6]Agrawal, Rakesli, Christos Faloutsos, and Aran Swami. "Efficient similarity search in sequence databases." International conference on foundations of data organization and algorithms. Springer, Berlin, Heidelberg, 1993.

[7] Chan, Km-Pong, and Wai-Chee Fu. 'Efficient tune series matching by

wavelets." icde. IEEE, 1999.

[8]Keogh, Eamonn J., and Michael J Pazzam "An Enhanced Representation of Time Series Which Allows Fast and Accurate Classification, Clustering and Relevance Feedback." Kdd. Vol. 98. No. 1. 1998.

[9] Keogh, Eamonn, et al. "Dimensionality reduction for fast similanty

search ui large tnne senes databases." Knowledge and information Systems 3.3 (2001): 263-286.

[10] Keogh, Eamonn, et al. "An online algontlun for segmenting tune series." Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on. IEEE, 2001

[11] Lin, Jessica, et aL "Experiencing SAX: a novel symbolic representation of time series." Data Mining and knowledge discovery 75.2(2007): 107-144.

[12] Ye, Lexiang, and Eamonn Keogh. "Time series sliapelets: a new primitive for data mining." Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data milling. ACM, 2009.

[13] Ye, Lexiang, and Eamonn Keogh. "Time series sliapelets: a novel technique that allows accurate, interpretable and fast classification." Data mining and knowledge discovery 22.1-2 (2011): 149-182.

[14] Azzouzi, Mehdi, and Ian T. Nabney. "Analysing time senes structure with Hidden Markov Models." (1998): 402-408.

[15] Kalpakis, Konstantuios, Dhual Gada, and Yasundliara Puttagunta. "Distance measures for effective clustering of ARIMA time-senes "Data Mining, 2001. ICDM 2001. Proceedings IEEE International Conference on. IEEE, 2001.

[16] Nanopoulos, Alex, Rob Alcock, and Yanms Manolopoulos. "Feature-based classification of tmie-series data "International Journal of Computer Research 10.3 (2001): 49-61.

[17] Xing, Zhengzheng, et al. "Extracting interpretable features for early classification on tune series "Proceedings of the 2011 SUM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2011

[18] Bagnall, Anthony, et al. 'Transformation based ensembles for time series classification." Proceedings of the 2012 SUM international conference on data mining. Society for Industrial and Applied Mathematics, 2012.

[19] Bagnall, Anthony, et al. "The great time series classification bake off: a review and expenmental evaluation of recent algonthmic advances." Data Mining and Knowledge Discovery31.3 (2017): 606660

[20] Fawaz, Hassan Ismail, et aL "Deep leammg for tune series classification: a review." arXivprepiint arXiv:1809.04356(201$).

[21] Puit ov, Kon stan tin, etal. "Remote phot ©plethysmography application to the analysis of time-frequency changes of human heart rate variability." Proceedings of the 18th Conference of Open Innovations Association FRUCT. FRUCT Oy, 2016.

[22] Lhennitte, Stef, et al. "A companson of time senes similarity measures for classification and change detection of ecosystem dynamics." Remote Sensing of Environment!15.12 (2011): 31293152.

[23] Stankevich, Evgeny, Hya Paramonov, and Ivan Timofeev "Mobile phone sensors in health applications." Proc. 12th Conf of Open Innovations Association FRUCT and Seminar on e-Tourism. 2012.

[24] Tianxing, Man, and Nataly Zhukova. "An Ontology of Machine Learning Algorithms for Human Activity Data Processing." learning 70(2018): 12.

[25] Al-Jowder, О., E. K. Kemsley, and R H. Wilson. "Mid-infrared spectroscopy and authenticity problems in selected meats: a feasibility study." Food Chemistry 59.2 (1997): 195-201.

[26] PhysioNet/Computing in Cardiology Challenges. Web: https //physionet. org/challenge/

[27] Tianxing, Man, and Nataly Zhukova. "An Ontology of Machine Learning Algorithms for Human Activity Data Processing." learning 10 (2018): 12.

[28] TunceL К S., & Baydogan, M. G. (2018). Autoregressive forests for multivariate tune series modeling Pattern Recognition, 73,202-215.

[29] Abanda, A, Mori, U., & Lozano, J. A. (2018). A review on distance based tnne senes classification Data Mining and Knowledge Disco\>ety\ 1-35.

[30] Susto, G. A., Cenedese, A., & Teizi, M. (2018). Tune-series classification methods: Review and applications to power systems data. In Big Data Application in Power Systems (pp. 179-220). Elsevier.

[31] Gold, О , & Sharu, M. (2018). Dynamic time warping and geometric edit distance: Breaking the quadratic barrier. ACM Transactions on Algorithms (TALG), 14(4), 50.

[32] Dau, H. A., Bagnall, A., Kamgar, K., Yeh, С. С. M., Zhu, Y, Gharghabi, S., ... & Keogh, E. (2018). Hie ucr tune senes archive. arXw preprint arXn>:1810.07758.

[33] Bagnall, A, Dau, H. A., Lines, J., Flynn, M., Large, J., Bostrom, A., ... & Keogh, E. (2018). The UEA multivariate time series classification archive, 2018. arXiv preprint arXiv: 1811.00075.

[34] Sinsambhand, K, & Ratanamahatana, C. A. (2019). A Dimensionality Reduction Technique for Tune Series Classification Usuig Additive Representation In Third International Congress on Information and Communication Technology (pp. 717-724) Springer, Singapore

A Multi-layer Ontology for Data Processing Techniques

Man Tianxing1* Nataly Zhukova1- Nguyen Than1 Alexander Nechaev4 and Sergey Lebedev3

1ITMO University, St. Petersburg, Russia 2 St. Petersburg Institute for Infonuatics and Automation of the Russian Academy of Sciences, St. Petersburg, Russia 'Saint-Petersburg Electrotechnical University, St. Petersburg, Russia 4Vyatka State University, Kirov Russia

*mantx626@gmaU.com, nazhukova@mail.iv, nguyenngocthan92@mail.com, dapqa@yandex.iv lebedew sv. etu@gmail. com

Keywords: Data Processing. Machine Learning, Multilayer Structure, Algorithm Selection. Ontology

Abstract: Currently, data processing technology is applied in various fields. But non-expert researchers are always confused about its diversity and complex processes. Especially due to the instability of real data, the preparation process for extracting information is lengthy. At the same time, different analysis algorithms are based on different mathematical models, so they are suitable for different situations. In the real data processing process, inappropriate data forms and algorithm selections always lead to unsatisfactory results. This paper proposes a multilayer description model of data processing algorithms and implements it based on ontology technology. The model provides a multi-layered structure including data pi e-processing, data form conversion, and output model selection so that the user can obtain a complete data processing process from it. The extensibility and interpretability of ontology also provide a huge space for model improvement. The multilevel structure greatly reduces its complexity.

1 INTRODUCTION

A massive amount of domain-specific data which contains useful knowledge are collected, data processing techniques become more and more important in different fields such as marketing, medical biology, etc (Najafabadi et al„ 2015). The researchers are focusing on mining and extracting information from these real-world data sets.

Data collection methods always loosely controlled, resulting in missing values, impossible data combine, noisy value and so on. "Garbage in. Garbage out" means useful information cant be extracted from an incomplete data set (Garcia et al., 2016). The representation and quality of data is the base of a data analysis task. Usually, data preparation and transform take quite an amount of processing time.

The data processing technique is one of today's most rapidly growing technical fields, lying at the intersection of computer science and statistics, and at the core of artificial intelligence and data science (Jordan, M. I. and Mitchell, T. M. 2015).

With the development of related technologies, researchers are always faced with too many choices in dealing with the same data analysis tasks. (Fernández-Delgado et al., 2014) make an incomplete review about available classifiers which already includes 179 classifiers arising from 17 families. And based on the experiments there is no classifier that always has the best performance in every data set. There is no best algorithm, only the most appropriate algorithm. But how to choose the appropriate algorithm is always confusing the non-computer professional researchers.

Anyway, it is a complicated process to generate an object analysis model, which includes many steps. For now, the problem of finding a process to build a model from an initial set is being solved in an ad hoc manner, so it is error-prone and not effective relatively time or efforts

To solve this problem, this article proposes an expandable multilayer conceptual model of data processing techniques. It fixes some stereotypes within the realm of data processing organization, helps to choose among possible alternatives, provides step by step instructions. The model defines possible data formats, data set features, data features,

algorithms, user restrictions, data processing workflows. It consists of four layers corresponding to the four forms of data in the data processing process:

■ Level 0. Raw layer corresponds to raw data set

■ Level 1. The parameter layer corresponds to tidy data set, which is ready to be extracted information by machine learning algorithms.

■ Level 2. The indicator layer corresponds to the indicator data which are extracted from raw data set and considered as a new data set

■ Level 3. The processing layer corresponds to the output model.

The authors implement this conceptual model based on ontology technology to build a multilayer ontology for data processing techniques. It describes the processes and suitable situations of data preprocessing techniques, feature extraction algorithms and data processing algorithms. The researchers could get reasonable advice of algorithm selection and complete process description of selected algorithms. The main advantages are as follow:

■ This multilayer ontology includes entire process of data processing. Users could find all the information about the data processing techniques in it.

■ As an ontology its comprehensibility makes it more friendly to the users and its extensibility make it to be improved in use.

■ The multilayer structure split the process of data processing into 4 main steps. This makes the process clearer and such a structure greatly reduces the complexity of the use of the ontology.

This article is organized as follow: the section 2

presents the related work about the existing review of data processing and the techniques which are used in the research; the section 3 describes the construction of the multilayer structure; the section 4 presents the implementation of the Multilayer ontology; the section 5 is the conclusions of this research.

2 RELATED WORK

Data processing is a complex process. Many researchers are committed to providing an excellent taxonomy to help data engineers. Ayodele and T. O. (2010) present a review of the type of machine learning algorithms. Kotsiantis (2007) provide a comprehensive review about Supervised machine learning. Satyanandam and Satyanarayana (2013) describe a taxonomy of ML and data mining for Healthcare Systems. But these reviews just discuss the Theoretical knowledge of data processing

techniques. On the other hand, some researchers try to present an understandable introduction about how to choose suitable data processing techniques. Dash and Liu (1997) describe how to select the conect features in classification tasks. Reif et al. (2014) even present an automatic classifier selection model for non-experts. Bernstein et al. (2005) apply ontology technique to build an intelligent assistance for data classification. Anastacio et al. (2011) describe the related knowledge about data mining. Panov et al.

(2014) summarize the data mining entities in existing ontologies. These reviews are focus on the part of data analysis. But in feet, in data processing is a complex process, that includes multiple steps starting from data preparation. So the users still don't know how to start with these reviews.

Although some reviews about dealing with the dirty data can be found. Kim et al. (2003) provide a taxonomy of dirty data. Chu et al. (2016, June) describe the methods for data cleaning. Garcia et al.

(2015) give a taxonomy of data pre-processing.

Anyway, it takes too much time to check so many

literatures to build a data processing process. This article proposes a conceptual model based on the forms of data including the entire data processing process.

Ontology technique is selected to be the method to implement this model. Ontology is a general conceptual model that describes a domain of knowledge (Simons, P., 2000). This model contains the general terms and relationships between the terms in this subject area. It has flexible logical relationships which are suitable for the complex process descriptions in the data processing domain. Its expandability can make the ontology to be expanded with the development of technology so that it will not become obsolete. Its interpretability makes it to be appropriate to die understanding and use of researchers without computer expertise. Keet et al. (2014, July) presented an ontology to describe the knowledge about data mining. Rodriguez-Garcia et al

(2016) presented a semantically boosted platform for assisting layman users in extracting a relevant subdataset from all the data and selecting the data analysis techniques.

Multi-layer concept is effective for the data conversion process (Osipov et al.. 2017). The concept of multi-layer ontology is also used to implement synthesized models. Pai et al. (2017) create a multilayer ontology-based information fusion for situation awareness. CARVALHO, V. (2016) presents the main method to build multi-layer ontology conceptual model.

So this article present a multi-layer conceptual model of data processing techniques. The forms of data are the basis for splitting the process. A multilayer ontology is created as the implement of this conceptual model.

3 MODEL STRUCTURE

The process of data processing, which extracts information from the raw data, is complex. In order to provide a clear structure, the authors designed a multi-layer conceptual model based on the data forms in data processing process. The essence of data processing is to constantly transform the data set until it becomes understandable knowledge. These conversion operations are data processing techniques. In this model data sets in different layers are converted to each other with the operation of data processing techniques. However, users only need to consider the dataset characteristics and the available algorithms in the current layer. Such a structure greatly reduces the complexity of synthesizing the entire data processing process.

LEVEL 0 LEVEL 1 LEVEL 2 LEVEL 3

Raw layer Parameter layer Indicator layer Processing layer

Figure 1: The multi-layer structure of the conceptual model.

The multilayer structure is shown in Figure 1. The data changes are divided into four levels. Preprocessing techniques, feature extraction methods and machine learning algorithm are applied as data conversion operations.

Table 1: Main data defects and their corresponding preprocessing technique

Data defect Pre-processing technique

Missing value Delete, Ignore. Imputation etc.

Redundancy Reduction

. , Ensemble Filter, Iterative-Partitioning

Nrttcvvaliip ^

■ Level 0: The raw layer is used to describe the raw data set in real life due to the poor management of data collection methods, many anomalies are recorded on real-world data set. These serious data defects make machine learning algorithms not directly applicable. So this level represents the defects of raw data set

and the corresponding pre-processing techniques which are shown in table 1.

■ Level 1: The output of data pre-processing is actually the final train set for machine learning algorithms. The tidy data means that its form is ready to be analysed. But the characteristics of data set are the important factor for choosing suitable machine learning algorithm. So in this level the data is marked with their characteristics which are shown in table 2.

Table 2: Main characteristics of tidy data set

Category Data characteristic

Sample size Great. Medium. Small

Attribute size Great, Medium. Small

Relevance Irrelevant, Related

Type Time series etc.

■ Level 2: As mentioned earlier, the initial tidy data is only formally ready to be analysed. Each of its parameters has relatively complete and reasonable data. But the original parameters do not vividly express the needs of some users. The data needs to be described with appropriate features to represent the corresponding properties. This situation is especially common in time series data analysis. The data is subjected to feature extraction and new parameters appeal' as a new data set. The choices of the extracted features depend on the data properties that the user desires. Table 3 presents different features which can represent different properties.

Table i : Main data property and their measures

Data property Data feature

consistency intervals

Quartile Deviation, Mean

dispersion Deviation, skewness. kurtosis

etc.

Arithmetic mean. Geometric

central tendency mean. Harmonic mean, median.

mode, quantiles etc.

■ Level 3: The output model is the final form of data and the main goal of data processing. Neither the classification model nor the cluster model represents the knowledge extracted from the data set. So this layer represents the user's needs most directly. In the multi-layer conceptual model this layer is described as the

characteristics of output model which is shown in table 4.

Table 4: Main characteristics of output model

Category

Model characteristic

Type of task

number of classes Interpretability

classification, cluster, prediction etc.

non-class, two-classes, multi-classes Interpretable, Inexplicable

These 4 forms of data exist in the entire process of data processing and the process actually is the mutual conversion between data forms. As the Figure 2 shown raw data is prepared by pre-processing techniques step by step until it becomes tidy enough. Unless the user has special needs, tidy data can be analysed by machine learning algorithms to generate an output model. However, sometimes tidy data must be converted by feature extraction methods to generate a new data set whose parameters are the features of original data. And this new data set is a new raw data. It is very possible that this new data set loses the tidy form, so it should be pre-processed again to be ready for analysis.

The data at each level has unique characteristics and problems to be solved. Data processing techniques should be applied with the right sequence. Without consideration of the states of data, some repetitive operations will be applied. This situation increases the complexity of data processing work. Such as principal components analysis should be used after representation, because the representation methods can reconstruct the structure and content of the data set, which offset the effect of principal components analysis.

LEVELO Raw layar

LEVEL 1 PanamMar lay«

LEVEL 2 ln«uttrijy«t

LEVEL! P'octssmj lay«

(CUWU^J

4 IMPLEMENT WITH ONTOLOGY

Ontology is a commonly used technique for describing domain-specific knowledge. Its extensibility and comprehensibility are suitable for the construction of the conceptual model in this paper.

The authors build the multi-layer ontology of data processing techniques on protege-5.5.0 using the owl language (McGuinness and Van Harmeleu, 2004). It is inferred by Hermit 1.3.8.413 reasoner. There are no highlight classes appeared and the defined individuals are classified into the collect classes. It means this ontology satisfies consistency and sufficiency. 4.1 Basic Structure of Multi-layer

Ontology

Figure 3 shows the basic structure of the multi-layer ontology. It is obvious that description of different data forms only connects to the appropriate algorithm for themselves so that the information is split into different levels.

The multi-layer structure is constructed based on the relationships in ontology. All the data processing techniques are linked the characteristics of data in different level. The relationships are the object property "suitableFor". When user deal with a data set, they only can see all the available solution based on the outward links of the characteristics of this data set. And if the data set is converted to another form. Users can find the suitable solutions based on the outward links of the characteristics of the new data set.

Mathematics <

I Pre-piocessir>5_Techniaue U

; F »at; re Extraction Method U

{ Daa_Crtaia«e'6i.c

3 3ta Feature

ir.-Tjit

^iJiM «nvyaKarn

rJ Jti * f ~r1 .■)

Figure 2: The conversion in the multi-layer conceptual model.

However, the multilevel structure makes users just consider the corresponding problems in each level. The irrelevant conditions couldn't be seen. With the transform among the data levels, a reasonable operation process is generated.

Figure 3: The basic structure of the multi-layer ontology

4.2 Classes in Multi-layer Ontology

Classes are the core content of the ontology. In order to provide users with clear data processing knowledge, this multi-layer ontology creates several main classes:

■ Algorithm: This is the main part of the

ontology. Pre-processing techniques, feature extraction methods, and machine learning

algorithms are all subclasses of this class. Hundreds of data processing techniques are described in this class. It also provides a variety of taxonomies to classify these algorithms so that users can understand these algorithms from different angles.

■ Mathematics: This class describes the mathematical knowledge involved in data processing. Because the performance differences of the algorithm depend on the mathematical foundation such as measure, models etc. It is an important basis for algorithm selection.

■ Data: This class contains various information of data such as data defect, data characteristic, data property etc. It describes the characteristics of the data in each level.

■ Output model: This class describes the users' requirement. It uses the characteristics to represent tasks.

These classes describe the knowledge about data processing. This is a comprehensive and extendable review so that users can achieve enough information from it.

4.3 Properties in Multi-layer Ontology

The definition of property is the greatest difference between ontology and taxonomy, hi ontology more properties are defined to present more complicate relations. In this multi-layer ontology both object property and data property are used.

4.3.1 Object property

The main object properties are as follow:

■ "subclassOf' is a typical relation in ontology and taxonomy. It makes the hierarchy of algorithms and data information clearer. And many taxonomies are integrated into this ontology based on this relation.

■ "employ" is used from class algorithm to class mathematics to explain the algorithm process. Sometimes the data sets are suitable for some special measures or functions. So it connects algorithms and mathematics to lead to find the suitable algorithm with suitable measure.

■ "suitableFor" is used to provide advice about algorithm selection. The relations "suitableFor" are from theory base and some previous experiment results.

4.3.2 Data Property

Data property is just used to describe the value and range of machine learning algorithms. This part is

very useful for non-expert researchers. The table 5 is an example about data property.

Table 5: The use of data property "hasSize" in ontology

Category

Range of Class Value

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.