Методология разработки самоорганизующихся мультиагентных информационно-аналитических систем по сбору и обработке данных тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Третьяков Евгений Сергеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 128
Оглавление диссертации кандидат наук Третьяков Евгений Сергеевич
Оглавление
Введение
Раздел 1. Мультиагентные системы в задачах сбора и обработки данных
1.1. Методологии и стандартизации агентных информационных технологий
1.2. Особенности агентного поиска информации в глобальной сети
1.3. Публикации по методологии проектирования самоорганизующихся мультиагентных систем
Результаты и выводы по разделу
Раздел 2. Архитектурная и функциональная модели мультиагентной системы с элементами самоорганизации
2.1. Исследование информационной среды при разработке мультиагентных систем
2.2. Архитектура мультиагентой системы и функциональные модели основных модулей
2.3. Алгоритмы поведения агентов внешнего и внутреннего контуров
Результаты и выводы по разделу
Раздел 3. Выбор структуры и параметров мультиагентной системы с элементами самоорганизации
3.1. Агентный алгоритм обработки потоков научно -технической информации
3.2. Общие и частные поведения Агентов-исполнителей
3.3. Экспериментальные исследования поведения агентов в МАС
Результаты и выводы по разделу
Раздел 4. Агентные технологии в решении прикладных информационно-аналитических задач большой размерности и профильная подготовка специалистов-аналитиков
4.1. Форматирование данных из независимых информационных источников
4.2. Параметрическая и семантическая индексация технологических объектов
4.3. Исследование методов визуализации научно-технических направлений развития КНР по открытой патентной информации
4.4. Квалификационная подготовка операторов агентной системы
Результаты и выводы по разделу
Заключение
Список терминов, условных обозначений и сокращений
Список использованных источников
Приложение 1 Свидетельства о государственной регистрации базы данных
Приложение 2 Свидетельства о государственной регистрации программы
для ЭВМ
Приложение 3 Акты об использовании результатов диссертационной работы
Введение
Исследования и разработки в области информационных систем, использующих агентные технологии, применяются для решения различных задач информационного поиска, при проведении проектных и научных исследований по разработке систем управления и контроля производством и в социальной сфере.
Интеллектуальным агентом или интеллектуальным роботом в данной работе принято считать программно-техническую систему, автономно действующую в некоторой среде (физической или информационной) и решающую задачи, отвечающие интересам (целям) своего владельца (пользователя).
Широкое использование агентных технологий объясняется способностью агентов освобождать пользователей от непосредственного присутствия при решении задач в физической среде и является непосредственным представителем пользователя в информационной среде.
Повышение эффективности агентных технологий осуществляется по двум направлениям: повышение интеллектуального уровня отдельных агентов и повышение интеллектуального уровня управления агентами при коллективном решении поставленных задач.
В качестве основного класса решаемых задач при помощи мульти -агентных технологий в данной работе рассматриваются процессы обработки и анализа данных в информационной среде.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Модели, алгоритмы и инструментальные средства поддержки мультиагентного управления потоками вычислительных заданий2021 год, кандидат наук Костромин Роман Олегович
Трехуровневая система агентного поиска и обработки научно-технической информации2016 год, кандидат наук Артамонов, Алексей Анатольевич
Разработка и реализация методов формально-логической спецификации самонастраивающихся мультиагентных систем с временными ограничениями2007 год, кандидат физико-математических наук Бугайченко, Дмитрий Юрьевич
Методы принятия решений и управления в неструктурированных задачах на основе самоорганизующихся мультиагентных рекурсивных когнитивных архитектур2014 год, кандидат наук Нагоев, Залимхан Вячеславович
Методы, модели и алгоритмы построения многоагентных систем в энергетике: на примере задачи оценивания состояния электроэнергетических систем2017 год, кандидат наук Гальперов, Василий Ильич
Введение диссертации (часть автореферата) на тему «Методология разработки самоорганизующихся мультиагентных информационно-аналитических систем по сбору и обработке данных»
Актуальность темы диссертации.
В существующих мультиагентных системах используются агенты, выполняющие разнообразные, но строго регламентированные процессы, а их активация происходит по графику, заданному оператором или по некоторым заранее заданным условиям. Такой подход приводит к высокому уровню простоя вычислительных мощностей при решении задач по подготовке информационно-аналитических материалов в сжатые сроки, т.к. агенты
являются недостаточно универсальными, а их побуждение к работе не является событийно-ориентированным.
В диссертации предлагается и реализуется методология группового мультиагентного решения задач конвейерной обработки и анализа интенсивных потоков разнородной информации из различных информационных ресурсов. Групповое автономное решение задач возможно только при наличии автономного управления группой и, в частности, возможности ее самоорганизации, т.е. изменения структурных единиц внутри группы и ее поведения в зависимости от фактического состояния внешней среды.
Практическое решение проблем самоорганизации в агентных системах представляется наиболее важным направлением повышения их интеллектуальных характеристик и сфер их практического использования.
Поэтому тема данной диссертации представляется актуальной как с научной, так и с практической точек зрения.
Цель диссертационной работы состоит в разработке методов и алгоритмов самоорганизации агентов при согласованном решении задач обработки и анализа интенсивных потоков информации.
Для достижения указанной цели в работе решаются следующие основные задачи.
1. Изучить особенности агентного поиска информации в глобальной сети и проанализировать подходы к реализации мультиагентных систем с элементами самоорганизации.
2. Исследование и выбор архитектуры мультиагентных информационно-аналитических систем с возможностью самоорганизации, обеспечивающие динамическое взаимодействие с пользователями.
3. Разработка методики предпроектного исследования информационных ресурсов для решения задач целевого сбора информации.
4. Разработка алгоритмов согласованного взаимодействия самоорганизующихся агентов с различными ролевыми предписаниями, позволяющих повысить универсальность системы и гибкость при распределении вычислительных мощностей.
5. Формализация процесса управления реорганизацией агентов, с последующей возможностью проводить мониторинг состояния системы для поддержания ее работоспособности.
6. Разработка и экспериментальное исследование информационно-аналитической системы для обработки потока разнородной неструктурированной информации с элементами самоорганизации.
7. Исследование работоспособности информационно-аналитических систем с элементами самоорганизации в научно-технической и социальной областях.
Объектом исследования являются агентные технологии в тематически ориентированных информационно-аналитических системах.
Предметом исследования являются методы и средства построения мультиагентных систем с элементами самоорганизации.
Методы исследования. В работе используются следующие методы: системного анализа и синтеза сложных систем; автоматической классификации информационных объектов; математической статистики и теории множеств; визуальной компьютерной аналитики.
Научная новизна. Новые научные результаты, полученные лично автором, состоят в следующем:
1. Предложена процедура исследования информационного ресурса для решения задач согласованного сбора информации, состоящая из трех этапов: рекогносцировка, сканирование и инвентаризация. В результате обеспечивается единый подход к разработке агентов.
2. Предложены и обоснованы методы интеллектуализации системы на уровне управления за счет алгоритмов самоорганизации агентов.
3. Разработаны и реализованы алгоритмы контроля выполнения фаз рабочего процесса различными типами агентов с обязательным учетом качественных и временных показателей.
4. Разработан и реализован алгоритм конвейера классификации документов на основе статистических классификаторов первого и второго порядков, позволяющий проводить тонкую настройку классификации научно-технических текстов в соответствии с требованиями структурных единиц организации-пользователя.
5. Предложены и разработаны методы интеллектуализации агентов для решения информационно-аналитических задач большой размерности на английском и китайском языках.
Обоснованность и достоверность результатов работы подтверждается выводами, полученными в результате экспериментов по использованию агентных технологий при построении мультиагентных информационно -аналитических систем сбора и обработки разнородной информации с элементами самоорганизации и апробацией основных результатов работ на российских и международных конференциях и докладах на научно-технических советах государственных корпораций Ростех и ФГУП «РосРАО» (государственная корпорация Росатом).
Практическая значимость и реализация результатов работы. Теоретические и практические результаты работы использованы при выполнении Государственных заданий Министерства образования и науки Российской Федерации № 2.12611.2018/12.1 «Обеспечение каталогизации и хранения научно-технической информации, полученной из различных неструктурированных источников», № 2.12915.2018/12.1 шифр «Поиск». Программные разработки автора внедрены в Научно-техническом институте межотраслевой информации (НТИМИ) для решения задач по сбору, обработке и визуализации разнородной научно-технической информации для заинтересованных отраслевых организаций и на кафедре «Физические проблемы материаловедения», №9 НИЯУ МИФИ для построения отраслевой
информационной системы по ядерным материалам. Автором совместно с экспертами Международного агентства по атомной энергии (МАГАТЭ) отдела Развития ядерной инфраструктуры (Nuclear Infrastructure Development Section) создана и эксплуатируется по всему миру база данных «Nuclear Infrastructure Competency Framework». Автором совместно с экспертами из Мичиганского университета в рамках работы по оптимизации сетевой нагрузки во Всемирной вычислительной сети Большого адронного коллайдера (Worldwide LHC Computing Grid) разработана система анализа и визуализации сетевой топологии. Автором создан учебный курс по подготовке операторов агентных систем для студентов НИЯУ МИФИ и специалистов профильных организаций, использующих мультиагентные системы в своей деятельности.
Апробация результатов работы. Основные результаты исследований работы представлены на следующих конференциях:
School on Nuclear Electronics & Computing 2015 (NEC'2015) based on XXV International Symposium on Nuclear Electronics & Computing / Черногория, Будва, Сентябрь 2015.
Международная конференция-школа «Проблемы обработки, анализа и управления большими данными в распределенной гетерогенной компьютерной среде для высокоинтенсивных областей науки и бизнес приложений» / Томск, Декабрь 2016.
1st International Early Research Career Enhancement School on Biologically Inspired Cognitive Architectures and Cybersecurity (FIERCES) / Москва, Август 2017.
VIII Международная конференция-школа «Распределенные вычисления и GRID-технологии в науке и образовании» / Дубна, Сентябрь 2018.
Annual International Conference on Biologically Inspired Cognitive Architectures, the 10th Annual Meeting of BICA Society / США, Сиэтл, Август 2019.
Публикация результатов.
Основные положения диссертации опубликованы в 11 печатных работах в изданиях, включенных в список рекомендуемых ВАК, 10 из которых опубликованы в изданиях, индексируемых базой данных Scopus и Web of Science. По научно-техническим разработкам в составе коллектива авторов получено 2 свидетельства о регистрации баз данных и 2 свидетельства о регистрации программы для ЭВМ в Федеральной службе по интеллектуальной собственности.
Основные положения, выносимые на защиту:
1. Процедура исследования информационного ресурса для решения задач согласованного сбора информации.
2. Методы интеллектуализации системы на уровне управления за счет применения алгоритмов самоорганизации агентов.
3. Алгоритмы контроля выполнения рабочего процесса различными типами агентов, обеспечивающие мониторинг полноты обработки информационного потока.
4. Алгоритм конвейера классификации документов на основе статистических классификаторов первого и второго порядков, обеспечивающие распределение информации среди пользователей системы.
5. Методы интеллектуализации агентов для решения информационно -аналитических задач большой размерности на английском и китайском языках.
Личный вклад автора.
Основные научные результаты, полученные лично автором, заключаются в разработке методов и алгоритмов интеллектуализации агентов в части построения самоорганизующихся мультиагентных систем. Автором предложена типизация агентов в соответствии с их ролями и их практическая реализация; разработка методов контроля выполнения фаз рабочего процесса; предложены средства интеллектуализации поведения отдельных агентов при
обработке Big Data, как на алфавитных, так и на иероглифических языках. Автором лично проведена разработка архитектуры мультиагентой системы, внедренной в Научно-техническом институте межотраслевой информации, в том числе проведены экспериментальные исследования эффективности поведения агентов в самоорганизующихся мультиагентных системах.
Структура и объем диссертационной работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка литературы и 2-х приложений. В приложениях приведены свидетельства о Государственной регистрации баз данных и программ для ЭВМ. Общий объем работы составляет 119 страниц (без учета приложений). Работа содержит 18 иллюстраций, 11 фрагментов кода и 5 таблиц. Список литературы состоит из 105 наименований.
Содержание диссертации и публикаций автора относятся к научной специальности 05.13.01 - системный анализ, управление и обработка информации (в информационных системах) и соответствует следующим позициям паспорта данной специальности:
• формализация и постановка задач системного анализа, оптимизации, управления, принятия решений и обработки информации, п. 2 паспорта;
• разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации, п. 4 паспорта;
• разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации, п. 5 паспорта;
• визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации, п. 12 паспорта.
Раздел 1. Мультиагентные системы в задачах сбора и обработки
данных
1.1. Методологии и стандартизации агентных информационных
технологий
Начало активных теоретических и инженерных работ по созданию автономных интеллектуальных систем относится к 60-м годам ХХ века. Используя современную терминологию такие системы можно назвать интеллектуальными физическими агентами, автономно работающими в космической и глубоководной средах.
В настоящее время новое поколение интеллектуальных агентных систем эффективно используется практически во всех направлениях человеческой деятельности. Современная методология и стандартизация в области создания агентных систем направлены на повышение интеллектуальных характеристик агентов и методов их самоорганизации при коллективном решении задач пользователей.
Распределение функций некоторого процесса между отдельными программными системами позволяет ставить и решать трудно формализуемые задачи так же, как это происходит в человеческой организации.
До появления компьютерных мультиагентных систем (МАС), агентом называли человека, который располагал рядом конкретных функций и полномочий при принятии управленческих решений. Агенты взаимодействовали между собой от имени и по поручению некоторых государственных органов или компаний при решении определенных задач.
В информационных технологиях - интеллектуальный агент - это компьютерная программа, выполняющая порученную пользователем задачу и действующая автономно в некоторой информационной среде от лица этого пользователя [1, 2].
Понятие интеллектуального агента подразумевает некоторые свойства, дополняющие классическое определение интеллектуального агента, данное во введении: автономность, социальность, реактивность, проактивность [3, 4, 5].
Автономность - способность действовать целенаправленно для достижения результата, без внешнего управления со стороны других систем. Агент обладает контролем над своими действиями и состоянием внутренних переменных.
Социальность - кооперация с другими агентами для выполнения общей задачи и согласование поведения при разрешении возникающих конфликтов.
Реактивность - реакция на события во внешней среде и корректировка своего поведения.
Проактивность - стремление достичь цели, непрерывно улучшая характеристики внутреннего состояния.
Мультиагентная система (МАС) - это система, образованная несколькими взаимодействующими интеллектуальными агентами для решения сложных задач. Ключевой особенностью мультиагентных систем является способность агентов реорганизовываться в условиях динамически изменяющейся среды.
МАС позволяют проектировать и внедрять программные системы, используя те же идеи и концепции, которые относятся к поведению человека [6]. Использование МАС является одним из ключевых методологических подходов в задачах сокращения времени на обработку информации и стоимости облачных сервисов [7, 8, 9, 10].
Благодаря своей структуре и многофункциональности МАС используются во многих областях: управление распределенными или сетевыми предприятиями, сложная и многофункциональная логистика, управление учебным процессом в системах дистанционного обучения и т.д.
В современных глобальных информационных системах, например, таких как Яндекс, широко используются агентные технологии при поиске информации по различным сферам [11]. Например, сервис Яндекс.Работа
ведет поиск вакансий среди многих рекрутинговых сайтов, таких как HeadHunter, Найм.ру, Superjob и т.д. [12]. Социальные сети, такие как LinkedIn, используют интеллектуальные агентные технологии в рекрутинговой деятельности для поиска людей по предоставленной ими информации о карьере и научной деятельности [13].
Проекты в сфере массового онлайн-образования такие как Coursera [14], используют агентные технологии для информирования пользователей о событиях в рамках того или иного учебного курса.
В ходе эволюции МАС, такие организации, как FIPA (Foundation for Intelligent Physical Agents), OMG (Object Management Group) и другие, провели работы по стандартизации агентных технологий [15, 16]. Одной из целей создания данных стандартов является обеспечение совместимости агентных систем и мобильности интеллектуальных агентов. С 2002 по 2012 годы организацией FIPA было разработано 26 стандартов, которые регламентируют спецификации построения отдельных агентов и мультиагентных систем [1v].
Построение FIPA-совместимой МАС требует соблюдения следующих стандартов: «Стандарт управления агентами» (SCGGG23 - «FIPA Agent Management Specification») [18] и «Стандарт структуры сообщений на языке общения агентов (ACL)» (SCGGG6l - «FIPA ACL Message Structure Specification») [19]. В свою очередь, стандарт SCGGG6l ссылается на группу стандартов, регламентирующих структуру данных при использовании ACL при различных схемах: Bit-Efficient (SCGGG69 «FIPA ACL Message Representation in Bit-Efficient Specification») [20], Text (SCGGG7G «FIPA ACL Message Representation in String Specification») [21], XML - (SCGGG7l «FIPA ACL Message Representation in XML Specification») [22].
На рисунке 1.1 . представлена эталонная модель управления агентами по стандарту FIPA SCGGG23. Эта модель включает в себя следующие элементы: Агент (Agent), Служба каталогов (Directory Facilitator (DF), Система управления агентами (Agent Management System (AMS), Агентная платформа (Agent Platform (AP) и Программное обеспечение (Software).
Рисунок 1.1. Эталонная модель управления агентами FIPA
Ниже приводятся определения элементам эталонной модели управления агентами в соответствии со стандартом FIPA SC00023.
Агент - это вычислительный процесс, реализующий автономную коммуникационную функциональность приложения. Агенты взаимодействуют с помощью языка коммуникации агентов. Агент является основным «субъектом» агентной платформы, которая объединяет одну или несколько сервисных возможностей в единую интегрированную модель. Агент может принадлежать одному или нескольким владельцам, например, на основе организационной принадлежности или права собственности пользователя. Агенту должен быть присвоен идентификатор AID, который позволяет отличить его во всей «вселенной агентов». Агент может быть зарегистрирован и по своему транспортному адресу.
Служба каталогов (DF) - это опциональный компонент агентной платформы, который должен быть воплощен в виде службы, где агенты могут как зарегистрировать свои услуги, так и запросить выполнение некоторой задачи другими агентами.
Система управления агентами (AMS) - это обязательный компонент агентной платформы. В рамках одной агентной платформы допустима единая AMS. AMS хранит идентификаторы агентов (AID), зарегистрированных на соответствующей агентной платформе.
Система обмена сообщениями (MTS) - это метод общения между агентами разных агентных платформ, выбранный по умолчанию.
Агентная платформа (AP) - предоставляет физическую инфраструктуру, в которой могут быть развернуты агенты. AP состоит из вычислительной машины (машин), операционной системы, программного обеспечения (ПО) поддержки агента, компонентов управления агентом FIPA (DF, AMS и MTS) и агентов.
Программное обеспечение - это все неагентные инструменты, которые могут быть использованы агентами в ходе выполнения своих задач.
При использовании языка коммуникации по «Стандарту структуры сообщений на языке общения агентов (ACL)» SC00061 сообщения должны обладать определенными параметрами, которые делятся на следующие группы: «Тип коммуникативного акта» («Type of Communicative Act»), «Участники коммуникации» («Participants in Communication»), «Содержание сообщения» («Content of Message»), «Описание содержимого» («Description of Content»), «Контроль коммуникационного сеанса» («Control of Conversation»).
Параметры группы «Тип коммуникативного акта»:
• performative - обозначает тип коммуникативного акта сообщения ACL.
Параметры группы «Участники коммуникации»:
• sender - обозначает имя агента коммуникативного акта;
• receiver - обозначает идентификатор предполагаемых получателей сообщения;
• reply-to - обозначает имя агента, которому должен быть направлен ответ.
Параметры группы «Содержание сообщения»:
• content - обозначает содержимое сообщения.
Параметры группы «Описание содержимого»:
• language - обозначает естественный национальный язык, на котором составлено содержимое сообщения;
• encoding - обозначает название кодировки, на которой составлено сообщение;
• ontology - обозначает онтологию(и), используемые для придания значения символам в выражении содержимого.
Параметры группы «Описание содержимого»:
• protocol - обозначает протокол взаимодействия, который использует отправляющий агент.
Соблюдение международных стандартов позволяет наладить совместимость между различными МАС, хоть и накладывает определенную степень ограничений в их архитектуре и реализации. На практике интеграция нескольких МАС на уровне отдельных агентов не требуется, достаточно введение специального адаптера, например, интерфейс программирования приложений (ИПП) или предоставления доступа к удаленной базе данных [23]. Если же интеграция на уровне агентов по стандартам FIPA все же необходима, то для МАС строится специальное межсетевое сопряжение [24].
Стандарты и протоколы FIPA используются в современных агентных платформах, например, платформа для построения интеллектуальных агентов, написанная на языке программирования Java - JADE («Java Agent Development Framework») (релиз последней версии 2017-06-08) является полностью FIPA-совместимой [25]. Агентная платформа SPADE («Smart Python Agent
Development Environment») (релиз последней версии 2018-10-24) [26], написанная на языке программирования Python, поддерживает использование метаданных протоколов коммуникации FIPA при осуществлении коммуникации через сервер XMPP («Extensible Messaging and Presence Protocol») [27].
Однако, на сегодняшний день большинство агентных платформ, перечисленных на официальном сайте FIPA1, более не поддерживаются этой организацией. Поддержка официального сайта FIPA по внешним признакам прекращена с 2013 года. В ответе на официальный запрос о текущем статусе организации FIPA, James Odell - один из членов FIPA, сообщил, что в 2012 году FIPA окончила стандартизацию агентных систем и прекратила свое существование.
Международные стандарты имеют рекомендательный характер. Подробное описание стандартов FIPA в данной работе объясняется тем, что при разработке МАС, автор ориентировался именно на эти стандарты при инженерной реализации МАС с элементами самоорганизации.
Ориентация на международные стандарты является первым важным методологическим принципом, позволяющим существенно сократить сроки и стоимость разработки путем использования уже имеющегося на международном рынке программного обеспечения.
1.2. Особенности агентного поиска информации в глобальной сети
Агентные технологии получили широкое развитие в задачах сбора информации ввиду своих полезных свойств. Специализация агентов по протоколам связи таких как HTTP, FTP, XMPP и др., позволяет централизованно собирать информацию с различных информационных источников [16].
1 http://www.fipa.org/
При использовании агентных технологий в корпоративных сетях, где четко регламентируются рабочие процессы, агенты способны выполнять рутинную работу, и их поведение не будет рассчитано на широкий спектр случайных событий, которые могут произойти. При работе в глобальной сети агенты должны обладать сложным поведением и/или системой организации, чтобы взаимодействовать с разнотипными источниками информации [28].
Формирование знаний в глобальной сети происходит хаотично, поэтому классифицировать источники информации можно по типу, содержащихся в них данных и, в частности, по степени их структуризации:
Структурированные - это данные, которые имеют формализованную структуру, например, база данных, где в искомой таблице строка представляет некий объект с характеристиками, представленными в соответствующих полях и заранее установленными типами данных.
Слабоструктурированные - это данные, которые имеют слабо формализованную структуру, например, текстовая информация, размеченная при помощи языков разметки, таких как HTML. Из-за вариативности визуального представления некого объекта, исходный HTML код страницы информационного ресурса может кардинально разниться.
Неструктурированные - это данные, которые имеют неформализованную структуру, например, текст письма электронной почты, сообщение в социальной сети и т.д.
Возможность автоматического сбора и интеграции различных типов данных зависит от интеллектуального уровня агента. Например, при сборе новостной статьи с информационного портала, агент может собрать весь исходный HTML код вместе с рекламными блоками и прочей нерелевантной информацией либо выделить составные части публикации и собрать данные в чистом виде.
Разработка отдельного агента для каждого информационного ресурса является достаточно трудоемкой задачей из-за отсутствия жестко регламентированных стандартов построения информационных ресурсов и
высокой гибкости представления информации при помощи HTML кода, поэтому создаются алгоритмы и предлагаются стандарты размещения информации для корректной идентификации целевой информации на искомой странице ресурса глобальной сети [29]. Сообществом World Wide Web Consortium (W3C), активно разрабатываются веб-стандарты [30, 31], такие как Стандарт написания HTML (HTML 5.2) [32], Стандарт построения CSS-селекторов (Selectors Level 3) [33], Стандарт разметки XML документов для поддержки локализации (Internationalization Tag Set (ITS) Version 2.0) [34] и т.д.
При обработке разнотипных данных из глобальной сети отдельным классом агентов может быть проведена категоризация поступающего потока информации в целях определения наиболее походящего интеллектуального агента для ее обработки, тем самым обеспечивается качество обработанного материала. Исходя из этого, для обработки различных типов информации агенты должны обладать интеллектуальной составляющей, уметь воздействовать на среду, с которой взаимодействуют и быть наделены полномочиями принимать решения - обладать функциями самоорганизации.
В ходе развития агентных технологий выяснилось, что индексирование агентами информационных ресурсов может происходить против желания владельцев этих информационных ресурсов. В судебной практике Соединенных Штатов Америки (США) имеются случаи, когда обладатели информационных порталов подавали иски на лиц, осуществляющих агентный сбор данных. Исходы судебных дел данного типа заканчивались по -разному, иногда в пользу истца, а иногда в пользу ответчика, в качестве примера приведем дело №17-cv-03301-EMC [35] и дело №5:08-cv-05780-LHK [36].
В деле №17-cv-03301-EMC Районного суда Северного калифорнийского округа США (United States District Court Northern District of Califomia) hiQ Labs, Inc. (истец) против LinkedIn Corp. (ответчик) рассматривалось обвинение LinkedIn Corp. в том, что социальная сеть LinkedIn выстраивает защиту от сбора публично доступной информации о профилях социальной сети, ссылаясь на нарушение «Антимонопольного законодательства США» («United States
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Управление поведением многозадачных интеллектуальных агентов в системах реального времени2017 год, кандидат наук Алимов, Александр Александрович
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Разработка интегрированных моделей и алгоритмов обработки слабоструктурированной информации для автоматизированной поддержки принятия решений на основе мультиагентного подхода2015 год, кандидат наук Хованских, Александр Анатольевич
Исследование и разработка моделей и методов информационной поддержки управления региональной безопасностью: на примере Мурманской области2016 год, кандидат наук Маслобоев, Андрей Владимирович
Многоагентные системы в моделировании социально-экономических отношений: исследование поведения и верификация свойств с помощью цепей Маркова2014 год, кандидат наук Зайцев, Иван Дмитриевич
Список литературы диссертационного исследования кандидат наук Третьяков Евгений Сергеевич, 2020 год
источников
В разделах 2 и 3 диссертации рассматривались агентные технологии с элементами самоорганизации. Главная цель состояла в разработке методологии и инструментальных средств для решения общесистемных задач: агентный поиск тематической научно-технической информации; классификация и размещение найденной информации в тематических базах данных; непрерывная агентная обработка интенсивных потоков научно-технической информации.
Цель данного раздела состоит в том, чтобы проиллюстрировать эффективность применения агентных технологий не только при решении общесистемных задач, но и прикладных информационно-аналитических задач большой размерности (решение проблемы Big Data), а именно повышение интеллектуального уровня отдельных агентов.
В настоящее время формирование и поддержание в актуальном состоянии тематических баз данных по различным научно-технологическим направлениям стало предметом деятельности международных и государственных организаций, а также доходной деятельностью информационно-аналитических компаний.
Промышленные компании и корпорации приобретают подобные тематические базы данных и используют данные из них полностью или частично для проведения исследовательских, конструкторских или аналитических работ по своим тематическим направлениям. Поддержание этих информационных ресурсов в актуальном состоянии требует регулярного
сканирования различных информационных источников и формирования по каждому из них новостных агентных коллекций.
Одним из важнейших результатов использования агентных технологий является возможность оценки достоверности получаемых данных. Общий метод такой оценки состоит в сравнении значений однотипных данных из разных независимых источников. В противном случае, проводятся дополнительные аналитические исследования достоверности, а в отдельных случаях проводятся длительные дорогостоящие экспериментальные исследования, например, при оценке радиационной стойкости элементов ядерных реакторов или других источников и детекторов ионизирующих излучений.
Пользователю необходимо тратить существенное количество времени на поиск тематической информации и оценку ее достоверности. Решение такого класса задач возможно при помощи мультиагентных систем. Особенностью решения является то, что такая мультиагентная система может взаимодействовать с объектами внешнего мира сразу в двух средах - первая это ресурсы в глобальной сети, вторая это локальные файлы на компьютере, полученные пользователем.
В качестве примера автоматического сбора и актуализации информации поставлена и решена задача поиска информации по описанию атомных электростанций в мире. Выбраны следующие информационные ресурсы по описанию атомных электростанций:
• МАГАТЭ (International Atomic Energy Agency) Международное агентство по атомной энергии [57];
• совместный проект World Nuclear Industry Status Report & VISIONSCARTO [58];
• WNA (World Nuclear Association) Всемирная ядерная организация, занимающаяся продвижением атомной энергетики [59].
Сайт МАГАТЭ содержит отчеты об опыте эксплуатации атомных электростанций в государствах -членах организации. Информационный источник представляет собой отчет в формате PDF-файла, в котором информация по каждой действующей атомной станции представлена в виде однотипной таблицы.
Совместный проект World Nuclear Industry Status Report & VISIONSCARTO представляет собой веб-ресурс с интерактивной картой. Данный ресурс охватывает коммерческие ядерные энергетические реакторы, и не включает «запланированные» или «проектируемые» энергетические реакторы. Особенность данного информационного источника заключается в том, что для открытия подробной информации по отдельному объекту требуется навести на него курсор в соответствующую точку карты.
Веб-ресурс WNA содержит данные о мощности реакторов и их производительности. Для каждой атомной электростанции имеется отдельная веб-страница, ссылка на которую представлена в общем перечне.
Каждый информационный ресурс публикует данные в определенном формате доступа на собственной веб-странице. Поля с данными, содержащие описание той или иной атомной электростанции, в рассматриваемых источниках различаются, то есть не имеют строгой структуры и организации данных. Иными словами, в совокупности эти информационные ресурсы дополняют друг друга, предоставляя пользователю наиболее исчерпывающие данные относительно атомных электростанций (АЭС). Одной из первостепенных задач является унификация определенных полей рассматриваемых ресурсов для получения полной информации по АЭС в единой МАС. Выявлены следующие унифицированные поля по АЭС:
1. Название.
2. Тип.
3. Статус.
4. Страна.
Работа с унифицированными полями позволяет реализовать доступ к информации по нужной АЭС, собранной из трех источников в рамках МАС.
В ходе анализа информационных источников выявлены следующие требования к разработке агента: наличие драйвера для управления браузером, функциональность для поиска элементов в HTML-разметке, а также функциональность для извлечения текста из PDF-файлов, наличие набора регулярных выражений для поиска целевых данных.
Для управления браузером с помощью агента выбран selenium webdriver, он имеет объектно-ориентированный API и позволяет выполнять команды для моделирования поведения человека и получать исходную разметку страницы. Для получения данных из элементов разметки веб-страницы выбран подход с использование языка запросов XPath (XML Path Language), который предоставляет данные отдельных частей HTML-разметки.
В качестве работы с PDF-файлом выбрано кроссплатформенное ПО для предварительной обработки и анализа текстовой информации Apache T ika.
Таким образом, выбранные инструменты для разработки агентов удовлетворяют всем требованиям, которые были определены на этапе анализа информационных источников.
МАС в данном случае взаимодействует с двумя средами:
1. Информационные ресурсы в глобальной сети.
2. Локальное хранилище файлов.
Для агентного сбора данных из нескольких информационных источников разработаны специальные программные инструменты, имеющие структуру, изображенную на Рисунок 4.1.
Рисунок 4.1. Архитектура системы агентного сбора данных из нескольких
информационных источников
За извлечение данных из разных информационных источников отвечают разные агенты, которые могут использовать различные механизмы извлечения данных. Согласно спроектированной архитектуре, каждый из агентов сохраняет извлеченные данные в файлы 180К-формата, которые проходят унификацию перед загрузкой в базу данных. Этап унификации данных необходим в связи с тем, что не существует стандартов для описания атомных электростанций в веб-пространстве, поэтому некоторые поля имеют разное представление по ключу параметра. После загрузки унифицированного 1Б0К-файла в базу данных может быть разработан программный интерфейс для отображения данных. Однако, работу с данными также возможно осуществлять с помощью языка БОЬ-запросов (см. Рисунок 4.2.). Для реализации хранилища выбрана 0ЯМ-технология создания базы данных, так как информационные источники имеют динамическую структуру.
/ \
Wo rid Nuclear
PK id
FK nppjd
description (Char)
url (Char)
FK statusjd
FK reactor_type_id
model (Char)
vendor (Char)
operator (Char)
owner (Char)
construction_date (Date)
first_ciiticality {Date)
grid_date (Date)
commercial_date (Integer)
permanent_shutdown (Date)
restart (Date)
thermal_power (integer)
gross_electrical_power (Integer)
reference_unit_power (Integer)
design_net_capacity (Integer)
input_datetlme (DateTlme)
•- is_active (Boolean) ✓
PK ict
name
country (Char) ^
{ Status
■ PK id
name
I J
r •
TheBulletinNuclear
PK id
FK nppjd
FK statusjd
FK reactorjypejd
model (Char)
nsss (Char)
design_net_capacity (Char)
operator (Char)
construction_date (Date)
grid_date (Date)
stop_cons_year (Integer)
shutdown_date (Date)
original_start_estimate (Date)
prev_start (Date)
input_datetime (DateTime)
is_active (Boolean)
r OPEX
PK id
FK nppjd
namejd (Char)
FK status_id
FK reactor_type_id
operator (Char)
owner (Char)
reactor_suppller (Char)
turbine_supplier (Char)
construction_date (Date)
thermal_power (Integer)
grid_date (Date)
gross_electrical_power (Integer)
commercial_date (Date)
reference_unit_power (Integer)
age_at_the_end (Integer)
input_datetime (DateTime)
is_active (Boolean)
_J
ReactorType
iPK id
V name J
Рисунок 4.2. Схема интегральной базы данных АЭС
При осуществлении сбора данных из трех выбранных информационных источников в таблице базы данных (NPP) было агрегировано 789 объектов атомных электростанций. В таблицах World Nuclear, The Bulletin Nuclear, OPEX представлена подробная информация по объектам, полученная с соответствующих ресурсов.
Таблица The Bulletin Nuclear содержит поля, описывающие АЭС на интерактивной карте-визуализации, представленной на сайте The Bulletin Nuclear - 754 объекта.
Таблица World Nuclear содержит данные глобальной мощности и производительности реакторов с сайта World Nuclear Association - 679 объектов.
Таблица OPEX содержит поля, представленные в отчетах МАГАТЭ, описывающие основные характеристики АЭС - 441 объект.
Рассматриваемые ресурсы предоставляют разные количественные данные об АЭС в мире. Этот факт обусловлен тем, что ресурсы World Nuclear Association и МАГАТЭ содержат информацию не по всем эксплуатационным статусам атомных электростанций.
Рассматриваемые информационные источники дополняют друг друга. Однако, нельзя исключать совпадения в предоставляемых ими данных. Для идентификации этих совпадений был составлен поисковый запрос (см. Фрагмент кода 4.1.).
Фрагмент кода 4.1. SQL запрос для вычисления совпадений в
данных ресурсов
1 SELECT COUNT(NPP.id)
2 FROM NPP, OPEX, TheBulletinNuclear, WorldNuclear
3 WHERE OPEX.npp_id = NPP.id AND TheBulletinNuclear.npp_id = NPP.id AND
4 WorldNuclear.npp_id = NPP.id;
В результате запроса было выявлено 427 совпадений в записях, предоставленных с рассматриваемых информационных источников.
С помощью агентных технологий реализовано форматирование данных из трех авторитетных информационных источников по характеристикам атомных электростанций в мире. Также созданы инструменты для агентного сбора данных из различных источников, спроектированы архитектура и схема базы данных. В результате получена подробная информация по 789 объектам атомных электростанций.
Разработанные программные агенты позволяют получать актуальную информацию по заданной тематике, так как обновление данных происходит автоматически по заданному расписанию. Достоверность информации обеспечивается сравнением значений отдельных полей из разных источников.
Следует отметить преимущества созданной системы: • Возможность работы пользователя со структурированной и унифицированной информацией.
• Отсутствие необходимости проверки подтверждающих данных со стороннего Интернет-ресурса.
• Осуществление поиска по нескольким полям в БД.
• Возможность работы с большим количеством информации благодаря технологии слияния данных из нескольких источников.
• Простой интерфейс и доступность созданной системы.
• Возможность генерирования любых запросов и осуществление поиска в базе данных без каких-либо ограничений.
Необходимо отметить, что созданная система направлена на решение проблемы работы с большим объемом данных.
4.2. Параметрическая и семантическая индексация технологических
объектов
В настоящее время большие данные полностью изменили современный научный ландшафт. С одной стороны, большие данные предоставляют экспертам огромные возможности для проведения исследований практически во всех областях человеческой деятельности, разработки новых технологий и распространения научных знаний. С другой стороны, возникла острая необходимость в создании новых методов обработки больших данных. В настоящем подразделе рассматриваются предложения автора по аналитической поисковой индексации «технологических объектов», которая позволяет исследователям получать интересующую информацию из больших данных.
Под «технологическими объектами» понимаются технические или программно-технические объекты и системы, а также способы их создания, т.е. технологии.
Введем два типа аналитических поисковых индексов: параметрический и семантический. Параметрический поисковый индекс позволяет пользователям найти информацию о технологии или материале с определенными физическими параметрами, значения которых лежат в
заданном интервале, в отличие от традиционного поиска в подстроке, который позволяет пользователям найти только определенное значение.
Идея семантического аналитического индекса основана на понятии жизненного цикла технологии, что позволяет определить текущее состояние развития конкретной технологии, на основе разработанной автором модели жизненного цикла.
При проведении научно-исследовательских и опытно-конструкторских работ перед учеными и инженерами возникает задача поиска информации о технологии или материале с определенными физическими характеристиками. Необходимым условием решения задачи является определение стадии жизненного цикла, на которой в настоящее время находится конкретный «технологический объект».
Совместное использование этих индексов позволяет исследователям идентифицировать технологию с заданными характеристиками и на определенном этапе ее развития (жизненного цикла).
Для создания параметрического и семантического индексов необходима обработка текстовых документов с использованием специально разработанных алгоритмов, основанных на онтологиях физических параметров и жизненного цикла.
Принимая во внимание, что в настоящее время Азиатский регион стремительно развивается во многих направлениях НИОКР, и при этом Китай занимает лидирующие позиции [60], для реализации алгоритмов индексации был выбран китайский язык.
Особенности китайского языка, которые необходимо учитывать при решении задач параметрической и семантической индексации следующие:
1. В китайских текстах слова не разделяются пробелами [61].
2. Китайские слова обычно не имеют таких грамматических категорий как число, род и падеж для существительных, или время и вид для глаголов [62].
3. В китайском языке существует два типа запятых: обычная запятая и запятая перечисления, которая разделяет однородные члены предложения [63].
4. Поскольку в данном исследовании рассматриваются научные источники информации, следует отметить, что в научных статьях китайские ученые используют английские аббревиатуры единиц измерения вместо иероглифов [64].
Перед проектированием алгоритмов агентов были созданы онтологии физических параметров и жизненного цикла. Основным языком онтологий является китайский, каждый термин, входящий в онтологии, соотносится с термином на русском и английском языках.
Каждая технология или материал имеют набор физических характеристик. Все параметры можно разделить на универсальные (такие как длина, объем и др.) и специфические, которые используются только в определенной области, например, максимальный взлетный вес в авиации или период полураспада в ядерной физике. Одному и тому же параметру часто соответствуют разные единицы измерения. Например, расстояние может измеряться в метрах, милях, морских милях, их производных и т.д. Созданная онтология содержит более 200 параметров на китайском языке из таких научных областей, как ядерная физика, оптика, акустика, электроника, авиация и др. Для каждого параметра приведены наиболее распространенные единицы измерения, а также их перевод на английский и русский языки (см. Таблица 4.1.).
Таблица 4.1. Фрагмент онтологии физических параметров
№ Parameter (en) LloM Parameter (en) Parameter (ru)
100 tMffiffiS MW-d-kg-1, GW-d-t-1 burn-up глубина выгорания ядерного топлива
101 faÎTunLB ас running temperature рабочая температура
102 ШЁШЯЯ % feed enrichment начальное обогащение
103 SftEMS m core height высота A3
104 IIS % enrichment обогащение
105 ЯВ1 GW, Gwe, MW, M We installed capacity установленная мощность
106 MW-d-kg-1, GW-d-t-1 burn-up глубина выгорания ядерного топлива
107 kg loading capacity загрузка
108 Й@ mm inside diameter внутренний диаметр
109 mm MeV energy энергия
110 жмел mm penetrating power проникающая способность
111 Jhmim % decay of power снижение мощности
112 fitiSffifflffl s oscillation period период колебания
113 ШШ|В| s huntingtime время свободного искания
114 m/s flow rate скорость потока
115 шш % standard deviation нормальное отклонение
Семантическая индексация указывает положение «технологического объекта» на разных этапах жизненного цикла. В настоящее время не существует единой унифицированной модели жизненного цикла. Однако, общими характеристиками таких моделей является деление их на стадии и наличие общих стадий, таких как развитие, рост и спад [65]. Была разработана следующая модель жизненного цикла, состоящая из пяти стадий:
1. Исследование. Осознание необходимости в новой технологии или модернизации существующей, проведение научных исследований.
2. Разработка. Разработка опытного образца объекта, проведение испытаний и экспериментов, создание технической документации.
3. Производство. Промышленное изготовление единичного образца или серийное производство технологических объектов.
4. Эксплуатация и авторское сопровождение новых технологических объектов.
5. Утилизация технологического объекта в результате технического износа или морального старения.
Каждая стадия характеризуется набором наиболее часто используемых глаголов, которые вошли в онтологию. Например, глаголы «производить», «строить», «изготавливать» относятся к стадии производства. Однако, в некоторых случаях глагол может относиться к двум стадиям одновременно (слово «анализировать» относится как к стадии исследования, так и к стадии
разработки). Разработанная онтология жизненного цикла содержит более 50 глаголов на китайском языке с переводом на русский и английский языки (см. Таблица 4.2.).
Таблица 4.2. Онтология жизненного цикла
№ Глагол (рус.) Глагол (англ.) Глагол (кит.) Номера стадий
1 Исследовать, изучать Research, study м% 1
2 Обнаруживать Discover жш 1
3 Выяснять, исследовать Explore mm 1
4 Анализировать Analyze ЯШ 1
5 Оценивать Assess Wft 1 2
6 Считать, вычислять Calculate кж 1 2
7 Подтверждать, проверять Validate шш 1 2
8 шш 1 2
9 шш 2
10 ж 2
11 Испытывать, экспериментировать Test ш 2
12 им 2
13 ши 2
14 Симулировать, моделировать Simulate ш 2
15 ЯЙ 2
16 жщ 2
17 Разработать Develop шж 2
18 ^ж 2
19 Изобретать Invent жт 1 2
20 Проектировать Design 1 2
21 Ш 1 2
22 Создавать Create М 1 2
23 tm 1 2
24 3
25 Производить Produce 3
26 3
Были разработаны два алгоритма для параметрических и семантических аналитических поисковых индексов, со следующими этапами:
• Разбиение текста на смысловые блоки.
• Фильтрация и разметка на основе онтологий.
• Сохранение результатов в базе данных в виде поисковых индексов.
Рисунок 4.3. Алгоритм выделения параметрического индекса
Первым шагом обработки текста является разбиение его на семантические блоки. В силу особенностей китайской пунктуации тексты делятся на части не по точкам, а по запятым.
В параметрических индексах по каждому смысловому блоку осуществляется поиск единицы измерения из онтологии. Если единица измерения находится в блоке, алгоритм продолжает поиск названия соответствующего параметра, если название параметра присутствует, смысловой блок помечается как утверждение. В противном случае блок будет помечен как предположение. Размеченные смысловые блоки сохраняются в базе данных для дальнейшего использования (см. Рисунок 4.3.).
Рисунок 4.4. Алгоритм выделения семантического индекса
В семантическом индексе смысловые блоки обрабатываются посредством онтологии объектов для фильтрации смысловых блоков, содержащих информацию о требуемой технологии. Затем отфильтрованные блоки размечаются с помощью онтологии жизненного цикла. Алгоритм выполняет итерацию по отфильтрованным фрагментам и проверяет вхождение глагола из онтологии жизненного цикла в каждый фрагмент. Смысловые блоки, содержащие глаголы, маркируются в соответствии со стадией жизненного цикла, к которой принадлежит глагол. После этого отфильтрованные и размеченные фрагменты добавляются в базу данных и используются как семантические индексы (см. Рисунок 4.4.).
На Рисунок 4.5. приведены результаты экспериментов по обработке 30 китайских научных статей из открытых источников информации, посвященных ядерной энергетике. Первый блок точно определяет выявленные параметры, во втором блоке содержатся предположения в третьем блоке приведено предложение из семантического индекса.
В правой части рисунка 4.5. находится фрагмент таблицы базы данных, содержащей результаты обработки текста. К записям базы данных можно применять различные фильтры. Например, пользователь базы данных может выбрать определенный параметр и отсортировать записи по значениям этого параметра. Таким образом, можно найти технологию со значениями параметров, лежащими в определенном интервале.
Рисунок 4.5. Фрагмент из таблицы результатов эксперимента
Полученные семантические и параметрические аналитические поисковые индексы могут быть использованы как по отдельности, так и совместно для формирования сложных запросов. Их применение позволяет не только быстро обрабатывать тексты, но и находить технологии с заданными параметрами и на определенном этапе жизненного цикла. Это ускоряет и
облегчает процесс анализа и позволяет исследователям более эффективно обрабатывать большие данные.
4.3. Исследование методов визуализации научно-технических направлений развития КНР по открытой патентной информации.
Решение задач визуализации данных является одним из наиболее востребованных направлений в системном анализе, что связано с появлением «больших данных». Одним из способов решения задач визуализации является построение специализированных графиков и графов.
В диссертации решение задач визуализации представлено на основе опубликованных в апреле 2019 года патентных данных «Департамента разработки техники и вооружения Центрального военного комитета Китая» («The Equipment Development Department of China's Central Military Commission (CMC)») - 7 560 патентов [66].
Доступ к данным такого рода предоставляется специализированными веб-системами, которые обеспечивают пользователя инструментами поиска и фильтрации для нахождения определенного объекта - патента.
Однако, на практике, высокую ценность имеют данные, описывающие современные тенденции, уровень развития технологий по научным направлениям, общее бюджетирование в рамках определенной структуры и т.п. [67]
Получение данной информации обеспечивает МАС, а аналитическая информация предоставляется пользователю современными инструментами визуализации данных [68].
Первой стадией на пути изучения информационного ресурса (подраздел 2.1) является выделение атрибутов, присущих анализируемым объектам. Например, при изучении патентов выделяются следующие атрибуты: патентующее агентство, заявитель, дата подачи заявления на регистрацию, изобретатель, код «Международного патентного классификатора» («International Patent Classification» IPC), владелец, краткое описание и т.д.
Классификатор IPC имеет иерархическую структуру, которая отражается в кодах IPC, таким образом можно проводить исследование патентной информации в различных масштабах — представлять патенты по укрупненным либо узкоспециализированным патентным семьям.
Исходя из перечисленных атрибутов можно определить какого рода данные имеют ценность для аналитика. Например, используя данные о датах подачи заявлений на регистрацию и кодах IPC, определяется, когда и сколько патентов было зарегистрировано по каждому из научных направлений. Также можно определить какие междисциплинарные проекты существуют -относятся одновременно к нескольким кодам IPC.
Следует учитывать, что одному патенту могут быть присвоены несколько кодов IPC, что свидетельствует о том, что патент имеет научную направленность, которая находится на стыке нескольких патентных семейств. В таком случае предлагается относить патент равноправно как одному, так и к другим патентным семьям.
Патенты затрагивают период 1985-2016 гг. и включают следующие патентные семьи первого уровня, согласно классификатору IPC: A, B, C, D, E, F, G и H.
Недостаточно только определить количество патентов, но необходимо разработать средства визуализации, способные сразу дать представление о состоянии и статусе получаемых агентами данных.
Воспользовавшись библиотекой matplotlib [69], доступной на языке Python 3.7, можно построить график типа «heatmap», где строки определяют патентные семьи первого уровня, столбцы — годы, а значение в ячейке указывает на количество зарегистрированных патентов (см. Рисунок 4.6.).
rj 1200
о
■ IODO Ь X
- BOO
H
■ 600 о
- 400
ÍD
- 200 ^ О
lio «
Рисунок 4.6. Распределение патентов по годам и рубрикам первого уровня
IPC
Диаграмма позволяет определить патентную активность, так на Рисунок 4.7. можно заметить, что особая активность регистрации патентов приходится на 2014 год: G (Физика) — 1204, H (Электричество) — 606, F (Машиностроение, освещение, отопление, оружие и боеприпасы, взрывные работы) — 591 и т. д.
При рассмотрении патентов тем же самым способом, но по второму уровню классификатора IPC, например по патентной семье F (см. рисунок 4.7.) можно увидеть следующее распределение в 2014 году: F42 (Боеприпасы; Взрывные работы) — 252, F41 (Оружие) — 129, F16 (Узлы и детали машин; общие способы и устройства, обеспечивающие нормальную эксплуатацию машин и установок; теплоизоляция вообще) — 75, F02 (Двигатели внутреннего сгорания; силовые установки, работающие на горячих газах или продуктах сгорания) — 69 и т. д. Таким образом можно проводить оценку научно -технического развития по годам в разрезе уровней рубрик классификатора IPC.
Рисунок 4.7. Распределение патентов по годам и рубрикам второго уровня
(F) IPC
Представление о данных хорошо формируется посредством построения и изучения графов. Например, при использовании таких атрибутов патента как заявитель (организация) и код IPC, строится граф, где узлами первого типа являются патентные семьи IPC, узлами второго типа — организации, указанные в патентах, а ребрами — отношения между узлами первого и второго типов. При этом, ребра могут быть взвешенными, т.е., в данном случае, характеризовать количество патентов, зарегистрированных организацией по различным рубрикам IPC.
На Рисунок 4.8. узлами фиолетового цвета представлены организации-заявители, а бирюзовым — патентные семейства IPC. Для визуализации графа наиболее распространенными являются алгоритмы, основанные на аналогиях физических принципов притяжения и отталкивания тел или частиц по закону Гука, Кулона и др. один из таких алгоритмов является ForceAtlas 2 [70, 71, 72], который был использован при построении данного графа.
Рисунок 4.8. Граф организации-заявители и патентные семьи IPC
Данный граф четко разграничивает узко- и широко-специализированные организации, располагая «островками» на внешних «орбитах» графа узкоспециализированные и стягивая к центру графа широко -специализированные организации. Для более детального изучения данных следует рассматривать отдельные фрагменты графа в большем масштабе при помощи специализированных инструментов навигации, например, при помощи программного обеспечения Gephi [73], посредством которого выполнялось построение данного графа.
Используя текст из патентов, например, из атрибута «краткое описание», в качестве источника информации на естественном языке и таких программных средств как «Natural Language Toolkit» NLTK [74] возможно построение онтологий по патентным семействам IPC. Данные онтологии можно использовать для построения графа, где в качестве узлов первого типа
используются второй уровень классификатора IPC, узлов второго типа — термины из онтологий, а в качестве ребер отношения, взвешенные по показателю встречаемости термина в рубрике (см. Рисунок 4.9.).
Анализ такого графа в полном его исполнении, из -за своего размера, может дать аналитику только представление об объеме анализируемых данных. При фрагментации графа предоставляется возможность выделения общих и уникальных терминов для всех рубрик классификатора IPC, это позволяет аналитику в сжатые сроки получить представление об информации, содержащейся в патентах [75].
Например, в патентах рубрики F42 (Боеприпасы; Взрывные работы)
наиболее встречающиеся уникальные термины: ЩШШ (анкерное колесо), Ш^Щ (дробь, картечь), й^ш^Щ (винтовочная граната), (патронташ),
(целевой тест), ШЩ (колба), ШШ (балансир), (электродвижущая сила),
ШШ (патронная гильза), fS^ (вольфрам в гранулах) и т. д.
Рисунок 4.9. Терминология по рубрикам второго уровня классификатора
IPC
В результате таких средств визуализации были выявлены статистические данные, описывающие динамику и тренды развития научно-технических направлений.
Использование представления данных в виде графов позволило наглядно выделить узко- и широко-специализированные организации-заявители и оценить их количество.
Выделение терминологической базы из патентной информации в рамках процесса построения графа приводит к возможности выделения уникальных
терминов, согласно рубрикам IPC. Получение данных терминов позволяет разработать текстовый классификатор, способный с высокой точностью относить поступающий документ к рубрикам классификатора IPC [76].
Приведенный выше анализ не следует рассматривать как исчерпывающий. Вопросы, на которые должен получить ответ аналитик, зависят от лиц или органов, принимающих те или иные решения. Поэтому предвидеть все многообразие прикладных аналитических задач невозможно.
Однако, следует обратить внимание на то, что полнота, доступных аналитику исходных данных, обеспечивается агентной системой (7 560 объектов-патентов со множеством атрибутов по каждому из них).
4.4. Квалификационная подготовка операторов агентной системы
Практика разработки и использования агентной платформы в аналитической деятельности выявила необходимость разработки специального учебного курса, где изложены описанные в данной диссертации методы и подходы к работе с данными посредством агентных технологий.
Был разработан учебный курс для магистрантов Института международных отношений НИЯУ МИФИ, специализирующихся по профилю «Международные научно-технологические и торгово-промышленные отношения», а также специалистов профильных организаций, использующих МАС в своей деятельности.
Целью курса является изучение теоретических основ разработки агентных технологий и самоорганизующихся агентных систем, а также получение практических навыков реализации различных типов агентов для решения информационно-аналитических задач различной размерности.
Курс включает в себя «Вводную часть», где даются общие знания о программировании на языке Python 3.7 и «Основную часть», в которой разбираются интерактивные и агентные методы сбора, обработки и хранения данных.
Каждая тема курса сопровождается практической задачей, что позволяет придерживаться идеологии «Учиться путем практики» или «Обучение в процессе работы». Может сложиться мнение, что курс направлен на подготовку инженеров-программистов, однако, цель курса состоит в подготовке аналитиков с навыками программирования и умением взаимодействовать с информационными системами и базами данных на уровне программных интерфейсов либо посредством агентных технологий.
Вводная часть курса начинается со знакомства с инструментами разработчика. Особое внимание уделяется примерам обработки данных, основанных на логике типов данных, например, удаление дубликатов в списке посредством конвертации в множество или чистка текста от двойных пробелов и пустых строк посредством методов строки «split» и «join».
В основной части курса предусмотрены практические задачи по сбору, обработке и хранению данных. Подход к изучению материала заключается в идеологии «Следуй за ведущим», т.е. по каждой задаче проводится мастер-класс от преподавателя на «живых» данных, после чего студентам предлагается самим сформулировать информационно-аналитическую задачу, осуществить поиск исходных данных для ее решения, выбрать данные, на которых они будут отрабатывать предлагаемую практику в рамках решения поставленной задачи. Предоставление выбора данных студентам позволяет адаптировать практику занятий к их потребностям, возникшим на работе, преддипломной практике или в ходе написания квалификационных работ. Оценкой такой самостоятельной работы студентов является результат публичной защиты решения перед всей группой студентов. Это позволяет обсудить все оригинальные нюансы решений, предложенных студентами.
Задания по сбору информации из сети дается по предложенной методике в разделе «Изучение информационного ресурса». Реализация агента для сбора информации возможна различными техниками с задействованием разных программных модулей для того, чтобы заинтересовать студентов к использованию каждого из программных модулей.
В рамках курса рассматриваются случаи, когда собираемая информация поступает не в формате HTML документа, а в менее структурированном виде, например, в doc(x) или pdf., решение таких задач относится к классу по обработке данных. На занятиях рассматриваются техники извлечения чистого текста из документов формата pdf, doc(x), xls(x), ppt(x) и т.д.
По завершению второй части курса студенты разрабатывают и наполняют базы данных собранными объектами. Студентам объясняется общее представление о реляционных базах данных, SQL-запросах и т.д.
Примером, который включает в себя вcе курсовые задачи, может служить работа по проектированию и реализации базы данных атомных электростанций (АЭС). Источником информации для наполнения такой базы данных являются официальные отчеты Международного Агентства по Атомной Энергии (МАГАТЭ) («International Atomic Energy Agency» (IAEA), которые размещены в разделе «публикации»2 официального сайта МАГАТЭ3. (Данный пример рассмотрен в разделе 4.1. диссертации).
Реализация нескольких подходов в решении задачи позволяет студентам сравнить временные затраты и затраты по вычислительной мощности, а также снабжает их должной гибкостью и способностью принимать решения при ведении конструкторской или управленческой деятельности.
С 30 сентября по 4 октября 2019 года в Черногории, г. Будва состоялся 27 Международный симпозиум-школа по ядерной электронике и компьютингу NEC 2019, организованный Европейской организацией по ядерным исследованиям (CERN) и Объединенным институтом ядерных исследований (ОИЯИ). Традиционно, в рамках симпозиума проводилась молодежная школа по тематике «Big Data mining и распределенные системы». В программу школы был включен мастер класс по программированию интеллектуальных агентов. Мастер класс проводился по описанной выше методике. Все участники мастер -
2 https://pris.iaea.org/PRIS/Publications.aspx
3 https://www.iaea.org/
класса обладали лишь весьма общими сведениям об агентных технологиях. Тем не менее, используя методику «Следуй за мной», описанную выше, учебная группа успешно справилась с заданием, т.е. создали тематически ориентированных агентов и провели экспериментальный поиск тематической информации в глобальной сети.
Результаты и выводы по разделу 4
1. Продемонстрирована практическая значимость использования информационной агентной системы при обработке информации на иероглифических языках на примере сбора и обработки более семи тысяч открытых патентов КНР по технологиям двойного назначения.
2. Разработаны и экспериментально исследованы методы объединения тематической научно-технической информации из различных независимых источников информации, позволяющие, в частности, оценивать достоверность полученной информации по совпадению данных из различных источников.
3. Предложена и реализована система параметрической и семантической индексации технологических объектов, позволяющая осуществлять поиск объектов, имеющих технические характеристики в определенном диапазоне значений, а также определять положение технологического объекта на определенных этапах его жизненного цикла, в том числе на китайском языке.
4. Составлен и внедрен в учебную практику курс подготовки операторов агентных систем для студентов магистратуры НИЯУ МИФИ и специалистов профильных организаций, использующих мультиагентные системы в своей профессиональной деятельности.
Заключение
В диссертации создана методология разработки и проектирования нового класса мультиагентных информационно-аналитических систем по сбору и обработке данных, в которых вводятся интеллектуальные подходы взаимодействия с пользователями. Разработанные на основе данной методологии информационно-аналитические системы позволяют расширить круг пользователей и повысить уровень информационного обслуживания с учетом индивидуальных предпочтений пользователей.
Основные результаты диссертационной работы заключаются в следующем:
1. Разработана методика предпроектного исследования информационных ресурсов для решения задач целевого сбора информации, включающая этапы рекогносцировки, сканирования и инвентаризации. Результатом является формализованная процедура для моделирования и последующей настройки соответствующего агента на информационный ресурс.
2. Предложена и обоснована архитектура мультиагентной информационно-аналитической системы, которая позволяет повысить универсальность системы за счет вводимых различных рабочих процессов и гибкость при распределении вычислительных мощностей за счет своей модульности, которая обеспечивает вертикальное и горизонтальное масштабирование.
3. Применительно к сформированной архитектуре разработаны методы и алгоритмы самоорганизации агентов с различными ролевыми предписаниями. Разработанные алгоритмы используются для обеспечения процесса управления реорганизацией агентов при выполнении ими коллективной работы в решении информационно-аналитических задач.
4. Разработаны методы согласованного взаимодействия агентов внешнего и внутреннего контуров. Агенты внешнего контура ориентированы на взаимодействие с внешней средой для сбора информации. Агенты внутреннего контура обеспечивают обработку и доставку информации конечному пользователю. Функция накопления знаний Агентной рабочей группой позволяют проводить мониторинг состояния системы и поддерживать ее работоспособность.
5. Исследованы и разработаны способы автоматизированной рубрикации потока научно-технической информации. Использование методов математической статистики позволило повысить точность и быстродействие информационно -аналитической системы.
6. Обоснована и разработана процедура формирования рабочего процесса для управления реорганизацией агентов. Алгоритм контроля выполнения рабочего процесса позволяет операторам системы проводить мониторинг состояния системы и обеспечивать ее рабочее состояние.
7. Предложена и разработана программная платформа для создания информационно-аналитических агентных систем с функциями составления рабочих процессов и их миграции на другие дистрибутивы данной платформы. Функции составления и миграции рабочих процессов позволяют проводить оперативное развертывание системы на новых вычислительных мощностях.
8. Разработан и применен алгоритм новой конвейерной классификации научно-технического потока данных большой размерности. Конвейерная классификация приводится как пример способности информационно-аналитической системы повысить свою интеллектуальность на уровне отдельного агента.
9. Исследованы возможности реорганизации агентов в рамках выполнения рабочего процесса при обработке научно-технического потока информации. Способность к реорганизации агентных рабочих групп демонстрирует интеллектуальность системы на уровне управления, позволяющая выгодно распределять вычислительные мощности при различных рабочих процессах.
10. Разработана и испытана информационно-аналитическая система для обработки потока разнородной неструктурированной научно -технической информации. Экспериментальное исследование информационно-аналитической системы демонстрирует правильность основных теоретических положений, изложенных в диссертации, и универсальность применения методологии разработки самоорганизующихся мультиагентных информационно-аналитических систем.
11. Продемонстрирована практическая значимость использования агентной системы при обработке информации на иероглифических языках на примере сбора и обработки более семи тысяч открытых патентов КНР по технологиям двойного назначения.
12. Составлен и внедрен в учебную практику курс подготовки операторов агентных систем для студентов магистратуры НИЯУ МИФИ и специалистов профильных организаций, использующих мультиагентные системы в своей профессиональной деятельности.
Перечисленные выше результаты диссертационной работы положены в основу интеллектуальной мультиагентной системы «Поиск», разработанной по Государственному контракту между НИЯУ МИФИ и Министерством науки и высшего образования РФ.
По договору с Научно-техническим институтом межотраслевой информации (НТИМИ) автором разработана система «Рубрикатор» с элементами самоорганизации, в которой реализована агентная методология регулярной обработки интенсивных потоков научно-технической информации.
Научные и технические положения, изложенные в диссертации, использованы также в проектах других систем, имеющих специальное назначение.
Список терминов, условных обозначений и сокращений
ACL Agent Communication Language
AID Agent Identifier
AMS Agent Management System
AP Agent Platform
API Application Program Interface
CMC Central Military Commission
CSS Cascading Style Sheets
DF Directory Facilitator
FIPA Foundation for Intelligent Physical Agents
FTP File Transfer Protocol
FYDP Future Years Defense Program
HTML HyperText Markup Language
HTTP HyperText Transfer Protocol
HTTPS HyperText Transfer Protocol Secure
IDLE Integrated Development and Learning Environment
IPC International Patent Classification
ITS Internationalization Tag Set
JADE Java Agent Development Framework
JSON JavaScript Object Notation
MIC Military Industrial Complex
MS Microsoft
MTS Message Transport Service
NLTK Natural Language Toolkit
NPP Nuclear Power Plant
OCR Optical Character Recognition
OMG Object Management Group
OPEX Operating Experience
PEP Python Enhancement Proposal
SPADE Smart Python Agent Development Environment
SQL Structured Query Language
URL Uniform Resource Locator
W3C World Wide Web Consortium
XML eXtensible Markup Language
XMPP Extensible Messaging and Presence Protocol
XPATH XML Path Language
АЭС Атомная электростанция
ИМ Информационный материал
ИПП Программный интерфейс приложения
ИПС Информационно-поисковая система
ИР MIC Информационный ресурс Military Industrial Complex
КНР Китайская Народная Республика
МАГАТЭ Международное агентство по атомной энергии
МАС Мультиагентная система
МО США Министерство Обороны Соединенных Штатов Америки
НИОКР Научно-исследовательские и опытно-конструкторские разработки
ПО Программное обеспечение
СКВ Статистический классификатор второго порядка
СКП Статистический классификатор первого порядка
США Соединенные Штаты Америки
Список использованных источников
Schermer, B.W. Software agents, surveillance, and the right to privacy: A legislative framework for agent-enabled surveillance [Текст] / B.W.
[1] Schermer // Leiden University Press. - 2007. - С. 17-34.
Sycara, K. Automated discovery, interaction and composition of semantic web services [Текст] / K. Sycara, M. Paolucci, A. Ankolekar, N. Srinivasan
[2] // Services and Agent on the World Wide Web - 2003. - С. 27-46. - 1 т. Tweedale, J. Innovations in multi-agent systems [Текст] / J. Tweedale, N. Aranje, C. Sioutis, B. Jarvis, A. Consoli, G. Phillips-Wren // Computer
[3] Applications. - 2007. - С. 1089-1115.
Yager, R.R. Targeted e-commerce marketing using fuzzy intelligent agents [Текст] / R.R. Yager // IEEE Intelligent Systems - 2000. - С. 42-45. - 15
[4] т.
Schleiffer, R. An intelligent agent model [Текст] / R. Schleiffer // European
[5] Journal of Operational Research - 2005. - С. 666-693. - 166 т.
Ferber, J. Multi-Agent Systems: An Introduction to Distributed Artificial Intelligence. [Текст] / J. Ferber // Boston: Addison-Wesley Longman
[6] Publishing Co., Inc. - 1999.
Ralhaa, C.G. Multiagent system for dynamic resource provisioning in cloud computing platforms [Текст] / A. H. Mendes, L. A. Laranjeira, A. P. Araújo, A. C. Melo // Future Generation Computer Systems - 2019. - С.
[7] 90-96. - 94 т.
Weiss, G. Multiagent Systems: A Modern Approach to Distributed
[8] Artificial Intelligence (second ed.) [Текст] / G. Weiss // MIT Press - 2013. Russell, S. J. Artificial Intelligence: A Modern Approach [Текст] / S. J.
[9] Russell, P. Norvig // Prentice Hall - 2010.
Wooldridge, M. An Introduction to Multiagent Systems [Текст] / M.
[10] Wooldbridge // Wiley Publishing - 2009.
Knyazkov, K. Evaluation of Dynamic Ambulance Routing for the Transportation of Patients with Acute Coronary Syndrome in Saint-petersburg [Текст] / K. Knyazkov, I. Derevitsky, L. Mednikov, A.
[11] Yakovlev // Procedia Computer Science - 2015. - С. 419-428. - 66 т. Chao, C.Y. The interrelationship between intelligent agents' characteristics and users' intention in a search engine by making beliefs and perceived risks mediators [Текст] / C.Y. Chao, H.C. Wu, T.C. Chang, Y.S. Lin, P.C. Chen
[12] // Computers in Human Behavior - 2016. - С. 117-125. - 64 т. Chandramohan, D. A new privacy preserving technique for cloud service user endorsement using multi-agents [Текст] / D. Chandramohan, T. Vengattaraman, D. Rajaguru, P. Dhavachelvan // Journal of King Saud
[13] University - Computer and Information Sciences - 2016 - С. 37-54. - 28 т. Li J. Social robots and virtual agents as lecturers for video instruction [Текст] / J. Li, R. Kizilcec, J. Bailenson, W. Ju // Computers in Human
[14] Behavior - 2016. - С. 1222-1230. - 55 т.
Boella, G. Time and defeasibility in FIPA ACL semantics [Текст] / G. Boella, G. Governatori, J. Hulstijn, R. Riveret, A. Rotolo, L. Torre // Journal
[15] of Applied Logic - 2011. - С. 274-288. - 9 т.
Yao, J.Y. An agent-based workflow system for enterprise based on FIPA-OS framework [Текст] / J. Y. Yao, S. Tien-Wen, W. Chuni, C. Hsiang-
[16] Yang // Expert Systems with Applications - 2010. - С. 393-400. - 37 т. Foundation for Intelligent Physical Agents [Электронный ресурс] // http://www.fipa.org/repository/standardspecs.html - 2019. [Дата
[17] обращения: 25.04.2019].
Foundation for Intelligent Physical Agents, Agent Management Specification [Электронный ресурс]/ FIPA - 2004. [Дата обращения:
[18] 27.04.2019]
Foundation for Intelligent Physical Agents, ACL Message Structure Specification [Электронный ресурс] / FIPA - 2002. [Дата обращения:
[19] 28.04.2019]
Foundation for Intelligent Physical Agents, ACL Message Representation in 5 Bit-Efficient Encoding Specification [Электронный ресурс] / FIPA -
[20] 2002. [Дата обращения: 01.05.2019]
Foundation for Intelligent Physical Agents, ACL Message Representation 5 in String Specification [Электронный ресурс] / FIPA - 2002. [Дата
[21] обращения: 04.05.2019]
Foundation for Intelligent Physical Agents, ACL Message Representation 5 in XML Specification [Электронный ресурс] / FIPA - 2002. [Дата
[22] обращения: 05.05.2019]
Артамонов А.А. Трехуровневая система агентного поиска и обработки научно-технической информации [Текст]: диссертация на соиск. учен. степ. канд. тех. наук (05.13.01) / Артамонов Алексея Анатольевича;
[23] НИЯУ МИФИ - Москва, 2016.
Giorgini, P. Agent-Oriented Software Engineering [Текст] / P. Giorgini, J.
[24] P. Muller, J. Odell // Springer - 2004.
JAVA Agent DEvelopment Framework (JADE) [Электронный ресурс]. //
[25] https://jade.tilab.com/ - 2019. [Дата обращения: 14 02 2019].
Smart Python Agent Development Environment (SPADE) [Электронный ресурс] // https://spade-mas.readthedocs.io/en/latest/readme.html. - 2019.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.