Метод и алгоритмы построения интеллектуальной диалоговой системы на основе динамического представления графов знаний тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Романов Алексей Андреевич

  • Романов Алексей Андреевич
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 231
Романов Алексей Андреевич. Метод и алгоритмы построения интеллектуальной диалоговой системы на основе динамического представления графов знаний: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 231 с.

Оглавление диссертации кандидат наук Романов Алексей Андреевич

Реферат

Synopsis

Введение

1 Анализ предметной области

1.1 Диалоговые системы

1.1.1 Целевые диалоговые системы

1.1.1.1 Анализатор естественного языка

1.1.1.2 Трекер состояния диалога

1.1.1.3 Система определения действий

1.1.1.4 Генератор естественного языка

1.1.2 Нецелевые диалоговые системы

1.2 Диалоговый поиск

1.3 Методы выбора ответов в диалоговых системах

1.3.1 Шаблонны подход

1.3.2 Подход, основанный на графах знаний

1.4 Источники данных

1.5 Выводы по главе

2 Тематическое моделирование и представление знаний

2.1 Тематическое моделирование

2.1.1 Кластеризация и классификация

2.1.2 Вероятностное тематическое моделирование

2.1.3 Вероятностный латентно-семантический анализ

2.1.4 Латентное размещение Дирихле

2.1.5 Регуляризация тематических моделей

2.2 Тематическое моделирование в диалоговых системах

2.3 Модели векторного представления знаний

2.3.1 Векторные представления на основе расстояний

2.3.2 Векторные представления на основе семантики

2.4 Графы знаний в диалоговых системах

2.5 Выводы по главе

3 Метод извлечения часто задаваемых вопросов из ресурсов поддержки

3.1 Анализируемые данные

3.1.1 Предобработка

3.2 Алгоритм извлечения сообщений из данных

3.2.1 Регулярные выражения

3.2.2 Отбор строк

3.2.3 Ключевые слова (концепты)

3.2.4 Классификация строк обращений

3.2.4.1 Логистическая регрессия

3.2.4.2 Байесовский классификатор

3.2.4.3 Метод опорных векторов (БУМ)

3.2.4.4 Адаптивный бустинг (А<!аВооз1;)

3.2.5 Оценка классификатора подписей

3.2.5.1 Матрица ошибок

3.2.5.2 Доля верной классификации

3.2.5.3 Точность

3.2.5.4 Полнота или чувствительность

3.2.5.5 Специфичность

3.2.5.6 ЮС-кривая

3.2.5.7 Р-мера

3.2.6 Результаты классификатора подписей

3.3 Формирование вопросно-ответного набора данных

3.3.1 Определение вопросительных предложений

3.4 Базовый эксперимент

3.5 Выводы по главе

4 Метод обогащения данных ресурсов поддержки

4.1 Базовая онтология

4.2 Тематическое моделирование обращений

4.2.1 Представление данных

4.2.1.1 Лемматизация и стемминг

4.2.1.2 Токенизация и обработка

4.2.1.3 Результаты представления данных

4.2.2 Модельный эксперимент

4.2.2.1 Обучение модели

4.3 Семантическое сходство вопросов

4.3.1 Близость слов

4.4 Определение именованных сущностей

4.5 Векторные представления

4.6 Эксперимент

4.7 Выводы по главе

Заключение

Список рисунков

Список таблиц

Список литературы

Публикации по теме диссертации

Реферат

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод и алгоритмы построения интеллектуальной диалоговой системы на основе динамического представления графов знаний»

Актуальность темы

Диалоговые системы являются актуальным технологическим трендом, которому уделяется все больше внимания. Наиболее популярная языковая технология последних лет - интеллектуальный виртуальный помощник. В зависимости от контекста использования такие системы называют диалоговый интерфейс, вопросно-ответная система или чат-бот. Однако все они обладают единой концепцией - достичь определенного результата, общаясь с машиной в диалоговом режиме, используя запросы на естественном языке [20]. Наиболее известными диалоговыми системами являются цифровые голосовые помощники: Apple Siri, Amazon Alexa, Google Assistant, Яндекс Алиса. Вслед за ними появилось множество текстовых диалоговых систем, предназначенных для решения определенных задач.

Можно утверждать, что диалоговые системы стали стандартом де-факто для многих отраслей - от ритейла до бронирования билетов и в особенности службы поддержки клиентов.

Одной из сфер применения диалоговых систем является образование, особенно в рамках направлений развития электронного обучения и дистанционных образовательных технологий при реализации образовательных программ. Федеральный закон «Об образовании в Российской Федерации» содержит возможные способы интеграции и организации учебного процесса с использованием дистанционных образовательных технологий и электронного обучения в основе единых информационно образовательных сред (ЕИОС).

Развитие таких проектов и их непосредственная интеграция в образовательный процесс ведущих университетов страны приводит к заметному

росту как числа учебных материалов, так и числа обучающихся, что в свою очередь порождает большие объемы данных. Также это приводит к росту числа сотрудников поддержки таких систем, в том числе кураторов онлайн-курсов и специалистов поддержки, компетентных в той или иной области знаний. Рост числа сотрудников, вовлеченных в такой процесс, влечет к экономическим затратам и исследованию вопросов эффективности.

Решением проблемы эффективности может служить обобщение всей информации ЕИОС, включая учебные материалы, задания, тесты и упражнения, сообщения пользователей на форумах, обращения в поддержку в виде единой базы знаний, основанной на семантической сети. Особенностью баз знаний в отличие от имеющихся в любой ЕИОС баз данных является не только возможность хранить фактическую информацию, но и делать автоматические умозаключения об уже имеющихся или вновь вводимых фактах и тем самым производить семантическую или осмысленную обработку информации.

База знаний может служить основой для построения интеллектуальной системы, одним из примеров которой является создание вопросно-ответной системы. Разработку которых ведут многие корпорации, в особенности внедряя их в банковский сектор. В перспективе диалоговая система позволяет экономить деньги, за счет автоматизации повторяющихся задач при поддержке различных процессов взаимодействия пользователя с системой.

В образовательном процессе таким взаимодействием является общение студента с преподавателем на форуме, или обращения с вопросами по электронной почте. Однако, зачастую эти вопросы повторяются, а значит их можно формализовать и автоматизировать процесс ответов. Второе важное преимущество, это возможность обеспечить обратную связь 24 часа в сутки, в отличие от сотрудников поддержки. Использование диалоговых систем также позволяет накапливать опыт путем анализа разговоров.

Актуальной проблемой при создании диалоговых систем является закрытость многих разработок и коммерциализация, но в особенности, важной является проблема подготовки данных для обучения моделей диалоговых систем.

Таким образом актуальной является задача обобщения и разработки методов и алгоритмов, обеспечивающих непрерывный процесс преобразования данных от необработанных, слабоструктурированных данных ресурсов поддержки до рабочей модели диалоговой системы.

Объект исследования - средства, методы и алгоритмы повышения точности ответов в диалоговых системах.

Предмет исследования - алгоритмы извлечения и обработки слабоструктурированных данных ресурсов поддержки в контексте подготовки наборов данных для обучения моделей диалоговых систем.

Цели диссертационного исследования - увеличение точности ответов в диалоговых системах при автоматизированной обработке ресурсных данных посредством метода семантического аннотирования и обогащения метаданными с использованием алгоритмов векторных представлений графов знаний.

Для достижения поставленной цели в диссертации решаются следующие задачи:

1. Исследование современных подходов к построению диалоговых систем.

2. Исследование существующих подходов векторного представления графов знаний и тематического моделирования.

3. Разработка метода автоматизированного агрегирования слабоструктурированных данных ресурсов поддержки.

4. Разработка модели хранения данных на основе базовой онтологии для формирования графа знаний позволяющего провести серию экспериментов.

5. Разработка метода обогащения графа знаний метаданными, именованными сущностями и тематического моделирования с последующим представлением в векторном пространстве.

6. Алгоритмическая и программная реализация разработанных на предыдущих этапах решений.

7. Проведение экспериментального исследования разработанных алгоритмов и метода на основе построенного графа знаний, выработка рекомендаций их по применению и дальнейшему развитию.

Научная новизна определяется комплексным подходом, основанным на автоматизированной обработке слабоструктурированных данных ресурсов поддержки на русском языке и их представлении в виде графа знаний, обогащенного метаданными, обеспечивающими повышение точности ответов в диалоговой системе. На основе полученных результатов возможно сформировать универсальный метод к формированию вопросно-ответных наборов данных и их представлению в виде графа знаний для последующего повышения точности и эффективности вопросно-ответных диалоговых систем. При этом разработаны

1. Алгоритм автоматизированной обработки слабоструктурированных ресурсов поддержки, позволяющий извлечь текст обращений с использованием методов классификации и критериев отбора строк. Отличие предлагаемого алгоритма заключается в том, что он обобщает результаты существующих, за счет автоматизированной генерации шаблонов и извлечения ключевых слов.

2. Алгоритм автоматизированного извлечения вопросно-ответных пар из ресурсов поддержки на основе метода отбора вопросных конструкций и анализа универсальных зависимостей. Его использование позволяет снизить участие эксперта и автоматизировать процесс формирования обучающего набора данных для диалоговой системы.

3. Метод обогащения данных на основе метаданных ресурсов поддержки, тематического моделирования, извлечения именованных сущностей и поиска семантической близости. Этот метод использует разработанную онтологию для описания ресурсов поддержки в виде графа знаний, причем в процессе обогащения данных увеличивается количество связей, что позволяет повысить точность моделей диалоговой системы.

Теоретическая и практическая значимость работы заключается в разработке экспериментально проверенных алгоритмов и метода, позволяющих автоматизировать процесс сбора и обработки слабоструктурированных данных ресурсов поддержки при формировании вопросно-ответных диалоговых систем. Эксперимент проводился на данных обращений студентов и ответов преподавателей по электронной почте в ходе смешанного образовательного процесса блока дисциплин Цифровая Культура Университета ИТМО. Разработка диалоговой системы, позволяет повысить эффективность получения ответов студентами на вопросы в рамках смешанного обучения, так и применить полученный метод и алгоритмы для построение диалоговых систем в смежных предметных областях.

Апробация работы. Основные результаты диссертационного исследования были доложены на международных и всероссийских конференциях:

1. Metadata Extraction from Open edX Online Courses Using Dynamic Mapping of NoSQL Queries // 25th World Wide Web Conference. Montreal, Canada. 11.04.2016-15.04.2016.

2. Open edX XBlock plugin for course interlinking, based on the conceptual connections and semantic web principles // 2017 Open edX Conference. Universidad Carlos III, Madrid, Spain. 24.04.2017-25.04.2017.

3. Towards the Semantic MOOC: Extracting, Enriching and Interlinking E-Learning Data in Open edX Platform // Knowledge Engineering and Semantic Web Conference 2017. Szczecin, Poland. 08.11.2017-10.11.2017.

4. Семантический анализ данных электронного обучения для посторонних интеллектуальных образовательных сервисов. // Цифровое образование. 21 век. Центр Цифрового Лидерства, SAP, Москва, Россия. 24.09.2018-24.09.2018.

5. Семантический анализ данных электронного обучения для посторонних интеллектуальных образовательных сервисов // XLVIII Научная и учебно-методическая конференция университета ИТМО. Университет ИТМО, Санкт-Петербург, Россия. 29.01.2019-01.02.2019.

6. Методы построения интеллектуальной диалоговой системы на основе графов-знаний для поддержки образовательного процесса. // Цифровое образование. 21 век. Центр Цифрового Лидерства, SAP, Москва, Россия. 15.10.2019-16.10.2019.

Публикации. По теме диссертационной работы автором опубликовано 7 статей, из них 2 работы в изданиях, рекомендованных Перечнем ВАК и 2 — в изданиях, входящих в списки Web of Science или Scopus.

Статьи, входящие в Перечень ВАК:

1. Романов А.А., Волчек Д.Г., Муромцев Д.И. Семантические технологии в массовых открытых онлайн курсах (МООК): экстракция, обогащение и связывание данных электронных учебных курсов для образовательной платформы Open edX // Информационные технологии - 2018. - Т. 24. - № 8. - С. 553-560

2. Романов А.А. Диалоговая система на основе динамического представления графов знаний // Экономика: вчера, сегодня, завтра - 2019. - Т. 9. - № 8А. - С. 462-469

Статьи из списков Web of Science/Scopus:

1. Volchek D., Romanov A., Mouromtsev D. Towards the semantic MOOC: Extracting, enriching and interlinking e-learning data in open edX platform //International Conference on Knowledge Engineering and the Semantic Web. - Springer, Cham, 2017. - С. 295-305.

2. Romanov A. et al. Implementing a Natural Language Processing Approach for an Online Exercise in Urban Design //R. Piotrowski's Readings in Language Engineering and Applied Linguistics. - 2018. - С. 139-154.

Прочие публикации:

1. Romanov A. et al. Metadata extraction from open edX online courses using dynamic mapping of NoSQL queries //Proceedings of the 25th International Conference Companion on World Wide Web. - International World Wide Web Conferences Steering Committee, 2016. - С. 501-506.

2. Романов А.А., Волчек Д.Г., Муромцев Д.И. Семантические сервисы для платформы «Открытое образование» // Интерактивное образование - 2018. - № 4. - С. 14-18

3. Муромцев Д.И., Романов А.А., Волчек Д.Г. Онтологическое моделирование массовых открытых онлайн курсов (МООК) // Интерактивное образование - 2018. - № 3. - С. 68-71

4. Муромцев Д.И., Романов А.А., Волчек Д.Г. Индустриальные графы знаний — интеллектуальное ядро цифровой экономики // Control Engineering Россия - 2019. - № 5(83). - С. 32-39

Личный вклад соискателя ученой степени заключается в получении результатов, изложенных в диссертации и подтверждается фактом разработки алгоритмов обработки слабоструктурированных данных ресурсов поддержки и извлечения вопросно-ответных пар, а также разработкой метода обогащения данных на основе метаданных, тематического моделирования и разработкой базовых онтологий для представлении данных в формате графов знаний и их векторных представлений.

Основные положения, выносимые на защиту:

1. Утверждается, что алгоритм автоматизированной обработки слабоструктурированных ресурсов поддержки, позволяет извлечь текст обращений за счет автоматизированной генерации шаблонов и извлечения ключевых слов.

2. Утверждается, что алгоритм автоматизированного извлечения вопросно-ответных пар из ресурсов поддержки на основе метода отбора вопросных конструкций и анализа универсальных зависимостей позволяет снизить участие эксперта в процессе формирования обучающего набора данных для диалоговой системы.

3. Показано, что метод обогащения данных на основе метаданных ресурсов поддержки, тематического моделирования, извлечения именованных сущностей и поиска семантической близости позволяет повысить точность ответов в диалоговой системе.

Объем и структура работы. Диссертация изложена на 116 страницах, состоит из введения, четырёх глав и заключения, содержит 40 рисунков и 18 таблиц. Список литературы содержит 92 наименования.

Содержание работы

Во введении обоснована актуальность исследований, проводимых в рамках данной диссертационной работы, сформулирована цель и задачи. Определена научная новизна, теоретическая и практическая значимость полученных результатов и положения, выносимые на защиту.

В первой главе выполнен анализ современных подходов к построению диалоговых систем и произведена их классификация. В разделе 1.1.1 рассмотрены целевые диалоговые системы и общий подход к их реализации, а также выявлены основные компоненты таких систем:

1. Анализатор естественного языка (Natural Language Understanding, NLU) - разбивает пользовательский текст на заранее определенные семантические слоты и преобразует в машиночитаемый вид.

2. Трекер состояния диалога (Dialogue State Tracker, DST) - определяет текущее состояние, которое используется для выбора следующего действия.

3. Система определения действий (Dialogue Policy Learning, DPL) - выбирает следующее действие, основываясь на текущем состоянии диалога.

4. Генератор естественного языка (Natural Language Generation, NLG) -отображает выбранное действие за счет сгенерированного ответа на естественном языке.

В разделе 1.1.2 описываются подходы построения нецелевых диалоговых систем, в том числе отмечаются:

1. Генеративный подход основанн на применении нейронных сетей. Такой подход требует огромных массивов данных для обучения, при этом вопросно-ответные пары должны быть полностью корректны.

Плюсом подхода является возможность генерировать ответы близкие к естественному языку, в случае если ответа нет в явном виде в наборе данных.

2. Поисковых подход основан на принципе, что ответ есть среди набора данных, а цель модели заключается в поиске наиболее подходящего.

3. Ансамблевый подход (гибридный) предполагает объединение методов, с целью улучшения генерации ответов нейронной сетью, обеспечивая дополнительный контекст за счет вариантов, предложенных поисковым подходом.

В заключительной части главы проведен обзор методов выбора ответов диалоговыми системами, в частности отмечен подход, основанный на графах знаний и его описание. На основе выполненного аналитического обзора сформулированы цель и требующие решения задачи.

Во второй главе представлены подходы к обработке текстовых данных, необходимые для обучения или моделирования диалоговых систем. Уделяется особое внимание графам знаний и способам взаимодействия с ними на основе векторных представлений. Кроме того, рассматривается возможность применения тематического моделирования при обработке наборов разрозненных данных с целью их группировки.

В разделе 2.1 рассмотрены основные подходы тематического моделирования. Установлен общий подход методов, описанный в вероятностном тематическом моделировании, которое выполняется над набором документов V которые состоят из Т тем, а каждое из слов w G W соотносится с темой t G Т. Таким образом для троек (d,w,t) строится вероятностная модель из некоторого дискретного распределения P (d,w,t) множества V х W х Т .В том числе вводится гипотеза «мешка слов» (bag of words) - предполагающая, что порядок слов не важен, чтобы определить тему документа. Также предполагается что появление слов не зависит от документа, а вероятностная модель записывается следующим образом:

P(wld) = ^ P(Hi)P№). т

В качестве базовой модели в разделе 2.1.3 рассматривается модель вероятностного латентно-семантического анализа - PLSA, которая является простейшей вероятностной тематической моделью, основанной на максимизации логарифма правдоподобия плотности распределения, а именно:

£(ф, ©) = ^2шdw log ^2 —^ max •

v w т

Полученную задачу при условии, что столбцы матриц весов Ф и © образуют дискретные распределения решают методом максимизации правдоподобия, а экстремум ищется с помощью метода множителей Лагранжа. Однако существует более рациональные алгоритм, реализованный в большинстве библиотек языков программирования - ^М-алгоритм [14]. Однако модель PLSA обладает недостатком, который заключается в том, что при добавлении новых документов в коллекцию, необходимо обновить распределение вероятностей P(£|d). Таким образом применимость метода эффективна в статичных коллекция, но в динамически изменяемых структурах будет не так эффективна.

Более универсальным является латентное размещение Дирихле - LDA, описание которого представлено в разделе 2.1.4 и ранее успешно применялось в смежной работе в ходе диссертационного исследования [62].

Особое внимание уделяется регуляризации тематических моделей (раздел 2.1.5), так как регуляризация, позволяет ввести ограничения, влияющие на решение оптимизационной задачи таким образом, чтобы модель обладала неким конкретным свойством. Среди таких, различимость тематик, классификация самих документов, точность поиска документов по ключевым словам и другие. Такие регуляризаторы представлены в методе аддитивной регуляризация - ARTM [76]. Достигается такая гибкость с помощью добавления г регуляризаторов, а задача сводится не только к максимизации правдоподобия рассмотренного в PLSA:

С(Ф, ©) = ^2 шdw log ^2 Ф^м —^ max, v w т

но и максимизации регуляризаторов ^(Ф, ©):

г

П(Ф, ©) = ^ тгЯг(Ф, ©)£(Ф, ©)+ П(Ф, ©) —> тах,

где Т{ > 0 - коэффициент регуляризации. Решение находится с помощью ЕМ-алгоритма.

Важным преимуществом метода АКТЫ является его вариативность к различным критериям конечной цели тематической модели и доступность алгоритма с такими критериями посредствам проекта Б1§АКТМ с открытым исходным кодом [77].

Раздел 2.3 второй главы посвящен анализу векторных представлений графов знаний, которые разделены на два класса:

1. Векторные представления на основе расстояний.

2. Векторные представления на основе семантики.

Методы векторного представления позволяют формализовать граф знаний таким образом, чтобы над ним можно было выполнять математические преобразования. Самым простым и известным из которых является алгоритм ТгапэЕ [11].

Основная идея алгоритма заключается в представлении троек (к,г,Ь) множества 5 в некотором векторном пространстве размерности ^, где к — гиперпараметр модели. Все сущности к, £ образуют множество 8, все связи г - множество Векторные представления обычно обозначают соответствующими полужирными символами Ь, г, 1. Тогда для верных троек должно выполняться условие Ь + г ~ 1, и противоречить для ложный (не верных) троек. Множество ложный троек 5' образуются заменой к или £ (но не обоих) верной тройки случайной сущностью, то есть:

= {(к', Г, ¿) |к' е 8} и {(к, Г, £) |г' е 8}.

Поиск таких координат векторов достигается с помощью градиентного спуска при минимизации функции потерь

С = Е Е [7 + ^ + г, <0 - Л (ь' + г, <)]+ ,

где А — некоторая мера схожести, для представления векторов используется норма т\ (манхэттенское расстояние) обозначаемая \\x\i или евклидова норма г2 обозначаемая \\х\\2, [х]+ — обозначает что рассматриваются только положительные слагаемые, 7 > 0 — гиперпараметр отступа. В контексте поставленной цели и задач, такой тройкой, например, может служить (Письмо, содержит_вопрос, Вопрос), тогда соответствующие векторы могут быть изображены на плоскости (рисунок 1 (а)).

Одним из недостатков модели является отсутствие поддержки таких отношений, как «один ко многим / многие ко одному / многие ко многим». ТгапБИ [80] позволяет решить первую проблему, за счет гиперплоскости отношений Я. Тогда для триплета (Н,г,Ь), Ь и < проецируются на гиперплоскость отношений. Визуализация представлена на рисунке 1 (б).

а) TransE

б) TransH

Рисунок 1: Иллюстрация алгоритмов TransE и TransH.

(Адаптация изображений из [11,80])

В рассмотренных алгоритмах отношения и сущности все еще находятся в одном векторном пространстве, тогда как в алгоритме ТгашЯ [44] — в различных векторных пространствах. А точней, в пространстве сущностей и в множественных пространствах отношений, однако это все еще не позволяет работать с отношением вида «многие ко многим».

Основная идея ТгашЯ в том, что сущности и отношения абсолютно разные объекты, а их отображение в одном пространстве не может учесть

всю семантику. Так, для триплета (Н, г, £) субъекты и объекты формируют множество Ъ, Ь £ , а отношения — г £ . После чего, для каждого отношения г задается матрица Мг £ xd, проецирующая субъекты и объекты из пространства сущностей в пространство отношений (рисунок 2) таким образом, чтобы + г ^ , где

Ъ± = ЪМГ, Ь± = ЬМ±.

Пространство сущностей Пространство отношений

Рисунок 2: Иллюстрация алгоритма ТгашК.

(Адаптация изображения из [44])

Кроме того, в разделе 2.3.1 рассмотрены и другие алгоритмы векторных представлений, однако в ходе анализа определено, что они обладают спецификой относительно возможностей их применения для достижения поставленной цели.

Раздел 2.3.2 содержит анализ векторных представлений на основе семантики. Такие алгоритмы используют функции оценки, основанные на определении семантического сходства сущностей при формировании векторного пространства. Одним из первых алгоритмов, является ИЕЯСЛЬ [53] использующий тензорную модель факторизации, учитывая внутреннюю структуру графа знаний. Иначе алгоритм можно характеризовать как композиционную модель, где пара сущностей представляется через тензорное произведение их векторных представлений. Оценка задается с помощью билинейной функции:

Л(Н, *) = ътМгь = £ £ [М• Ъ • , (1)

г=0 ?=0

где Ь, < Е — векторы субъекта и объекта, Мг Е — матрица весов, характеризующая влияние свойств % и у отношения г, [х]^ — г-ая компонента вектора, [Х]^ — элемент матрицы с индексом г]. Таким образом, оценка строится из парных комбинаций всех Ь и < а следовательно возрастает алгоритмическая сложность до О , в сравнении с рассмотренными ранее алгоритмами.

Алгоритм Э1в1Ми11 [88] упрощает КЕБСАЬ, за счет наложения ограничения на матрицу весов Мг. То есть, для каждого отношения г имеет место векторное представление г Е К^, а матрица Мг является диагональной, и получается из координат вектора г как Мг = diag(r). В результате такого ограничения, формула 2.1 может быть упрощена, так как в диагональной матрице все элементы, кроме главной диагонали равны нулю, а следовательно:

¿-I

/г(М) = Ьт ^(г)< = ^[г]г • Ь • [<],.

¿=0

Таким образом снижается алгоритмическая сложность. С другой стороны, важно отметить, что в случае диагональной матрицы Мг справедлива следующая перестановка:

Ьт diag(r)t = <т diag(r)h,

а следовательно модель подходит только для симметричных отношений.

В разделе 2.3.2 рассмотрены и другие алгоритмы векторных представлений на основе семантики, однако они обладают большей вычислительной сложностью, что является не актуальным с точки зрения обработки и представления динамически изменяемых данных ресурсов поддержки.

В Третьей главе представлен метод и алгоритмы автоматизированной обработки слабоструктурированных ресурсов поддержки, основанный на обработке естественного языка и методах машинного обучения, позволяющий выделить текст обращений из писем электронной почты с последующим извлечением вопросно-ответных пар. Разработанный метод и алгоритмы позволяют автоматизировать процесс формирования обучающего набора данных для диалоговой системы.

В разделе 3.1 представлено описание анализируемых данных ресурсов поддержки и их особенности, влияющие на алгоритмы обработки данных, описание которых представлено в разделе 3.2.

Базовый алгоритм 1 заключается в сборе и предварительной обработке данных. Обращения по электронной почте собираются автоматизированными средствами и требуют преобразования форматов, изначально такие обращения передаются в формате MIME (Multipurpose Internet Mail Extension), многоцелевого расширения почты Интернета. Базовый формат почтовых сообщений определяется стандартом RFC822. Согласно которому каждое сообщение состоит из так называемого конверта и содержимого. В конверте хранится служебная информация, а именно адрес, необходимый для отправки письма, при этом сами сообщения могут храниться в любом формате, а стандарт лишь определяет его формат в момент передачи.

В ходе сборки писем, они приходят в формате байт-строки base64 - последовательности печатных ASCII символов (символы латинского алфавита, цифры и ряд специальных символов). Таким образом, каждое письмо должно быть декодировано в формат UTF-8, наиболее распространенный и удобный формат кодированиях данных. Далее текст письма считывается построчно и проходит очистку от посторонних данных. В первую очередь это HTML и CSS разметка, основанная на тегах.

Алгоритм 1. Алгоритм сбора и предобработки писем Вход: адрес почтового сервера, логин и пароль. 1: Инициализировать:

Е — выбрать все входящие письма.

8ь — 0, множество обработанных писем. 2: Для е е Е выполнять

3: е' — представить сообщение е в формате RFC822 4: В — построчно извлечь тело сообщения е' 5: Bd — построчно декодировать В в кодировку UTF-8 6: М — удалить HTML/CSS разметку из B¿ 7: Еь — М 8: Конец цикла

Главной задачей последующей обработки является отделение подписи пользователя от сообщения, так как стандартами представления писем никак не регламентируется ее наличие и формат. Для этого разработан ряд

эвристик, на основе которых можно выполнить классификацию строк письма:

1. Регулярные выражения - простой, но эффективный способ поиска стандартизированной информации: веб-адреса, телефон, маркеры отделения подписи письма, адрес электронной почты, ФИО.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Романов Алексей Андреевич, 2019 год

Библиография

1. Кравченко Г. В. Использование модели смешанного обучения в системе высшего образования //Известия

Алтайского государственного университета. - 2014. - Т. 1. - №. 2 (82).

2. Нагаева И. А. Смешанное обучение в современном образовательном процессе: необходимость и возможности

//Отечественная и зарубежная педагогика. - 2016. - №. 6 (33).

3. Батьковский А. М. Развитие информационно-коммуникационных технологий //Инновационная наука: прошлое,

настоящее, будущее. Сборник статей Международной научно-практической конференции. - 2016. - №. 5. - С.

66-68.

4. Елизарьева Ю. А. Современный преподаватель в процессе «Моокизации» образования //Гуманитарная

информатика. - 2016. - №. 10.

5. Лещева И. А. Практический подход к созданию и наполнению баз знаний онтологического типа: проблемы и

вызовы //Сборник научных трудов XXI Российской конференции «Инжиниринг предприятий и управление

знаниями». - РЭУ им. ГВ Плеханова, 2018. - С. 194-201.

6. Bordes A. et al. Translating embeddings for modeling multi-relational data //Advances in neural information processing

systems. - 2013. - С. 2787-2795.

7. Школьник И.С. Форсайт технология оценки технологического цикла инфокоммуникаций // Экономика: вчера,

сегодня, завтра. 2018. Том 8. № 12А. С. 140-146.

8. Школьник И.С. Институциональные условия диффузии инноваций в области телекоммуникаций: на примере

Китая // Инновации и инвестиции. 2019. № 1. С. 25-28.

9. Школьник И.С. Ограничения внедрения концепции открытых инноваций в российской экономике. В книге:

Новое в науке и образовании Тезисы докладов Международной ежегодной научно-практической конференции Еврейского университета. Ответственный редактор Ю.Н. Кондракова. 2019. С. 46-47.

10. Школьник И.С. Адаптация парадигмы открытых инноваций в деятельности телекоммуникационных компаний // Экономика: вчера, сегодня, завтра. 2018. Том 8. № 10А. С. 333-341.

Dialog system based on dynamic representation of knowledge graphs

Aleksei A. Romanov

Lecturer

Saint Petersburg National Research University of Information Technologies, Mechanics and Optics. 197101, 49, Kronverksky Ave., Saint Petersburg, Russian Federation

e-mail: romanov@itmo.ru

Abstract

The rapid growth of information volumes and the development of methods of its processing give rise to the development of interfaces of interaction with data. One such example is a dialog system based on intelligent data processing. Dialog systems are increasingly used in everyday life, from voice assistants in mobile phones, to targeted movie ticket systems, or assistants in banking applications. An important aspect of building such systems is data, and as you know, the data must be presented in some form that is understandable for the machine. The article presents an overview of approaches and a description of the method of constructing dialog systems based on the dynamic representation of knowledge graphs.

For citation

Romanov A.A. (2019) Dialogovaya sistema na osnove dinamicheskogo predstavleniya grafov znanii [Dialog system based on dynamic representation of knowledge graphs].Ekonomika: vchera, segodnya, zavtra [Economics: Yesterday, Today and Tomorrow], 9 (8A), pp. 462-470. DOI 10.34670/AR.2019.90.8.046

Keyword

Knowledge graph, dialog system, vector spaces.

References

1. Kravchenko, G. V. (2014) the Use of models of blended learning in higher education //news of Altai state University.

Vol. 1. - №. 2 (82).

2. Nagaeva I. A. (2016) Mixed learning in the modern educational process: the need and opportunities / / Domestic and

foreign pedagogy. №. 6 (33).

3. Batkovskij M. A. (2016) the Development of information and communication technologies //Innovative science: past,

present, and future. Collection of articles of the International scientific and practical conference. №. 5. Pp. 66-68.

4. Elizarieva Y. A. (2016) Modern teacher in the process of "Booksale" education //Humanitarian Informatics. № 10.

5. Leshcheva I. A. (2018) Practical approach to creation and filling of knowledge bases of ontological type: problems and

challenges / / Collection of scientific papers of the XXI Russian conference "engineering of enterprises and knowledge management". - REU im. GV Plekhanov, Pp. 194-201.

6. A. Bordes et al. (2013) Translating embeddings for modeling multi-relational data //Advances in neural information

processing systems. Pp. 2787-2795.

7. Shkol'nik I.S. (2018) Adaptatsiya paradigmy otkrytykh innovatsiy v deyatel'nosti telekommunikatsionnykh kompaniy

[Adaptation of the paradigm of open innovation in the activities of telecommunications companies]. Ekonomika: vchera, segodnya, zavtra [Economics: Yesterday, Today and Tomorrow], 8 (10A), pp. 333-341.

8. Shkol'nik I.S. (2018) Forsayt tekhnologiya otsenki tekhnologicheskogo tsikla infokommu-nikatsiy [Foresight technology

assessment of the technological cycle of infocommunications]. Ekonomika: vchera, segodnya, zavtra [Economics: Yesterday, Today and Tomorrow], 8 (12A), pp. 140-146.

9. Shkolnik I. S. (2019) Institutional conditions of diffusion of innovations in the field of telecommunications: the case of

China. Innovations and investments. No. 1. pp. 25-28.

10. Shkolnik I. S. (2019) Limitations of implementation of the concept of open innovations in the Russian economy. In the book: New in science and education Abstracts of the international annual scientific-practical conference of the Hebrew University. Responsible editor Yu. N. Every. 2019. 46-47.

СЖАЖ ФВДИРМЩЕШ

СВИДЕТЕЛЬСТВО

о государственной регистрации программы для ЭВМ

№ 2018612645

Программный модуль экстракции метаданных онлайн-курсов платформы Open edX

Правообладатель: федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (RU)

Авторы: Романов Алексей Андреевич (К И), Волчек Дмитрий Геннадьевич (1Ш), Муромцев Дмитрий Ильич (Я11)

Заявка № 2017664017

Дата поступления 29 декабря 2017 г.

Дата государственной регистрации в Реестре программ для ЭВМ 21 февраля 2018 г.

Руководитель Федеральной службы по интеллектуальной собственности

Г.П. Ивлиев

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.