Метод и алгоритмы создания онтологий на основе анализа метаданных и контекста слабоструктурированного контента

Волчек Дмитрий Геннадьевич

Метод и алгоритмы создания онтологий на основе анализа метаданных и контекста слабоструктурированного контента тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Волчек Дмитрий Геннадьевич

Волчек Дмитрий Геннадьевич
кандидат наук
2019

Специальность ВАК РФ05.13.17

Количество страниц 233

Волчек Дмитрий Геннадьевич. Метод и алгоритмы создания онтологий на основе анализа метаданных и контекста слабоструктурированного контента: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 233 с.

Оглавление диссертации кандидат наук Волчек Дмитрий Геннадьевич

Реферат

Synopsis

Введение

1 Анализ предметной области

1.1 Графы знаний

1.2 Применение графов знаний

1.2.1 Google Knowledge Graph

1.2.2 Wikidata

1.3 Инженерия знаний

1.4 Обучение онтологий

1.5 Управление контентом и онтология

1.6 Методы оценки онтологий

1.7 Концепция смешанного обучения

1.8 Онтологии в образовании

1.8.1 Онтологии верхнего уровня

1.8.2 Примеры онтологического моделирования образовательного процесса

1.9 Семантические МООК

1.10 Выводы по Главе

2 Методы и алгоритмы обучения онтологий на основе анализа контента предметной области

2.1 Базовая онтологическая модель

2.2 Предварительная обработка текстовых документов

2.3 Извлечение кандидатов в термины

2.3.1 C/NC Value

2.3.2 TF-IDF

2.3.3 Анализ совместного использования

2.3.4 Контрастный анализ

2.3.5 Внешние источники

2.3.6 Распознавание именованных сущностей (NER)

2.4 Методы классификации

2.4.1 Логистическая регрессия

2.4.2 Деревья принятия решений

2.4.3 Наивный Байесовский классификатор

2.4.4 Метод k-ближайших соседей

2.4.5 Метод опорных векторов

2.4.6 Ансамблевые методы

2.5 Формирование концептов

2.6 Построение отношений

2.7 Построение таксономических отношений

2.7.1 Term subsumption

2.7.2 Анализ формальных понятий

2.7.3 Иерархическая кластеризация

2.8 Построение нетаксономических отношений

2.9 Выводы по Главе

3 Методы и алгоритмы обучения онтологий на основе анализа метаданных и контента CMS

3.1 Модель совместного представления метаданных и контента CMS

3.2 Метод извлечения терминов на основе анализа метаданных и контекста

3.2.1 Алгоритм предварительной обработки слабоструктурированного контента

3.2.2 Алгоритм извлечения кандидатов в термины без контрастного корпуса документов

3.2.3 Алгоритм извлечения кандидатов в термины с использованием контрастного корпуса документов

3.2.4 Алгоритм поиска кандидатов во внешних источниках и формирования общего списка кандидатов

3.2.5 Построения модели классификатора

3.3 Метод выявления связей на основе векторного представления концептов и анализа универсальных зависимостей

3.3.1 Алгоритм извлечения таксономических связей на основе векторного представления концептов

3.3.2 Алгоритм извлечения нетаксономических связей на основе анализа универсальных зависимостей

3.4 Выводы по Главе

4 Оценка разработанных метода и алгоритмов на разработанном наборе данных

4.1 Создание базовой онтологии

4.1.1 Выделение структуры платформы Open EdX

4.1.2 Отображение данных платформы на онтологическую модель

4.2 Извлечение терминов

4.3 Построение таксономических отношений

4.4 Построение нетаксономических отношений

4.5 Выводы по Главе

Заключение

Список литературы

Реферат

Общая характеристика работы

Введение диссертации (часть автореферата) на тему «Метод и алгоритмы создания онтологий на основе анализа метаданных и контекста слабоструктурированного контента»

Актуальность.

В эпоху широкомасштабного внедрения цифровых технологий во все сферы человеческой деятельности, крайне остро стоит проблема систематизации накопленных знаний. Скорость производства информации увеличивается постоянно, что с одной стороны является крайне позитивным моментом в контексте познания человеком окружающей действительности, а с другой стороны может вызывать трудности при осуществлении поиска, добавления и актуализации. В большинстве случаев для обеспечения таких возможностей используются системы управления контентом (CMS). Такие системы накапливают достаточно большие объемы данных, которые способны неявно описывать информационные потребности пользователей. В качестве примера можно рассматривать количество обращений пользователей к тому или иному документу, средняя продолжительность работы с документом, поведенческие шаблоны, часто повторяемые последовательности действий и многое другое. Таким образом, актуальной является разработка информационных структур для CMS, позволяющих анализировать информационные процессы на основе метаданных.

Для решения поставленной задачи, возможно использование онтологического подхода, который, в свою очередь, обеспечивает высокую гибкость моделирования, посредством использования стека семантических технологий. Эти технологии позволяют связывать, обрабатывать, уточнять и повторно использовать доступную информацию, а также применять принципы связанных данных. Обогащенные семантикой данные могут использовать не только люди, но и машины. Любой из них может найти подходящий контент, повтор-

но использовать его части из различных источников и сгенерировать новый на основе имеющихся данных, который отвечает заданным потребностям. Представление информации в семантическом виде широко используется во множестве отраслей человеческой деятельности: начиная от баз знаний заболеваний в медицине и заканчивая созданием самообучающихся диалоговых систем (чат-ботов).

Существенным вызовом для парадигмы представления информации в семантическом виде является существенный объем данных, обладающих слабой структурой или не обладающих таковой вовсе. Ярким примером таких данных выступает текст. Процесс извлечения знаний из текста для описания конкретной предметной области представляется весьма трудоемким и требует существенного участия человека. Автоматизация создания онтологических моделей различных предметных областей на основе текстовых данных является на сегодняшний день достаточно актуальной задачей, которая может быть решена рядом существующих методов. В основе таких методов лежит использование непосредственно текстовых данных, без учета сопутствующих возможных метаданных и контекста.

Объектом исследования является слабоструктурированный контент и его метаданные, а также средства приобретения знаний и создания онтоло-гий.

Предмет исследования - методы создания онтологий на основе слабоструктурированного контента.

Цель диссертационного исследования - увеличение точности извлечения терминов и отношений в процессе автоматического создания онтологий на основе слабоструктурированного контента посредством расширения метаданными признакового пространства концептов и анализа универсальных зависимостей.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Исследовать, проанализировать и систематизировать существующие методы и алгоритмы создания онтологий средствами анализа и обработки слабоструктурированного контента.

2. Разработать спецификацию модели данных систем управления контентом, контекста и метаданных.

3. Разработать метод извлечения и семантического аннотирования данных и метаданных платформ управления слабоструктурированным контентом.

4. Разработать базовую онтологическую модель предметной области.

5. Произвести выделение концептов предметной области ансамблевым методом извлечения терминов из слабоструктурированного контента.

6. Произвести извлечение таксономических связей между выделенными концептами посредством использования механизма векторного представления слов и последующей иерархической кластеризации.

7. Произвести извлечение нетаксономических связей между выделенными концептами посредством построения универсальных зависимостей.

8. Выделить критерии оценки точности разработанных методов и произвести экспериментальное исследование.

Научной новизной обладают следующие результаты работы:

1. Модель совместного представления метаданных и контента CMS, позволяющая интегрировать данные и контекст в единый семантически аннотированный граф знаний. Модель описывает структуру и данные систем управления контентом, а также сопутствующие метаданные, которые впоследствии используются в процессе обучения онтологической модели.

2. Ансамблевый метод извлечения терминов из слабоструктурированного контента. Отличие предлагаемого метода заключается в том, что он является комбинацией средств и алгоритмов извлечения терминов и ключевых слов из неструктурированного текста. При этом при классификации кандидатов в термины используются метаданные документов, из которых они были извлечены.

3. Метод выявления связей на основе векторного представления концептов и анализа универсальных зависимостей. Векторное представление слов позволяет выстраивать таксономические отношения между концептами предметной области посредством иерархической кластеризации. Анализ универсальных зависимостей позволяет извлекать неявные отношения между концептами, не связанными таксономической зависимостью.

Теоретическая и практическая значимость работы заключается в разработке экспериментально проверенных алгоритмов, позволяющих решать основные задачи процесса обучения онтологий с привлечением дополнительной информации об источниках данных. Разработанные модели и алгоритмы опробованы на материалах образовательных онлайн курсов блока Цифровая Культура Университета ИТМО, располагающихся в системе управления контентом Open Edx. На основании результатов апробации произведена подготовительная работа для дальнейшего создания онтологической модели предметной области.

Методы исследования. В работе использованы методы статистического анализа, машинного обучения для решения задачи классификации и кластеризации, методы обработки текстов на естественном языке, методы и средства онтологического моделирования, анализа формальных понятий, алгоритмы векторного представления слов, методы и средства создания искусственных нейронных сетей.

Апробация работы.

1. 25th World Wide Web Conference LILE2016 (Монреаль, Канада, 2016 год).

2. Open edX Conference 2017 (Мадрид, Испания, 2017 год).

3. International Conference on Knowledge Engineering and Semantic Web 2018 (Щецин, Польша, 2018 год).

4. Цифровое образование 21 век (Москва, 2019 год).

Публикации. По теме диссертационной работы автором опубликовано 6 статей, из них 2 работы изданы в журналах, рекомендованных Перечнем ВАК, 2 в журналах, входящих в списки Web of Science/Scopus.

Положения, выносимые на защиту:

1. Модель представления метаданных и контента системы управления контентом, позволяющая интегрировать данные и контекст в единую семантически аннотированную структуру.

2. Ансамблевый метод извлечения терминов из слабоструктурированного контента, позволяющий учесть метаданные в процессе формирования концептов онтологии.

3. Метод выявления связей на основе векторного представления концептов и анализа универсальных зависимостей, позволяющий извлекать как таксономические, так и неявные отношения между терминами.

Объем и структура работы. Диссертация изложена на 177 страницах, состоит из введения, 4 глав и заключения; содержит 24 рисунка, 10 таблиц. Список литературы содержит 75 наименований.

Содержание работы

Во Введении сформулирована цель, задачи и актуальность настоящей работы. Определены научная новизна и положения, выносимые на защиту.

В Первой главе проанализировано текущее положение дел в области использования и построения графов знаний. Графы знаний часто рассматриваются не только как самостоятельный объект изучения, но и совместно с другими областями компьютерных наук, способными формировать крупные интегрированные системы:

1. Искусственный интеллект (ИИ). Базы знаний рассматривают как одно из направлений ИИ, решающее проблемы представления знаний, формирования логического вывода, генерации новых знаний.

2. Машинное обучение (МО). Методы машинного обучения часто используются как для извлечения знаний из слабоструктурированных источников, так и для генерации новых знаний на основе имеющихся.

3. Информационный поиск. Использование такой технологии позволяет существенно сократить время, затрачиваемое на наполнение БЗ зна-

ний в случае использования нескольких различных источников информации.

4. Обработка естественных языков (№ЪР). Позволяет извлекать знания из неструктурированных источников (текстовых) при помощи механизмов анализа текстовых данных.

5. Системы управления данными. В частности, позволяют эффективно хранить и предоставлять доступ к БЗ.

В разделе 1.4 описаны наиболее современные подходы к проблеме обучения онтологий.

Авторы [19] рассматривают процесс в нескольких плоскостях: как с точки зрения необходимых шагов для построения онтологий (предварительная обработка, извлечение концептов, построение связей, формирование аксиом, оценка полученных результатов), так и с точи зрения использования конкретных методов (лингвистические, статистические, индуктивное логическое программирование). При этом для различных этапов обучения онтологии используются достаточно устоявшиеся методы:

1. Предварительная обработка. Для подготовки текста к дальнейшей обработке используют определение частей речи, парсинг и лемматизацию.

2. Извлечение терминов. В качестве методов выделения кандидатов в концепты предметной области используют С/КС, контрастный анализ, анализ совместного использования и кластеризацию.

3. Извлечение отношений. Для формирования отношений между концептами предметной области обычно применяются анализ формальных понятий, поиск ассоциативных правил и категоризация терминов.

4. Построение аксиом обычно производится методами индуктивного логического программирования.

В качестве обобщения, можно заключить, что обучение онтологий - это пошаговый процесс, сочетающий в себе совместное использование достаточно большого набора различных алгоритмов.

Технология автоматического или полуавтоматического извлечения знаний посвящено достаточно большое число исследований. При этом точность тех или иных методов достаточно сильно варьируется в зависимости как от применяемых алгоритмов, так и непосредственно от предметной области и соответственно контента, на котором производится обучение онтологий. В таблице 1 представлены результаты некоторых исследований в плане точности извлечения терминов.

Таблица 1: Извлечение терминов.

Метод Предметная область Точность, % Источник

C/NC Value Медицина 89.7 [33]

C/NC Value ИТ 86.67 [33]

Contrastive Analysis Китайский текст 70 [43]

Co-occurrence Analysis Медицина 67.3 [38]

Кластеризация Туризм 68.52 [51]

TF*IDF Производство 94 [16]

Частота Производство 92 [16]

Онтологический алгоритм Производство 88 [16]

C-Value Производство 88 [16]

После извлечения терминов необходимо выполнить построение отношений между выделенными концептами рассматриваемой предметной области. Стоит отметить, что в плане качества, различные методы извлечения связей имеют достаточно сильный разброс. При этом использование того или иного метода в конкретной предметной области или на конкретном наборе данных может давать весьма различные результаты. Некоторые примеры представлены в таблице 2

Таблица 2: Извлечение отношений.

Метод Предметная область Точность, % Источник

Лексико-синтаксический парсинг Новости 75.5 [45]

Иерархическая кластеризация Туризм = 21.4 [27]

Анализ зависимостей Биоинформатика 83.3 [26]

Иерархическая кластеризация Финансы ^ = 18.51 [27]

ГОД Медицина 47 [34]

Ирархическая кластеризация Медицина 71 [34]

ГОД ИТ 44 [34]

Иерархическая кластеризация Кулинария 92.1 [35]

Поиск ассоциативных правил Медицина 72.5 [34]

В разделе 1.6 описаны методы оценки онтологий, в частности критерии, используемые для такой оценки:

• Точность. Устанавливает степень соответствия аксиом потребностям пользователей, а также уровень корректности описания онтологией моделируемой предметной области.

• Адаптируемость. Под этим критерием понимается способность онтологической модели предоставлять концептуальные основы для решения предполагаемых задач. Может ли онтология быть расширена непрерывно, то есть без удаления существующих аксиом. Помимо этого, оценивается способность онтологии к интеграции и адаптации.

• Четкость. Под четкостью понимается уровень детализации описания самой модели, то есть, снабжены ли аксиомы определениями (комментарии, лейблы). Задокументированы ли такие определения, понятна ли онтология для человека (присутствуют ли описания, пояснения и так далее).

• Полнота. С точки зрения этого критерия необходимо понимание того, насколько созданная онтологическая модель «покрывает» описываемую предметную область. Имеется ли возможность у онтологии принимать участие в решении каких-либо проблем в этой предметной области. Все ли концепты присутствую в онтологии.

• Вычислительная эффективность. Под этим критерием понимается подготовленность онтологии с точки зрения автоматической обработки, например посредством ризонеров.

• Состоятельность. Этот критерий устанавливает отсутствие логических противоречий в аксиомах онтологической модели.

В разделе 1.7 описано использование онтологического подхода в такой предметной области как онлайн образование и концепция смешанного образования в частности. Важный вопрос, связанный с образовательной семантической сетью, заключается в том, как курс может быть представлен формальным, семантическим способом для интерпретации и манипулирования как компьютерами, так и людьми [54]. Многие, отвечая на этот вопрос, приходят к выводу, что эту проблему можно решить посредством онтологического моделирования. Описание образовательного процесса, как на максимально абстрактном уровне, так и более детализированных составляющих является предметом достаточно широкого круга публикаций.

Во Второй главе описаны основные принципы построения базовой онтологии в контексте процесса обучения онтологий на основе анализа контента.

Базовая онтология - это знаковая система вида:

O := (L,F,C*,H, Root),

которая состоит из:

• L - множество терминов на естественном языке;

• С * - множество концептов;

• F - функция, ставящая в соответствие терминам I £ L концепты с £ С * и наоборот. Причем один термин может относиться к одному или нескольким концептам и наоборот, одному концепту может соответствовать один или несколько терминов;

• Н - Иерархия связывающая концепты таксономическим направленным, ациклическим, транзитивным, рефлексивным отношением. (Н С С * х С *).

• Root - вершина верхнего уровня, с которой связаны все концепты из множества С*.

Базовая онтологическая модель призвана обеспечивать должный уровень абстракции для последующей детализации как экспертно, так и посредством обучения онтологий на основе текста. Помимо этого, при моделировании конкретной предметной области (при наличии соответствующих условий):

1. Использовать существующие онтологии верхнего уровня.

2. Предоставлять базовые концепты моделируемой предметной области.

3. Моделировать систему управления контентом, в которой хранятся данные.

4. Поддерживать работу с метаданными рассматриваемого контента.

В разделе 2.3 рассмотрены существующие методы извлечения терминов на основании рассматриваемого контента. При этом установлено, что ранжирование токенов происходит посредством выделения терминологичности. Под терминологичностью понимается характеристика того или иного кандидата в термины, показывающая насколько этот кандидат в термины может считаться концептом рассматриваемой предметной области. В таком случае терминологичность (termhood(a)) можно определить следующим образом:

termhood(a) = f (а),

где а - кандидат в термины(последовательность токенов), а f (а) - частота вхождения кандидата в документ. Так как некоторая последовательность то-кенов может входить в состав более длинных кандидатов, при этом не нести самостоятельной смысловой нагрузки, необходимо уменьшить терминологич-ность на количество вхождений кандидата в более длинные кандидаты в термины:

termhood(a) = f (а) — ^^ f (b),

ЪеТа

где Та - множество кандидатов, содержащих a, b - элементы из Та.

Из-за того, что кандидат может входить как в более длинные последовательности токенов, так и быть самостоятельным концептом предметной об-

ласти, необходимо по-разному вычислять терминологичность. Такой подход получил название С — value:

log2 |а| • f (а) а не является вхождением

Cvalue = {

log2 H • if Ы — Eb£Ta f(b)) иначе

Для учета контекста и, соответственно, улучшения метода Cvalue используется метод N Cvalue [37].

NCvalue(a) = u\Cvalue(a) + w2 ^^ fa(b)

m

n

beCa

где Ca - множество различных токенов, входящих в окружение a, b - элемент множества Са, fa{b) - частота Ь. Функция t(b) - количество кандидатов терминов с которыми вместе употребляется токен b, п - общее число наблюдаемых кандидатов в термины.

Рассмотрены также альтернативные методы, использующие так называемые контрастные корпусы текстов для улучшения процедуры извлечения терминов. Пусть D - коллекция документов, а - токен, d £ D - конкретный документ, тогда:

termhood(ad) = fd(a) • log ( ) ,

\JD {a)J

где ad - токен из документа d, f (ad) - частота появления токена а в документе d, |D| - количество документов в коллекции, fp(а) - количество документов, в которых встречается токен а.

В разделе 2.3.5 рассматривается методика извлечения терминов из неструктурированных документов, которая помимо лингвистических и статистических подходов может быть расширена за счет использования внешних источников терминов различных предметных областей. В частности, для относительно популярных и устоявшихся предметных областей можно рассматривать внешние источники (Wikipedia1, WikiData2, Google Knowledge Graph3,

1https://www.wikipedia.org

2https://www.wikidata.org/

3https://developers.google.com/knowledge-graph

DBPedia4 и тому подобные) для, если не извлечения терминов, то хотя бы косвенной валидации. Иными словами, после извлечения тем или иным методом каждый кандидат в термины может быть утвержден в качестве термина или отвергнут на основании наличия такого термина во внешнем источнике. Более того, если использовать внешние источники, хранящие информацию в виде графа знаний, то можно заимствовать и описание термина, и его связи с другими концептами. Установление соответствия достаточно просто реализуемое, так как большинство внешних источников имеют API для поиска, а также обогащения (добавления семантической информации) рассматриваемого термина.

В разделе 2.4 рассмотрены основные алгоритмы классификации для определения принадлежности кандидата в термины в множество терминов, в частности логистическая регрессия, метод опорных векторов, деревья принятия решений и другие.

В качестве метода извлечения таксономических отношений в разделе 2.7.2 рассмотрен метода анализа формальных понятий. Тройка (G, М, I) называет формальным контекстом, если G и М - множества, а I С G х М представляет собо бинарное отношение между G и М. При этом элементы множества G называются объектами, элементы множества М - атрибутами, а I устанавливает соответствие между объектами и атрибутами. Для А С G и В С М определяют:

А' := {т е М\Уд е А : (д,т) е I} В' := {д е G\Vm е В : (д,т) е I}

Иными словами, А' - это множество всех атрибутов, которыми обладают объекты множества А, В' - множество объектов, обладающих всеми атрибутами множества В.

Формальным понятием называется пара (А, В) из (G, М, I) тогда и только тогда, когда

А С G,B С М А' = В

4https://wiki.dbpedia.org

А = В'

Иными словами, пара (А, В) называется формальным понятием, если множество всех атрибутов, которыми обладаю объекты множества А равно множеству В и А - множество всех объектов, обладающих всеми атрибутами из В. Множество А при этом называют объемом формального понятия, а множество В - содержанием. При этом также вводится отношение отношение гипоним - гипероним следующим образом:

(А1,В1) < (А2, В2) & А! С Ас2 В2 с Вх)

При помощи анализа формальных понятий возможно построение так называемых решеток (частично упорядоченных множеств).

Решетка понятий может быть представлена при помощи диаграммы, включающей в себя вершины и ребра. Каждая вершина представляет формальное понятие, а каждое ребро, соединяющее вершины представляет собой отношение гипоним - гипероним. Можно заметить, что по мере продвижения по диаграмме «вниз», то есть от гиперонима к гипониму, происходит наследование атрибутов.

С точки зрения построения нетаксономических отношений (Раздел 2.8) при обучении онтологий но основе слабоструктурированного контента, набор методов не так велик. Большинство исследований, в том числе [19,33,49], используют для извлечения нетаксономических отношений поиск ассоциативных правил. Этот подход позволяет извлекать информацию, элементы текста или закономерности, которые часто встречаются в рассматриваемом наборе данных. Концепция поиска ассоциативных правил была представлена в работе [17] как способ анализа продуктовой корзины. Например, было установлено, что если в продуктовой корзине находятся хлеб и масло, то с вероятностью 90% там окажется и молоко.

Пусть I - множество объектов. Пусть И - множество транзакций, где каждая транзакция Т - есть подмножество I (Т С I). При этом транзакция Т содержит некоторое количество объектов X С I, если X С Т. Ассоциатив-

ным правилом называет импликация:

X ^ Y.,

где

X С I,Y С 1,Х П Y = 0.

Говорят, что правило X ^ Y установлено на множестве транзакций D со значимостью с £ [0,1], если с процентов транзакций из D, содержащих X, содержат также и Y.

Говорят, что правило X ^ Y, установленное на множестве транзакций D, обладает поддержкой s, если s процентов транзакций в D содержат X U Y.

Значимость демонстрирует, насколько объекты, входящие в него ассоциированы друг с другом. Чем выше значение, тем более часто объекты встречаются вместе. Поддержка - это процент групп, содержащих все элементы, которые входят в данное ассоциативное правило. Чем выше значение, тем более часто рассматриваемые пары объектов встречаются среди всех групп. Часто для отсечения правил с низким значением значимости и/или поддержки отсекают, использую пороговые значения.

В контексте обучения онтологий транзакции определяются для терминов, встречающихся совместно в различных синтаксических зависимостях. Если правило X ^ Y установлено, то можно говорить о том, что существует связь между концептом X и концептом Y.

В Третьей главе представлены модель совместного представления метаданных и контента CMS, а также методы и алгоритмы извлечения терминов и построения отношений на основе анализа контента, метаданных и контекста, векторного представления и анализа универсальных зависимостей.

Для использования метаданных в процессе обучения онтологий необходимо выполнить онтологическое моделирование и аннотирование системы управления контентом. Общая схема построения базовой онтологической модели представлена на рисунке 1. Таким образом, создаваемая базовая онтология должна с одной стороны моделировать верхний уровень рассматриваемой области, а с другой - включать описание метаданных, которые хранятся в системе управления контентом.

Выделение структуры CMS 1

Выявление общих онтологий верхнего уровня

I -

Выделение ключевых классов и построение таксономии

I

Определение отношений и атрибутов

1

Построение модели

I

Отображение полученных данных на онтологическую модель

Рисунок 1: Построение базовой онтологии

С точки зрения терминологичности кандидатов в термины, полезными могут быть метаданные, которыми обладает документ.

1. Количество обращений — DP (Document Popularity). Популярность документа, может быть косвенным признаком того, что концепты, которые в нем упоминаются могут представлять ценность с точки зрения описания моделируемой предметной области

2. Среднее количество обращений — ADP (Average Document

Popularity). Во многих предметных областях имеет место так называемая «сезонность», которая не учитывается подсчетом общего числа обращений. Кроме того, возможны ситуации, когда документ был крайне популярным в прошлом, но в текущий момент не является актуальным.

Или наоборот, приобрел популярность в последнее время в связи, например, с каким-то возникшими фактами.

3. Время с последнего обновления DA (Document Actuality). С

точки зрения обучения онтологий, относительно длительное отсутствие обновлений в документе может говорить как о его стабильности и фундаментальности, так и о его неактуальности. Решение этой проблемы лежит как в плоскости описываемой предметной области, так и в определении количества и среднего количества обращений. С другой стороны, если документ был обновлен недавно, то это может свидетельствовать, что в нем появились новые концепты, поэтому разумно сравнивать версии документов и повышать приоритет у впервые найденных кандидатов.

4. Количество повторных обращений — С В (Come Back). С точки зрения важности того или иного документа, существенным может быть параметр, отвечающий за количество повторных обращений пользователя.

Список литературы диссертационного исследования кандидат наук Волчек Дмитрий Геннадьевич, 2019 год

Библиография

1. Абросимов А.Г. Метаданные описания коллекции периодической печати // Электронные библиотеки. 2005. Т. 8.

№. 2. С. 1-7.

2. Ванюшкин А.С., Гращенко Л.А. Методы и алгоритмы извлечения ключевых слов // Новые информационные

технологии в автоматизированных системах. 2016. №19. С. 85-93.

3. Когаловский М.Р. Метаданные в компьютерных системах // Программирование. 2013. Т. 39. №4. С. 28-46.

4. Когаловский М.Р. Метаданные, их свойства, функции, классификация и средства представления // Труды 14-й

Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Переславль-Залесский, 2012. URL:

elib.ict.nsc.ru/jspui/bitstream/ICT/1175/1/kogalovsky-meta.pdf

5. Корсун И.А., Пальчунов Д.Е. Теоретико-модельные методы извлечения знаний о смысле понятий из текстов

естественного языка // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2016. Т. 14. №3. С. 34-48.

6. Ярушкина Н.Г., Мошкин В.С. Подход к обучению онтологии на основе гибридизации алгоритмов извлечения

знаний из текстов и механизма прецедентов // Вестник Ростовского государственного университета путей сообщения. 2016. №2. С. 78-83.

7. Aggarwal C.C., Zhai C.X. (ed.) Mining text data. Springer Science & Business Media, 2012. 534 p.

8. Asim M.N. et al. A survey of ontology learning techniques and applications. URL:

https ://www.ncbi.nlm.nih.gov/pubmed/30295720

9. Kovriguina L. et al. Russian tagging and dependency parsing models for stanford CoreNLP natural language toolkit //

International Conference on Knowledge Engineering and the Semantic Web. Springer, Cham, 2017. P. 101-111.

10. Wong W., Liu W., Bennamoun M. Ontology learning from text: A look back and into the future // ACM Computing Surveys (CSUR). 2012. Vol. 44. №4. P. 20.

An approach to training ontologies based on the analysis of metadata and the construction of universal dependencies

Dmitrii G. Volchek

Lecturer,

St. Petersburg National Research University of Information Technologies, Mechanics and Optics, 197101, 49, Kronverskii ave., St. Petersburg, Russian Federation;

e-mail: dvolchek@yandex.ru

Abstract

Informatization and the rapid growth in the amount of data lead to the inevitable needs for data processing and data mining. Building ontological models allows you to simulate various subject areas, integrate data from various sources and present them in a form convenient not only for people, but also readable by machines. The approach to creating ontologies is not through the work of an expert in a subject field, but based directly on the data themselves, is called ontology training. This article discusses an approach to training ontologies based on an analysis of the metadata of the source documents, and also proposes a method for constructing relationships between domain concepts based on the analysis of universal dependencies. The creation of ontologies of various subject areas is a very promising area of activity. At the same time, there has recently been a growing interest in this technology on the part of business. And the use of ontology training methods will satisfy this need, while minimizing both temporary and human resources. Improving existing and developing new algorithms used in training ontologies will allow us to enter a new, better stage of digitalization and automation of human activity, conclude the author of this research.

For citation

Volchek D.G. (2019) Podkhod k obucheniyu ontologii na osnove analiza metadannykh i postroeniya universal'nykh zavisimostei [An approach to training ontologies based on the analysis of metadata and the construction of universal dependencies]. Ekonomika: vchera, segodnya, zavtra [Economics: Yesterday, Today and Tomorrow], 9 (8A), pp. 307-313. DOI 10.34670/AR.2019.90.8.030

Keywords

Ontologies, ontology training, automatic ontology creation, natural language text processing, training.

References

1. Abrosimov A.G. (2005) Metadannye opisaniya kollektsii periodicheskoi pechati [Metadata for the collection of

periodicals]. Elektronnye biblioteki [Electronic Libraries], 8, 2, pp. 1-7.

2. Aggarwal C.C., Zhai C.X. (ed.) (2012)Mining text data. Springer Science & Business Media.

3. Asim M.N. et al. A survey oof ontology learning techniques and applications. Available at:

https://www.ncbi.nlm.nih.gov/pubmed/30295720 [Accessed 06/06/2019]

4. Kogalovskii M.R. (2013) Metadannye v komp'yuternykh sistemakh [Metadata in computer systems]. Programmirovanie

[Programming], 39, 4, pp. 28-46.

5. Kogalovskii M.R. (2012) Metadannye, ikh svoistva, funktsii, klassifikatsiya i sredstva predstavleniya [Metadata, their

properties, functions, classification and means of presentation]. In: Trudy 14-i Vserossiiskoi nauchnoi konferentsii «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollektsii» [Proceedings of the 14th All-Russian Scientific Conference: Electronic Libraries: Advanced Methods and Technologies, Electronic Collections]. Pereslavl-Zalesskii. Available at: elib.ict.nsc.ru/jspui/bitstream/ICT/1175/1/kogalovsky-meta.pdf [Accessed 06/06/2019]

6. Korsun I.A., Pal'chunov D.E. (2016) Teoretiko-model'nye metody izvlecheniya znanii o smysle ponyatii iz tekstov

estestvennogo yazyka [Model-theoretic methods for extracting knowledge about the meaning of concepts from natural language texts]. VestnikNovosibirskogo gosudarstvennogo universiteta. Seriya: Informatsionnye tekhnologii [Bulletin of the Novosibirsk State University. Series: Information Technology], 14, 3, pp. 34-48.

7. Kovriguina L. et al. (2017) Russian tagging and dependency parsing models for stanford CoreNLP natural language

toolkit. In: International Conference on Knowledge Engineering and the Semantic Web. Springer, Cham.

8. Vanyushkin A.S., Grashchenko L.A. (2016) Metody i algoritmy izvlecheniya klyuchevykh slov [Keyword extraction

methods and algorithms]. Novye informatsionnye tekhnologii v avtomatizirovannykh sistemakh [New information technologies in automated systems], 19, pp. 85-93.

9. Yarushkina N.G., Moshkin V.S. (2016) Podkhod k obucheniyu ontologii na osnove gibridizatsii algoritmov izvlecheniya

znanii iz tekstov i mekhanizma pretsedentov [An approach to learning ontology based on hybridization of algorithms for extracting knowledge from texts and the use-case mechanism]. Vestnik Rostovskogo gosudarstvennogo universiteta putei soobshcheniya [Bulletin of the Rostov State University of Railway Engineering], 2, pp. 78-83.

10. Wong W., Liu W., Bennamoun M. (2012) Ontology learning from text: A look back and into the future. ACM Computing Surveys (CSUR), 44, 4, pp. 20.

ВГЮШЗЙОШСТ ФВДШРАЩЖШ

Г.П. Ивлиев

СВИДЕТЕЛЬСТВО

о государственной регистрации программы для ЭВМ

№ 2018612645

Программный модуль экстракции метаданных онлайн-курсов платформы Open edX

Правообладатель: федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (Ш)

Авторы: Романов Алексей Андреевич (1Ш), Волчек Дмитрий Геннадьевич (Я17), Муромцев Дмитрий Ильич (ЯП)

Руководитель Федеральной службы по интеллектуальной собственности

Заявка № 2017664017

Дата поступления 29 Декабря 2017 Г.

Дата государственной регистрации в Реестре программ для ЭВМ 21 февраля 2018 г.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Волчек Дмитрий Геннадьевич

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Модели и методы интеграции структурированных текстовых описаний на основе онтологий2009 год, кандидат физико-математических наук Иванов, Владимир Владимирович

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Программные системы информационного обеспечения научной деятельности: модели, структуры и алгоритмы2010 год, доктор технических наук Барахнин, Владимир Борисович

Онтолого-семантические модели в корпоративных системах управления знаниями2007 год, доктор технических наук Тузовский, Анатолий Федорович

Методы и алгоритмы обработки математического контента на основе технологий семантического веба2024 год, кандидат наук Николаев Константин Сергеевич

Список литературы диссертационного исследования кандидат наук Волчек Дмитрий Геннадьевич, 2019 год