Методы, модели и программные средства представления текстовых документов с использованием квантовой теории вероятностей тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Платонов Алексей Владимирович

  • Платонов Алексей Владимирович
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 169
Платонов Алексей Владимирович. Методы, модели и программные средства представления текстовых документов с использованием квантовой теории вероятностей: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 169 с.

Оглавление диссертации кандидат наук Платонов Алексей Владимирович

1.1.3 Системы объектов

1.1.4 Состояние запутанности

1.2 Использование квантово-подобных моделей для представления концептов в базах знаний

1.2.1 Моделирование концептов базы знаний посредством информационных потоков в квантовой системе

1.2.2 Представление концептов базы знаний с помощью операторов плотности вероятностей

1.2.3 Определение отношений между концептами базы знаний

с помощью квантового формализма

1.3 Выводы

2 Метод классификации документов в информационных системах на базе теста Белла

2.1 Квантово-механическая аналогия и тест Белла

2.1.1 Векторная модель концептов базы знаний на основе алгоритма HAL

2.1.2 Формулировка теста Белла для классификации текстовых документов в информационной системе

2.2 Алгоритм расчета параметра Белла для классификации текстовых документов в информационной системе

2.2.1 Базис для сравнения текстовых документов

2.2.2 Операторная форма метрики схожести текстовых документов

2.2.3 Специфика поведения теста Белла при классификации текстовых документов

2.3 Выводы

3 Метод квантовой томографии в формировании семантических концептов для формирования баз знаний

3.1 Томография квантовых состояний в задаче векторного представления семантических концептов базы знаний

3.1.1 Описание состояния квантовой системы

3.1.2 Томография состояния квантовой системы

3.2 Векторное представление концептов базы знаний и квантовая аналогия

3.2.1 Аналогия между квантовой томографией и построением векторных представлений концептов базы знаний

3.2.2 Квантово-подобное представление концептов базы знаний

3.3 Восстановление матриц плотности вероятностей для концептов базы знаний

3.3.1 Сведение задачи томографии концептов базы знаний к задаче машинного обучения

3.3.2 Разработка алгоритма получения матричных представлений концептов базы знаний

3.3.3 Введение фазы в алгоритм восстановления матриц плотности

3.4 Выводы

4 Результаты экспериментального исследования алгоритмов автоматической обработки текстовых документов в информационных системах

4.1 Выбор и обоснование инструментальных средств для проведения экспериментального исследования

4.2 Метод классификации документов в информационных системах на базе теста Белла

4.2.1 Программная реализация метода классификации на базе теста Белла

4.2.2 Результаты оценки работоспособности алгоритма классификации на базе теста Белла

4.2.3 Выводы

4.3 Метод квантовой томографии в формировании семантических концептов для формирования баз знаний

4.3.1 Программная реализация метода квантовой томографии

в формировании семантических концептов

4.3.2 Результаты оценки работоспособности метода квантовой томографии в формировании семантических концептов

4.3.3 Выводы

4.4 Общие выводы

5 Заключение 131 Список литературы

6 Приложение 1: Акт о внедрении в учебный процесс

7 Приложение 2: Акт о внедрении результатов исследования

8 Приложение 3: Акт о внедрении результатов исследования

9 Приложение 4: Публикации автора по теме диссертации

143

Реферат

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы, модели и программные средства представления текстовых документов с использованием квантовой теории вероятностей»

Общая характеристика работы

Актуальность темы. На протяжении последних лет наблюдается противоречие между скоростью роста данных, которые доступны человечеству и возможностями их интеллектуальной обработки. Большая часть знаний, которыми оперирует человечество, хранится в виде текстовых документов на естественных языках, которые не сопровождаются дополнительными средствами разметки для инструментов автоматизированной интеллектуальной обработки текстовых данных. Таким образом, экспоненциальный рост количества информации в багаже знаний человечества сталкивается с невозможностью эффективно обрабатывать их. Для разрешения этого противоречия существуют системы автоматической обработки естественно-языковых данных и формирования баз знаний на их основе. Большинство алгоритмов интеллектуальной обработки данных оперируют числовыми данными, таким образом базовой задачей любого процесса работы с текстами на естественном языке является представление текстовых единиц в численном виде, а в случае манипулирования объектами баз знаний - концептами. Базовой и важнейшей частью таких систем обработки данных, формирования баз знаний на основе результатов обработки текстов является векторное представление отдельных слов естественного языка, семантических единиц, а так же функция для оценки степени схожести этих объектов, которые затем и формируют концепты.

От свойств таких объектов и их качества, то есть от того насколько близки или далеки такие векторы в своем векторном пространстве для близких и далеких по смыслу слов друг от друга, зависит то, насколько эффективно будут работать использующие их алгоритмы машинного обучения. Фактически это базовая задача при решении проблем автоматической обработки естественно-языковых текстов.

Формально задача может быть поставлена в следующем виде. Для данного лексикона, то есть набора слов, по множеству текстов необходимо составить отображение из слова в лексиконе в некоторый вектор. При этом на

целевом векторном пространстве задана метрика, которая тем меньше для двух векторов, чем ближе по смыслу два исходных слова из лексикона. Назначение таких алгоритмов - математическое представление семантики слов естественного языка, которое удобно для работы других алгоритмов обработки текстов.

На сегодняшний день существует большое количество алгоритмов, решающих данную задачу. Тем не менее, постоянно растущий объем информации, представленный в текстовом виде, а также рост требований к системам интеллектуальной обработки текстов, постоянно ставят новые вызовы перед научным и инженерным сообществом в поиске оригинальных решений данной задачи. В частности не так давно, около десяти лет назад, появилось активно развивающееся направление на стыке квантовой теории и информационного поиска, называемое Quantum Information Retrieval, которое стремится сочетать математические модели и формализм квантовой теории с информационным поиском. В том числе, в рамках информационного поиска, в данном направлении решается задача векторизации текстовых данных.

Степень разработанности темы. Наибольший вклад в развитие методов обработки текстовых документов на естественных языках и векторизации текстовых данных в частности внесли З. Харрис, Н. Хомски, Т. Виноград, Р. Шанк, Р. Виленски, Р. Пираччини, В. Ф. Хорошвский, В. З. Демьянков, Ю. А. Загорулько, Е. А. Сидорова, В. Ш. Рубашкин, П.И. Браславский, К. В. Воронцов, Т. Ландауэр, Т. Хоффман, Т. Миколов.

Целью

^^данной работы является повышение качества представления концептов в базах знаний и обработки текстовых документов в информационных системах.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Обзор существующих методов векторизации текстовых данных для представления концептов при проектировании баз знаний в рамках классического подхода к задаче векторизации слов естественного языка;

2. Исследование методов обработки текстов на естественном языке с ис-

пользованием моделей, заимствованных из квантовой теории информации;

3. Обоснование применимости моделей и методов квантовой теории для обработки текстовых документов;

4. Разработка алгоритма векторизации слов без учителя с использованием аппарата квантовой теории вероятностей для представления концептов базы знаний;

5. Сравнительное исследование качества полученных векторных представлений на базе квантово-подобных моделей c классическими алгоритмами векторизации слов естественного языка;

6. Анализ результатов сравнения.

Научная новизна:

1. Показана применимость теста Белла с использованием несимметричной модели HAL для выполнения оценки семантической близости текстовых фрагментов, а так же для выполнения классификации текстовых документов в информационной системе;

2. Продемонстрирована связь между задачей формирования векторных представлений текстовой информации и методами квантовой томографии;

3. Разработана модель векторизации слов естественного языка с использованием аппарата матриц плотности вероятностей и алгоритм получения данных представлений по корпусу текстовых документов;

Ыетодология и методы исследования. В работе использованы методы колмогоровской теории вероятностей и методы квантовой теории вероятностей, математической оптимизации, машинного обучения. Экспериментальное исследование проводится на языке Python с использованием библиотек NLTK, ScikitLearn, NumPy, SciPy.

Положения выносимые на защиту, обладающие научной новизной:

1. Метод оценки схожести фрагментов неформализованных текстовых документов, отличающийся использованием аппарата квантовой теории вероятностей, в частности, теста Белла на основе асимметричной HAL-матрицы, обеспечивающий возможность классификации текстовых документов в информационной системе.

2. Алгоритм векторизации слов естественного языка, отличающийся использованием аппарата матриц плотности квантовой теории вероятностей, позволяющий формировать семантические структуры для проектирования баз знаний.

3. Результаты экспериментального исследования разработанных алгоритмов и программ, подтверждающие применимость разработанных алгоритмов в автоматических информационных системах.

Апробация результатов исследования. Основные положения диссертационной работы и результаты исследований докладывались на различных конференциях, в числе которых «Международный конгресс по интеллектуальным системам и информационным технологиям» (IS&IT'18), 11-я и 12-я международные конференции по приложениям в инфокоммуникационных технологиях (AICT-2017, AICT-2018)

Внедрение результатов исследования. Результаты исследований были внедрены в учебный процесс по дисциплине «Интеллектуальные системы» на факультете Программной инженерии и компьютерной техники в качестве лекционных материалов Национального исследовательского Университета ИТМО. Метод оценки степени схожести текстовых фрагментов на базе теста Белла, исследованный в данной работе, был внедрен в систему поиска в информационно-аналитической системе Департамента международного сотрудничества Минобрнауки России, а так же как один из инструментов анализа текстовых данных в библиотеке машинного обучения Ignite ML платформы Apache Ignite во время работы в компании ООО «ГРИДГАИН РУС».

Публикации. Основное содержание диссертации опубликовано в пяти статьях, из них три публикации в изданиях, рецензируемых Web of Science или Scopus, три публикации в журналах из перечня ВАК. В перечисленных работах отражены основное состояние исследований в области применения

квантово-подобных моделей к задачам информационного поиска и анализа текстовых данных на естественных языках, а так же представлены модели, разработанные автором в ходе диссертационных исследований и результаты их экспериментального исследования.

Личный вклад автора. В диссертационной работе использованы результаты, в которых автору принадлежит определяющая роль. Проведение теоретических и экспериментальных исследований по теме диссертации автором было выполнено совместно с Бессмертным И.А. Автор самостоятельно занимался исследованием в области применения квантово-подобных методов к анализу естественно-языковых текстов, выдвигал гипотезы о применении моделей квантовой теории вероятностей к моделированию текстовых данных векторными представлениями. Постановка экспериментов и интерпретация результатов выполнена совместно с Бессмертным И.А. Разработка алгоритмов, сбор тестовых данных также выполнены автором самостоятельно.

Объем и структура работы Диссертационная работа изложена на 114 страницах, состоит из введения, четырех глав, содержащих 11 рисунков, одной таблицы и заключения. Библиографический список включает 55 наименований.

Содержание работы

Во введении обосновывается актуальность темы диссертационной работы, определяются объект, предмет, методы, цель и задачи исследования, положения, выносимые на защиту, представлена научная новизна и практическая значимость представляемой работы.

Первая глава посвящена описанию математического аппарата квантовой теории вероятностей, который необходим для дальнейшего изложения материалов, посвященных использованию моделей квантовой теории для анализа текстов в информационных системах. В частности, показано представление состояния анализируемых систем с использованием векторных гильбертовых пространств, а так же дано краткое описание аппарата матриц плотности, которое задает распределение возможных состояний исследуемой системы в рассматриваемом векторном пространстве. Показана важнейшая

связь между матрицами плотности вероятностей и наблюдаемыми состояниями системы (теорема Глизона), которая используется в дальнейшем для восстановления матриц плотности текстовых представлений.

Первая глава так же содержит обзор алгоритмов и методов анализа текстовых данных с использованием моделей квантовой теории вероятностей. В частности, рассматриваются два базовых подхода к моделированию концептов в базах знаний: структурный подход с использованием моделей, взятых из квантовой теории информации, и дистрибутивный подход, в котором используются матрицы плотности вероятностей для моделирования векторных представлений. Коротко данные подходы можно охарактеризовать следующим образом:

1. Для структурной модели характерно использование аппарата алгебры Ламбека, который является формальной записью грамматики для синтаксического разбора предложений. Каждое слово в таком подходе представлено в качестве квантово-подобного объекта, образующего связи наподобие тех, что моделируются в формализме квантовой телепортации из квантовой теории информации. Этими связями могут быть объект-предикат-субъектные отношения, порождаемые синтаксическим анализом. Авторы предлагают представлять отдельные предложения с использованием тензорного произведения. Строго говоря, данный подход нельзя назвать новым. Применение методов моделирования семантических связей с помощью того же синтаксического анализа в явном виде прослеживается в работах, посвященных, например, автоматизированному построению онтологических баз знаний и баз знаний на основе семантических сетей. Однако, если результаты синтаксического анализа после некоторой обработки рассматриваются уже как собственно модель представления концептов базы знаний и отношений между ними, то авторы данной группы работ идут дальше и стремятся совместить дистрибутивную семантику и семантику связей, реализующуюся в базах знаний. Однако, используемый в этих работах способ представления системы посредством тензорного произведения привносит высокую вычислительную и пространственную сложность во все алгоритмы, которые будут использовать подобные векторные представления, так как размеры этих

векторов будут расти экспоненциально с размером текста (поскольку одна операция кронекерова произведения на двух векторах размерностей п и т вернет в результате вектор размерности пт). Авторы предлагают методы свертки данных векторных представлений, однако в таком случае теряется особенность подобного рода представления, сохраняющих как роли слов в предложении, так и связи между словами. Более того, авторы рассматривают свертки вплоть до одного числа, теряя структуру предложения полностью. В этом смысле интересной идеей кажется применение автокодировщиков для уменьшения размерности векторных представлений - при этом сохранится отношение порядка, закодированное в векторе, а так же уменьшится размерность векторного пространства. Таким образом, данные работы на текущий момент представляют более теоретический интерес, нежели практический.

2. Группа работ, посвященная исследованию аппарата квантовой теории вероятностей и применения его в контексте дистрибутивной семантики стремится использовать матрицы плотности вероятностей для моделирования эффектов суперпозиции и запутанности в явном виде. Матрицы плотности, позволяют моделировать неопределенности в представлении семантических значений концептов (за счет моделирования суперпозиции отдельных чистых состояний), предлагая так же вероятностную метрику для концепта контексту, в котором он наблюдается, или другому концепту, выполняя при этом задачу векторизации текстовых данных. Тем не менее, стоит отметить, что в том виде, как были представлены матрицы плотности, использующие, по-сути, простое унитарное кодирование при их построении, не способны в достаточной мере гибко приближать языковую вероятностную модель, которая может быть построена с применением матриц плотности. В частности, совершенно не используются недиагональные элементы матрицы плотности, что значительно уменьшает число активных параметров модели и, строго говоря, в таком виде матрицы плотности вообще не нужны, разве что для введения алгебры над векторным семантическим пространством. Так же авторами рассматривается исключительно пространство вещественных чисел, в то время как классическое представление матриц плотности вероятностей

основано на векторных пространствах над полем комплексных чисел, что также сокращает число степеней свободы получаемых объектов.

Вторая глава посвящена изложению метода сравнения текстовых фрагментов с использованием теста Белла, применяемого квантовой теории вероятностей. Полученный метод можно использовать как для определения схожести двух фрагментов текстов и концептов, которые представлены в данных фрагментах, которое само по себе является инструментом, использующимся, например, в информационном поиске для ранжирования ответов пользователю поисковой системы, так и для более интересных задач. Например, так как сравнение фрагментов текстовых документов выполняется в контексте некоторого документа, то и степень схожести двух фрагментов текста для сравнения будет различаться от документа к документу - такую особенность можно использовать при определении семантических отношений между объектами базы знаний, которым сопоставлены некоторые фрагменты текстов, представляющие их.

В качестве базового алгоритма, при помощи которого строится векторное пространство, используется алгоритм Hyperspace Analogue Language (далее HAL). Для построения метода сравнения фрагментов текстов в данной работе принято в качестве векторов-контекстов слов использовать нормализованные строки HAL-матрицы. Алгоритм HAL может быть описан следующим образом: для текстового корпуса формируется векторное пространство размерности лексикона, и каждое слово, для которого строится вектор в этом пространстве, получает значения координат, отличные от нуля, только в том случае, если где-то в тексте правее этого слова в ограниченном окне длины w встретилось слово, соответствующее координате. В качестве значения для этой координаты используется обратное размеру окна расстояние до слова. То есть, если от анализируемого слова слово, соответствующее координате вектора, стоит на расстоянии d слов, а размер окна равен w, то значением координаты вектора HAL будет dhai = w — d. Если такое слово встретилось несколько раз, то в соответствующую координату записывается сумма расстояний.

Ниже приведен пример построения такой матрицы для простого примера с окном сканирования w = 3: "Мама мыла раму, а затем мама мыла коридор".

мама мыть рама затем коридор

мама 0 3 + 3 2 1 2

мыть 1 0 0 0 3

рама 2 1 0 3 0

затем 3 2 0 0 1

коридор 0 0 0 0 0

Рис. 1: Примеры векторов согласно модели HAL

Таким образом, матрица HAL моделирует отношение порядка между словами в рамках ограниченного окна сканирования w - ненулевая координата будет только при удовлетворении отношения "слово i находится правее анализируемого слова в тексте дополняя это отношение так же взвешиванием расстояниями между словами.

В работе делается допущение, что сравниваемые текстовые фрагменты состоят всего из одного слова каждый. Для такой модели можно сделать обобщение и считать для каждого текстового фрагмента суммы входящих в его состав векторов, а затем подвергать их операции нормирования, как это делается при построении вектора документа.

Проверка схожести текстовых фрагментов выполняется в контексте некоторого документа. Тесты в неравенстве Белла будут соответствовать проверке соответствия контекста документа вектору первого или второго слова. Напомним, что неравенство Белла связывает несколько тестов между собой, отвечая на вопрос: находятся ли компоненты наблюдаемой системы в состоянии запутанности? Выражение для теста Белла в случае векторов слов и документного контекста выглядит следующим образом:

Squery = | (AB+) + (ЛхБ+)\ + | (AB-) — {ЛхБ-)\ , (1)

где A - оператор, соответствующий операции определения степени соответствия контекста документа первому фрагменту текста и возвращает 1, если документ полностью ему соответствует, —1 - соответствует ортогональному вектору, оператор Ax соответствует неопределенности относительно схожести семантики слова A и документа - этот оператор получает максимальное

значение в случае, если косинус угла между документом словом будет соответствовать углу в 4. Соответственно операторы В и Вх выполняют ту же роль. Введение операторов В- и В+ соответствует повороту базиса второго фрагмента текста на 4, что в случае с физическими экспериментами делается чаще всего, поскольку в таком случае максимизируется значение теста Белла.

В свою очередь сами матрицы операторов определяются следующим образом:

A —

1 0 0 -1

Ax —

01 10

B+ —

B + Bx

V2

B—

B — Ba

V2

(2)

где В и Вх - операторы той же формы, что и А, Ах соответственно, но для второго текстового фрагмента, а так же приведенные в базис, соответствующий первому слову при помощи матрицы перехода М:

M —

Р

1

p2

1

p2

Р

B — M—1 - A-M.

(3)

В выражении (3) p есть ни что иное как, косинус угла между вектором, представляющим первый текстовый фрагмент, и вектором, соответствующим второму фрагменту.

Операторы A, B, Ax, Bx применяются к вектору документа, который представляет собой коэффициенты проекции нормализованной суммы всех строк матрицы HAL, построенной для данного документа, на ортогональный базис, построенный для первого фрагмента или для второго:

(4)

) = a |ui) + b |u2> ,

|DW2) = c |vi) + d |v2) ,

где коэффициенты при базисных векторах могут быть рассчитаны путем проецирования вектора документа на базисный вектор с нормированием получившейся длины проекции. Например, для коэффициента a это можно рассчитать следующим образом:

о . (5)

^(щ\П)2 + {и2\0)2

По-сути, данные коэффициенты соответствуют косинусным расстояниям от анализируемого слова до документа. Оценка степени схожести двух текстовых фрагментов в контексте документа выполняется следующим образом (часть выражения в тесте Белла):

(АБ)в = {Б! А • В |Б) = о2 - Ь2 = 2о2 - 1. (6)

Таким образом, в данной главе был рассмотрен необходимый математический аппарат, необходимый для определения степени запутанности слов, находящихся в анализируемом текстовом фрагменте с позиций аппарата квантовой теории.

В третьей главе рассматривается задача векторизации слов текстовых документов для моделирования концептов при построении баз знаний с позиций квантовой томографии, представляющей собой инструмент для представления вероятностных свойств квантовых систем. В частности, в начале рассматривается само математическое предстваление метода квантовой томографии. Далее показывается аналогия между процессами анализа текстовых данных с целью их векторизации и процессом квантовой томографии. В частности, базисом такой семантической томографии будет являться набор контекстов, в которых присутствует анализируемый текстовый фрагмент. Простыми векторными представлениями таких контекстов могут быть векторы, построенные по модели мешка слов. Наблюдаемой в такой модели будет вероятность того, что выбранное слово будет окружать контекст, для которого определяется наблюдаемая. Конечно в случае прямого использования мешка слов все контексты будут уникальны, но при чистке мусора и дополнительной кластеризации таких векторов, можно получить дискретное вероятностное распределение векторов контекстов. Соблюдая ограничения матрицы плотности вероятностей по формулам (7)

Ргг > 0

Тт(р) = 1

Тт(р2) < 1

= РР]

и вероятностную меру (8), задаваемую теоремой Глизона, можно получить матричное представление слова или матрицу плотности вероятностей:

Таким образом, процесс построения векторного (матричного) представления слова (текстового фрагмента или концепта базы знаний) может быть представлен как аналог процесса квантовой томографии в пространстве векторов-контекстов слов.

Далее последовательно излагается процесс, условно именуемый семантической томографией, используемый для восстановления матриц плотности вероятностей с использованием подходов, принятых в машинном обучении.

Пусть Ак - это матрица-проектор на подпространство, соответствующее некоторому контексту к из набора известных нам контекстов размерности N. Чтобы получить такой проектор, нам необходимо представить контекст, как вектор, по аналогии с методом, описанным выше. Так как получаемая из такого вектора матрица Ак должна обладать свойствами проектора, то условие нормировки такого вектора обязательно:

где Ук - исходный вектор контекста слова.

Вероятность Рк нам так же известна, так как известен текстовый корпус, на котором проводится обучение. Для того, чтобы получить распределение вероятностей К-контекстов для исследуемого слова, достаточно выполнить группировку векторов контекстов по их точному совпадению и выразить вероятность их появления через из частоту. Очевидно, что в случае наивной реализации алгоритма моделирования контекста мы получим равномерное рас-

(А) = гт(Ар).

(8)

(9)

пределение вероятностей, где каждый контекст получит вероятность, равную NN. При этом не будет учитываться тот факт, что большая часть контекста может состоять из стоп-слов или часто встречающихся слов, которые не дают никакого вклада в смысл слова. В этом случае есть смысл выполнить предварительную обработку, заключающуюся в том, чтобы убрать стоп-слова, очистить мусор при помощи и выполнить кластеризацию полученных

контекстов для образования групп, по которым и будет строиться вероятностное распределение.

Задача получения представления слова сводится к задаче отыскания матрицы р, удовлетворяющей уравнению (8). Более подробное представление матриц р и Ак:

р=

ри

р\ь

Ры ... рьь

Ак =

Оц ... Оц

Оц . . . Оц

(10)

Взятие следа их произведения может быть представлено как следующее выражение:

ь ь

Тт(Акр) = ^ ^ ог] • р]г = Рк. (11)

2 = 1 3 = 1

Полученное выражение представляет собой систему линейных уравнений, в общем случае вырожденную. Таким образом, требуется поиск приближенного решения, который бы минимизировал некоторый функционал качества полученной матрицы плотности вероятностей. Так как (8) задает вероятностное распределение, и мы знаем целевое распределение контекстов, то в качестве функционала качества используется дивергенция Кульбака-Лейблера (12):

Бкь(р\1Р) = - ^ Тг(р • Ак) • 1п

Ук

Тг(р • Ак)'

(12)

к=1...Ь

Поскольку данная функция является дифференцируемой, то для решения задачи восстановления матрицы плотности можно использовать метод градиентного спуска. Если метрику (12) взять в качестве основной целевой

функции, а Хг(р) рассматривать как набор регуляризаторов для сохранения свойств матрицы плотности (7), то получится следующая оптимизационная задача:

R

4 ^ i=1 Р

min Q(p,P) = Dkl(pIIP) + Ai(p) ^ m[n, (13)

где R - количество регуляризаторов. Выражение градиента по параметрам матрицы плотности для формулы (13) будет иметь следующий вид:

VQ(p, P) = £ (In V - l)ATk + £ VA,(p). (14)

k=1 (P k) i=1

Как только получено выражение для градиента целевой функции (13), можно применять методы градиентного спуска для оптимизации и получения матрицы плотности для слова.

Существующие методы на базе восстановления матриц представляют её просто как взвешенную сумму контекстов слова, представленных в виде векторов с использованием унитарного кодирования:

L L

P = ^ VkAk, V = 1 Vk > 0. (15)

k=i k=i

В такой сумме веса соответствуют частотам появления контекстов. Данный подход является простым с вычислительной точки зрения и он сохраняет все свойства матрицы плотности из формулы (7). Более того, в этом случае делается явно или неявно предположение о том, что семантический концепт представляется в виде смеси в терминах матриц плотности. Напомним, что смесь в квантовой теории вероятностей без суперпозиции, по-сути, сводит квантовую теорию вероятностей к колмогоровской теории вероятностей. Такое распределение не подходит для неортогональных контекстов слов, а также для систем, которые представляют собой смешанные состояния, находящиеся в суперпозиции, явно предполагая наличие неопределенности в представлении состояния системы. Такой алгоритм не восстанавливает целевое распределение для контекстов, что показано в диссертационной работе. Главное отличие разработанного алгоритма состоит в том, что в первую оче-

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Платонов Алексей Владимирович, 2019 год

Литература

1. Katerinenko R.S., Bessmertny I.A. A method for acceleration of logical inference in the production knowledge model. Programming and Computer Software, 2011, vol. 37, no. 4, pp. 197-199.

2. Уэно Х., Исидзука М. Представление и использование знаний. М.: Мир, 1989. 220 с.

3. Довбуш Г.Ф. Логическое программирование. ПГУПС, 2011. URL: http://ivc.clan.Su/_fr/1/FLP_l9.pdf (дата обращения: 28.02.2016).

4. Petasis G., Karkaletsis V, Paliouras G., Krithara A., Zavi-tsanos E. Ontology population and enrichment: state of the art. Proc. 14th Intern. Conf., Philadelphia, Pennsylvania, USA, 2011, vol. 6050, pp. 134-166.

5. Bessmertny I.A. Knowledge Visualization Based on Semantic Networks. Programming and Computer Software, 2010, vol. 36, no. 4, pp. 197-204.

6. Roussopoulos N.D. A semantic network model of data bases. TR no. 104, DCS, Univ. of Toronto Publ., 1976.

7. Бессмертный И.А. Искусственный интеллект. СПб: Изд-во ИТМО, 2010. 132 с.

8. Fierens D., Van den Broeck G., Renkens J., et. al. Inference and learning in probabilistic logic programs using weighted boolean formulas. DCS, TPLP, 2015, vol. 15, no. 3, pp. 358-401.

9. Fierens D., Van den Broeck G., Thon I., Gutmann B., De Raedt L. Inference in probabilistic logic programs using weighted CNF's. Proc Conf. AUAI, 2011, pp. 211-220.

10. Сукач Е.И., Ратобыльская Д.В., Мережа В.Л. Реализация вывода в семантической сети с использованием вероятностно-алгебраического моделирования // Открытые семантические технологии проектирования интеллектуальных систем. OSTIS- 2011: тр. Междунар. науч.-технич. конф. Минск: Изд-во БГУИР, 2011. C. 241-246.

11. Sato T., Kameya Y. PRISM: a language for symbolic-statistical modeling. Intern. Joint Conf. on Artificial Intelligence, 1997, vol. 15, pp. 1330-1339.

12. Poole D. The independent choice logic and beyond. In probabilistic inductive logic programming - theory and applications. LNCS, Springer, Berlin/Heidelberg, 2008, vol. 4911, pp. 222-243.

13. Sato T. and Kameya Y. Parameter learning of logic programs for symbolic-statistical modeling. JAIR, 2001, vol. 15, pp. 391 -454.

14. Russell S.J., Norvig P. Artificial intelligence. A modern approach. 2nd ed. Upper Saddle River, NJ, Prentice Hall Publ., 2003, 1110 p.

15. De Raedt L., Kimmig A., and Toivonen H. ProbLog: A probabilistic Prolog and its application in link discovery. IJCAI, 2007, pp. 2462-2467.

16. Fierens D., Broeck G.V., Renkens J., et. al. Inference and learning in probabilistic logic programs using weighted Boolean formulas. Theory and Practice of Logic Programming, 2014, vol. 15, no. 3, pp. 358-401.

DOI: 10.15827/0236-235X.115.010-014 Received 01.03.16

PROBABILISTIC INFERENCE IN WEAKLY FORMALIZED KNOWLEDGE BASES (Acknowledgements. The work has been done as a part of research topic no. 615869 "Designing methods of information infrastructure key systems ")

lPoleschuk E.A., Posgraduate Student, eapoleschuk@corp.ifmo.ru lPlatonov A. V., Posgraduate Studen, avplatonov@corp.ifmo.rut

1 The National Research University of Information Technologies, Mechanics and Optics, Kronverksky Ave. 49, St. Petersburg, 197101, Russian Federation

Abstract. The article introduces the process of probabilistic inference in weakly formalized knowledge bases. Semantic network is chosen as a graphical model of knowledge representation due to a convenient representation of automatically ex-

tracted data as a graph with links. The paper also contains a comparison of widely used production model approach with the proposed one. The authors describe main disadvantages of a production model approach that should be considered for developing such knowledge extraction systems.

The aim of the work is new knowledge extraction from an automatically built knowledge base. Usually logical inference is used to achieve this aim in graphical models. In our case a domain model as well as a process of knowledge building (in particular by automatic or semi-automatic methods) restrict logical inference mechanism, so this algorithm is forced to work in conditions of uncertainty. Thus, standard logical inference algorithms provided for such model become irrelevant.

The article proposes using probabilistic inference for the task and consequently using probabilistic inference programming language. The paper contains a comparison of several modern probabilistic logic programming languages like PRISM, ICL and ProbLog. The authors select a probabilistic logic programming language based on the results of this comparison. To implement probabilistic inference in a weakly formalized knowledge base we have selected ProbLog language (ProbLog2 in particular) that is a probability extension of Prolog.

Keywords probabilistic inference, semantic networks, weakly formalized knowledge bases, ProbLog, probabilistic logic programming, data uncertainty, relationships uncertainty.

References

1. Katerinenko R.S., Bessmertny I.A. A method for acceleration of logical inference in the production knowledge model.

Programming and Computer Software. 2011, vol. 37, no. 4, pp. 197-199.

2. Ueno Kh., Ishizuka M. Knowledge Representation and Usage. 1987 (Russ.ed.: Moscow, Mir Publ., 1989).

3. Dovbush G.F. Logicheskoe programmirovanie [Logical Programming]. PGUPS Publ., 2011. Available at: http://ivc.clan.su/_fr/17FLP_l9.pdf (accessed February 28, 2016).

4. Petasis G., Karkaletsis V.,Paliouras G., Krithara A., Zavitsanos E. Ontology Population and Enrichment: State of the Art. J.H. Moore, T. Soule (Eds.). Proc. 14th int. conf. Philadelphia, Pennsylvania, USA, 2011, vol. 6050, pp. 134-166.

5. Bessmertny I.A., Knowledge Visualization Based on Semantic Networks. Programming and Computer Software. 2010, vol. 36, no. 4, pp. 197-204.

6. Roussopoulos N.D. A semantic network model of data bases. TR no. 104. DCS, Univ. of Toronto, 1976.

7. Bessmertny I.A.. Iskusstvenny intellekt [Artificial Intelligence]. St. Petersburg, SPbGU ITMO Publ., 2010, 132 p.

8. Fierens D., Van den Broeck G., Renkens J. Inference and Learning in Probabilistic Logic Programs using Weighted Boolean Formulas. DCS, TPLP, 2015, vol. 15, no. 3, pp. 358-401.

9. Fierens D., Broeck G.D.V., Thon I. Inference in Probabilistic Logic Programs using Weighted CNF's. Proc Conf. AUAI. 2011, pp. 211-220.

10. Sukach E.I., Ratobylskaya D.V., Merezha V.L. Semantic network inference implementation using probabilistic algebraic modeling. Otkrytye semanticheskie tekhnologii proektirovaniya intellektualnykh system. OSTIS-2011: Mezhdunar. nauch.-tekhn. konf. [Proc. Int. Science and Technical Conf. on Open Semantic Technologies for Intelligent Systems (0STIS-2011)]. Minsk, 2011, BSUIR Publ., pp. 241-246 (in Russ.).

11. Sato T., Kameya Y. PRISM: a language for symbolic-statistical modeling. Intern. Joint Conf. on Artificial Intelligence, 1997, vol. 15, pp. 1330-1339.

12. Poole D. The independent choice logic and beyond. Probabilistic Inductive Logic Programming - Theory and Applications. De Raedt L., Frasconi P., Kersting K., Muggleton S. (Eds.). LNCS, Springer, Berlin/Heidelberg Publ., 2008, vol. 4911, 222-243.

13. Sato T., Kameya Y. Parameter learning of logic programs for symbolic-statistical modeling. JAIR. 2001, vol. 15, pp. 391-454.

14. Russell S.J., Norvig P. Artificial intelligence: a modern approach. 2nd ed., Upper Saddle River, NJ, Prentice Hall Publ., 2003.

15. De Raedt L., Kimmig A., Toivonen H. ProbLog: A probabilistic Prolog and its application in link discovery. IJCAI. 2007, pp. 2462-2467.

16. Fierens D., Broeck G.V., Renkens J. Inference and learning in probabilistic logic programs using weighted Boolean formulas. Theory and Practice of Logic Programming. 2014, vol. 15, no. 3, pp. 358-401.

Примеры библиографического описания статьи

1. Полещук Е.А., Платонов А.В. Использование вероятностного вывода в слабофор-мализованных базах знаний // Программные продукты и системы. 2016. Т. 29. № 3. С. 10-14.

2. Полещук Е.А., Платонов А.В. Использование вероятностного вывода в слабофор-мализованных базах знаний // Программные продукты и системы. 2016; DOI: 10.15827/0236-235X. 115.010-014.

3. Poleschuk E.A., Platonov A.V. Probabilistic inference in weakly formalized knowledge bases. Programmnye produkty i sistemy [Software & Systems]. 2016, vol. 29, no. 3, pp. 10-14 (in Russ.); DOI: 10.15827/0236-235X.115.010-014.

УДК 004.89 Дата подачи статьи: 29.02.16

DOI: 10.15827/0236-235X. 114.047-052

МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ ОНТОЛОГИЙ

А.В. Платонов, аспирант, avplatonov@corp.ifmo.ru; Е.А. Полещук, аспирант, eapoleschuk@icorp.ifmo.ru (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО), Кронверкский просп., 49, г. Санкт-Петербург, 197101, Россия)

В статье рассматривается процесс автоматического построения онтологии предметной области по входному набору текстовых документов. В частности, рассматриваются процессы, аналогичные системам Biperpedia, BOEMIE Project и т.п. В работе освещены основные этапы автоматической генерации онтологии, а именно процесс извлечения объектов предметной области, концептов, то есть терминов, объединяющих множество объектов, а также процесс извлечения семантических отношений и правил для онтологии. Для каждого процесса представлены алгоритмы, решающие задачу соответствующего шага генерации онтологии. В рамках процесса извлечения объектов предметной области рассмотрены алгоритмы извлечения именованных сущностей, генерации регулярных выражений на основе генетических алгоритмов. Предложен процесс построения шаблонов извлечения объектов на базе методов поиска частотных цепочек символов по аналогии с поиском частотных шаблонов последовательностей. В статье описаны основные шаги извлечения концептов предметной области и рассмотрены алгоритмы для определения его основных атрибутов. Содержится описание методов извлечения семантических отношений на базе лексико-синтаксических шаблонов. Предложен подход к данной задаче с точки зрения поиска ассоциативных правил по аналогии с алгоритмами поиска частотных шаблонов. Наконец, в работе предложены три метода оценки качества работы всего процесса автоматического построения онтологии: метод на основе золотого стандарта, метод ручной оценки и косвенный метод через оценку качества использующего онтологию ПО. Рассмотрены положительные и отрицательные стороны того или иного метода оценки. Предложен компромиссный подход для оценки качества модели, учитывающий достоинства и недостатки каждого из описанных.

Ключевые слова: онтология, извлечение именованных сущностей, извлечение семантических отношений.

Онтологии наравне с семантическими сетями представляют собой удобную абстракцию для отображения знаний в некоторой предметной области [1]. Однако процесс составления такой структуры данных очень трудоемок, так как требует от составляющего ее человека непредвзятости в суждениях относительно предметной области, а также внимания к мелочам, чтобы не допустить неточностей и противоречий в получаемой базе знаний. Неудивительно, что в машинном обучении становится популярной задача так называемого обучения онтологии (Ontology Learning) - задача автоматического построения онтологии предметной области по некоторой обучающей выборке.

Автоматическое построение онтологий по некоторому набору текстовых документов полностью определено концептуальной структурой самой онтологии. Это процесс, состоящий из нескольких этапов, на каждом из которых происходит извлечение из текста фактов или их постобработка для формирования какой-то части онтологии, будь то термины или объекты, концепты или же отношения между ними. На рисунке 1 показана иерархия представлений онтологии, на основе которой она и строится [2].

Поясним, почему иерархия выглядит именно так. В основе онтологии лежат концепты и соответствующие им объекты. Объекты, которые представляют собой конкретные примеры концептов, являются фундаментом для объединения их в один концепт как родительский узел в иерархии онтологии. Прежде чем выделять собственно концепты,

объекты следует исследовать на наличие между ними синонимии или кореферентности, если мы говорим об извлечении подобных знаний из текстовых документов. Полученные кластеры синонимов могут абстрагироваться до концептов с указанием отношения «is-a» между объектом и концептом. Важными элементами онтологии являются собственно иерархия концептов и дополнительные отношения между ними. Иерархия строится на базе отношения типа «is-a», а дополнительные бинарные отношения позволяют указывать дополнительную семантику в онтологии. Набор правил внутри онтологии представляет собой надстройку над всеми основными компонентами онтологии и в простейшем виде формируется уже у интерпрета-

Пра вила

Отношения

Иерархия концептов

Концепты

Синонимы

О бъе кты

Рис. 1. Иерархия представлений онтологии Fig. 1. Ontology hierarchy

тора онтологии (например у человека), представляя собой набор высказываний наподобие «если X является автором программы Y, то X написал код Z программы Y».

В соответствии с этой структурой организован процесс генерации онтологии на основе множества документов, состоящий из следующих этапов [3]: идентификация и извлечение объектов, кластеризация объектов на группы синонимичных объектов, поиск соответствия кластеров существующим концептам или генерация нового концепта, выделение отношений наследования между концептами, выделение вспомогательных отношений и определение правил на получившейся онтологии.

Необходимо понимать, что при составлении онтологии в автоматическом или полуавтоматическом режиме очень важен процесс оценки результатов работы алгоритмов.

Все этапы формирования онтологии вместе с ее оценкой можно свести к схеме, представленной на рисунке 2 [2]. Обратите внимание на цикличность алгоритма: исходная, возможно, пустая онтология дополняется новыми объектами, концептами и отношениями, оценивается и затем уже используется как база для дальнейшего расширения. Такой подход часто используется [2, 4, 5] и позволяет извлечь максимум информации из входного корпуса документов.

Извлечение объектов

Процесс извлечения объектов из текстовых документов для пополнения онтологии может быть разделен на два этапа.

1. Извлечение цепочек символов - идентификация их как объектов онтологии, с последующей классификацией для отнесения цепочки к той или иной известной семантической категории.

2. Отображение полученных объектов на известные словари и базы знаний для определения их концепта. Объекты, которые не были отнесены ни к одному из имеющихся концептов, могут стать кандидатами на новые концепты в шаге расширения онтологии.

Для второго этапа работы алгоритма полезно применять словари синонимов, алгоритмы разрешения кореферентности и алгоритмы поиска с опечатками в словарях. Так, например, в работе [4] в качестве такого словаря используется Wikipedia, а алгоритм разрешения синонимии основан на полученном ранее онтологическом графе и исходит из того, что слова, применяемые в одном контексте, будут иметь более короткие пути в онтологическом графе. Таким образом, если в анализируемом тексте встречается объект с несколькими значениями, алгоритм находит их все в онтологическом графе и от каждой найденной вершины строит пути до вершин, соответствующих терминам и объектам в окружающем исходный объект тексте. Среди полученных подграфов выбирается граф с минимальным диаметром, и именно из него выбирается термин для разрешения синонимии.

Первый этап извлечения объектов можно выполнить несколькими способами. Среди наиболее популярных выделим несколько групп.

Первая группа алгоритмов - статистические методы извлечения именованных сущностей. Примером может служить работа [6]. Изначальная постановка задачи звучит следующим образом: исходная строка подвергается токенизации, и далее производится классификация цепочек символов. Данный подход описан в [7], и для его реализации используются факторы, основанные на и-граммах, а также на свойствах символов в извлекаемой строке (их регистр, наличие знаков препинания и т.п.). Среди открытых библиотек можно выделить [8, 9].

£

I_П_I

Базовая онтология

Корпус документов

Дополнение онтологии новыми примерами

Извлечение объектов

Поиск синонимов

Отображение на существующую онтологию

Выделение дополнительных отношений

Расширение онтологии

Определение новых концептов

Выделение отношений «¡э-а»

Выделение дополнительных отношений

Определение правил

Рис. 2. Поток формирования онтологии Fig. 2. Ontology construction flow

Оценка полученной онтологии

Собственно оценка

Ручная правка при необходимости

Вторая группа - методы, основанные на грамматиках. Наиболее простым и близким примером являются регулярные выражения [10], с помощью которых можно извлекать довольно сложные цепочки символов, представляющих собой, например, дату и время, телефон, URL и т.п. Более сложным примером использования грамматик для задач извлечения объектов может служить недавно разработанный продукт [11]. Основным преимуществом методов данной группы является то, что грамматика - это человекочитаемый текстовый документ, который легко понимать, расширять и исправлять при наличии ошибок извлечения, в отличие от методов первой группы, в которых единственный источник изменения их поведения - изменение обучающей выборки. Однако грамматики чаще всего составляются вручную, что затрудняет их использование при необходимости извлекать множество разнотипных объектов. Логично, что в связи с этим появляется множество методов генерации грамматик. В частности, для регулярных выражений используются генетические алгоритмы [12, 13], методы, основанные на словарях шаблонов [14]. Однако анализ данных работ показывает, что данные методы пока подходят лишь для узкого круга задач. Так, например, в работе [14] алгоритм используется для увеличения точности уже существующего шаблона, а в работах [12, 13] используется узкий круг примеров (телефоны и URL) с обучающими выборками, смещенными в сторону простых однотипных объектов.

В третью группу можно объединить методы, основанные на извлечении часто встречающихся цепочек токенов. К группе таких методов можно отнести алгоритмы наподобие GSP [15], Prefix-Span [16] или SPAM [17]. Каждый объект в обучающей выборке можно представить в виде последовательности токенов, причем каждый токен может сопровождаться дополнительными тэгами, обозначающими часть речи, морфологические характеристики слова. Такое описание токена вместе с его тэгами можно объединить в множество, которое в терминах Frequent Pattern Mining называется транзакцией, тогда вся цепочка токенов, преобразованная таким образом, может рассматриваться с позиции как раз алгоритмов Sequential Pattern Mining [15-17]. Применяя эти алгоритмы к преобразованным обучающим примерам, в качестве результата можно получить частотные шаблоны, которые затем напрямую преобразовать в грамматики и уточнить, например, методом, описанным в [14]. Отличительной особенностью данных методов является их гибкость: достаточно добавить несколько классов тэгов, чтобы расширить возможности такого анализа. Так, например, добавив к терму часть речи, род, падеж, число, составляющие его классы символов [10], названия словарей, в которых он встречается, и список синонимов, можно перейти из плоскости только лексического

анализа в морфологический и графематический анализ.

Определение концептов

Несмотря на то, что задача определения концептов является важнейшей в процессе построения онтологии, количество работ, посвященных данной тематике, незначительно [2]. Согласно [3], определение концептов состоит из следующих двух этапов: извлечение определения концепта и извлечение множества объектов концепта.

Определение концепта можно сформулировать в двух формах: информирующее определение, то есть текстовое, человекочитаемое определение некоторого термина (как, например, в толковых словарях), и вспомогательное определение - множество синонимов концепта, шаблоны извлечения его объектов, то есть все то, что позволит определить концепт как кластер объектов с множеством правил, объединяющих их. Информирующее определение можно сформировать, определив найденный концепт как синоним существующего, и сослаться на статью в толковом словаре, или как в [18].

Множество объектов концепта определяется на этапе извлечения объектов при наличии собственно концепта в текущей онтологии и его вспомогательного описания. В работе [5] используется дополнительный способ вспомогательного описания в виде примеров текстов, в которых встречается концепт. Такие примеры использования концепта в текстах полезны с точки зрения гипотезы Хариса [19] и позволяют найти часто встречающиеся термины и фразы вблизи концепта, так что при наличии таковых рядом с извлеченным объектом можно предположить, что объект относится к данному концепту. Если же для извлеченного объекта не находится соответствующий концепт, то он сам становится кандидатом в концепты. В работе [2] данная ситуация создания концепта регулируется экспертом.

Извлечение отношений и правил

Первая важная группа отношений для онтологии - отношения типа «¡в-а», то есть отношения, задающие иерархию концептов. Популярным методом извлечения отношений подобного рода является метод, основанный на лексико-синтаксиче-ских шаблонах [2, 4, 5, 20, 21]. В таких шаблонах отношения задаются в виде строк подобно «ИР -это ИР», «ИР является ИР» и т.п., где № - обозначение словосочетания. Также для решения данной задачи можно использовать методы синтаксического анализа и, получая дерево синтаксического разбора, извлекать из него необходимые отношения. В работе [2] предложено развитие метрики силы отношения между двумя терминами на базе [22]. Данная метрика может быть предложена как

альтернатива первым двум методам. Она позволяет кластеризовать между собой объекты в анализируемом тексте и при использовании иерархической кластеризации получать практически уже готовые иерархии объектов.

Процесс извлечения других семантических отношений не отличается от процесса извлечения иерархических отношений. Шаблоны вида «Adj NP», где Adj - прилагательное, позволяют получать свойства объектов, попадающих под шаблон NP. Шаблоны формата «NP V NP», где V - это глагол, - отглагольные отношения, например, предложение «Александр написал этот текст» определит отношение «написал» между Александром и некоторым текстом. Интересная задача извлечения временных отношений вместе с решением предложена в работе [23] - в ней дается понятие сценария, определяющего последовательность событий, между которыми есть отношения предшествования.

Одной из проблем в автоматическом извлечении отношений является то, что одни и те же отношения могут иметь различное написание, то есть имеет место проблема парафраз. Так, например, отношения «X является автором Y» и «X написал Y» - это по сути одно и то же отношение. С точки зрения разработки системы автоматического построения онтологий интересным решением кажется идея, предложенная в [24]. Суть работы - расширение гипотезы Хариса [19] до отношений так, что теперь рассматривается гипотеза о схожем семантическом значении отношений, часто встречающихся в одном контексте, то есть в схожем наборе терминов. На основе этой идеи можно реализовать алгоритм кластеризации отношений в группы отношений-синонимов.

Что касается автоматического определения правил при построении онтологий, к сожалению, работ по данной тематике мало. Наиболее близкой является все то же исследование [24], когда получаемые кластеры отношений дают возможность определить правила наподобие «если X является автором Y, то X написал Y». Однако, очевидно, это неполноценное решение проблемы извлечения правил. В некотором роде схожей задачей занимается область анализа данных, посвященная поиску частотных шаблонов (Frequent Pattern Mining) [15], в рамках которой рассматривается задача извлечения частотных правил типа «если в рассматриваемой T1 есть элементы X, то с вероятностью P в ней также будут элементы T2». Однако данные методы требуют адаптации под задачу автоматического определения правил для построения онтологии.

Методы оценки качества

Финальным этапом итерации автоматического построения онтологии является ее оценка, по-

скольку странно использовать алгоритм машинного обучения и не выполнять какую-либо оценку качества его работы. Однако задача оценки качества онтологии является нетривиальной. Было разработано несколько методов оценки качества онтологии [2]: метод на базе золотого стандарта, ручная оценка онтологии, косвенная оценка онтологии через другие приложения.

Метод золотого стандарта предполагает разработку некоторой «идеальной» онтологии по набору документов, из которой затем удаляются некоторые концепты, объекты и отношения, после чего запускается алгоритм построения онтологии и результат сравнивается с золотым стандартом. Сравнение отдельных терминов, объектов или концептов можно выполнить при помощи расстояния Левенштейна, полноту и точность извлечения отношений - непосредственно по их подсчету на золотом стандарте. Данный метод прост с точки зрения его реализации и простоты оценки с помощью него, однако обладает рядом недостатков. Во-первых, сам золотой стандарт составляется человеком, поэтому в процессе его составления невозможно избежать субъективности. Следовательно, не факт, что построенная алгоритмом в чем-то отличная онтология является ошибкой - возможно, человек что-то недосмотрел или необъективно построил какую-то часть онтологии. Во-вторых, золотой стандарт сам по себе может быть недостаточно полным, в то время как алгоритм построит более полную онтологию и, как следствие, получит заниженную оценку его точности. В любом случае требуется разбор спорных случаев сравнения экспертами.

Оценка онтологий экспертами выполняется на основе набора критериев, которыми могут быть, например, минимальность онтологии, ее конси-стентность, полнота, правильность построения иерархии. При введении шкалы оценивания (например десятибалльной) оценка представляет собой процесс заполнения анкеты, результаты которой затем усредняются по всем экспертам, и получается финальная оценка. Данный метод при наличии достаточно большого количества экспертов и точной формулировке критериев позволяет избежать фактора субъективности при оценке онтологии. Однако, безусловно, основной его проблемой является большое количество ручной работы.

Косвенный метод оценки онтологии через использующее его приложение, например поисковую систему, позволяет перенести оценку онтологии в уже исследованную плоскость. Так, например, полнота и точность поиска с использованием построенной онтологии могут косвенно говорить о ее качестве. С точки зрения реализации данный метод вообще не требует каких-либо затрат, однако надо понимать, что точность такой оценки будет самой минимальной, так как на качество работы системы в целом может влиять огромное количество факто-

ров, кроме самой онтологии. Оценка таким методом может рассматриваться как нижняя граница оценки качества алгоритма построения онтологии.

Очевидно, что процесс оценки должен представлять собой некоторую золотую середину между предложенными методами. Например, можно построить золотой стандарт и выполнить на нем первичное оценивание. Если оценка окажется неудовлетворительной, выполнить ручное оценивание случаев несовпадения с золотым стандартом и при необходимости исправить ошибки в алгоритме или в результате оценки. Наконец, при использовании онтологии в большой системе выполнить оценку качества системы в целом и, зная оценку с предыдущих этапов оценивания, оценить вклад онтологии в потерю качества всей системы.

Подводя итог, отметим, что в работе был сделан обзор базовых методов машинного обучения, используемых для задачи обучения онтологии (Ontology Learning). Рассмотрены основные алгоритмы, используемые такими системами, как BOEMIE Project [2], Kosmix [4] или Biperpedia [5], для задач извлечения объектов предметной области, концептов и отношений.

Также была предложена альтернатива статистическим методам извлечения объектов предметной области на базе подхода, используемого в Sequential Pattern Mining, который позволяет рассматривать задачу извлечения объекта с точки зрения как лексического анализа, так и графематического и морфологического.

Литература

1. Bessmertny I. Knowledge visualization based on semantic networks. Program Comp. Soft, 2010, vol. 36, no. 4, pp. 197-205.

2. Petasis G., Karkaletsis V., Paliouras G., Krithara A. and Zavitsanos E. Ontology population and enrichment: state of the art -knowledge-driven multimedia information extraction. Springer, 2011, pp. 134-166.

3. Buitelaar P., Cimiano P. and Magnini B. Ontology learning from text: methods, evaluation and applications. Journ. Frontiers in Artificial Intelligence and Applications, 2007, vol. 123, p. 180.

4. Gattani A., Doan A., Lamba D.S., Garera N., Tiwari M., Chai X., Das S., Subramaniam S., Rajaraman A. and Harinarayan V. Entity extraction, linking, classification, and tagging for social media. Proc. VLDB Endow, 2013, vol. 6, no. 11, pp. 1126-1137.

5. Gupta R., Halevy A., Wang X., Whang S.E. and Wu F. Biperpedia: an ontology for search applications. Proc. VLDB Endow, 2014, vol. 7, no. 7, pp. 505-516.

6. Nugumanova A. and Bessmertny I. Applying the latent se-

mantic analysis to the issue of automatic extraction of collocations from the domain texts, in knowledge engineering and the semantic. St. Petersburg, Springer, 2013, pp. 92-101.

7. Jurafsky D. and Martin J.H. Speech and language processing. An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River N.J., Pearson Prentice Hall, 2009, pp. 727-734.

8. Apache OpenNLP developer documentation, 2014. URL: https://opennlp.apache. org/documentation/1.6.0/manual/opennlp. html#tools.namefind.recognition (дата обращения: 28.02.2016).

9. The stanford natural language processing group. Stanford named entity recognizer, 2015. URL: http://nlp.stanford.edu/soft-ware/CRF-NER.shtml (дата обращения: 28.02.2016).

10. Фридл Дж. Регулярные выражения. М.: Символ-Плюс, 2006. 598 с.

11. Yandex, Томита-парсер, 2015. URL: https://tech.yan-dex.ru/tomita/ (дата обращения: 28.02.2016).

12. Bartoli A., Davanzo G., De Lorenzo A., Mauri M., Med-vet E. and Sorio E. Automatic generation of regular expressions from examples with genetic programming, Moore J.H., Soule T. (Eds.). Proc. 14th Intern. Conf., 2012, p. 1477.

13. Barrero D.F., Camacho D. and Moreno M.D. Automatic web data extraction based on genetic algorithms and regular expressions, Cao L. (Ed.), Data mining and multi-agent integration, Springer, 2009, pp. 143-154.

14. Li Y., Krishnamurthy R., Raghavan S., Vaithyanathan S. and Jagadish H.V. Regular expression learning for information extraction. Proc. Conf. on Empirical Methods in Natural Language Processing (EMNLP '08), 2008, pp. 21-30.

15. Aggarwal C.C. and Han J. Frequent pattern mining. Cham, Springer, 2014, pp. 261-282.

16. Pei J., Han J., Mortazavi-Asl B., Pinto H., Chen Q., Dayal U. and Hsu M.-C. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proc. 17th IEEE Intern. Conf. 2001, pp. 215-224.

17. Ayres J., Flannick J., Gehrke J. and Yiu T. Sequential PAttern mining using a bitmap representation. Zaïane, Goebel, et al. (Eds.). Proc. 8th ACM SIGKDD Intern., 2002, pp. 429-435.

18. Velardi P., Cucchiarelli A. and Petit M. A taxonomy learning method and its application to characterize a scientific web community. IEEE Trans. Knowl. Data Eng., 2007, vol. 19, no. 2, pp. 180-191.

19. Harris Z.S. Distributional structure. Journ. WORD, 1954, pp. 146-162.

20. Fader A., Soderland S. and Etzioni O. Identifying relations for open information extraction. Proc. Conf. on Empirical Methods in Natural Language Processing, 2011, pp. 1535-1545.

21. Hasegawa T., Sekine S. and Grishman R. Discovering relations among named entities from large corpora. Proc. . 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), 2004, 415 p.

22. Yang H. and Callan J. A metric-based framework for automatic taxonomy induction. Proc. of the Joint Conf. of the 47th Annual Meeting of the ACL and the 4th Intern. Joint Conf. on Natural Language Processing of the AFNLP, 2009, vol. 1, pp. 271-279.

23. Kasch N. and Oates T. Mining script-like structures from the web. Proc. of the NAACL HLT, 2010, pp. 34^2.

24. Lin D. and Pantel P. DIRT - discovery of inference rules from text. 7th ACM SIGKDD Intern., 2001, pp. 323-328.

DOI: 10.15827/0236-235X.114.047-052 Received 29.02.16

METHODS OF AUTOMATIC ONTOLOGY CONSTRUCTION Platonov A. V., Posgraduate Student, avplatonov@corp.ifmo.ru; Poleschuk E.A., Posgraduate Student, eapoleschuk@corp.ifmo.ru (The National Research University of Information Technologies, Mechanics and Optics, Kronverksky Ave. 49, St. Petersburg, 197101, Russian Federation) Abstract. The article describes an automatic domain ontology generation process using input text corpora. In particular, it describes the processes similar to Biperpedia, BOEMIE Project systems, etc. This paper includes a description

of basic steps of automatic ontology construction, specifically a domain-object extraction process, concept (i.e. terms that combine an object set) extraction process, as well as the process of semantic relations and rules extraction. This paper reviews algorithms for each steps of an ontology construction process. There is a named entity recognition task and regular expression generation based on a genetic programming approach for a domain-object extraction process. The authors propose an idea of using a sequential pattern mining approach for term sequences extraction for an object identification process. The paper contains a description of basic steps of a concept extraction task and a review of a concept attributes extraction task. The article also describes a lexico-syntactic pattern approach for a domain semantic relation extraction process. The authors propose an approach to this task based on association rules mining like in a frequent pattern mining approach. The paper includes three methods of ontology learning evaluation, specifically: a golden sample method, a human evaluation method and an indirect method using client-application evaluation. The paper describes positive and negative aspects of each method and proposes a compromise to estimate the quality of a model.

Keywords: ontology, named entity recognition, semantic relation extraction.

References

1. Bessmertny I. Knowledge visualization based on semantic networks. Program Comput Soft. 2010, vol. 36, no. 4, pp. 197-205.

2. Petasis G., Karkaletsis V., Paliouras G., Krithara A., Zavitsanos E. Ontology Population and Enrichment: State of the Art - Knowledge-Driven Multimedia Information Extraction. 2011, Springer Publ., pp. 134-166.

3. Buitelaar P., Cimiano P., Magnini B. Ontology learning from text: Methods, evaluation and applications. Journ. Frontiers in Artificial Intelligence and Applications. 2007, vol. 123, p. 180.

4. Gattani A., Doan A., Lamba D.S., Garera N., Tiwari M., Chai X., Das S., Subramaniam S., Rajaraman A. and Harina-rayan V. Entity extraction, linking, classification, and tagging for social media. Proc. VLDB Endow. 2013, vol. 6, no. 11, pp. 1126-1137.

5. Gupta R., Halevy A., Wang X., Whang S.E., Wu F. Biperpedia: an ontology for search applications. Proc. VLDB Endow. 2014, vol. 7, no. 7, pp. 505-516.

6. Nugumanova A., Bessmertny I. Applying the Latent Semantic Analysis to the Issue of Automatic Extraction of Collocations from the Domain Texts. Knowledge Engineering and the Semantic. St.-Petersburg, Springer Publ., 2013, pp. 92-101.

7. Jurafsky D., Martin J.H. Speech and language processing. An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River N.J., Pearson Prentice Hall Publ., 2009, pp. 727-734.

8. Apache OpenNLP Developer Documentation. 2014. Available at: https://opennlp.apache.org/documentation/1.6.0/ manual/opennlp.html#tools.namefind.recognition (accessed February 28, 2016).

9. Stanford Named Entity Recognizer. 2015. The Stanford Natural Language Processing Group. Available at: http://nlp.stanford.edu/software/CRF-NER.shtml (accessed February 28, 2016).

10. Friedl J. Mastering regular expressions. 3rd ed., Farnham, O'Reilly Publ., 2006.

11. Yandex, Tomita-parser. 2015. Available at: https://tech.yandex.ru/tomita/ (accessed February 28, 2016).

12. Bartoli A., Davanzo G., De Lorenzo A., Mauri M., Medvet E., Sorio E. Automatic generation of regular expressions from examples with genetic programming. J.H. Moore, T. Soule (Eds.). Proc. 14th Intern. Conf. 2012, p. 1477.

13. Barrero D.F., Camacho D., Moreno M.D. Automatic Web Data Extraction Based on Genetic Algorithms and Regular Expressions. Cao (Ed.) 2009. Data Mining and Multi-agent Integration. Springer Publ., pp. 143-154.

14. Li Y., Krishnamurthy R., Raghavan S., Vaithyanathan S., Jagadish H.V. Regular Expression Learning for Information Extraction. EMNLP '08 Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2008, pp. 21-30.

15. Aggarwal C.C., Han J. Frequent pattern mining. Cham, Springer Publ., 2014, pp. 261-282.

16. Pei J., Han J., Mortazavi-Asl B., Pinto H., Chen Q., Dayal U., Hsu M.-C. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth, 17th IEEE Int. Conf. 2001, pp. 215-224.

17. Ayres J., Flannick J., Gehrke J., Yiu T. Sequential pattern mining using a bitmap representation. Zaiane, Goebel (Ed.). Proc. of the 8th ACM SIGKDD Int. Conf. 2002, pp. 429-435.

18. Velardi P., Cucchiarelli A., Petit M. A Taxonomy Learning Method and Its Application to Characterize a Scientific Web Community. IEEE Trans. Knowl. Data Eng. (IEEE Transactions on Knowledge and Data Engineering). 2007, vol. 19, no. 2, pp. 180-191.

19. Harris Z.S. Distributional Structure. Journ. Word. 1954, pp. 146-162.

20. Fader A., Soderland S., Etzioni O. Identifying Relations for Open Information Extraction. Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2011, pp. 1535-1545.

21. Hasegawa T., Sekine S., Grishman R. Discovering relations among named entities from large corpora. ACL '04 Proc. of the 42nd Annual Meeting on Association for Computational Linguistics. 2004, pp. 415.

22. Yang H., Callan J. A metric-based framework for automatic taxonomy induction. Proc. of the Joint Conf.of the 47th Annual Meeting of the ACL and the 4th Int. Joint Conf. on Natural Language Processing of the AFNLP. 2009, vol. 1, pp. 271-279.

23. Kasch N., Oates T. Mining Script-like Structures from the Web. Proc. of the NAACL HLT. 2010, pp. 34-42.

24. Lin D., Pantel P. DIRT - discovery of inference rules from text. The 7th ACM SIGKDD Int. Conf. 2001, pp. 323-328.

Term Extraction from Chinese Texts Without Word

Segmentation

Chuqiao Yu, Ma Pengyu, Bessmertny I. A., Platonov A.V., Poleschuk E.A.

ITMO University Saint Petersburg, Russian Federation bia@cs.ifmo.ru

Abstract — The paper is dedicated to the problem of automatic term extraction from natural language texts. One of the first steps in this topic is building a domain thesaurus. Well approved methods of terms extraction based on word frequencies exist for alphabetic languages. Direct application of these methods for hieroglyphic texts is challenged because of missing spaces between words. The sentence segmentation task in hieroglyphic languages is usually solved by dictionaries or by statistical methods, particularly, by means of a mutual information approach. Sentence segmentation methods, as well as methods of terms extraction, separately, do not reach 100 percent precision and recall, and their combination just increases the number of errors. The aim of this work is to improve recall and precision of domain terms extraction from hieroglyphic texts. The proposed method is to identify repetitions of the two, three or four symbol sequences in each sentence and correlation of occurrence frequencies for these sequences in the target domain and contrast documents collection. According to the research, it was stated that a trivial ranking of all possible symbol sequences allows extracting only frequently used terms. Filtering of symbol sequences by their ratio of frequencies in the domain and in the contrast collection gave the possibility to extract reliably frequently used terms and to find satisfactory rare domain terms. Some results of terms extraction for the "Geology" domain from a Chinese text are presented in this paper. A set of articles from the newspaper "Renmin Ribao" was used as a contrast collection and some satisfactory results were obtained.

Index Terms — text mining, document corpus, contrast collection, Chinese language, words segmentation, term extraction, domain thesaurus

I. Introduction

Text mining is a way to considerably enhance an efficiency in the use of information resources stored as text documents [1]. State-of-the-art approaches for terms extraction in alphabetic languages show good quality, but in most cases, in non-alphabetic languages, these algorithms may not be applied to the task.

One of the priority tasks in this sphere is an automatic compilation of a domain thesaurus. The most popular method is based on a Bag-of-words model [1,2] which ignores the links between words and sentences and which has sufficiently tested methods of domain terms extraction among which latent semantic analysis should be mentioned [3].

II. Problem Statement and Related Work

A specific feature of hieroglyphic writing, particularly of chinese, is missing blanks be-tween words, which yields the

problem of sentence segmentation. Thus, the task of terms extraction is divided into a text segmentation into words and subsequent term extraction. Despite the rules of segmentation based on dictionaries [4], the task of segmentation of hieroglyphic texts has no unequivocal solution even using dictionaries [5]. Moreover, using the rules is available mainly for native speakers. The statistical methods of sentence segmentation like mutual information [6] allow dictionaries to be dispensed with but do not ensure a definitive segmentation. It said in the paper [6] the ratios of precision and recall of a text segmentation into words do not exceed 0.9.

The methods of extracting chinese terms from already segmented texts are most frequently based on well-proven TF-IDF (Term Frequency-Inverted Document Frequency) algorithms [7, 8]. The paper [7] proposed a modification of the TF-IDF algorithm by adding to it information measure DI (Distribution Information), the precision not exceeding 0.68, and recall - 0.77. If sentence segmentation errors are taken into account these figures should be adjusted to the values of 0.6 and 0.7 respectively. The paper [8] shows that for extracting rare terms it is proposed using a text body at least3010 words and ignoring words that occur less than three times. It is highly doubtful that in this case no keywords are lost at all when using the TF-IDF algorithm. Thus, the known research is based on separation of phases of text segmentation and term extraction, and the declared results demonstrate a great spread in the values of precision and recall, which evidences an underdevelopment of this topic.

This paper proposes avoiding the sentence segmentation phase and using all possible symbol sequences between punctuation marks as prospective terms. The basic idea of the proposed approach consists in detecting frequently used symbol sequences and their filtration depending on occurrence frequencies in a domain and a contrast collection.

III. distinctive Characteristics of Hieroglyphic Languages

A hieroglyph is the minimal lexical unit of hieroglyphic languages including Chinese. Hieroglyphics differ from words of alphabetic languages: each hieroglyph can have multiple meanings. The semantic value of concatenation of several hieroglyphs may have different from a semantic value of these hieroglyphs separately. For instance, if the

hieroglyph ^denotes movement from inside to outside,

and P - mouth or any orifice, lBP means leaving or driving away. Despite the presence of more accurate hieroglyphs P^l and I denoting door and gate respectively,

the combination lBP is used to denote both leaving a building and driving away from a parking lot. Thus, unlike alphabetic letters, each hieroglyph has a meaning, and almost any combination of hieroglyphs can be interpreted in some manner. This gravely complicates the set objective. On the other hand, as shown above, unification of hieroglyphic combinations is in place, which enables detection of statistically significant sequences.

The Chinese language is distinguished by a pretty rigid word order and extremely simple grammar: there are no declensions, conjugations, tenses, or numbers. Consequently, no lemmatization stage in processing Chinese texts is required. Interrogative sentences have the same work order as declarative ones but use interrogatory words at the end of a sentence. All this makes Chinese rather appealing as an object of automatic term extraction.

Finally, hieroglyphic languages are distinguished by missing blanks between words on ac-count of its being no problem for the native speaker. Just as we do not read by letters, Chinese do not interpret any separate hieroglyphs but recognize their stable combinations. Consequently, a similar anthropomorphic approach can be applied for automatic processing of hieroglyphic texts as well.

IV. Symbol Sequences Frequency Analysis

Let us represent a text as a sequence of symbols such as "abedefghijk" located between terminal symbols which are not only punctuation marks but also any non-hieroglyphic symbols. Taking into account that domain terms can consist of two, three, or four symbols, the following interpretations of the said sequence are possible: four-symbol - abed, bede, cdef defg, efgh, fghi, ghij, hijk, three-symbol - abc, bed, cde, def efgfgh, ghi, hij, ijk, two-symbol - ab, be, cd, de, ef, fg, gh, hi, ij, jk. Some of them are domain terms, some are general technical terms, and some are common words, the rest being meaningless combinations.

Let Geology be a domain and a reference text from the book "ffiM^Siffl" is translated as "Geology Foundation (4th Edition)" (ISBN: 978-7-04-016565-4). The volume of this text file is 419kB where 5083, 8160, and 13560 substrings occurring more than once per 4, 3, and 2 symbols respectively were obtained. Results of these symbol substrings extraction and ranking by their occurrences are given in Table 1.

Apparently, a direct frequency analysis allows only frequently used domain terms and common words to be detected without differentiating them. This experiment demon-strates that direct frequency analysis successfully extracts words from a large text without a prior word segmentation. Though, we should admit that the termhood of extracted words decreases quickly as the number of their occurrences goes down. For instance, precision of terms

extraction among 100 the most frequently used four-symbol terms is 60% as among words used 10 is just 47.5%.

V. A Contrastive Terms Extraction Approach

A traditional approach to improving the quality of domain term extraction is using a contrast collection referring to another domain, or a general collection referring to no domain [9]. All existing methods encourage in one way or another the presence of a prospective term in a domain collection and penalize for its presence in the contrast one. One of the first papers in this direction was the paper [10] which calculates Weirdness as the ratio of word frequencies in domain and contrast collections. It should be noted that in Chinese texts that are not broken into words, with this approach singularity should often manifest itself when the denominator turns to zero. This is related to the circumstance that sequences including fragments of terms and common words may well be unique.

TABLE I. Results of a Symbol Sequences Direct Frequency Analysis.

Other modifications of TF-IDF approach [11-15] are also empirical, rely on various hypotheses on the nature of terms distribution in the domain and contrast collections. The diversity as well as the absence of a clearly expressed preference of any of the existing methods of detecting the

Number of occurrences Sequence Translation Type of sequence

943 sedimentation domain term

909 formation domain term

803 rm mineral domain term

779 subsurface rock domain term

724 mineral deposit domain term

641 diastrophic movement domain term

600 mm cave deposits domain term

487 mm break up domain term

450 building common word

405 volcano domain term

393 mm Earthquake domain term

359 ^m metamorphism domain term

342 principal common word

332 to name common word

317 ingredient common word

301 mm geology domain term

287 mm material common word

286 movement common word

285 Earth common word

284 this kind of word-group

termhood of words give evidence that no solution to this problem has yet been found.

During the attentive consideration of results of direct frequency analysis of chinese texts a regularity was detected that untranslatable four- and three-hieroglyph sequences are most often composed of terms or common words with added prepositions or other fragments. consequently, if common words are detected in the contrast collection, meaningless combinations of symbols can be filtered. Thus, the following approach is proposed to filter a list obtained on the basis of frequency analysis. Let the sequence abcd occur in the domain collection, which includes the fragments abc, bed, ab, and cd. This sequence is included into a terms list only when the probability of presence of not just the sequence itself but of any of its fragments in the domain collection is higher than in the contrast c:

p(abcdg)>p(abcdc), p(abcg)>p(abcc), p(bcdg)>p(bcdc), p(abg)> p(abc), p{abg) >p(cdc).

VI. Results of Experiments

Applying the proposed approach to the geologic topic suggested us to give the priority to four-symbol words despite they have much less frequencies than three- and two-symbol words because long words reflect more specific terms.

In table 2 results of word filtration for four-symbol sequences from the said text are shown. Just one sequence has no sense. This text has |Drel|=25 terms occurring four and more times. As a contrast body a set of articles from the chinese newspaper "Renmin Ribao" on the topics "politics", "culture", "sports", "events" of the total volume about 480 thousand hieroglyphs was used. From the chosen text |Dretr|=46 words using the proposed filtration algorithm, of which |Drel|H|Dretr|=20 were domain terms.

TABLE II. Results of term extraction using a contrast collection.

Number of occurrences Sequence Translation Type of sequence

144 diastrophic movement term

117 metamorphism term

55 mineral composition term

50 rar. sedimentary mineral deposit term

40 identification mark term

40 hydrothermal deposit term

39 volcanic debris term

37 senseless

37 volcanic eruption term

34 sulfonate mineral term

In table 3 results of comparative analysis of precision reached by the direct frequency approach and the contrastive filtering are shown.

TABLE III. PRECISION of Direct Frequency Approach and contrastive Terms Extraction

Direct frequency approach Contrastive approach

Length of word, symbols Precision for the most frequently used terms Precision for low frequency terms Precision for the most frequently used terms Precision for low frequency terms

4 66% 48% 78% 65%

3 62% 35% 73% 41%

2 42% 14% 44% 16%

These results show that the direct frequency approach allows extracting long terms. This approach has satisfactory precision for domain-specific terms. The contrastive filtering increases the precision by 10-15%. Nevertheless, short terms are recognized not well. A possible explanation of it is the contrast corpus is too specific. Using technical documents as a contrast collection instead of Renmin Ribao could increase the precision.

Conclusion

As a result of the conducted research the implementability of the method of domain terms extraction from hieroglyphic texts without preliminary segmentation of phrases has been confirmed experimentally. This method has shown results comparable in precision to two-phase procedure consisting of breaking down sentences into words and extracting terms later on. Further research will be aimed at refining methods of detecting meaningless combinations of hieroglyphs and at detecting the terminess of words more precisely using methods laid down in [17] where, in order to improve the quality of selection of terms, their co-occurrence in sentences is taken into account.

References

[1] Joachims T. Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms. Kluwer Academic Machines: Methods, Theory and Algorithms. Kluwer Publishers, 2002.

[2] Wallach H.M. Topic modeling: beyond bag-of-words. Proc. 23rd Int. Conf. on Machine Learning. Pittsburgh, USA, 2006. 977-984.

[3] Nugumanova A., Bessmertny I. Applying the latent semantic analysis to the issue of automatic extraction of collocations from the domain texts. Communications in Computer and Information Science. 2013. Vol. 394. 92-101. DOI: 10.1007/978-3-642-41360-5_8

[4] Taiwanese principles of text segmentation. http://ip194097.ntcu.edu.tw/TG/CompLing/hunsu/hunsu.htm.

[5] Xue N. Chinese word segmentation as character tagging. Computational Linguistics and Chinese Language Processing, 2003. Vol. 8. No 1. 29-48.

[6] Zeng D., Wei D., Chau M., et al. Domain-specific Chinese word segmentation using suffix tree and mutual information.

Information Systems Frontiers. 2011. Vol. 13. No 1. 115-125. DOI: 0.1007/s10796-010-9278-5

[7] Huang L., Wu Y., Zhu Q. Research and improvement of TFIDF feature weighting method. Computer Science. 2014. Vol. 41. No 6. 204-208.

[8] Li X. Zhao Sh., Lao Y., et al. Statistics law of same frequency words in Chinese texts and its application to keywords extraction. Application Research of Computers. Vol. 33. No. 4. 1007-1012.

[9] Conrado M.S., Pardo T.A.S., Rezende S.O. A machine learning approach to automatic term extraction using a rich feature set.

Proc. NAACL HLT Student Research Workshop. Atlanta, USA, 2013. P. 16-23.

[10] Ahmad K., Gillam L., Tostevin L. University of surrey participation in TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER) II Proc. 8th

Text Retrieval Conference TREC. Gaithersburg, USA, 1999. 717.

[11] Penas A., Verdejo F. Gonzalo J, Corpus-based terminology extraction applied to information access. Proceedings of Corpus Linguistics. 2001. V. 2001. 458-465.

[12] Kim S.N., Baldwin T, Kan M.-Y. An unsupervised approach to domain-specific term extraction. Proc. Australasian Language Technology Association Workshop. 2009. 94-98

[13] Basili R. A contrastive approach to term extraction. Proc. 4th Terminological and Artificial Intelligence Conference (TIA2001). Nancy, France, 2001.

[14] Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies using domain prevalence and tendency. Proc. 6th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. Vol. 70. 47-54.

[15] Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization. Proc. 14th Int. Conf. on Machine Learning (ICML). 1997. V. 97. P. 412-20.

[16] Astrakhantsev N.A. Automatic term extraction from a domain text collection by using Wikwpedia. Trudy ISP RAS. 2014. Vol. 26. № 4. 7-20. DOI: 10.15514/ISPRAS-2014-26(4)-l

[17] Nugumanova A.B. Bessmertny I.A. Pesina P., Baiburin E.M. Semantic relations in text classification based on Bag-of-words model. Programmnye produkty i sistemy. 2016. No. 2. 89-99. DOI: 10.15827/0236-235X.114.089-099

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.