Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Диконов Вячеслав Григорьевич

  • Диконов Вячеслав Григорьевич
  • кандидат науккандидат наук
  • 2023, ФГБОУ ВО «Уральский государственный педагогический университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 180
Диконов Вячеслав Григорьевич. Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «Уральский государственный педагогический университет». 2023. 180 с.

Оглавление диссертации кандидат наук Диконов Вячеслав Григорьевич

Введение

Глава 1. Язык UNL

1.1 С емантиче ские с ети

1.1.1 Понятие семантической сети

1.1.2 Типы семантических сетей

1.1.2.1 Онтологические сети

1.1.2.1.1 Общая логическая основа

1.1.2.1.2 Современный этап

1.1.2.1.3 Монотонная логика

1.1.2.2 Лексические сети

1.1.2.2.1 Wordnet

1.1.2.2.2 РуТез

1.1.2.3 Ассертивные сети

1.1.2.3.1 Реляционные сети

1.1.2.3.2 Графы зависимостей

1.1.2.3.3 Структуры МСТ

1.1.2.3.3.1 Синтаксическая структура

1.1.2.3.3.2 Семантическая структура

1.1.2.3.4 Пропозициональные сети

1.2 Язык-посредник

1.2.1 Предыстория

1.2.2 Проект UNL

1.2.3 Специфические понятия и термины UNL

1.2.4 Элементы и формат графов UNL

1.2.4.1 Гиперузлы

1.2.4.2 Универсальные слова

1.2.4.3 Отношения

1.2.4.4 Атрибуты

1.2.5 Расширенная схема кодирования наклонения и модальности в

1.2.5.1 Что такое модальность

1.2.5.2 Средства выражения модальности в

1.2.5.3 Стандартный набор модальных атрибутов

1.2.5.3.1 Неполнота набора атрибутов модальности

1.2.5.3.2 Отсутствие системности и организации атрибутов

1.2.5.3.3 Недостаточная строгость определений

1.2.5.3.4 Неудачные названия атрибутов

1.2.5.4 Принципы доработанной системы модальных атрибутов

1.2.5.4.1 Стандартные модификаторы

1.2.5.4.2 Обобщающие атрибуты

1.2.5.4.3 Систематизированные названия атрибутов

1.2.5.4.4 Альтернативные названия атрибутов

1.2.5.4.5 Модальность и отрицание

1.2.5.4.6 Комбинации атрибутов

1.2.6 Лексические функции в

1.2.7 Сравнение и сопряжение со структурами МСТ

Глава 2. Конвертер

2.1 Техническая основа

2.1.1 Система ЭТАП

2.1.2 Понятия и термины системы ЭТАП

2.1.3 Дерево зависимостей

2.1.4 Доступная семантическая информация в ЭТАП

2.1.5 Достоинства и ограничения системы ЭТАП

2.2 Модуль конверсии

2.2.1 Используемые методы и подходы

2.2.1.1 Место ЦЫЪ в архитектуре системы ЭТАП

2.2.1.2 Основные сведения о правилах конверсии

2.2.2 Процесс конверсии

2.2.2.1 Стадия 1 - Разметка синтаксического дерева

2.2.2.2 Стадия 2 - Разрешение лексической неоднозначности

2.2.2.2.1 Достигнутые в мире результаты

2.2.2.2.2 Правиловый механизм разрешения неоднозначности

2.2.2.2.2.1 Проблемы анализа контекста с помощью правил ЭТАП

2.2.2.2.2.2 Используемые правила

2.2.2.2.3 Интерактивное разрешение неоднозначности

2.2.2.3 Стадия 3 - Преобразование структуры в семантический граф

2.2.2.3.1 Преобразование вспомогательных и модальных глаголов

2.2.2.3.2 Перевод отношений

2.2.2.3.3 Перевод морфологических признаков

2.2.2.3.4 Создание гиперузлов

2.2.3 Оценка качества работы конвертера

2.2.4 Возможности альтернативного использования графов в ЭТАП

2.2.4.1 Альтернативный перевод

2.2.4.2 Синтез текста из графов другого семантического языка

2.2.4.2.1 Сходства иЖ и СемЭтап

2.2.4.2.2 Различия

Глава 3. Словарь концептов ЦЫЪ

3.1 Общий словарь Ц++ ЦЖ и его реализация в ЭТАП

3.2 Устройство общего словаря

3.2.1 Список концептов

3.2.2 Семантическая сеть

3.2.2.1 Онтологическая структура

3.2.2.2 Семантическая структура

3.2.2.3 Аргументная структура

3.2.3 Локальные словари

3.2.4 Сопряжение с онтологией

3.3 Конструктор UW

Заключение

1. Полученные результаты

2. Личный вклад

Список литературы

Приложение А

Приложение Б

Приложение В

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language»

Введение

Настоящая диссертационная работа посвящена семантическому анализу для представления смысла текстов на разных естественных языках при помощи искусственного языка-посредника.

Актуальность исследования обусловлена тем, что наблюдаемый в настоящее время постоянный рост объема неструктурированной или слабо структурированной текстовой информации на различных языках требует создания эффективных инструментов для работы с ней. Такие средства должны позволить быстро и точно осуществлять поиск, рубрикацию и иную обработку текстов на уровне смысла. Одновременно с этим должен быть преодолен как языковой барьер, так и устранены предпосылки для информационного, а вслед за тем культурного и политического доминирования одного языкового лагеря над всеми странами мира.

Настоящее исследование непосредственно направлено на решение проблемы языкового барьера при коммуникации через Интернет. Оно составляет часть большого международного проекта, организованного Университетом ООН, цель которого состоит в том, чтобы установить «мосты» между разными языками посредством сведения их к искусственному языку-посреднику UNL (Universal Networking Language, Универсальный Сетевой Язык). Этот язык позволяет представлять, хранить и непосредственно обрабатывать смысловое содержание произвольного текста, исходно написанного на любом естественном языке. Для каждого участвующего в проекте естественного языка должны быть разработаны две системы: «конвертер», способный переводить тексты данного языка на язык-посредник UNL, и «деконвертер», задача которого состоит в обратном преобразовании. ИППИ РАН разрабатывает такие системы для русского и английского языков. Эти системы реализованы как модули многофункционального лингвистического процессора ЭТАП. Автор настоящей работы является главным разработчиком системы конверсии для этих языков.

Степень разработанности проблемы. Прежние разработки в этой области имеют тот принципиальный недостаток, что прикладные системы не опираются на фундаментальные теоретические работы. Большинство участников проекта разрабатывало Ц№Ь-модули для своих естественных языков с помощью среды Deco/Enco, представляющей собой реализацию простого конечного автомата и дающей разработчикам лишь ограниченные возможности без опоры на какую бы то ни было теоретическую модель естественного языка.

Отличие подхода, принятого в ИППИ РАН, от других подходов к проблеме моделирования естественного языка и, в частности, Ц№Ь-конверсии состоит в том, что он включает построение целостной модели естественного языка, включающей полный объем знаний естественного языка, приближающийся к языковой компетенции носителей языка. Полнота охвата языковых фактов в ЭТАП позволяет анализировать текст без заметных смысловых потерь, т. е. извлекать из него весь смысл, который выражен в нем чисто языковыми средствами. Если текст допускает несколько альтернативных осмыслений по причине многозначности использованных автором языковых средств, то вступает в действие модуль интерактивного разрешения неоднозначности, позволяющий выбрать нужную интерпретацию. Все это превосходит возможности большинства мировых аналогов лингвистического процессора ЭТАП. Это же обстоятельство ставит в особое положение модуль конверсии Ц№Ц разработанный в рамках данного проекта.

Цель исследования состоит в создании системы семантического анализа (конверсии) русского и английского языков для включения ее в качестве компонента в многоязычную систему коммуникации в Интернете.

Поставленной целью продиктованы следующие задачи исследования: 1. Разработка детальной модели семантики естественного языка, покрывающий основную часть семантически нагруженных грамматических и лексико-грамматических категорий, синтаксических и семантических конструкций и ряда лексических функций. Модель включает создание

полного набора семантических элементов (лексических единиц UNL, атрибутов и семантических отношений).

2. Разработка комплекса правил конверсии, интерпретирующих все семантически значимые элементы естественного языка (слова, морфологические категории, синтаксические конструкции) в терминах универсальных элементов языка UNL.

3. Создание необходимых лингвистических ресурсов (словаря языка UNL -лексико-семантической базы знаний, включающей набор концептов UNL и их связи с лексикой различных языков и внешними лингвистическими ресурсами в т.ч. онтологиями и словарями).

4. Реализация разработанной модели в качестве модуля лингвистического процессора ЭТАП.

5. Разработка диалоговой системы для поддержки функциональности полуавтоматической лексической и синтаксической дизамбигуации.

6. Разработка метода интеграции словарей естественных языков со словарем универсальных концептов UNL. Построение многоязычной лексической базы данных, объединяющей словарь концептов UNL с несколькими языками разных семей (русским, английским, французским, испанским, вьетнамским, хинди и малайским) на основе платформы PIVAX [Nguyen Hong-Thai, Boitet С., Serasset G., 2007].

7. Разработка новой классификации модальных значений, выражаемых в естественных языках, и включение ее в поддерживаемый нами стандарт U++ UNL.

Предметом исследования являются выразительные возможности семантических сетей в передаче богатого разнообразия смыслов текста на естественном языке. Объектом исследования стал сам предложенный язык-посредник UNL.

Научная новизна работы заключается в том, что разработанный нами

модуль конверсии является первым опытом построения семантического анализатора естественного языка на базе интегральной лингвистической теории «Модель Смысл-Текст» [Мельчук И.А., 1974, 1995, Апресян Ю.Д., 1995]. С одной стороны, как упоминалось выше, UNL-конвертеры других языков разрабатывались в соответствующих странах вне опоры на какую-либо теоретическую рамку. С другой стороны, в рамках самой теории «Модель Смысл «Текст» опыты разработки моделей, реализованных на компьютере, еще не доходили до уровня семантики. Кроме того, нами сделан вклад в расширение и систематизацию возможностей UNL по кодированию широкого спектра модальных значений, необходимых для разных естественных языков, опробованы различные подходы к структурированию семантических графов при помощи гиперузлов. Таким образом, теоретическая значимость исследования состоит в развитии методологических аспектов многоязычной обработки текста в общем и языка-посредника UNL в частности.

Практическая ценность результатов работы заключается в возможности получения семантического представления текста на русском и английском языках и непосредственного обмена таким представлением текста с внешними системами перевода и обработки текстов, созданными другими авторами и с упором на другие естественные языки. Результаты этой работы уже использовались нашими партнерами в Испании и Франции. Самостоятельную ценность имеет накопленная в ходе проекта многоязычная лексико-семантическая база данных. Она позволяет не только предоставлять информацию различным программным инструментам компьютерной лингвистики, но и генерировать новые переводные словари для произвольных пар поддерживаемых языков и ворднет-подобные ресурсы. В частности, проект Yet Another Russnet (YARN), посвященный созданию Wordnet русского языка [Braslavski P., Ustalov D., Mukhin M., Kiselev Y., 2016] получил и использовал наши данные в форме новых синсетов русских слов.

Теоретико-методологическую базу работы составили труды зарубежных и отечественных ученых: И.А. Мельчука, Ю.Д. Апресяна и их единомышленников

по развитию теоретической модели «Смысл Текст», Ч. Пирса, Ч. Филмора, Дж. Совы и др. по развитию идеи семантических графов и используемых в них выразительных средств, Х. Учиды, Жу, Делла-Сенты по созданию языка-посредника Universal Networking Language (UNL), а также Дж. Миллера, А. Пиза, и др. по созданию тезаурусов типа Wordnet и онтологий. На защиту выносятся следующие положения:

1. Предложенные дополнения искусственного языка UNL позволяют:

• более полно и точно кодировать модальную рамку высказывания при помощи расширенного набора атрибутов модальности;

• обеспечить адекватный перевод стандартных идиоматичных выражений, которые описываются аппаратом лексических функций, между разными естественными языками при помощи обобщающих значения этих выражений специальных «универсальных слов» (Universal Word, UW), обозначающих лексические функции;

• повысить наглядность и удобство визуального чтения и редактирования графов благодаря правилу деления сложных графов на пропозиции при помощи гиперузлов.

2. Разработанный комплекс правил позволяет получать семантическое представление русского и английского текста в формате языка-посредника UNL.

3. Созданный лингвистический ресурс класса многоязычных тезаурусов обеспечивает

• все потребности модуля конверсии русского и английского текста в UNL;

• возможность перевода между русским, английским, хинди, французским языками и UNL;

• возможность получения полезной семантической информации о свойствах концептов UNL благодаря имеющейся в словаре UNL семантической сети и связям с онтологией SUMO;

• возможность автоматического порождения переводных и Wordnet-подобных словарей для всех поддерживаемых естественных языков.

Апробация работы происходила в форме докладов на конференциях и журнальных статей, которые были посвящены отдельным аспектам данной работы и использованию полученных результатов в других проектах. Всего вышло 16 публикаций совокупным объемом 153 страницы на русском и английском языках. Вот их перечень:

1. Диконов В.Г., Development of lexical basis for the Universal Dictionary of UNL Concepts // Proceedings of the International Conference Dialog.-Moscow, 2013 (10 страниц);

2. Dikonov V., English/Russian UNL Enconverter // Proceedings of the 5th International Conference on Meaning-Text Theory (МТТ'2011).-Barcelona, 2011.- pp. 48-58. ISBN 978-84-615-1716-9. (11 страниц);

3. Богуславский И.М., Диконов В.Г., Универсальный словарь концептов // Proceedings of the International Conference Dialog.-Bekasovo, 2009.- М.: РГГУ, 2009. Вып. 8(15). С. 91-96. ISBN 978-57281-1102-3. (6 страниц);

4. Диконов В.Г., Богуславский И.М., Semantic Network of the UNL Dictionary of Concepts // Proceedings of the SENSE Workshop on conceptual Structures for Extracting Natural Language Semantics.-Moscow, 2009.- М.: ВШЭ. (7 страниц. Входит в базу цитирования SCOPUS. Помимо физической публикации ВШЭ также была напечатана за рубежом в сборнике CEUR Workshop Proceedings.- 2009, p. 476);

5. Диконов В.Г., Establishing Links between Natural Languages and the Universal Dictionary of Concepts // MONDILEX Third Open Workshop «Metalanguage and Encoding scheme design for digital lexicography».-Brno, 2009.- С. 27-36. ISBN: 978-80-7399-745-8. (9 страниц);

6. Диконов В.Г., Атрибуты модальности в UNL // Информационные

технологии и системы (ИТиС'09). Сборник трудов 32-ой Конференции молодых ученых и специалистов ИППИ РАН.- Бекасово, 2009.- М., 2009. С. 230-237. ISBN 978-5-901158-11-1. (8 страниц);

7. Диконов В.Г., Богуславский И.М., Universal Dictionary of Concepts // MONDILEX First Open Workshop «Lexicographic Tools and Techniques».- Moscow, 2008.- С. 31-41. ISBN: 978-5-9900813-6-9. (11 страниц);

8. Диконов В.Г., Развитие системы построения семантического представления текста с использо-ванием языка-посредника UNL на базе лингвистического процессора ЭТАП-3 // Информационные технологии и системы (ИТиС'08). Сборник трудов 31-ой Конференции молодых ученых и специалистов ИППИ РАН.- Геленджик, 2008.- М., 2008. С. 195-200. ISBN 978-5-901158-08-01. (6 страниц);

9. Диконов В.Г., UNL Graph Structure // Информационные процессы.-2008.- М., Т. 8 № 1. (14 страниц. Журнал входит в список рекомендованных изданий ВАК);

10.Диконов В.Г., Обзор реализации семантического языка UNL в системе ЭТАП // Информационные технологии и системы (ИТиС'07). Сборник трудов 30-ой Конференции молодых ученых и специалистов ИППИ РАН.- Звенигород, 2007 г..- М., 2007. С. 141-149. (14 страниц).

11.Диконов В.Г., Simulation of Background Knowledge and Bridging In Russian // Proceedings of the International Conference Dialog.- Moscow, 2019.- С. 177-193 (17 страниц. Входит в базу цитирования SCOPUS.);

12.Диконов В.Г., Generation of Text from Ontological Semantic Representation in ETAP-3 // Proceedings of the International Conference Dialog.- Moscow, 2017 (10 страниц)

13.Диконов В.Г., Порицкий В., A virtual russian sense tagged corpus and catching errors in a Russian ^ semantic pivot dictionary // Proceedings of the International Conference Dialog.- Moscow, 2014 (9 страниц. Входит в

базу цитирования SCOPUS.);

14.Диконов В.Г., Эксперимент по автоматизированному нахождению правил для разрешения неоднозначности на основе семантических классов значений слов // Информационные технологии и системы (ИТиС'13). Сборник трудов 36-ой Конференции молодых ученых и специалистов ИППИ РАН.- Светлогорск, 2013. (6 страниц)

15.Диконов В.Г., Эксперимент по автоматизации определения семантики валентных связей с помощью машинного обучения // Информационные технологии и системы (ИТиС'12). Сборник трудов 35-ой Конференции молодых ученых и специалистов ИППИ РАН.-Петрозаводск, 2013. (5 страниц)

16.Диконов В.Г., Дяченко П.В., Эксперимент по построению синтаксической структуры английских предложений с использованием заранее известных фрагментарных данных // Информационные технологии и системы (ИТиС'10). Сборник трудов 33-ой Конференции молодых ученых и специалистов ИППИ РАН.- Геленджик, 2010.- М.: ИППИ, 2010. С. 310-319. ISBN 978-5-901158-12-8. (10 страниц).

Как указано в списке выше, одна из публикаций была сделана в журнале «Информационные процессы», который входит в список ВАК. В этой статье описываются свойства семантических графов UNL, предлагается реализованное в конвертере формальное правило их деления на отдельные пропозиции и дополнительное отношение UNL для выражения кореференции, которое может дополнить используемый стандарт UNL. Еще три работы попали в международную базу цитирования SCOPUS (Scopus Author ID: 55920370900). Часть содержания этих статей и докладов включена в текст данной диссертации.

Диссертационная работа состоит из введения, трех глав, заключения, списка использованной литературы и приложений. Объем основного текста диссертации составляет 165 страниц. Диссертация содержит 37 рисунков, 20 таблиц. Список литературы состоит из 103 источников, из них 88 на иностранных языках.

Во введении указывается цель работы, обосновывается ее актуальность, новизна, теоретическая и практическая значимость, приводятся задачи, предмет и объект исследования, указываются положения, выносимые на защиту, сведения об апробации и структуре работы.

В первой главе описывается ключевая идея семантической сети, которая лежит в основе языка-посредника UNL, история развития и классификация типов семантических сетей. Приводятся примеры и дается краткий обзор некоторых реализаций формализма семантических сетей, в том числе лингвистических ресурсов, которые оказали влияние на нашу работу. Далее следует описание поддерживаемой нами версии языка UNL - U++ UNL, его истории, основных понятий, элементов языка UNL и внесенного нами усовершенствования — расширенной схемы кодирования наклонения и модальности.

Во второй главе дается обзор технической основы разработанного модуля конверсии английского и русского текста в UNL - лингвистического процессора ЭТАП и описывается принцип работы конвертера UNL, в том числе стадии преобразования синтаксического дерева в семантический граф UNL и задействованные в этом процессе комплексы правил. Кроме того, перечислены возможности альтернативного использования UNL в системе ЭТАП, сходства и различия UNL и семантического языка СемЭТАП.

В третьей главе описано устройство и принципы разработанного нами лингвистического ресурса - словаря U++ UNL, приводятся сведения о его развитии и достигнутых показателях.

В заключении излагаются выводы проведенного исследования и описан вклад автора диссертации.

Приложения содержат документы подтверждающие успешное применение практических результатов диссертационной работы.

Приложение А — Акт внедрения в Институте проблем передачи информации им. А.А. Харкевича Российской академии наук (ИППИ РАН).

Приложение Б — Акт внедрения в компании Tetras Libre (Франция) на

английском языке.

Приложение В — Акт внедрения в компании DAIL (Испания) на испанском языке с переводом.

Глава 1. Язык UNL 1.1 Семантические сети

В этой части первой главы описывается лежащая в основе развиваемого нами искусственного языка-посредника Universal Networking Language (UNL) идея, а также ее историческое развитие. Язык UNL представляет смысл текста в форме семантической сети и опирается на словарь концептов, который в свою очередь также организован с помощью семантических сетей. Поэтому, прежде чем перейти непосредственно к описанию языка-посредника, следует объяснить, что такое семантические сети, и как их можно использовать.

1.1.1 Понятие семантической сети

Семантическая сеть представляет собой формализованную структуру из несущих смысловую нагрузку элементов и связей между ними, которая моделирует некоторый фрагмент знания. Предметом такого моделирования могут быть понятия, объекты, события и даже целые области знания. Конфигурация сети материальным образом отражает логическое устройство моделируемого предмета, что отличает ее от обычного языкового знака, который обладает намного большей произвольностью выражения. Свойство формализованности означает, что строение семантической сети следует четко определенным правилам, которые обеспечивают единообразное материальное выражение одинаковых элементов и взаимосвязей внутри моделируемого предмета. Это позволяет извлекать из сети информацию о моделируемом предмете без доступа к нему, применяя формальные правила интерпретации к ее элементам. Благодаря этим свойствам семантические сети широко используются для записи информации предназначенной как для человека, так и для компьютера. Кроме того, они могут служить источником данных для работы алгоритмов логического вывода, которые могут извлекать дополнительную новую информацию.

Сети изображаются графически в виде графов (или пространственных фигур), которые состоят из множества узлов, связанных между собой дугами. Существует множество вариантов нотации графов, в которых применяются разные формальные приемы записи информации, обеспечивающие разные выразительные возможности. Также существуют различные нотации для линейной записи сетевых структур в виде текста. Во многих современных проектах использующих семантические сети одновременно используются эквивалентные друг другу графические и текстовые нотации. Так, в семантическом языке UNL (Universal Networking Language) применяется текстовый код для хранения и машинной обработки данных и графическое представление, которое более удобно для восприятия и редактирования человеком. Широко распространен сходный с ним формат записи RDF (W3C, RDF1.1 2014), созданный для сетевых структур данных Семантической Паутины. Сам глобальный граф Семантической Паутины, призванный обеспечить возможность осмысленного поиска и классификации ресурсов в Интернете, также является семантической сетью.

Хотя сама идея сетей и различные способы из записи развивались с античных времен, собственно термин «семантическая сеть» впервые появился в статье Ричарда Риченса, посвященной машинному переводу:

Теперь я бы хотел перейти к созданию языка-посредника, в котором устранены все структурные особенности исходного языка и остается то, что я назову «семантической сетью» или «голыми идеями». [Richens 1956]

1.1.2 Типы семантических сетей

Семантические сети стали удобным средством для самых разных отраслей знания и экономики, где требуется хранение и обработка информации.

Поставленная задача становится отправной точкой для определения правил формирования сети и выбора формальных выразительных средств, поэтому семантические сети удобно классифицировать по их назначению и способу применения. Вслед за Джоном Совой [Sowa, 1992] выделим следующие типы:

• Дефиниционные сети предназначены для формального определения своих элементов. Среди них можно выделить лексические сети, которые организуют значения слов некоторого естественного языка, и онтологические сети, которые служат для формирования необходимого для решения некоторой задачи набора понятий. Первые обычно содержатся в семантических словарях — тезаурусах, а вторые являются основной структурой онтологий.

• Ассертивные сети кодируют утверждения о фактах действительности, например о свойствах и взаимодействиях конкретных объектов. Этот тип семантических сетей может применяться для записи смысла или синтаксической структуры текста на естественном языке. К нему относятся и графы

• Импликативные сети выражают условные, вероятностные или причинные взаимосвязи между отдельными фактами действительности. С их помощью можно записывать модели причинных взаимосвязей, условия и пути выводов, алгоритмы действий.

• Исполнительные сети являются не просто статичным описанием чего-либо, но имеют некий механизм осуществления действий, например передачу фокуса между элементами и/или привязанные к ним процедуры. Они могут быть уже не только обрабатываемыми данными, но частью компьютерной программы, определяющей ее структуру и действие.

Сова также выделяет отдельные классы гибридных и обучающихся сетей. К гибридным сетям относятся системы и ресурсы, где в одной сети одновременно используются приемы характерные для разных типов сетей или одновременно

существуют несколько тесно взаимосвязанных/взаимодействующих сетей разного назначения. К таковым можно отнести, например, данные ЦЫЪ и упоминаемого далее проекта КЬ-ОКЕ, где определяемые онтологической сетью элементы становятся узлами ассертивной сети.

Еще одним важным аспектом классификации, который стал значимым за последние десятилетия, является пригодность семантической сети для непосредственной интерпретации человеком. Все семантические сети моделируют некоторый объект или фрагмент действительности, его свойства, либо поведение. Изначально все они выражались в понятной для человека форме. Это значит, что их легко читать, а их узлы, связи и комбинации таковых можно истолковать следуя логическим правилам. Однако некоторые алгоритмы, моделирующие процессы обучения, формируют особый тип сетей, информация в которых представлена в недоступном для интерпретации человеком виде. К этой группе относятся нейросети, которые частично заимствуют принцип устройства нервной системы. Информация в них закодирована с помощью конфигурации узлов и связей и приписываемых отдельным элементам числовых значений -«весов». Такие сети позволяют моделировать реакцию объекта на определенные стимулы, но сами являются неинтерпретируемым «черным ящиком», который не позволяет определить причины получения именно такого ответа на конкретный стимул, какой был получен.

Семантические сети также можно классифицировать по формальным признакам, а именно свойствам графа и сущности узловых элементов. Важными качествами графа, влияющими на вычислительную сложность его обработки, являются его древесность и цикличность. В древесной сети все узлы зависят от одного узла («корня» или «вершины») через направленные отношения, причем каждый узел имеет только одного «родителя». Отклонение от принципа древесности не позволит линейно двигаться от вершины к любому из «листьев», накапливая при этом информацию. Необходимо будет найти все возможные пути и пройти их все. В цикличном графе переходя от одного узла к другому по связям

между ними можно совершить круг и вернуться назад. Обработка такого графа требует помнить все посещенные ранее узлы во избежание зацикливания. В некоторых сетях узлы могут заключать в себя другие сети того же типа (построенные по тем же правилам). Такие узлы принято называть гиперузлами, а содержащие их графы — гиперграфами.

По свойствам узлов стоит выделить концептуальные сети, где узлами служат абстрактные понятия — концепты, реляционные сети и пропозициональные сети, которые строятся из элементарных утверждений о фактах действительности — пропозиций. Сети, в которых все узлы соединяются дугами одного типа, называются однородными, а при наличии нескольких типов дуг — неоднородными. Существенным формальным свойством соединяющих узлы дуг является арность. Чаще всего дуги соединяют два узла и тем самым являются бинарными отношениями, однако иногда используются отношения, связывающие три и более узлов — N-арные. Кроме того, дуги между узлами могут иметь направление (стрелки).

В рамках нашей работы особый интерес представляют дефиниционные и ассертивные сети, на свойствах и истории развития которых остановимся особо.

1.1.2.1 Онтологические сети

Как сказано выше, семантические сети этого типа используются когда нужно сформировать набор понятий и определить содержание этих понятий. Если такая сеть существует как самостоятельный артефакт, содержащий более одного определяемого понятия, то ее можно называть онтологией. Это соответствует модифицированному определению онтологии Грубера [Gruber, 1993] данному в [Gomez-Perez et al, 2004]:

Онтология — это формальная спецификация согласованной

концептуализации.

Концептуализация это обобщенная структура фрагмента действительности, рассматриваемая независимо от конкретных ситуаций и средств ее описания. Согласованность означает общность представлений некоторой группы людей. Онтологические сети служат формой записи онтологического знания (концептуализации действительности).

Рассмотрим типичные особенности таких сетей. Узлами, как правило, служат понятия (концепты). В качестве дуг используется направленное отношение класс-подкласс, связывающее понятие более общей категории понятий (класса) с более частными категориями (подклассами). Также принято выделять близкое отношение класс-индивид, указывающее на связь класса с его уникальными представителями (индивидами). Эти отношения формируют иерархию концептов — таксономию. Могут использоваться и другие отношения для описания свойств концептов. Структура такой сети соответствует правилу наследования свойств от вышестоящего класса ко всем входящим в него подклассам и их индивидам. При переходе на все более нижние этажи иерархии происходит накопление унаследованных свойств и формируются формальные определения понятий. Все получаемые определения считаются истинными. Любые несоответствия получаемого формального определения с моделируемыми такой сетью понятиями сигнализируют о наличии ошибок в структуре сети на вышележащих уровнях иерархии.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Диконов Вячеслав Григорьевич, 2023 год

Список литературы

1. Апресян Ю.Д. Избранные труды. Том 1: Лексическая семантика.- Школа «Языки русской культуры», 1995.- ISBN 5-88766-043-0

2. Апресян Ю.Д. Избранные трудыю Том 2: Интегральное описание языка и системная лексикография.- Школа «Языки русской культуры», 1995.- ISBN 5-88766-045-7

3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-2.- М.:, Наука, 1989

4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. Лингвистический процессор для сложных информационных систем.- М.: Наука, 1992

5. Балли Ш. Общая лингвистика и вопросы французского языка.- М. : Наука, 1955.- C. 44.

6. Богуславский И.М. Сфера действия лексических единиц. // Школа «Языки русской культуры».- M.: 1996

7. Диконов В.Г. Атрибуты модальности в UNL // Информационные технологии и системы (ИТиС'09). Сборник трудов 32-ой Конференции молодых ученых и специалистов ИППИ РАН.- М., 2009.- С. 230-237.- ISBN 978-5-901158-11-1

8. Диконов В.Г., Богуславский И.М., Тимошенко С.П. Онтология для поддержки задач извлечения смысла из текста на естественном языке // Информационные технологии и системы (ИТиС'12). Сборник трудов 35-ой Конференции молодых ученых и специалистов ИППИ РАН.- Перозаводск, 2013.

9. Диконов В.Г. Эксперимент по автоматизации определения семантики валентных связей с помощью машинного обучения // Информационные технологии и системы (ИТиС'12). Сборник трудов 35-ой Конференции молодых ученых и специалистов ИППИ РАН.- Петрозаводск, 2012

10. Диконов В.Г. Эксперимент по автоматизированному нахождению правил для разрешения неоднозначности на основе семантических классов значений слов // Информационные технологии и системы (ИТиС'13). Сборник трудов 36-ой Конференции молодых ученых и специалистов ИППИ РАН.- Светлогорск, 2013.

11. Лукашевич Н.В. Тезаурусы в задачах информационного поиска.- М.: Издательство МГУ, 2011.- 512 с.- ISBN 978-5-211-05926-9

12. Мельчук И.А. Опыт теории лингвистических моделей класса «Смысл « Текст».- М.:, Наука, 1974

13. Мельчук И.А. Русский язык в модели «Смысл«Текст».- Wiener Slawistischer Almanach, 1995

14. Тихомиров И.А. Вопросноответный поиск в интеллектуальной поисковой системе Exactus. // Труды Р0МИП'2006.- 2006.- URL: http://romip.narod.ru/romip2006/index.html

15. Adly Noha, Alansary Sameh Evaluation of Arabic Machine Translation System Based on the Universal Networking Language // NLDB'09: Proceedings of the 14th international conference on Applications of Natural Language to Information Systems .- 2009 .- pp.243-257 .- D0I:10.1007/978-3-642-12550-8_20.

16. Alansary Sameh, Nagi Magdy, Adly Noha The Universal Networking Language in Action in English-Arabic Machine Translation // Proceedings of 9th egyptian society of language engineering conference on language engineering (ESOLEC 2009) .- 2009

17. Allerton, D. J. Valency and the English Verb.- New York: Academic Press, 1982

18. Apresyan Yu., Boguslavsky I., Iomdin L., Lazursky A., Sannikov V., Sizov V., Tsinman L. ETAP-3 Linguistic Processor: a Full-Fledged NLP Implementation of the MTT // First International Conference on Meaning - Text Theory (MTT2003).- Paris: Ecole Normale Superieure, 2003 .- pp.279-288

19. Baader F., Horrocks I., Sattler U. Description logics // van Harmelen, et al..-

2008.- pp. 135-179

20. Berment V., Boitet C. Heloise — An Ariane-G5 Compatible Rnvironment for Developing Expert MT Systems Online // Proc. of COLING.- 2012

21. Bhattacharyya P. Multilingual information processing through Universal Networking Language. // Indo-UK Workshop on Lang, 2001

22. Bhattacharyya P. Indowordnet // In Proc. of LREC-10 .- 2010

23. Bhattacharyya P., Blanc E., Meena S., Boudhh S., Falaise A., Vacchani V. Building Hindi-French-English-UNL resources for SurviTra-CIFLI a linguistic survival system under construction // Seventh international symposium on natural language processing .- 2007

24. Blanc E. About and around the French Enconverter and the French Deconverter. // Universal Network Language: Advances in Theory and Applications / Carden~osa J, Gelbukh A, Tovar E, (eds).- Mexico, Research on Computing Science.- 2005.- pp. 157-166

25. Boguslavsky I. UW construction procedure // notes of U++ Consortium meeting.- Grenoble, 2007

26. Boguslavsky I. On the possibility of MT between the UNL dialects. // Lexical Issues of UNL: Universal Networking Language 2012 Panel. / Ed. Ronaldo Martins, Cambridge Scholars Publishing.- 2013.- pp.79-100 .- ISBN(13): 978-14438-5144-2

27. Boguslavsky I., Dikonov V., Frolova T., Iomdin L., Lazurskij A., Rygaev I., Timoshenko S. Combining different knowledge sources for text understanding // Proceedings of the 16th Iberian Conference on Information Systems and Technologies (CISTI).- 2021.- ISSN: 2166-0727. DOI: 10.23919/CISTI52073.2021.9476375

28. Boguslavsky I., Dikonov V., Iomdin L., Lazursky A., Sizov V., Timoshenko S. Semantic Analysis and Question Answering: a System Under Development // Computational Linguistics and Intellectual Technologies. Proceedings of the Interbnational Conference Dialog 2015.- Moscow, 2015.- p.62

29. Boguslavsky I. Guidelines for UW construction, manuscript

30. Boguslavsky I. Semantic Analysis based on linguistic and ontological resources // Proceedings of the 5th International Conference on Meaning-Text Theory (MTT'2011).- Barcelona, 2011.- pp. 25-36.- ISBN 978-84-615-1716-9.

31. Boitet C. Current machine translation systems developed with GETA's methodology and software tools. // TC.- 1986

32. Boitet C., Guillaume P., Quézel-Ambrunaz M. ARIANE-78, an integrated environment for automated translation and human revision // Proc. of COLING82, Prague, July 1982, North-Holland, Ling. series 47 .- 1982 .- pp.19— 27.

33. Boitet C., Sérasset G. On UNL as the future «html of the linguistic content» & the reuse of existing NLP components in UNL-related applications with the example of a UNL-French deconverter. // Proceedings of the 18th conference on Computational linguistics, Saarbruecken, Germany .- 2000 .- pp.768-774 .-D01:10.3115/992730.992757

34. Brachman, Ronald J. On the epistemological status of semantic networks.-Findler, 1979.- pp.3-50.

35. Brachman, Ronald J., Deborah L. McGuinness, Peter F. Patel-Schneider, Lori A. Resnick, & Alex Borgida. Living with Classic: when and how to use a KL-ONE-like language // Sowa, 1991.- pp. 401-456.

36. Braslavski P., Ustalov D., Mukhin M., Kiselev Y. YARN: Spinning-in-Progress // Proceedings of the Eight Global Wordnet Conference.- Bucharest, Romania, 2016.- pp.58-65

37. Cardenosa J., Gallardo C., Iraola L. Using an Interlingua for Document Knowledge Representation // EUSFLAT-LFA 2005.- 2005.- pp. 1231-1236.

38. Cardenosa J., Gallardo C., Iraola L., Villa M. A New Knowledge Representation Model to Support Multilingual Ontologies. A case Study // Proceedings of the 2008 International Conference on Semantic Web & Web Services, SWWS 2008.- 2008.- pp. 313-319.

39. Ceccato, S. Linguistic Analysis and Programming for Mechanical Translation.-Gordon and Breach, New York, 1961

40. Dave S., Parikh J., Bhattacharyya P. Interlingua-based English-Hindi Machine Translation and Language Divergence // Machine Translation. 16 .- 2001 .- pp. 251-304 .- D0I:10.1023/A:1021902704523

41. Dhanabalan T., Saravanan K., Geetha T.V. Tamil to UNL EnConverter // Proc. International Conference on Universal Knowledge and Language, Goa, India .2002

42. Dikonov V. Generation of Text from Ontological Semantic Representation in ETAP-3. // Proceedings of the Interbnational Conference Dialog 2017.- Moscow, 2017.- URL: https://www.dialog-21.ru/media/3969/dikonovvg.pdf

43. Dikonov V., Poritski V. A virtual russian sense tagged corpus and catching errors in a Russian ^ semantic pivot dictionary // Proceedings of the Interbnational Conference Dialog.- Moscow, 2014.- pp.128-138

44. Dikonov V. Simulation of Background Knowledge and Bridging In Russian. // Proceedings of the International Conference Dialog.- Moscow, 2019.- pp.177-193

45. Dikonov V. UNL Graph Structure // Информационные процессы Т. 8 № 1.2008

46. Fellbaum, C. (ed) WordNet: An Electronic Lexical Database.- MIT Press, 1998.-ISBN: 9780262061971

47. Fillmore, Charles J. The case for case // Universals in Linguistic Theory / E. Bach & R. T. Harms, eds.- New York: Holt, Rinehart and Winston, 1968.- pp. 188

48. Frege, Gottlob Begriffsschrift, English translation (1879) // From Frege to Gödel / J. van Heijenoort, ed.- Cambridge, MA: Harvard University Press, 1967.- pp. 182

49. Gómez-Pérez, A., Fernández-López, M., Corcho, O. Ontological Engineering: With Examples from the Areas of Knowledge Management // E-Commerce and the Semantic Web.- Springer, 2004.- DOI: https://doi.org/10.1007/b97353

50. Gruber, T. R. A Translation Approach to Portable Ontologies // Knowledge Acquisition, 5(2).- 1993.- pp.199-220.

51. Hendrix, Gary G. Expanding the utility of semantic networks through partitioning // Proc. IJCAI-75.- 1975.- pp. 115-121

52. Hendrix, Gary G. Encoding knowledge in partitioned networks.- Findler, 1979.-pp. 51-92

53. Hoekstra, R. EL.- 2007.- URL: http://www.w3.org/2007/OWL/wiki/EL

54. Hoffart, J., Yosef, Mohammed A., Bordino, I., Furstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S., Weikum, G. Robust Disambiguation of Named Entities in Text // Proc. of EMNLP, pp.782-792.- 2014

55. Klein, S., Simmons, Robert F. Syntactic dependence and the computer generation of coherent discourse // Mechanical Translation 7.- 1963

56. Kumar Parteek, Kumar Rishav Punjabi to UNL enconversion system // Sadhana. 37, 2 .- 2012 .- pp.299-318 .- D0I:10.1007/s12046-012-0060-x

57. Martelli, F., Kalach, N., Tola, G., Navigli, R. SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC) // SEMEVAL.- 2021

58. Martins, R. Lexical Issues of UNL: Chapter One // Universal Networking Language 2012 Panel.- Cambridge Scholars Publishing, 2012.- pp. 1-17.

59. Masterman, M. Semantic message detection for machine translation, using an interlingua // NPL, 1961.- pp. 438-475

60. Mel'cuk, Igor A. Towards a linguistic 'Meaning « Text' model // Trends in Soviet Theoretical Linguistics / F. Kiefer, ed..- Dordrecht: Reidel, 1973.- pp. 35-57

61. Miller, G. Nouns in WordNet // WordNet - An Electronic Lexical Database / C. Fellbaum (ed.).- MIT Press, 1998.- pp.23-47

62. Miller, G., Leacock, C., Tengi, R., Bunker, R. A semantic concordance.- 1993.-pp.303-308. DOI 10.3115/1075671.1075742.

63. Moro, A., Navigli, R. SemEval-2015 Task 13: Multilingual All-Words Sense Disambiguation and Entity Linking // SEMEVAL.- 2015

64. Moro, A., Raganato, A., Navigli, R. Entity Linking meets Word Sense Disambiguation: A Unified Approach. // Transactions of the Association for Computational Linguistics, 2:231-244.- 2014

65. Narayan, D., Chakrabarti, D., Pande, P., Bhattacharyya, P. An experience in building the indo wordnet - a wordnet for hindi // In First international conference on global WordNet, Mysore, India (Vol. 24) .- 2002

66. Navigli, R., Jurgens, D., Vannella D. SemEval-2013 Task 12: Multilingual Word Sense Disambiguation. // Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of SEMEVAL-2013, pp.222-231, Atlanta, Georgia, USA, 2013

67. Navigli, R., Ponzetto, Simone P. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network // Artificial Intelligence, 193:217-250.- 2012

68. Nguyen Hong-Thai, Boitet C, Sérasset G. PIVAX, an online contributive lexical data base for heterogeneous MT systems using a lexical pivot. // Proceedings of SNLP-2007.- Bangkok, 2007

69. Nirenburg, S., Raskin, V. Ontological Semantics.- MIT Press, 2004.- 440 p.

70. Pakray P., Barman U., Bandyopadhyay S., Gelbukh A. Semantic Answer Validation using Universal Networking Language // International Journal of Computer Science and Information Technologies (IJCSIT). VOLUME 3.- 2012.-pp.4927-4932.

71. Pakray P., Barman U., Bandyopadhyay S., Gelbukh A. A Statistics-Based Semantic Textual Entailment System // Advances in Artificial Intelligence - 10th Mexican International Conference on Artificial Intelligence, MICAI 2011, Puebla, Mexico.- 2011.- pp. 267-276, DOI:10.1007/978-3-642-25324-9_23.

72. Pakray P., Poria S., Bandyopadhyay S., Gelbukh A. Semantic Textual Entailment Recognition using UNL // Polibits. 43.- 2011.- pp. 23-27, DOI:10.17562/PB-43-3.

73. Palmer, F.R. Mood and Modality.- Cambridge University Press.- Cambridge,

2001

74. Pease, A. Ontology: A Practical Guide.- Articulate Software Press.- Angwin, CA, 2011.- ISBN 978-1-889455-10-5.

75. Peirce, Charles S. On the algebra of logic // American Journal of Mathematics 3.- 1880.- pp.15-57.

76. Peirce, Charles S. On the algebra of logic // American Journal of Mathematics 7.- 1885.- pp.180-202.

77. Peirce, Charles S. Manuscript 514.- 1909

78. Pilehvar, M.T., Camacho-Collados J. WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations.- NAACL 2019.-Minneapolis, USA, 2019

79. Richens, Richard H. (1956) Preprogramming for mechanical translation, Mechanical Translation 3:1, 20-25.

80. Roberts, Don D. The Existential Graphs of Charles S. Peirce.- The Hague: Mouton.- 1973

81. Sagot B., Fiser D. Building a free French wordnet from multilingual resources // Ontolex 2008, Marrakech, Morocco .- 2008

82. Schank, Roger C. Conceptual Information Processing.- Amsterdam: North Holland.- 1975

83. Schank, Roger C., Tesler, Larry G. A conceptual parser for natural language // Proc. IJCAI, 1969.- 569-578.

84. Schwab D., Goulian J., Tchechmedjiev A., Blanchon H. Ant colony algorithm for the unsupervised word sense disambiguation of texts // Comparison and evaluation. In Proceedings of the 24th International Conference on Computational Linguistics (COLING), Mumbai, India.- 2012.- pp.8-15

85. Schwab D., Lafourcade M., Prince V. Antonymy and Conceptual Vectors.-2002.- DOI:10.3115/1072228.1072289

86. Shapiro, S.C. A net structure for semantic information storage, deduction and retrieval // Proc. IJCAI, 1971.- pp 512-523.

87. Shapiro, S.C. The SNePS semantic network processing system.- Findler, 1979.-pp. 263-315.

88. Somers, H.L. Valency and Case in Computational Linguistics.- Edinburgh: University Press, 1987

89. Sowa, John F. Chapter 5 Conceptual Graphs: Foundations of Artificial Intelligence. Vol.3.- 2008.- DOI:10.1016/S1574-6526(07)03005-2.

90. Sowa, John F. Conceptual graphs for a data base interface // IBM Journal of Research and Development 20:4.- 1976.- 336-357.

91. Sowa, John F. Semantic Networks. / S. C. Shapiro (ed.) // Encyclopedia of Artificial Intelligence.- Wiley, 1992

92. Tesnière L. Éléments de Syntaxe Structurale, corrected edition.- Paris: Librairie C, 1959

93. Thuyen Phan, Hung Vo Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language // IEIE Transactions on Smart Processing and Computing. 5 .- 2016 .- pp.77-84 .-DOI:10.5573/IEIESPC.2016.5.2.077.

94. Thuyen Phan, Hung Vo Application UNL Tools for Vietnamese // International Journal of Engineering Research and. V4. .- 2015 .-DOI:10.17577/IJERTV4IS030664.

95. Tomokiyo M., Chollet G. VoiceUNL: a proposal to represent speech control mechanisms within the Universal Networking Digital Language // 2003

96. Uchida H. Universal Networking Language (UNL): Specifications Version 2005.- UNDL Foundation, 2005.- URL: http://www.undl.org/unlsys/unl/unl2005/

97. Uchida H., Zhu M. The universal networking language beyond machine translation. // Proc. Int. Symposium on Language in Cyberspace.- Seoul, Korea, 2001.- pp. 1-15

98. Uchida, H., Zhu, M., Della Senta, T. A gift for a millennium.- IAS/UNU, Tokyo, 1999.

99. von Wright, E.H. An essay in modal logic.- Amsterdam: North Holland, 1951

100.W3C. OWL Web Ontology Language: Guide.- 2004.- URL: https://www.w3.org/TR/owl-guide

101.W3C. RDF 1.1 Concepts and Abstract Syntax.- 2014.- URL: https://www.w3.org/TR/rdf11-concepts

102.Woods, William A. What's in a link: foundations for semantic networks / D. G. Bobrow & A. Collins, eds. // Representation and Understanding.-New York: Academic Press, 1975 .- pp. 35-82.

103. Woods, William A., Schmölze, James G. The KL-ONE Family.- Lehmann, 1992.- pp. 133-177.

Приложение А

Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. A.A. Харкевича Российской академии наук

Большой Каретный пер., д. 19, стр. 1, Москва, 127051

ОКПО: 02699464 ОГРН: 1037700064940

ИНН/КПП: 7707020131/770701001

ИППИ РАН

На №

от

Акт о внедрении

теоретических и практических результатов диссертационной работы В. Г. Диконова «Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language», представленной на соискание ученой степени кандидата филологических наук, при разработке НИР, проводимых ИППИ РАН

Основные теоретические и практические результаты диссертационной работы В. Г. Диконова «Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language» состоят в следующем:

1) Разработан модуль конвертации текста на естественном языке в семантическое представление на языке-посреднике Universal Networking Language (UNL), обеспечивающий поддержку двух естественных языков: английского и русского. Модуль включает в себя словарь концептов UNL и комплекс правил конвертации.

2) Создан новый лингвистический ресурс «Универсальный словарь концептов» (UNLDC), включающий в себя:

а. унифицированный с партнерскими лабораториями набор концептов U++

b. лексические эквиваленты концептов UNL на 7 естественных языках (русском, английском, французском, испанском, хинди, вьетнамском, малайском);

c. семантическую сеть связей между концептами;

d. соответствия между концептами UNL и онтологией SUMO;

e. дополнительные тома данных терминов различных технических областей с переводами на естественные языки.

Данный ресурс позволяет автоматически генерировать двуязычные переводные словари и ресурсы класса Wordnet для всех включенных в него естественных

UN;

языков.

3) Создана универсальная номенклатура модальных атрибутов для семантического представления текстов на разных языках.

4) Разработаны методы полуавтоматического расширения словаря концептов UNL на базе массива текстов и существующих лексикографических и онтологических ресурсов.

5) Разработан алгоритм для распознавания имплицитной референции (бриджинг анафоры) с опорой на фоновые знания, выраженные с помощью концептов UNL и обогащаемые за счет онтологической информации, содержащейся в словаре UNL. Этот алгоритм открывает возможность устанавливать семантическую связность текста с опорой на внеязыковую информацию.

Результаты 1), 3), 4) воплощены в системе «UNL Language Server», включающей в себя конвертацию и деконвертацию для русского и английского языков. Семантическое представление, получающееся в результате конвертации, может быть использовано в широком круге приложений, требующих анализа содержания текста, каких как многоязычная коммуникация в сети Интернет, ответно-вопросные системы, автоматическое реферирование, извлечение информации из многоязычных массивов текстов и др. Система разработана в ИППИ РАН и выложена в открытый доступ на сайте unl.ru.

Результат 2) опубликован в сети Интернет на github и включен в лексикографическую базу данных Pivax, разработанную в Université Grenoble Alpes, Франция. На его основе объединены в единую систему несколько языков разных семей, что значительно повышает связность лексикографических ресурсов.

Результаты 4)-5) были использованы в рамках выполнения НИР по проекту Российского научного фонда №16-18-10422 «Референциальные аспекты компьютерной семантики», который реализовывался в течение 2016-2020 гг. по направлению Стратегии научно-технологического развития Российской Федерации (утверждена Указом Президента Российской Федерации от 1 декабря 2016 г. № 642 «О Стратегии научно-технологического развития Российской Федерации») «Н1 - Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта».

И.о. Директора ИППИ РАН д.ф.-м.н., профессор РАН

А. Н. Соболевский

Приложение Б

To whom it may concern

Tétras Libre SARL 464 route d'Uriage 38410 St Martin d'Uriage FRANCE

St Martin d'Hères, FRANCE, June the 8th 2022

Regarding : The reuse of Vyacheslav Dikonov PhD work as an important tool for further academic and applied research

As part of his PhD thesis entitled "Analyzing natural language text and constructing its semantic representation using the artificial intermediate language UNL", Vyacheslav Dikonov is one of the main developers of the English-to-UNL converter, based on the ETAP3 system.

Our company have been successfully using this converter as an important tool for the UnseL (Universal Network Software Engineering Language) research project, funded by the French AID (Agence de l'innovation de défense). We continue experimenting with this converter in an internal research project at Tétras Libre.

It is important to point out that the ETAP3 English-to-UNL converter is the only available piece of software worldwide, that allows to obtain UNL graphs from unrestricted English texts. As such, it is an important tool for machine reading, a strategic AI domain where UNL is arguably a more promising alternative than trending meaning representations as AMR.

For those reason we hereby express our gratitude to Vyacheslav Dikonov and our strongest support for the defense of his PhD.

Dr David Rouquet, head of the NLP department

TETRAS LIBRE

3841

Siret : 825 047 54130924

□ a V i I

Tétras libre - Société à responsabilité limitée (SARL) Siège social :464 route d'Uriage, 38410 St martin d'Uriage France SIRET :825047541 00024 . RCS de Grenoble

npH^ö^eHHe B

FOR ACCURATE INTELLIGENCE

D. JESÚS CARDEÑOSA LERA, en calidad de Director del Departamento de l+D de la empresa DAIL - Software SL, con domicilio social en el edificio CAIT del Campus de Montegancedo, oficina 15 en 28223 Pozuelo de Alarcón (Madrid - España)

D. Vyacheslav Dikonov es el autor reconocido del trabajo de Tesis Doctoral titulado "Análisis del texto en lenguaje Natural y construcción de su representación semántica utilizando el lenguaje intermedio artificial UNL", algunos de cuyos resultados han sido utilizados en los trabajos del proyecto MULTIMAIL del programa RED.es de investigación industrial del Gobierno de España produciendo un diccionario de conceptos universales así como un método de conversión de estructuras sintácticas en semánticas que han resultado de gran utilidad en la consecución y éxito de este proyecto.

Lo que hago constar a los efectos oportunos en Pozuelo de Alarcón, a 7 de junio de 2022

CERTIFICA

Software

Перевод с испанского

Компания DAIL

Дон Хесус Карденьоса Лера, в качестве Директора отдела исследований и разработок компании DAIL - Software SL, имеющей юридический адрес в здании CAIT кампуса Монтеганседо, офис 15, 28223 Pozuelo de Alarcón, Мадрид, Испания,

СВИДЕТЕЛЬСТВУЕТ:

Дон Вячеслав Диконов является признанным автором диссертационной работы на титул PhD, озаглавленной «Анализ текста на естественном языке и построение его семантического представления с помощью искусственного языка-посредника Universal Networking Language», результаты которой были использованы в проекте MULTIMAIL программы Red.es по исследованиям для индустрии, финансируемой Правительством Испании. Мы использовали разработанный им словарь универсальных концептов, а также метод конверсии синтаксических структур в семантические, что значительно способствовало успешной реализации упомянутого проекта.

Настоящим я сообщаю это для соответствующих целей в Посуэло де Аларкон 7 июня 2022 года.

Подпись

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.