Методы автоматического выделения тезаурусных отношений на основе словарных толкований тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат наук Алексеевский, Даниил Андреевич
- Специальность ВАК РФ10.02.21
- Количество страниц 0
Оглавление диссертации кандидат наук Алексеевский, Даниил Андреевич
Оглавление
Стр.
Введение
Глава 1. Построение электронных тезаурусов: мотивация, методы,
источники
1.1 Тезаурусы и тезаурусные отношения
1.1.1 Понятие тезауруса. Основные типы тезаурусов
1.1.2 Princeton WordNet
1.1.3 Семантические сети и электронные тезаурусы
1.1.4 Семантические сети для языков мира
1.1.5 Русскоязычные электронные тезаурусы
1.1.6 Применение семантических сетей
1.1.7 Постановка задачи
1.2 Методы построения электронных тезаурусов
1.2.1 Методы, основанные на ручном труде
1.2.2 Методы, основанные на массовых опросах
1.2.3 Методы, использующие существующие структурированные ресурсы
1.2.4 Методы, использующие переводные структурированные ресурсы
1.2.5 Методы, использующие толковые словари
1.2.6 Методы, использующие текстовые корпуса
1.2.7 Методы, использующие дистрибутивные семантические модели
1.2.8 Сравнение методов
1.3 Постановка задачи: уточнение параметров
Глава 2. Толковые словари как источник полуструктурированных
данных
2.1 Типы словарей
2.1.1 Классификация толковых словарей
2.2 Организация словарной статьи
2
2.3 Типы толкований
2.4 Современные толковые словари русского языка
2.5 Машиночитаемые словари
2.6 Принципы выбора толкового словаря для исследования
Глава 3. Выделение отношений
3.1 Введение
3.2 Исходные данные
3.2.1 Большой толковый словарь русского языка
3.2.2 Электронная версия словаря
3.2.3 Восстановление структуры словарной статьи
3.2.4 Выделение толкований из словарной статьи
3.2.5 Определение частей речи
3.2.6 Результаты
3.3 Контрольный эксперимент: носитель семантического
отношения — вершина именной группы из толкования
3.3.1 Исходные допущения
3.3.2 Описание эксперимента
3.3.3 Результаты и анализ
3.4 Извлечение отношений с частичным привлечением учителя. Автоматическая кластеризация толкований
3.4.1 Машинное обучение с частичным привлечением учителя
3.4.2 Общее описание эксперимента
3.4.3 Признаки, используемые для кластеризации
3.4.4 Лексико-грамматические ^граммы
3.4.5 Материалы и методы
3.4.6 Кластеризация толкований. Эффект применения лексико-грамматических триграмм
3.4.7 Подбор параметров кластеризации
3.4.8 Правила, применяемые к кластеру толкований
3.4.9 Результаты
3.5 Обсуждение
3.6 Выводы
Глава 4. Дизамбигуация тезаурусных отношений
4.1 Задача дизамбигуации в контексте извлечения гипо-гиперонимических отношений из словаря
4.2 Подходы к задаче разрешения семантической неоднозначности
4.2.1 Алгоритм Леска и его усовершенствования
4.2.2 Методы машинного обучения в задачах разрешения неоднозначности
4.2.3 Векторные семантические модели
4.2.4 Выбор методов
4.3 Материалы исследования
4.3.1 Корпус лексических значений: БТС
4.3.2 Корпус омонимичных отношений
4.3.3 Материал для построения векторных моделей
4.3.4 Аннотация данных
4.4 Постановка эксперимента
4.5 Результаты
4.6 Анализ
4.7 Заключение
Заключение
Список литературы
Список рисунков
Список таблиц
Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Методы разрешения лексической неоднозначности на основе автоматически размеченных семантических корпусов2022 год, кандидат наук Большина Ангелина Сергеевна
Формализованное описание структуры лексико-семантического поля глаголов деятельности для компьютерного идеографического словаря типа WordNet: на материале русского языка2007 год, кандидат филологических наук Ушакова, Анастасия Александровна
Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах2008 год, кандидат технических наук Степанова, Надежда Александровна
Тезаурусное моделирование английской терминологии когнитивной лингвистики2013 год, кандидат наук Ведерникова, Юлия Витальевна
Тезаурусное моделирование терминологии синтаксиса2009 год, кандидат филологических наук Коршунова, Светлана Олеговна
Введение диссертации (часть автореферата) на тему «Методы автоматического выделения тезаурусных отношений на основе словарных толкований»
Введение
Работа посвящена методам выделения тезаурусных (семантических) отношений, основанным на использовании словарных толкований. Задача автоматического извлечения тезаурусных отношений является одной из актуальных задач автоматической обработки текста. Решение этой задачи — необходимый этап построения тезаурусов и онтологий. Настоящая работа исследует автоматическое извлечение отношений как средство для построения электронных тезаурусов.
Тезаурусы используются для решения многих задач обработки текстов, связанных с семантикой: в информационно-поисковых системах, в системах извлечения именованных сущностей и фактов, при классификации текстовых документов, в вопросно-ответных системах, а также при решении многих других задач анализа контента. Привлечение знаний об отношениях между понятиями, а также об отношениях между языковыми единицами, которые соответствуют этим понятиям, неоднократно показывало свою эффективность при решении задач автоматической обработки текста (далее АОТ). Использование ресурсов, отражающих семантические отношения между языковыми единицами, нередко затруднено по целому ряду причин. С одной стороны, существует достаточно давняя традиция применения тезаурусов, создаваемых экспертами-лингвистами вручную, в различных естественно-языковых приложениях. Однако создание и обновление таких ресурсов это трудоемкий процесс, занимающий достаточно длительный период времени. С другой стороны, для ряда задач извлечения информации из текста используются автоматически созданные онтологии и тезаурусы, ориентированные на конкретные предметные области. При их создании используются большие массивы текстов. Существенным недостатком данных ресурсов является то, что они ориентированы на те отношения между лексическими значениями, которые релевантны для некоторой узкой предметной области. Современные методы дистрибутивной семантики, ориентированные на извлечение информации о семантической близости лексем из текстовых массивов значительных объемов, позволяют преодолевать тематическую ограниченность автоматически создаваемых ресурсов. Однако создаваемые такими методами ресурсы также имеют целый ряд ограничений. Во-первых, как правило, в них понятие семантической близости трактуется слишком широко. Семантически близкими объявляются лексемы, связанные достаточно разнородными отношениями, включая морфологическую
5
деривацию. Во-вторых, ресурсы не содержат информации о типах семантических отношений (являются ли лексемы синонимами, гиперонимами и т. п.) и не позволяют выстраивать иерархические цепочки понятий. Существенным недостатком является также то, что объектами, между которыми устанавливаются отношения, являются лексемы, а не отдельные значения лексем в то время, как экспертные ресурсы, широко применяемые для задач АОТ, такие как, например, WordNet [58], учитывают многозначность лексем и связывают отношениями их конкретные значения.
Таким образом, для создания тезаурусов, востребованных в различных приложениях с использованием АОТ, актуальной задачей является разработка технологии автоматизации извлечения тезаурусных отношений, т. е. методов, которые, с одной стороны, опираются на экспертные лексикографические решения, с другой — позволяют автоматически извлекать необходимую для установления этих отношений информацию. Одним из путей решения данной задачи является привлечение существующих доступных в электронном виде лексикографических источников, созданных экспертами, таких как толковые словари. Данные источники содержат информацию о семантических отношениях в неявном виде. Толкования отдельных значений лексем нередко содержат лексемы, находящиеся в гиперонимических или синонимических отношениях с этим значением. Автоматическое извлечение этих отношений может существенно облегчить работу экспертов. Указанные выше обстоятельства (требования, предъявляемые к методам, принципы организации толкований в толковых словарях) определяют цель настоящего исследования. Цель представленного исследования — разработать подход для извлечения тезаурусных отношений, позволяющий упростить построение электронного тезауруса. Наименьшая часть тезауруса, обеспечивающая его применимость для автоматической обработки текстов, неизбежно включает в себя гипо-гиперонимические отношения между лексическими значениями существительных. Поэтому наиболее эффективное пополнение этой части тезауруса представляет наибольший интерес. Ещё одним критерием уточнения отдельных подзадач является выбор методов, позволяющих получать значительный объём качественных данных с привлечением наименьших усилий экспертов и сторонних лингвистических ресурсов. Основу электронного тезауруса составляет множество лексем, множество их значений, и множество отношений, связывающих значения между собой или значения с лексемами. Такие отношения мы называем тезаурус-ными. Существуют различные подходы к построению таких множеств отноше-
6
ний. Тезаурусы может составлять вручную лексикограф. Основу тезауруса могут составлять отношения, извлечённые из другого типа онтологий, из словарей, из корпуса текстов, либо из базы данных семантической модели. Для настоящей работы в качестве метода выбрано извлечение отношений из корпуса определений из толкового словаря.
В настоящей работе на защиту выносятся следующие положения:
- предложенный в работе метод полуавтоматического извлечения тезаурус-ных отношений c использованием толкового словаря, позволяет получить список пар значений лексем, находящихся в тезаурусных отношениях; это, прежде всего, пары, связанные гипо-гиперонимическим отношением; построение такого списка может значительно упростить работу эксперта по созданию тезауруса, отражающего иерархические семантические отношения;
- предложенный в работе и реализованный метод группировки словарных статей из толкового словаря, представляющий собой кластеризацию толкований на основе лексико-грамматических n-граммных признаков, позволяет выявить различные структурные типы толкований;
- проведенные в ходе работы эксперименты показывают, что использование лексико-грамматических триграмм (состоящих из лексем, входящих в толкование, и грамматических характеристик их соседей) в качестве признаков кластеризации позволяет определить тип толкования с большей точностью по сравнению с использованием в качестве признаков лексических или частеречных униграмм или триграмм;
- разным типам толкований можно поставить в соответствие разные шаблоны для выделения гиперонимичной лексемы из толкования; шаблоны можно извлечь в полуавтоматическом режиме на основе аннотирования представителей разных классов толкований экспертом;
- исследование различных методов автоматической дизамбигуации лексем, входящих в гиперонимический ряд с использованием их толкований показывает, что к данной задаче применимы как стандартные алгоритмы, основанные на алгоритме Леска, так и методы обучения с частичным привлечением учителя, а именно, метод Label Propagation [117], а также методы дистрибутивной семантики, которые превосходят базовые методы по качеству.
- при разрешении многозначности гиперонима в паре [гипоним -гипероним] с использованием толкового словаря лучшее качество достигается, если для обучения используются признаки, извлеченные из расширенного толкования, включающего само толкование и примеры.
Основным материалом для исследования является корпус толкований Большого толкового словаря под ред. Кузнецова С. А (далее БТС). В корпус входят толкования лексем, относящихся к классу существительных. В исследовании используются также вспомогательные материалы. БТС является толковым словарём, построенным в соответствии с современными требованиями лексикографии. Соответственно, он имеет строгую организацию в том смысле, что в нем представлено относительно небольшое количество типов словарных толкований, каждый из которых последовательно выдерживается на протяжении всего словаря. Для извлечения отношений предложенными методами необходимы инструменты: инструмент для нормализации текста и его грамматической аннотации, а также инструмент для определения семантической близости языковых единиц (лексем, словоупотреблений или лексических значений). В качестве первого в работе использован морфологический анализатор mystem компании Яндекс. В работе используются также несколько инструментов для определения семантической близости языковых единиц: база данных serelex и векторные семантические модели word2vec и adagram. Для последних необходим обучающий корпус. В качестве обучающих корпусов использованы корпуса: RuWac, lib.ru, RuWiki.
Научная новизна работы состоит в том, что предложена технология пополнения тезауруса отношениями с использованием толкового словаря. Представленный метод извлечения отношений требует ограниченных ресурсов эксперта. Метод основывается на автоматической кластеризации толкований с использованием лексико-грамматических триграмм. В работе показано, каким образом такая кластеризация позволяет:
- автоматически выделять различные структурные типы словарных толкований;
- извлекать из них соответствующие гиперонимические лексемы.
В работе также исследованы возможности применения векторных моделей для дизамбигуации гиперонимических лексем на основе толкований.
На момент написания работы электронные тезаурусы представлены приблизительно для 100-200 языков. Таким образом представленная работа значима
для расширения множества языков, обладающих одним из важных лингвистических инструментов, что определяет актуальность работы.
Теоретическая значимость исследования состоит в создании и исследовании набора тезаурусных отношений, позволяющем судить о таксономической структуре базовых понятий в русском языке; в исследовании лингвистических признаков, значимых для извлечения тезаурусных отношений из толковых словарей.
Практическая значимость исследования состоит в разработке подхода к построению набора тезаурусных отношений, публикации построенного набора отношений для русского языка и в исследовании алгоритмов, используемых для выделения таких отношений.
Апробация работы. Основные положения исследования и полученные результаты были представлены в следующих публикациях:
- Алексеевский, Даниил Андреевич. «Применение контекстно-свободных грамматик для извлечения онтологии из текстов коротких описаний статей биологической тематики.» Информатика и её применения 10.1 (2016): 119-128.,
- IX Русская летняя школа по информационному поиску (RuSSIR 2015), Санкт-Петербург, Россия, 24-28 августа 2015. АлексеевскийД.А., Толдова С.Ю. «Key noun phrases for biological fact extraction»,
- The Eighth Global WordNet Conference 2016, Bucharest, Romanía, January 27-30 2016. Alexeyevsky D. A., Temchenko A. V. «Word sense disambiguation in monolingual dictionaries for building russian wordnet.»,
- X Русская летняя школа по информационному поиску (RuSSIR 2016), Саратов, Россия, 22-26 августа 2016. Алексеевский Д.А., Трегубова М.А. «Semi-supervised Relation Extraction from Monolingual Dictionary.»,
- Alexeyevsky D. A. Word sense disambiguation features for taxonomy extraction. Computación y Sistemas. Vol 23, No 3 (2018).
Структура диссертации. Диссертация состоит из введения, четырёх глав, заключения и библиографии. Глава 1 даёт определение основным необходимым терминам, кратко описывает историю создания тезаурусов и развития инструментов для их создания, которая является мотивацией для настоящей работы, в главе ставится задача настоящей работы и описывается общая схема подхода. В главе 2 приведён краткий обзор доступных толковых словарей для русского языка, описана постановка и решение задачи о создании корпуса толкований выбранного
9
словаря. В главе 3 описаны эксперименты по извлечению из словарных толкований омонимичных тезаурусных отношений, т. е. таких тезаурусных отношений, в которых место лексических значений занимают омонимичные лексемы. Глава 4 посвящена двум экспериментам по автоматической дизамбигуации тезаурусных отношений. Наконец, в главе 4.7 подводятся итоги работы, кратко описываются её результаты и выдвигаются новые гипотезы для дальнейших исследований по теме работы. Полный объём диссертации составляет 142 страницы, включая 21 рисунок и 14 таблиц. Список литературы содержит 120 наименований.
Глава 1. Построение электронных тезаурусов: мотивация, методы, источники
1.1 Тезаурусы и тезаурусные отношения
Прежде чем перейти к описанию методов извлечения тезаурусных отношений, необходимо уточнить ряд понятий.
Во-первых, само понятие тезауруса требует уточнения. С одной стороны, говоря о тезаурусе, нередко имеют в виду систему представления знаний в виде сети лексических значений, между которыми установлены отношения определенного типа. С другой стороны, что касается собственно области лингвистики, тезаурус является лексикографическим ресурсом, в котором отражены семантические отношения между лексемами. Таким образом, необходимо рассмотреть, как устроены те лексикографические ресурсы, в которых отражены семантические (тезаурусные) отношения между лексемами (между отдельными значениями разных лексем), какие из них представляют некоторый эталонный ресурс с точки зрения представленных в них отношений.
Во-вторых, следует рассмотреть существующие методы автоматического и автоматизированного извлечения отношений и определить, какое место среди них занимает выбранный в данной работе подход, в чем его преимущество.
В-третьих, поскольку этот подход предполагает извлечение отношений из толковых словарей, следует более подробно остановиться на организации толкований, на том, как они устроены.
Иными словами, в настоящей главе уточняются основные понятия, из которых мы исходим в работе, обосновывается выбранный метод, возможности которого исследуются в работе, а также описываются основные принципы организации данных.
1.1.1 Понятие тезауруса. Основные типы тезаурусов
Важным источником информации об организации лексического состава языка являются различные лексикографические ресурсы. Среди них выделяется
11
особый класс ресурсов, которые не просто отражают семантические свойства отдельных лексем (их толкования, переводные эквиваленты и т. п.), но и отражают отношения между понятиями, которые эти лексемы обозначают, т. е. отображают структурированные знания о мире. К таким ресурсам можно отнести предметные указатели, глоссарии (списки терминов с пояснениями к ним на естественном языке), терминологические словари, рубрикаторы, контролируемые словари, которые представляют собой конечные списки терминов, информационно-поисковые тезаурусы для отдельных предметных областей (таксономия таких ресурсов приведена, в частности, в [11]). Ресурсы, отражающие более общие знания о мире, это различные лексико-семантические базы данных, семантические словари, словари ассоциаций, идеографические словари и тезаурусы, а также специальные лингвистически-ориентированные онтологии.
Лексические значения в таких ресурсах упорядочены не по алфавиту, а, с одной стороны, в соответствии с некоторой онтологической классификацией объектов действительности и событий/явлений, с другой, — с точки зрения семантических отношений между языковыми единицами, отражающих логические связи между концептами. Подробное обсуждение соотношения формально-логической иерархии между концептами и информации о семантических отношениях между языковыми единицами обсуждается в [26]. В. В. Морковкин [27] отмечает необходимость такой книги, «которая, предоставив в наше распоряжение всю совокупность слов, объединенных той или иной идеей, облегчила бы активное владение языком (идеографический словарь)». В зависимости от того, какая именно информация содержится в ресурсах обсуждаемого типа, К. Марелло [82] выделяет три вида тезаурусов:
1. кумулятивные; в них лексемы группируются, однако, не приводятся толкования;
2. дефинитивные; для каждой лексемы из группы приводится толкование;
3. дву- и многоязычные тезаурусы для путешественников.
Значимыми для уточнения понятия тезаурус является работа [73] (см. также [26], где приводится подробный обзор различных тезаурусов и их организации). Согласно этой работе можно предложить следующую классификацию лексикографических ресурсов, по отношению к которым в литературе употребляется термин «тезаурус»:
1. идеографические словари, где лексика организована по тематическому принципу, что облегчает задачу подбора близких по смыслу слов при написании текстов;
2. информационно-поисковые тезаурусы, описывающие отношения между терминами некоторой узкой предметной области, что обеспечивает более эффективный информационный поиск;
3. лингвистические ресурсы типа WordNet, в которых отношения между лексическими значениями слов в естественном языке представлены в виде иерархической структуры;
4. ассоциативные словари, где лексемы сгруппированы либо в соответствии с психологическими ассоциациями, возникающие у людей, либо в соответствии с устойчивой совместной встречаемостью лексем в корпусах.
Общим для всех этих ресурсов является то, что лексемы в них объединены по близости значений. Такая организация позволяет пользователю словаря подбирать лексику по её значению исходя из понятного ему контекста, что помогает избегать неправильного использования лексем.
Таким образом, здесь и далее под тезаурусом мы будем понимать такой словарь, в котором определяемой единицей является семантическое поле и материал представлен в ономасиологическом порядке, т. е. порядок изложения определяется не алфавитом, а семантической близостью. Следует уточнить, что ресурсы типа 2 и 4 в настоящей работе не рассматриваются.
Одним из первых идеографических словарей, получивших широкую известность в Европе, является тезаурус Роже [99]. Лексемы в нем сгруппированы по близости значений в категории. Такая организация позволила использовать тезаурус для подбора синонимов, провести первые эксперименты по использованию сведений о семантической близости лексем в информационном поиске. Однако использование тезауруса Роже затруднено тем, что в нем в одну категорию попадают лексемы, находящиеся в различных семантических отношениях, конкретные отношения не указаны. Кроме того, одна и та же лексема может попадать в разные рубрики из-за своей многозначности, при этом в тезаурусе никак не отражено, какое именно значение лексемы соответствует данной тематической рубрики. Для немецкого языка одним из известных идеографических словарей является словарь Ф. Дорнзайффа (восьмое переиздание словаря в 2004г.) [55]. В словаре представлено 20 разделов, которые внутри поделены на тематические
13
группы. Словарная статья задается понятием, с которым семантически соотносятся лексические единицы, помещенные в данную словарную статью. Что касается русского языка, то одним из первых словарей можно назвать «Русский семантический словарь» Ю. Н. Караулова и др. (ответственный редактор С. Г. Бархударов [22]) 1983 г. издания. Словарь представляет собой шеститомное издание (издано 4 тома, 1998-2007). Всего он содержит 300 000 лексических единиц (значений), которые сгруппированы по лексико-семантическим классам. Следует также упомянуть идеографический словарь русского языка под ред. О. С. Баранова 1995 года [14], словари под ред. Л. Г. Бабенко: Большой толковый словарь русских существительных [16], Большой толковый словарь русских глаголов [17], Русский семантический словарь под ред. Н. Ю. Шведовой [15] (1998-2007).
Особую роль среди ресурсов, в которых отражена тематическая группировка лексем, играют тезаурусы и специализированные словари, в которых указываются семантические отношения между лексемами, такие как синонимия, гипо-гиперонимия и др. Существенным шагом стало создание электронных тезаурусов, в которых лексические значения организованы в некоторую иерархию. Появление тезаурусов такого типа дало толчок большому количеству исследований в области АОТ по использованию тезаурусной информации в различных задачах автоматической обработки текста, таких как расширение запросов в информационном поиске, автоматическая рубрикация, извлечение фактов и др (см., например, [25], а также [26]).
В силу того, что в центре внимания настоящей работы находится задача извлечения тезаурусных отношений, организация таких ресурсов может служить эталоном для решения данной задачи.
Первым таким ресурсом был компьютерный тезаурус WordNet ( [58], подробнее см. раздел 1.1.2). Следует также упомянуть РуТез — тезаурус русского языка [81]1, был создан Центром информационных исследований как инструмент для автоматического индексирования; разрабатывается с 1997 года по настоящее время, он содержит 45 тысяч лексических значений, 107 тысяч лексем и выражений, 177 тысяч отношений). На основе данного ресурса был создан RuWordNet2.
Ниже рассмотрим организацию ресурсов обсуждаемого типа более подроб-
1http://www.labinform.ru/pub/ruthes/index.htm
2http://www.labinform.ru/pub/ruwordnet/index.htm
1.1.2 Princeton WordNet
В 1984 году группа под руководством Дж. Миллера в Принстонском университете приступила к созданию WordNet [86] — тезауруса, разрабатываемого полностью в электронном виде. Далее используется сокращение PWN (Princeton WordNet). WordNet подпадает под используемое здесь определение тезауруса, однако сами авторы скромно именуют его лексической базой данных. В 1985 PWN стал доступен в Интернете. Первоначально WordNet создавался как ресурс, относящийся к области психолингвистики.
Важными для настоящей работы являются следующие принципы организации PWN:
- семантические отношения устанавливаются не между лексемами (как во многих идеографических словарях), а между лексическими значениями;
- различным частям речи соответствуют различные наборы указываемых семантических отношений.
Основным структурным элементом PWN является набор синонимов, соответствующих отдельному лексическому значению, или синсеты (synset). Почти все син-сеты соответствуют понятиям, для которых в языке имеется однословное описание. Синсеты снабжены толкованиями. Лексемы в PWN организованы в 117 тысяч лексических значений, или синсетов, в нем представлено более 200 тысяч пар [лексема- значение].
Основными семантическими отношениями для существительных в PWN являются отношения синонимии, антонимии, часть-целое и гипо-гиперонимические. Центральными для данной работы являются родовидовые отношения. Видовой синсет соответствуют лексическому значению-гипониму, родовой — гиперониму.
1.1.3 Семантические сети и электронные тезаурусы
Семантическая сеть — это способ формального представления знаний. Семантическая сеть является графом, в котором узлы являются семантическими полями, а рёбра описывают семантические связи.
15
Таким образом, WordNet является примером семантической сети.
В настоящей работе мы будем использовать термин «электронный тезаурус», опирающийся в качестве прототипа на PWN. «Электронный тезаурус» — это семантическая сеть, в которой присутствуют гипо-гиперонимические отношения, причём в них участвуют почти все узлы сети.
Princeton WordNet находится в промежуточном положении между идеографическим словарём (в англоязычной традиции тезаурусом) и электронной онтологией, что приводит к некоторым трудностям.
Так, например, по-разному может быть отражена в нём ситуация, в которой про цепочку синсетов, связанных отношением гипо-гиперонимии, известно, что каждый из них состоит вдобавок в некотором меронимо-холонимическом («часть-целое») отношении с одним и тем же синсетом. В некоторых случаях для такой цепочки участие в меронимо-холонимическое отношение будет отмечено лишь для наиболее гиперонимичного синсета, в некоторых случаях для всех участвующих синсетах. В некоторых случаях для синсета в толковании указано, что он не участвует в некоторой связи, в которой участвует его гипероним, но формального средства для отображения таких случаев не предусмотрено.
Для иллюстрации рассмотрим синсет roadster, runabout, two-seater (an open automobile having a front seat and a rumble seat), который описывает автомобиль без крыши. Он является гипонимом синсета car, auto, automobile, machine, motorcar (a motor vehicle with four wheels; usually propelled by an internal combustion engine), для которого задан мероним roof (protective covering on top of a motor vehicle). В то же время для синсета jeep, landrover (a car suitable for traveling over rough terrain), указано только одно отношение: его гиперонимом является car, auto, automobile, machine, motorcar. Таким образом, пользователь WordNet не может с уверенностью утверждать о меронимо-холонимических отношениях синсе-та, гипероним которого состоит в меронимо-холонимических отношениях с другим синсетом.
Несмотря на описанные трудности, PWN оказался важным инструментом для автоматической обработки текстов на естественных языках, что будет проиллюстрировано ниже. Создание и успешное использование PWN в системах АОТ вдохновило многие коллективы и многих авторов на создание аналогичных семантических сетей для разных языков.
Были созданы ассоциации, поставившие своей задачей создание ворднетов для разных семейств языков. В частности, был создан Global WordNet Association,
16
который поставил своей целью отслеживать и способствовать созданию подобных PWN электронных тезаурусов для различных языков. Подобными PWN были названы семантические сети, обладающие хотя бы следующими тремя свойствами:
Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Тезаурусное представление терминов нефтегазовой отрасли в русском и персидском языках2010 год, кандидат филологических наук Фаал-Хамеданчи Марьям
Функциональная модель двуязычного экологического словаря-тезауруса2006 год, кандидат филологических наук Ковязина, Марина Анатольевна
Семантизация имени существительного во французских толковых и энциклопедических словарях XVII-XXI вв.: эволюция определений наименований гидрометеоров2008 год, доктор филологических наук Иванова, Екатерина Павловна
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Тезаурусное моделирование французской грамматической терминологии2004 год, доктор филологических наук Горбунов, Юрий Иванович
Список литературы диссертационного исследования кандидат наук Алексеевский, Даниил Андреевич, 2018 год
Список литературы
1. Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Активный словарь русского языка. Т. 3. Москва, Санкт-Петербург : Общество с ограниченной ответственностью «Нестор-История», 2017. ISBN: 978-5-4469-1187-5.
2. Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Проспект Активного словаря русского языка. Языки славянских культур М, 2010. ISBN: 978-59551-0452-2.
3. Азарова ИВ, Синопальникова АА, Яворская МВ. Принципы построения wordnet-тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог / Под ред. ИМ Кобозева, АС Нариньяни, ВП Селегей. 2004. С. 542-547.
4. Апресян Юрий Дереникович. Избранные труды: Интегральное описание языка и системная лексикография. Москва : Школа «Языки русской культуры», 1995. Т. 2 из Язык, семиотика, культура. ISBN: 978-5-88766-045-5.
5. Герд Александр Сергеевич. Прикладная лингвистика. Санкт-Петербург : Издательство С.-Петербургского университета, 2005. ISBN: 978-5-288-03920-1.
6. Даль Владимир Иванович. Толковый словарь живаго великорускаго языка. В типографии А. Семена, 1865. Т. 3.
7. Волин БМ, Ушаков ДН. Толковый словарь русского языка. Москва, 1940.
8. Щерба Лев Владимирович. Опыт общей теории лексикографии // Щерба ЛВ Языковая система и речевая деятельность. 1974. С. 265-304.
9. Шелов Сергей Дмитриевич. Термин. Терминологичность. Терминологические определения. Санкт-Петербург : Филологический факультет Санкт-Петербургского государственного университета, 2003. ISBN: 5-8465-0093-5.
10. Ожегов СИ. О трех типах толковых словарей современного русского языка // Вопросы языкознания. 1952. Т. 2. С. 85-103.
11. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы//Казань: КГУ 2006.
12. Иомдин Борис Леонидович, Лопухина Анастасия А., Носырев Григорий В. К созданию частотного словаря значений слов. // Материалы ежегодной Международной конференции «Диалог». Бекасово, Россия : РГГУ, 2014. С. 199212.
13. Ожегов Сергей Иванович, Шведова Наталья Юльевна. Толковый словарь русского языка. Москва : АЗЪ, 1995.
14. Баранов О С. Идеографический словарь русского языка. ETS polyglossum dictionaries, 1995. ISBN: 5-86455-050-7.
15. Шведова Н. Ю., Ожегов С. И. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. 4 доп. изд. Москва : Азбуковник, 1998. ISBN: 5-89285-003-Х.
16. Бабенко ЛГ. Большой толковый словарь русских существительных: Идеографическое описание. Синонимы. Антонимы. АСТ-Пресс, 2005.
17. Бабенко ЛГ, Волчкова ИМ, Казарин ЮВ [и др.]. Большой толковый словарь русских глаголов. АСТ-Пресс, 2008. ISBN: 978-5-462-00615-9.
18. Мельчук Игорь Александрович, Жолковский Александр Константинович. Толково-комбинаторный словарь современного русского языка: Опыты семантико-синтаксического описания русской лексики. Gesellschaft zur Förderung slawistischer Studien, 1984. Т. 14.
19. Усталов Дмитрий Алексеевич. Модели, методы и алгоритмы построения семантической сети слов для задач обработки естественного языка. Диссертация на соискание ученой степени кандидата физико-математических наук. Москва, 2017.
20. Ефремова ТФ. Новый словарь русского языка. Толково-словообразовательный. Москва : Русский язык, 2000.
21. Комарова ЗИ. Русская отраслевая терминология и терминография // Каменец Подольский. 1990.
22. Караулов Ю.Н., Молчанов В.И., Афанасьев В.А. Русский семантический словарь. Москва : Наука, 1983.
23. Кузнецов Сергей А. Новейший большой толковый словарь русского языка. РИПОЛ-Норинт СПб., 2008. ISBN: 5-7711-0015-3.
24. Евгеньева АП. Малый академический словарь. Москва : Институт русского языка Академии наук СССР, 1957.
25. Лукашевич НВ, Доброе БВ. Исследование тематической структуры текста на основе большого лингвистического ресурса // Труды международного семинара—Диалог. 2000. Т. 2. С. 252-258.
26. Лукашевич Наталья Валентинова. Тезаурусы в задачах информационного поиска. М.: Издательство МГУ, 2011, 2010. ISBN: 5-211-05926-3.
27. Морковкин Валерий Вениаминович. Идеографические словари. Изд-во Московского университета, 1970.
28. Большакова Е. И., Баева Н. В., Бордаченкова Е. А. [и др.]. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2007. Т. 2. Изд-во РГГУ Москва, 2007. С. 70-75.
29. Федеральное агентство по техническому регулированию и метрологии. ГОСТ Р 7.0.47-2008. Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи // Система стандартов по информации, библиотечному и издательскому делу 2008.
30. Википедия — свободная энциклопедия. Wikimedia Commons, 2018. URL: https://ru.wikipedia.org/.
31. Русский Викисловарь. Wikimedia Commons, 2018. URL: https://ru.wiktionary. org/.
32. Cmejrek Martin, CurinJan, Havelka Jiri. Czech-English dependency-based machine translation // Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics. Vol. 1. Association for Computational Linguistics, 2003. P. 83-90.
33. Alexeyevsky Daniil. Semi-supervised Relation Extraction from Monolingual Dictionary for Russian WordNet. // Proceedings of CICLing17 conference. LNCS, 2017.
34. Alexeyevsky Daniil. Word Sense Disambiguation Features For Taxonomy Extraction// Computación y Sistemas. 2018. Vol. 22, no. 3.
35. Alexeyevsky Daniil, Temchenko Anastasiya V. WSD in monolingual dictionaries for Russian WordNet // Proceedings of the Eighth Global WordNet Conference / Ed. by Christiane Fellbaum [et al.]. Bucharest, Romania, 2016. P. 10-15.
36. Alexeyevsky Daniil Andreevich. BioNLP ontology extraction from a restricted language corpus with context-free grammars // Informatika i Ee Primeneniya [Informatics and its Applications]. 2016. Vol. 10, no. 1. P. 119-128.
37. Altszyler Edgar, Sigman Mariano, Ribeiro Sidarta, Slezak Diego Fernández. Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database // arXiv preprint arXiv:1610.01520. 2016.
38. Asmussen Jörg, Pedersen Bolette Sandford, Trap-Jensen Lars. DanNet: From Dictionary to Wordnet // GLDV-2007 Workshop on Lexical-Semantic and Ontologi-cal Resources. Universität Tübingen, 2007. P. 1-9.
39. Azarova Irina, Mitrofanova Olga, Sinopalnikova Anna [et al.]. Russnet: Building a lexical database for the russian language // Proceedings of Workshop on Wordnet Structures and Standardisation and How this affect Wordnet Applications and Evaluation. Las Palmas. 2002. P. 60-64.
40. Balkova Valentina, Sukhonogov Andrey, Yablonsky Sergey. Russian wordnet // Proceedings of the Second International WordNet Conference. Brno, Czech Republic : Citeseer, 2004. P. 31-38.
41. Banerjee Satanjeev, Pedersen Ted. Extended gloss overlaps as a measure of semantic relatedness. // Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence. Vol. 3. Acapulco, Mexico, 2003. P. 805-810.
42. Bartunov Sergey, Kondrashkin Dmitry, Osokin Anton, Vetrov Dmitry. Breaking sticks and ambiguities with adaptive skip-gram // arXiv preprint arXiv:1502.07257. 2015. P. 47-54.
43. Bellare Kedar, Sarma Anish Das, Sarma Atish Das [et al.]. Generic Text Summarization Using WordNet. // Proceedings of the Fourth International Conference on Language Resources and Evaluation. 2004.
44. Bilgin Orhan, Qetinoglu Ozlem, Oflazer Kemal. Building a wordnet for Turkish // Romanian Journal of Information Science and Technology. 2004. Vol. 7, no. 1-2. P. 163-172.
45. Bocharov Victor, Pivovarova Lidia, Rubashkin Valery, Chuprin Boris. Ontologi-cal parsing of encyclopedia information // International Conference on Intelligent Text Processing and Computational Linguistics. Springer, 2010. P. 564-579.
46. Bond Francis, Baldwin Timothy, Fothergill Richard, Uchimoto Kiyotaka. Japanese SemCor: A sense-tagged corpus of Japanese // Proceedings of the 6th Global WordNet Conference. 2012. P. 56-63.
47. Bramsen Philip, Escobar-Molano Martha, Patel Ami, Alonso Rafael. Extracting social power relationships from natural language // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Vol. 1. Association for Computational Linguistics, 2011. P. 773782.
48. CaiJun Fu, Lee Wee Sun, Teh Yee Whye. NUS-ML: Improving word sense disambiguation using topic features // Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007. P. 249252.
49. Chapelle Olivier, ScholkopfBernhard, Zien Alexander. Semi-supervised learning (chapelle, o. et al., eds.; 2006)[book reviews] // IEEE Transactions on Neural Networks. 2009. Vol. 20, no. 3. P. 542-542.
50. Chen Xinxiong, Liu Zhiyuan, Sun Maosong. A Unified Model for Word Sense Representation and Disambiguation. // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Citeseer, 2014. P. 1025-1035.
51. Cook Darren. MLSN: A multi-lingual semantic network // Proceedings of the 14th Annual Meeting of the Association for Natural Language Processing. 2008. P. 1136-1139.
52. De Melo Gerard, Weikum Gerhard. Towards a universal wordnet by learning from combined evidence // Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009. P. 513-522.
53. de Schryver Gilles-Maurice. Lexicographers' Dreams in the Electronic-Dictionary Age // International Journal of Lexicography. 2003. Vol. 16, no. 2. P. 143-199.
54. Dias-da Silva Bento C, de Oliveira Mirna F, de Moraes Helio R. Groundwork for the development of the Brazilian Portuguese Wordnet // Advances in natural language processing. Springer, 2002. P. 189-196.
55. Dornseiff Franz. Der deutsche wortschatz nach sachgruppen. Walter de Gruyter, 1959. ISBN: 3-11-171211-7.
56. Espinosa-Anke Luis, Saggion Horacio, Ronzano Francesco. TALN at SemEval-2016 Task 14: Semantic Taxonomy Enrichment Via Sense-Based Embeddings // Proceedings of SemEval. 2016. P. 1332-1336.
57. Ester Martin, Kriegel Hans-Peter, Sander Jörg, Xu Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Vol. 96. 1996. P. 226-231.
58. Fellbaum Christiane, Miller George. Design and lmplementation or the WordNet Lexical Database and Searching Sortware // WordNet: An Electronic Lexical Database. MITP, 1998. P. 105-127. URL: https://ieeexplore.ieee.org/xpl/ articleDetails.jsp?arnumber=6287681.
59. Fleiss Joseph L. Measuring nominal scale agreement among many raters. // Psychological bulletin. 1971. Vol. 76, no. 5. P. 378.
60. Gelfenbeyn Ilya, Goncharuk Artem, Lehelt Vladislav [et al.]. Automatic translation of WordNet semantic network to Russian language // Proceedings of the International Dialog-2003 Conference. 2003.
61. GersFelixA., Schmidhuber Jürgen, Cummins Fred. Learning to Forget: Continual Prediction with LSTM//Neural Computation. 2000. okt.. Vol. 12, no. 10. P. 24512471. URL: http://www.mitpressjournals.org/doi/10.1162/089976600300015015 (online; accessed: 2018-09-18).
62. Gongalo Oliveira Hugo, Gomes Paulo. ECO and Onto.PT: a flexible approach for creating a Portuguese wordnet automatically // Language Resources and Evaluation. 2014. Vol. 48, no. 2. P. 373-393. URL: http://dx.doi.org/10.1007/ s10579-013-9249-9.
63. Hearst Marti A. Automated discovery of WordNet relations // WordNet: an electronic lexical database. 1998. P. 131-153.
64. Hearst Marti A. Automatic acquisition of hyponyms from large text corpora // Proceedings of the 14th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 1992. P. 539-545.
65. Hornby Albert Sydney, Cowie Anthony Paul, Lewis J Windsor. Oxford advanced learner's dictionary of current English. Oxford university press London, 1974. Vol. 4.
66. Huang Chu-Ren, Hsieh Shu-Kai, HongJia-Fei [et al.]. Chinese Wordnet: Design, implementation, and application of an infrastructure for cross-lingual knowledge processing // Journal of Chinese Information Processing. 2010. Vol. 24, no. 2. P. 14-23.
67. Iacobacci Ignacio, Pilehvar Mohammad Taher, Navigli Roberto. Embeddings for word sense disambiguation: An evaluation study // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Vol. 1. 2016. P. 897907.
68. Iacobacci Ignacio, Pilehvar Mohammad Taher, Navigli Roberto. SensEmbed: Learning Sense Embeddings for Word and Relational Similarity. // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Vol. 1: Long Papers. Beijing, China : Association for Computational Linguistics, 2015. P. 95-105. URL: http://www.aclweb.org/anthology/P15-1010.
69. Ide Nancy, Veronis Jean. Machine Readable Dictionaries: What have we learned, where do we go // Proceedings of the International Workshop on the Future of Lexical Research. Beijing, China, 1994. P. 137-146.
70. IndykPiotr, Motwani Rajeev. Approximate nearest neighbors: towards removing the curse of dimensionality // Proceedings of the thirtieth annual ACM symposium on Theory of computing. ACM, 1998. P. 604-613.
71. Jackson H. Lexicography: An Introduction. NewYork : Routledge, 2002. ISBN: 978-0-203-46728-2. OCLC: 956740354.
72. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. : Rep. / Carnegie-mellon univ pittsburgh pa dept of computer science ; Executor: Thorsten Joachims : 1996.
73. Kilgarriff Adam, Yallop Colin Y. What's in a thesaurus? // In Proceedings of the Second International Conference on Language Resources and Evaluation. Athens, Greece, 2000. P. 1371-1379.
74. Kiselev Yuri, Krizhanovsky Andrew, Braslavski Pavel [et al.]. Russian lexicographic landscape: A tale of 12 dictionaries // Komp'juternaja Lingvistika i In-tellektual'nye Tehnologii. Vol. 1. Rossiiskii Gosudarstvennyi Gumanitarnyi Uni-versitet, 2015. P. 254-271.
75. Krovetz Robert. Sense-linking in a machine readable dictionary // Proceedings of the 30th annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, 1992. P. 330-332.
76. LeskMichael. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. // Proceedings of the 5th annual international conference on Systems documentation. ACM, 1986. P. 24-26.
77. Li Fei, Zhang Meishan, Fu Guohong [et al.]. A Bi-LSTM-RNN Model for Relation Classification Using Low-Cost Sequence Features // arXiv preprint arXiv:1608.07720. 2016.
78. Linden Krister, Niemi Jyrki. Is it possible to create a very large wordnet in 100 days? An evaluation // Language resources and evaluation. 2014. Vol. 48, no. 2. P. 191-201.
79. Lopukhina A, Lopukhin K, Iomdin B, Nosyrev G. The taming of the polysemy: automated word sense frequency estimation for lexicographic purposes // Proceedings of EURALEX-2016. In print. 2016.
134
80. Lopukhina Anastasiya, Lopukhin Konstantin. Regular polysemy: from sense vectors to sense patterns // COLING 2016. 2016. P. 19.
81. Loukachevitch Natalia, Dobrov Boris. RuThes linguistic ontology vs. Russian wordnets // Proceedings of Global WordNet Conference GWC-2014. 2014.
82. Marello Carla. The thesaurus // Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1990. P. 1083-1094.
83. Mayor Michael. Longman dictionary of contemporary English. Pearson Education India, 2009. ISBN: 1-4082-0297-2.
84. Meyer Josef, Dale Robert. Using the WordNet hierarchy for associative anaphora resolution // Proceedings of the 2002 workshop on Building and using semantic networks. Vol. 11. Association for Computational Linguistics, 2002. P. 1-7.
85. Mikolov Tomas, Chen Kai, Corrado Greg, Dean Jeffrey. Efficient estimation of word representations in vector space // arXiv preprint arXiv:1301.3781. 2013.
86. Miller George A. WordNet: a lexical database for English // Communications of the ACM. 1995. Vol. 38, no. 11. P. 39-41.
87. Navigli Roberto. Word sense disambiguation: A survey // ACM Computing Surveys (CSUR). 2009. Vol. 41, no. 2. P. 10.
88. Navigli Roberto, Litkowski Kenneth C, Hargraves Orin. Semeval-2007 task 07: Coarse-grained english all-words task. // Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007. P. 30-35.
89. Navigli Roberto, Velardi Paola. Learning word-class lattices for definition and hypernym extraction // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. P. 1318-1327.
90. NeffMary S., Boguraev Branimir K. Dictionaries, Dictionary Grammars and Dictionary Entry Parsing // Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. ACL '89. Stroudsburg, PA, USA : Association for Computational Linguistics, 1989. P. 91-101. URL: http://dx.doi.org/10.3115/ 981623.981635.
91. Oliveira Hugo Gongalo, Gomes Paulo. Onto. PT: automatic construction of a lexical ontology for Portuguese // Proceedings of 5th European Starting AI Researcher Symposium. Vol. 222. 2010. P. 199-211.
92. Oliveira Hugo Gongalo, Gomes Paulo. On the automatic enrichment of a Portuguese wordnet with dictionary definitions // Advances in artificial intelligence, local proceedings of the 16th Portuguese conference on artificial intelligence. 2013. P. 486-497.
93. Pasca Marius, Harabagiu Sanda. The informative role of WordNet in open-domain question answering // Proceedings of NAACL-01 Workshop on WordNet and Other Lexical Resources. 2001. P. 138-143.
94. Pedersen Bolette Sandford, Nimb Sanni, Asmussen J0rg [et al.]. DanNet: the challenge of compiling a wordnet for Danish by reusing a monolingual dictionary // Language Resources and Evaluation. 2009. Vol. 43, no. 3. P. 269-299. URL: http://dx.doi.org/10.1007/s10579-009-9092-1.
95. Pedregosa Fabian, Varoquaux Gael, Gramfort Alexandre [et al.]. Scikit-learn: Machine learning in Python // The Journal of Machine Learning Research. 2011. Vol. 12. P. 2825-2830.
96. Pianta Emanuele, Bentivogli Luisa, Girardi Christian. MultiWordNet: developing an aligned multilingual database // Proceedings of the First International Conference on Global WordNet. Mysore, India, 2002. *hb.. P. 146-154. URL: http://multiwordnet.fbk.eu/paper/MWN-India-published.pdf.
97. Pradhan Sameer S, Loper Edward, Dligach Dmitriy, Palmer Martha. SemEval-2007 task 17: English lexical sample, SRL and all words // Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007. P. 87-92.
98. Richardson Ray, Smeaton Alan F, Murphy John. Using WordNet as a knowledge base for measuring semantic similarity between words // Proceedings of AICS conference. 1994. P. 1-15.
99. Roget Peter Mark. Roget's Thesaurus of English Words and Phrases... TY Crowell Company, 1911.
100. Rothe Sascha, Schütze Hinrich. Autoextend: Extending word embeddings to em-beddings for synsets and lexemes // arXiv preprint arXiv:1507.01127. 2015.
101. Schenkel Ralf, Suchanek Fabian M, Kasneci Gjergji. YAWN: A Semantically Annotated Wikipedia XML Corpus. // Proceedings of the Database Systems in Business, Technology, and Web Conference. Vol. 103. 2007. P. 277-291.
102. Segalovich Ilya. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. Las Vegas, Nevada, USA. : CSREA Press, 2003. P. 273-280. URL: https://tech.yandex.ru/mystem/.
103. Tratz Stephen, Sanfilippo Antonio, Gregory Michelle [et al.]. PNNL: a supervised maximum entropy approach to word sense disambiguation // Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007. P. 264-267.
104. Tufis Dan, Cristea Dan, Stamou Sofia. BalkaNet: Aims, methods, results and perspectives. a general overview // Romanian Journal of Information science and technology. 2004. Vol. 7, no. 1-2. P. 9-43.
105. Ustalov Dmitry. Enhancing Russian Wordnets Using the Force of the Crowd // Analysis of Images, Social Networks and Texts. Springer, 2014. P. 257-264.
106. Van Rossum Guido. Python Programming Language. // Proceedings of the USENIX Annual Technical Conference. Vol. 41. 2007.
107. Veronis Jean, Ide Nancy M. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries // Proceedings of the 13th conference on Computational linguistics. Vol. 2. Association for Computational Linguistics, 1990. P. 389-394.
108. Vilain Marc B. The Restricted Language Architecture of a Hybrid Representation System. // Proceedings of the Ninth International Joint Conference on Artificial Intelligence. Los Angeles, USA, 1985. P. 547-551.
Vossen Piek. A multilingual database with lexical semantic networks. Springer, 1998.
110. Vossen PJTM. EuroWordNet: a multilingual database for information retrieval // Proceedings of the DELOS workshop on Cross-language Information Retrieval. 1997.
111. West Michael, Philip Michael. Definition vocabulary. Department of Educational Research, University of Toronto, 1935.
112. West Michael Philip. The New Method English Dictionary Explaining the Meaning of24.000 Items Within a Vocabulary of 1490 Words, by Michael Philip West,... and James Gareth Endicott,... H. Didier, 1941.
113. Wilks Yorick, Fass Dan, Guo Cheng-ming [et al.]. Providing Machine Tractable Dictionary Tools // Machine Translation. 1990. июн.. Vol. 5, no. 2. P. 99-154. URL: http://link.springer.com/10.1007/BF00393758 (online; accessed: 2018-0912).
114. Yuan Dayu, Richardson Julian, Doherty Ryan [et al.]. Semi-supervised Word Sense Disambiguation with Neural Models // arXiv preprint arXiv:1603.07012. 2016.
115. Zhou Dengyong, Bousquet Olivier, Lal Thomas Navin [et al.]. Learning with local and global consistency // Advances in Neural Information Processing Systems 16. MIT Press, 2004. P. 321-328.
116. Learning from Labeled and Unlabeled Data with Label Propagation : Rep. : CMU-CALD-02-107 / Carnegie Mellon University ; Executor: Xiaojin Zhu, Zoubin Ghahramani. Pittsburgh : 2002. июн..
117. Zhu Xiaojin, Ghahramani Zoubin, Lafferty John D. Semi-supervised learning using gaussian fields and harmonic functions // Proceedings of the 20th International conference on Machine learning (ICML-03). Menlo Park, California : AAAI Press, 2003. P. 912-919.
118. Zipf George Kingsley. Selected studies of the principle of relative frequency in language. Harvard University Press, 1932. ISBN: 978-0-674-43492-9.
119. МахмутоваЛТ. Татар теленен анлатмалы CYЗлеге: 3 томда. h. б. Казан, 1977.
120. Far0 Ken, Hjorth Ebba, Kristensen Kjeld. Den danske ordbog, bd. 1-6. Copenhagen : Gyldendal and Society for Danish Language and Literature, 2003. Bd. 6. ISBN: 87-02-02401-2.
Список рисунков
2.1 Толкования первого значения лексемы гриб разными толковыми словарями...................................35
2.2 Примеры толкований из LDOCE......................40
3.1 Технологическая цепочка извлечения отношений ............51
3.2 Пример входного формата словаря БТС..................54
3.3 Словарная статья и её восстановленная структура.............56
3.4 Исходная словарная статья с максимальным разнообразием типов разделов и её разбор на пары..................................................58
3.5 Эффект применения лексико-грамматических п-грамм .........73
3.6 Пример кластеров словарных толкований.................75
3.7 Примеры результатов кластеризации толкований.............79
3.8 Примеры отношений, извлечённых в ходе эксперимента.........81
4.1 Алгоритм Леска. Пример разрешения омонимии существительного лук 91
4.2 Пример лексического значения гипонима, для которого неоднозначно указана лексема гиперонима.........................100
4.3 Рабочее место разметчика омонимичных данных для дизамбигуации . 103
4.4 Пример задания аннотатору с различными леммами, идентифицированными для одной лексемы гиперонима.........104
4.5 Пример задания аннотатору с несколькими кандидатами в гиперонимы. 105
4.6 Причины возникновения синонимичных значений в корпусе словарных толкований ........................................................108
4.7 Влияние выбора контекста для построения векторного представления на распределение результатов дизамбигуации в зависимости от
выбора оставшихся свободными параметров................117
4.8 Наилучшие результаты дизамбигуации в зависимости от соотношения признаков толкования и расширенного толкования.....118
4.9 Влияние выбора классификатора на результат дизамбигуации......119
4.10 Гиперонимические цепочки, полученные в результате извлечения из толкового словаря...............................121
4.11 Примеры наборов ко-гипонимов, полученных в результате
извлечения из толкового словаря......................121
Список таблиц
1 Сравнение методов составления тезаурусов................29
2 Количество вхождений различных типов словарной информации в машиночитаемой форме БТС........................55
3 Ранжирование словарных разделов ....................57
4 Примеры лексем, находящихся в синтаксической вершине толкования . 64
5 Матрица совпадений ответов аннотаторов.................65
6 Пример признаков, используемых для кластеризации толкований ... 69
7 Пример предложения и извлечённых из него лексико-грамматических биграмм с шаблоном [POS-token] ......72
8 Оценка количества извлечённых отношений и точность извлечения отношений в сравнении с Onto.PT......................76
9 Оценка числа толкований, к которым было применено правило, и точность применения правила........................78
10 Количество извлечённых отношений каждого типа............82
11 Параметры обучения векторных моделей ..................................101
12 Результаты классификации редких токенов, входящих в обучающий корпус для векторных моделей.......................102
13 Влияние выбора векторной модели и используемого для построения векторного представления контекста на точность дизамбигуатора. . . . 116
14 Влияние выбора контекста для построения векторного представления
на результат дизамбигуации.........................116
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.