Методы, модели и программный инструментарий разрешения многозначности в текстах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Гатауллин Рамиль Раисович

  • Гатауллин Рамиль Раисович
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Казанский (Приволжский) федеральный университет»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 178
Гатауллин Рамиль Раисович. Методы, модели и программный инструментарий разрешения многозначности в текстах: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Казанский (Приволжский) федеральный университет». 2019. 178 с.

Оглавление диссертации кандидат наук Гатауллин Рамиль Раисович

3

Глоссарий

Полисемия Многозначность, многовариантность, то есть

наличие у слова (единицы языка, термина) двух и

более значений, исторически обусловленных или

взаимосвязанных по смыслу и происхождению.

Например, «платформа» – железнодорожная или

компьютерная платформа.

Лексическая В лексической системе языка слова, которые

омонимия пишутся и звучат одинаково, но имеют

совершенно разные значения. Например, ключ –

'родник' (студеный ключ) и ключ – 'металлический

стержень особой формы для отпирания и

запирания замка' (стальной ключ).

Грамматическая Слова, совпадающие лишь в какой-нибудь одной

омонимия грамматической форме (реже – в нескольких).

(омоформы) Например, три – числительное в именительном

падеже (три друга) и три – глагол в

повелительном наклонении единственного числа

2-го лица (три морковь на терке).

Разрешение Определение правильного варианта из множества

многозначности возможных, который соответствует текущему

(или контексту.

дизамбигуация)

Текстовый корпус Массив текстов, собранных в единую систему по

определенным признакам (языку, жанру, времени

создания текста и т.п.).

N-грамм Последовательность из n элементов (элементом

последовательности может быть, например, слово,

4

буква, морфема).

Контекст Законченный отрывок письменной или устной

речи (текста), общий смысл которого позволяет

уточнить значение входящих в него отдельных

слов, предложений.

Морфема Минимальная значащая единица языка,

выделяемая в составе слова и выполняющая

функции словообразования и формообразования.

Флективные языки Языки, в которых доминирует словоизменение при

помощи элементов (формантов), сочетающих

сразу несколько значений.

Агглютинативные Языки, в которых при словообразовании каждый

языки элемент (формант) несет только одно значение.

5

Введение

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы, модели и программный инструментарий разрешения многозначности в текстах»

Актуальность проблемы.

Разрешение многозначности является одной из основных задач

автоматической обработки естественного языка. Результаты разрешения

могут использоваться для повышения точности и улучшения качества

применяемых методов в таких задачах, как классификация и

кластеризации текстов, машинный перевод, информационный поиск.

В естественном языке исследователи выделяют несколько типов

многозначности: морфологическую, синтаксическую, лексико-

семантическую и прагматическую. Для работы с каждым из этих типов

разрабатываются собственные методы.

Сложность и особенности разрешения многозначности для каждого

конкретного языка проявляются по-разному. Например, для английского

языка с бедной морфологией и жестким порядком слов в предложении

разрешение морфологической многозначности, как правило, сводится к

задаче POS-теггинга (от англ., part of speech – определение части речи

слова) и решается применением достаточно простых методов. Для

русского языка морфологическая многозначность не столь характерна, как

для английского и татарского языков, но, тем не менее, присуща.

Дополнительную сложность добавляет свободный порядок слов в русском

языке. В татарском языке, как и в других агглютинативных языках

тюркской группы, морфемы являются важнейшими значащими языковыми

единицами, которые несут как семантическую, так и синтаксическую

информацию. Имея теоретически неограниченное количество морфем,

присоединяемых к основе, морфологическая многозначность приобретает

разнообразные формы, что значительно усложняет задачу разрешения.

Разработка методов и моделей разрешения многозначности –

достаточно трудоемкий процесс, включающий в себя лингвистический

6

анализ многозначности в конкретном языке, создание и оценку качества

разрабатываемых моделей, а также настройку взаимодействия всех

элементов системы в целом. В настоящее время разработано множество

моделей и алгоритмов, использующихся при разрешении многозначности,

которые зачастую нацелены на решение узкого спектра задач и не

учитывают при этом всех особенностей процесса разработки программных

средств. Это приводит к тому, что разрабатывать программные средства

разрешения многозначности приходится с нуля, используя лишь базовый

набор имеющегося инструментария и заново решая проблемы, схожие для

многих других языков.

Таким образом, актуально решение проблемы создания комплексного

инструментария, который позволил бы автоматизировать весь процесс

создания и тестирования программных средств разрешения

многозначности с ориентацией на конкретный естественный язык.

Объектом исследования в диссертации является автоматизация

процессов создания и тестирования программных средств автоматического

разрешения многозначности в естественно-языковых (ЕЯ) текстах.

Предметом исследования в диссертационной работе является

разработка программного инструментария для автоматизации процессов

создания и тестирования программных средств разрешения

многозначности в ЕЯ-текстах.

Цель работы и задачи исследования. Основной целью

диссертационной работы является разработка программного

инструментария для автоматизации процессов создания и тестирования

программных средств, служащих для разрешения многозначности в

текстах на естественном языке (ЕЯ-текстах) и позволяющих сократить

время разработки программной системы за счет интеграции требуемых

моделей и обеспечения эффективного взаимодействия программных

компонентов, а также поддержки многопользовательского режима

решения базовых задач.

7

Для достижения поставленной цели в ходе диссертационного

исследования сформулированы и решены следующие задачи:

1) Разработка модели программного инструментария для

автоматизации процессов создания и тестирования программных средств

разрешения многозначности в ЕЯ-текстах;

2) Исследование методов, моделей и средств разрешения

многозначности;

3) Разработка и реализация моделей, в том числе лексико-

грамматической модели представления базы знаний, разработка

программного инструмента для формирования и тестирования лексико-

грамматической базы знаний;

4) Разработка программного инструментария для автоматизации

процессов создания и тестирования программных средств разрешения

многозначности в ЕЯ-текстах;

5) Анализ типов морфологической многозначности в ЕЯ-текстах;

выявление и описание лексико-грамматических особенностей конкретного

языка (на примере татарского языка) и формирование требований к набору

инструментов;

6) Разработка программных средств разрешения многозначности с

учетом лексико-грамматических особенностей конкретного языка (на

примере татарского языка).

Научная новизна полученных результатов;

1) Разработан новый программный инструментарий, позволяющий

автоматизировать процессы создания и тестирования программных

средств разрешения многозначности в ЕЯ-текстах;

2) Разработана продукционная лексико-грамматическая модель

представления базы знаний для разрешения морфологической

многозначности в ЕЯ-текстах, реализован программный инструмент для

формирования и тестирования разработанной базы знаний;

8

3) Впервые созданы программные средства разрешения

морфологической многозначности в ЕЯ-текстах на татарском языке на базе

разработанного программного инструментария.

Теоретическая и практическая ценность полученных

результатов. Разработанные модели и программные реализации

направлены на решение проблем в области обработки ЕЯ-данных,

возникающих при построении и тестировании программных средств

разрешения многозначности в ЕЯ-текстах. Предложенная программная

архитектура инструментария учитывает выявленные особенности

процессов создания и тестирования программных средств разрешения

многозначности. Важной особенностью системы является поддержка

одновременной работы специалистов по лингвистике разных уровней

компетенции с возможностью предоставления доступа к функционалу,

настраиваемого для каждого из специалистов.

Реализованный программный инструментарий позволяет

автоматизировать процессы решения стандартных задач и подзадач

разрешения многозначности в ЕЯ-текстах, заметно ускоряя процесс

создания новых систем, в том числе, для малоресурсных языков.

Теоретическая ценность результатов диссертации заключается в

разработанной диссертантом новой лексико-грамматической модели

представления базы знаний, способствующей повышению качества снятия

морфологической многозначности.

Разработанные программные модули в настоящее время используются

в практически значимых приложениях, связанных с обработкой ЕЯ-

текстов на татарском языке, таких, как классификация и кластеризация

текстов, машинный перевод, информационный поиск и контент-анализ.

Методы исследования. При разрешении многозначности

применялись методы, основанные на правилах, статистико-вероятностные

модели разрешения и методы машинного обучения. Программная

реализация основана на объектно-ориентированном подходе.

9

Положения, выносимые на защиту.

1) Программный инструментарий для автоматизации процессов

создания и тестирования программных средств разрешения

многозначности в ЕЯ-текстах;

2) Лексико-грамматическая модель представления базы знаний для

разрешения морфологической многозначности в ЕЯ-текстах;

3) Программные средства разрешения морфологической

многозначности в ЕЯ-текстах на татарском языке.

Степень достоверности и апробация результатов.

Исследования, проведенные в диссертации, соответствуют паспорту

специальности 05.13.11 – Математическое и программное обеспечение

вычислительных машин, комплексов и компьютерных сетей,

сопоставление приведено в таблице 1.

Таблица 1 – Сопоставление направлений исследований, предусмотренных

специальностью 05.13.11, и результатов, полученных в диссертации

Направление исследования Результат работы

3. Модели, методы, алгоритмы, Разработан программный

языки и программные инструментарий, обеспечивающий

инструменты для организации взаимодействие процессов

взаимодействия программ и разработки и тестирования

программных систем. программных средств разрешения

морфологической многозначности.

4. Системы управления базами Разработана система управления

данных и знаний. базой знаний для разрешения

морфологической многозначности.

7. Человеко-машинные интер- Разработан визуальный

фейсы; модели, методы, многооконный веб-интерфейс

алгоритмы и программные комплекса программного

средства машинной графики, инструментария, облегчающий

визуализации, обработки доступ, разработку, тестирование и

изображений, систем виртуальной использование базы знаний и

реальности, мультимедийного программных средств разрешения

общения. морфологической многозначности.

10

Программный модуль разрешения морфологической многозначности

в татарском языке зарегистрирован в Реестре программ для ЭВМ в

Федеральной службе по интеллектуальной собственности (Федеральный

институт промышленной собственности (ФИПС)). Разработанный

программный комплекс был использован в рамках проекта по созданию

национального корпуса татарского языка «Туган тел». Результаты работы

внедрены в учебный процесс по направлению 45.03.01 «Филология:

прикладная филология: татарский язык и литература, информационные

технологии с углубленным изучением иностранного языка» в Институте

филологии и межкультурной коммуникации Казанского федерального

университета (КФУ).

Результаты работы докладывались автором на следующих

международных конференциях и семинарах: Международных научно-

технических конференциях OSTIS (Республика Беларусь, г. Минск, 2014–

2016); Международных конференциях TEL «Языковая семантика: модели

и технологии» (г. Казань, 2014–2018); Международных конференциях по

машинной обработке тюркских языков TurkLang (Турция, г. Стамбул,

2014, РФ, г. Казань, 2015, г. Казань, 2017); 9-ой Международной

конференции ICCCI 2017 (Кипр, г. Никосия, 2017), а также на различных

республиканских и городских научных семинарах, итоговых научных

конференциях КФУ и Института прикладной семиотики Академии наук

Республики Татарстан (2014–2018).

Публикации. Основные положения и результаты диссертационной

работы опубликованы в 16 печатных изданиях, в том числе, 2 статьи – в

научных журналах из перечня ВАК («Ученые записки Казанского

университета», «Научно-технический вестник Поволжья»), 3 статьи – в

журналах, индексируемых SCOPUS («International Journal of Applied

Engineering Research», издательство Research India Publications;

«Computational Collective Intelligence. ICCCI 2017. Lecture Notes in

Computer Science», издательство Springer; «CEUR Workshop Proceedings»).

11

Структура и объем работы. Диссертация состоит из введения, трех

глав, заключения, списка использованной литературы и 3 приложений.

Объем диссертации составляет 173 страниц, включая 12 таблиц и 31

рисунок.

Благодарности. Автор выражает благодарность научному

руководителю, доктору технических наук, профессору, Сулейманову

Джавдету Шевкетовичу, кандидату технических наук, доценту Невзоровой

Ольге Авенировне, кандидату технических наук Гильмуллину Ринату

Абрековичу и кандидату технических наук Хусаинову Айдару Фаиловичу

за содействие и помощь в работе, ценные консультации и плодотворные

совместные обсуждения, способствовавшие реализации идей диссертации.

12

Глава 1. Аналитический обзор работ в области разрешения

многозначности в текстах

Разрешение многозначности является одной из основных задач

автоматической обработки естественного языка. Результаты разрешения

могут использоваться для повышения точности и улучшения качества

применяемых методов в таких задачах как классификация и кластеризация

текстов, машинный перевод, информационный поиск [40].

В естественном языке исследователи выделяют несколько типов

многозначности: морфологическая, синтаксическая, лексико-

семантическая и прагматическая многозначности. Для работы с каждым

из этих типов разрабатываются собственные методы [40].

Задача разрешения морфологической многозначности заключается в

определении для слова части речи и грамматических признаков,

соответствующих контексту. Морфологическая многозначность, в

основном, представлена грамматической омонимией, т. е. совпадением

слов в отдельных грамматических формах. Например, слово «стекло» в

зависимости от контекста может быть либо существительным,

обозначающим материал («смотреть через стекло»), либо глаголом в

прошедшем времени 3-го лица единственного числа («масло стекло»).

Задача разрешения синтаксической многозначности (многозначность

синтаксических структур) заключается в правильном определении

функций синтаксических единиц предложения. Примером такой

неоднозначности является предложение «мужу изменять нельзя»

(словоформа мужу – субъект или объект предложения?) [40].

Значения слов могут относиться к одной части речи, но различаться

по смыслу, например, «platform» – железнодорожная или компьютерная

платформа. В этом случае речь идет о полисемии, когда у одного слова

имеются два или более значения, взаимосвязанных по смыслу и

13

происхождению. Полисемия относится к лексической многозначности.

Сюда же следует относить и лексическую омонимию (слова совпадают в

звучании и написании, но имеют разные значения). Такими омонимами

являются слова лук («оружие») и лук («растение»). Задача разрешения

такой неоднозначности состоит в установлении значений слов или

составных терминов в соответствии с контекстом, в котором они

использовались [40].

Еще один тип неоднозначности возникает в результате употребления

местоимений или специальных существительных типа one, another (еще

один). Так, в предложении «Она уронила карандаш на стол и сломала его»

невозможно однозначно определить, что именно было сломано –

карандаш или стол (нельзя однозначно разрешить референцию

местоимения его) [40]. В этом случае говорят о прагматической

неоднозначности.

Сложность и особенности разрешения многозначности для каждого

конкретного языка проявляются по-разному. Например, для английского

языка с бедной морфологией и жестким порядком слов в предложении

разрешение морфологической многозначности, как правило, сводится к

задаче POS-теггинга (от англ., part of speech – определение части речи

слова) и решается применением достаточно простых методов. Для

русского языка морфологическая многозначность не столь характерна, как

для английского и татарского, но, тем не менее, присуща. Дополнительную

сложность добавляет свободный порядок слов в русском языке. В

татарском языке, как и в других агглютинативных языках тюркской

группы, морфемы являются важнейшими значащими языковыми

единицами, которые несут как семантическую, так и синтаксическую

информацию. Имея теоретически неограниченное количество

присоединяемых к основе морфем, морфологическая многозначность

приобретает разнообразные формы, что значительно усложняет задачу

разрешения.

14

Несмотря на значительные успехи в области разработки алгоритмов и

методов, проблема продолжает оставаться актуальной для многих языков,

включая тюркские языки. В диссертационной работе область исследований

фокусируется на проблеме разрешения морфологической многозначности,

как самой разнообразной и распространённой. Также морфологическая

многозначность лежит в основе более сложных типов, таких как

синтаксической или лексической многозначности. Соответственно, для

разрешения ситаксической или лексической многозначнсти требуется,

чтобы тексты были размеченные и со снятой морфологической

многозначностью.

В качестве языка апробации выбран татарский язык, относящийся к

агглютинативным языкам со сложной морфологической многозначностью.

Татарский язык имеет теоретически неограниченное количество

присоединяемых к основе морфем, так что морфологическая

многозначность приобретает разнообразные формы, что значительно

усложняет задачу разрешения. Соответственно, для татарского языка

разрешение морфологической многозначности особенно актуально, и

выполнено впервые в представленном объёме, с использованием

технологий и программных средств, разработанных диссертантом.

1.1. Классификация методов разрешения морфологической

многозначности

Задача разрешения морфологической многозначности была

поставлена еще в 50-60-х годах, и теоретические исследования имеют

многолетнюю историю. В основном разработанные методы делятся на 2

класса:

1. Методы, основанные на правилах;

2. Статистико-вероятностные методы (в том числе нейросетевые

модели).

15

Если контекстные методы опираются на контекстные правила,

созданные вручную, то статистико-вероятностные пытаются сначала

выявить закономерности в статистических данных, а затем используют

выявленные закономерности для решения задачи разрешения. В некоторых

случаях выявленные закономерности сохраняются в явном виде

(например, в форме контекстных правил, или структуры деревьев

решения), но чаще – как неявные числовые представления данных

(например, в виде вектора коэффициентов для метода опорных векторов

(eng. SVM), или в виде матрицы весов нейронов в нейронных сетях)), или в виде матрицы весов нейронов в нейронных сетях).

Таблица 2 – Точность морфологической разметки текстов (в том числе

включает разрешение морфологической многозначности)

Класс метода Методы Язык Точность

Методы, английск 99,5% [33]

основанные на ий

русский 95% [27]

правилах

татарски 95% [5]

й

Статистико- HM), или в виде матрицы весов нейронов в нейронных сетях)M), или в виде матрицы весов нейронов в нейронных сетях) английск 96% [30]

ий

16

вероятностные русский 95% [30, 33]

методы финский 97% [9]

венгерск 97% [12]

ий

турецкий 98% [8]

татарски 97% [25]

й

M), или в виде матрицы весов нейронов в нейронных сетях)EM), или в виде матрицы весов нейронов в нейронных сетях)M), или в виде матрицы весов нейронов в нейронных сетях) английск 96% [13, 30]

ий

русский 95% [30]

SVM), или в виде матрицы весов нейронов в нейронных сетях) английск 97,2% [39]

ий

русский 95,7% [39]

GPA турецкий 96% [4]

Нейронные LSTM), или в виде матрицы весов нейронов в нейронных сетях) турецкий 96% [43]

сети русский 91% [43]

татарски 95% [54]

й

CNN турецкий 93.5% [45]

Кроме представленных выше классов, существуют гибридные

методы, которые представляют собой комбинацию выше указанных

методов. Идея одних методов сводится к разделению области задач на

подзадачи, для каждого из которых определяется один из методов, а

результаты потом объединяются. Тогда как другие методы применяются

параллельно на одних и тех же данных, а конечный результат определяется

голосованием. Примером такого подхода является ансамбль (комитет)

моделей.

1.2. Методы, основанные на правилах

В конце 1950-х годов в работах K.E. Harper [7], A. Caplan [2]

основным способом снятия омонимии признавались изучение и описание

тех контекстных условий, в которых реализуется то или иное значение

слова. При этом под контекстом понималось окружение слова в тексте, т.е.

совокупность тех слов, с которыми многозначное слово употребляется.

17

Актуальным для исследуемой задачи также являлся вопрос о

минимальном разрешающем контексте. В этой связи заслуживают

внимания результаты, полученные A. Caplan [2] по исследованию

минимального разрешающего контекста. В работе анализировались 140

многозначных употребительных английских слов (в основном,

лексических омонимов), находившихся в различных контекстных

условиях. Автором выделены следующие виды контекстов:

 сочетание с предшествующим словом – P1;

 сочетание с последующим словом – F1;

 сочетание с предшествующим и последующим словами – В1 (both);

 сочетание с двумя предшествующими словами – P2;

 сочетание с двумя последующими словами – F2;

 сочетание с двумя предшествующими и двумя последующими

словами – В2;

 все предложение в целом – S (sentence).

Основной вывод заключался в том, что цепочка B1 по эффекту

редуцирования многозначности (отношение количества значений слова в

конкретном контексте к их количеству в нулевом контексте) более

продуктивна, чем контекст, состоящий из двух предшествующих или двух

последующих слов (Р2 и F2), и приближается к эффекту, даваемому целым

предложением (S) [2].

В другом выводе подчеркивается важное значение материального

типа контекста, т.е. входят ли в непосредственное окружение

знаменательные слова, или слова, называемые автором «particles»

(предлоги, союзы, глаголы типа will или do, артикли, местоимения и

наречия типа there и др.). Первый тип контекста дает значительно

большую редукцию многозначности, чем контекст, содержащий слова без

конкретного лексического наполнения [2, 27].

Общие выводы A. Caplan сводятся к тому, что наиболее практичным

является контекст, состоящий из одного слова слева и одного слова справа

18

от анализируемой многозначной лексемы. Если же одно из слов окружения

типа «particle» (частица), то следует «усилить» контекст до двух слов с

обеих сторон [2, 27].

Исследования такого подхода для русского языка [27] показали, что

его применимость в реальных контекстах вряд ли возможна. Реальная

ситуация с разрешением омонимии в русском языке значительно сложнее

и не может быть разрешена на основе упрощенных схем. В отличие от

английского, в русском языке порядок слов относительно свободный,

предполагается, что количество возможных контекстов из-за этого

увеличивается. Для решения этой проблемы для русского языка была

предложена усложненная структура правил, а также предполагается в

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Гатауллин Рамиль Раисович, 2019 год

Литература

1. Brill, E. A simple rule-based part of speech tagger [Text] / E. Brill //

Proceedings of the third conference on Applied natural language processing

(ANLC’92). Stroudsburg, PA, USA: Association for Computational Linguistics.

– 1992. – P.152–155.

2. Caplan, A. An experimental study of ambiguity and context [Text] /

A. Caplan // M), или в виде матрицы весов нейронов в нейронных сетях)ech. Translation. – 1955. – V. 2. – No 2. – P.39–46.

3. Collins, M), или в виде матрицы весов нейронов в нейронных сетях). Discriminative training methods for hidden M), или в виде матрицы весов нейронов в нейронных сетях)arkov

models: Theory and experiments with perceptron algorithms [Text] / M), или в виде матрицы весов нейронов в нейронных сетях).

Collins // Proceedings of EM), или в виде матрицы весов нейронов в нейронных сетях)NLP. – 2002. – P.1–8.

4. Yuret, D. Learning morphological disambiguation rules for Turkish

[Text] / Deniz, Ferhan Ture // Proceedings of the Human Language Technology

Conference of the North American Chapter of the ACL. – New York, 2006. –

P.328–334.

5. Khakimov, B. E. Context-Based Rules for Grammatical

Disambiguation in the Tatar Language [Text] / Gataullin R. R., Khakimov B. E.,

Suleymanov D. Sh., Gilmullin R. A. // Computational Collective Intelligence.

ICCCI 2017. Lecture Notes in Computer Science. Springer, Cham. – Cyprus,

Nicosia, 2017. – Vol. 10449. – P.529-537.

6. Gataullin, R. M), или в виде матрицы весов нейронов в нейронных сетях)orphological Analysis System of the Tatar Language

[Text] / Gataullin Ramil, Gilmullin Rinat // Computational Collective

Intelligence. ICCCI 2017. Lecture Notes in Computer Science. Springer, Cham.

– Cyprus, Nicosia, 2017. – Vol. 10449. – P.519-528.

7. Harper, K. E. Contextual analysis [Text] / K. E. Harper // M), или в виде матрицы весов нейронов в нейронных сетях)ech.

Translation. – 1956. – V. 4. – No 3. – P.70–75.

8. Sak, H. M), или в виде матрицы весов нейронов в нейронных сетях)orphological disambiguation of turkish text with perceptron

algorithm [Text] / Hasim Sak, Tunga Gongur, M), или в виде матрицы весов нейронов в нейронных сетях)urat Saraclar // Computational

134

Linguistics and Intelligent Text Processing, 8th International Conference

CICLing. – M), или в виде матрицы весов нейронов в нейронных сетях)exico City, M), или в виде матрицы весов нейронов в нейронных сетях)exico, February 2007. – P.107–118.

9. Linden, K. Weighted finite-state morphological analysis of finnish

compounding with HFST-LEXC [Text] / Kristen Linden, Tommi Pirinen // In

Proceedings of the 17th Nordic Conference of Computational Linguistics

NODALIDA. – 2009. – V. 4. – P.89–95.

10. Lebret, R. Word Emdeddings through Hellinger PCA [Text] / Rémi

Lebret, Ronan Collobert // Proceedings of the 14th Conference of the European

Chapter of the Association for Computational Linguistics. – Gothenburg,

Sweden, April 26-30, 2014. – P.482–490.

11. Levy, O. Linguistic Regularities in Sparse and Explicit Word

Representations [Text] / Omer Levy, Yoav Goldberg // Proceedings of the

Eighteenth Conference on Computational Natural Language Learning.

Association for Computational Linguistics. – Baltimore, M), или в виде матрицы весов нейронов в нейронных сетях)aryland, USA, June,

2014. – P.171–180.

12. Orosz, G. PurePos 2.0: a hybrid tool for morphological

disambiguation [Text] / Orosz G., Novak A. // In Proceedings of the

International Conference on Recent Advances in Natural Language Processing

(RANLP 2013). INCOM), или в виде матрицы весов нейронов в нейронных сетях)A Ltd. Shoumen, Bulgaria. – Hissar, Bulgaria, 2013. –

P.539–545.

13. Ratnaparkhi, A. M), или в виде матрицы весов нейронов в нейронных сетях)aximum entropy model for part-of-speech tagging

[Text] / A. Ratnaparkhi // Proceedings of the Empirical M), или в виде матрицы весов нейронов в нейронных сетях)ethods in Natural

Language Processing. – Philadelphia, PA, USA, 1996. – P.133–142.

14. M), или в виде матрицы весов нейронов в нейронных сетях)ikolov, T. Distributed Representations of Words and Phrases and

their Compositionality [Text] / Tomas M), или в виде матрицы весов нейронов в нейронных сетях)ikolov, Ilya Sutskever, Kai Chen, Greg

Corrado, Jeffrey Dean // Proceedings of NIPS'13. – Lake Tahoe, Nevada, 2013.

– V. 2. – P.3111–3119.

15. Tufiş, D. Knowledge-based approach to morpho-lexical processing of

natural language [Text] / Tufiş D., Popescu O.A. // Proceedings of the

135

International Conference for Young Computer Scientists. – Beijing, 1991. –

P.405–408.

16. Weischedel, R. M), или в виде матрицы весов нейронов в нейронных сетях). Coping with ambiguity and unknown words

through probabilistic models [Text] / Weischedel Ralph M), или в виде матрицы весов нейронов в нейронных сетях). // Computational

Linguistics. M), или в виде матрицы весов нейронов в нейронных сетях)IT Press. – Cambridge, M), или в виде матрицы весов нейронов в нейронных сетях)A, USA, 1993. – V. 19. – Issue 2. –

P.361–382.

17. Бобичев, В.Л. Автоматическое снятие морфологической

многозначности при разметке корпуса [Текст] / В.Л. Бобичев // Тр.

междунар. конф. «Корпусная лингвистика–2008». – СПб.: СПбГУ, 2008. –

C. 45–49.

18. Бочаров, В.В. Программное обеспечение для коллективной

работы над морфологической разметкой корпуса [Текст] / В.В. Бочаров,

Д.В. Грановский // Труды международной конференции «Корпусная

лингвистика – 2011». 27–29 июня 2011 г., Санкт-Петербург. – СПб.: С.-

Петербургский гос. университет, Филологический факультет, 2011. – C.

348-351.

19. Галиева, А.М. Метаязык описания структуры татарской

словоформы для корпусной грамматической аннотации [Текст] /

А.М. Галиева, Б.Э. Хакимов, А.Р. Гатиатуллин // Учен. зап. Казан. ун-та.

Сер. Гуманит. Науки, 2013. – Т. 155, кн. – С. 287-296.

20. Гатауллин, Р.Р. Программный инструментарий для разрешения

морфологической многозначности в татарском языке [Текст] /

Р.Р. Гатауллин, Д.Ш. Сулейманов, Р.А. Гильмуллин // Открытые

семантические технологии проектирования интеллектуальных систем

OSTIS-2014 Open Semantic Technologies for Intelligent Systems,

МАТЕРИАЛЫ IV МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]). НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]).

КОНФЕРЕНЦИИ (Минск, 20-22 февраля 2014 года), – Минск.: БГУИР,

2014. – С. 503 –508.

21. Гатауллин, Р.Р. Аналитический обзор методов разрешения

морфологической многозначности [Текст] / Р.Р. Гатауллин // Российский

136

научный электронный журнал (Электронные библиотеки). – 2016. – Том

19. – № 2. – С. 98–114.

22. Гатауллин, Р.Р. Веб-инструментарий для снятия

морфологической многозначности в текстовом корпусе татарского языка

[Текст] / Р.Р. Гатауллин // Сохранение и развитие родных языков в

условиях многонационального государства: проблемы и перспективы:

материалы V Международной научно-практической конференции (Казань,

19-22 ноября 2014 г.). – Казань: Отечество, 2014. – С. 71–73.

23. Гатауллин, Р.Р. Контекстные правила для разрешения

морфологической многозначности в корпусе татарского языка [Текст] /

Р.Р. Гатауллин, Р.А. Гильмуллин // Открытые семантические технологии

проектирования интеллектуальных систем OSTIS-2016 Open Semantic

Technologies for Intelligent Systems, МАТЕРИАЛЫ V МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]).

НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]). КОНФЕРЕНЦИИ (Минск, 18-20 февраля 2016

года). – Минск: БГУИР, 2016. – С. 389–392.

24. Гатауллин, Р.Р. Программный инструментарий для разрешения

морфологической многозначности в татарском языке [Текст] / Р.Р.

Гатауллин, Д.Ш. Сулейманов, Р.А. Гильмуллин // Открытые

семантические технологии проектирования интеллектуальных систем

OSTIS-2014 Open Semantic Technologies for Intelligent Systems,

МАТЕРИАЛЫ IV МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]). НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]).

КОНФЕРЕНЦИИ (Минск, 20-22 февраля 2014 года). – Минск: БГУИР,

2014. – С. 503-508.

25. Гильмуллин, Р.А. Разрешение морфологической многозначности

текстов на татарском языке на основе инструментария PurePos [Текст] /

Р.А. Гильмуллин, Р.Р. Гатауллин // V МЕЖДУНАРОДНАЯ

КОНФЕРЕНЦИЯ ПО КОМПЬЮТЕРНОЙ)][1PL(бЫз)]")]), "."]). ОБРАБОТКЕ ТЮРКСКИХ

ЯЗЫКОВ «TURKLANG 2017». – Труды конференции. В 2-х томах. –

Казань: Издательство Академии наук Республики Татарстан, – C. 30-37.

137

26. Зеленков, Ю.Г. Вероятностная модель снятия морфологической

омонимии на основе нормализующих подстановок и позиций соседних

слов [Текст] / Ю.Г. Зеленков, И.В. Сегалович, В.А. Титов // Компьютерная

лингвистика и интеллектуальные технологии. Труды международного

семинара Диалог'2005. – М.: Наука, 2005. – С. 616.

27. Зинькина, Ю.В. Разрешение функциональной омонимии в

русском языке на основе контекстных правил [Текст] / Ю.В. Зинькина,

Н.В. Пяткин, О.А. Невзорова // Труды межд. конф. Диалог'2005. –

М.: Наука, 2005. – С. 198–202.

28. Кобзарева, Т.Ю. Универсальный модуль предсинтаксического

анализа омонимии частей речи в РЯ на основе словаря диагностических

ситуаций [Текст] / Т.Ю. Кобзарева, Р.Н. ƒАфанасьев // Труды междунар.Афанасьев // Труды междунар.

конференции Диалог'2002. – М.: 2002. – С. 258–268.

29. Курбатов, Х.Р. Грамматические омонимы в татарском языке

[Текст] / Х.Р. Курбатов // Татар теле һәм әдәбияты. Казан: Татар. кит.

нәшр., 1959. – С. 307–311.

30. Лакомкин, Е.Д. Анализ статистических алгоритмов снятия

морфологической омонимии в русском языке [Текст] / Е.Д. Лакомкин, И.В.

Пузыревский, Д.А. Рыжова // Доклады всероссийской научной

конференции АИСТ’2013. – Москва, 2013. – С. 184–195.

31. Салахова, Р.Р. Омонимичные суффиксы татарского языка /

Казань: Gumanitarya, 2007. 204 с.

32. Салимгараева, Б.С. Омонимы в современном татарском языке:

автореф. дис. канд. фил. наук: 10.02.02. Уфа, 1971. 82 с.

33. Сокирко, А.В. Сравнение эффективности двух методик снятия

лексической и морфологической неоднозначности для русского языка

(скрытая модель Маркова и синтаксический анализатор именных групп)

[Текст] / А.В. Сокирко, С.Ю. Толдова // Интернет-математика 2005. – М.,

2005. – С. 80–94.

138

34. Сулейманов, Д.Ш. Двухуровневое описание морфологии

татарского языка [Текст] / Д.Ш. Сулейманов, Р.А. Гильмуллин // Тезисы

Международной научной конференции "Языковая семантика и образ

мира" в 2 кн. – Казань: Изд-во Казан. ун-та, 1997. – Кн. 2. – С. 65–67.

35. Сулейманов, Д.Ш. Корпус татарского языка: концептуальные и

лингвистические аспекты [Текст] / Д.Ш. Сулейманов, Б.Э. Хакимов,

Р.А. Гильмуллин // Вестн. ТГГПУ. – № 4 (26). – С.211-216.

36. Сулейманов, Д.Ш. Системы и информационные технологии

обработки естественно-языковых текстов на основе прагматически-

ориентированных лингвистических моделей: автореф. дис. докт. тех. наук:

05.13.14. Казань, 2000.

37. Татарская грамматика / ред.– Казань: Татар. книж. изд-во, – Т.II.

Морфология. – 397 с.

38. Татарский национальный корпус “Туган тел” [Электронный

документ]. URL: http://web-corpora.net/TatarCorpus/search/?

interface_language=ru [Дата обращения: 16.03.2019].

39. Ткаченко М.В., Модель и алгоритм улучшения распознавания

частей речи в текстах, содержащих ошибки: курс. работа. науч. рук.: Л.С.

Выговский, ассистент кафедры АСОИУ, СПбГЭТУ ЛЭТИ, СПбГу, Санкт-

Петербург, 2010. 20 с.

40. Турдаков, Д.Ю. Методы и программные средства разрешения

лексической многозначности терминов на основе сетей документов:

автореф. дис. канд. тех. наук: 05.13.11. Москва, 2010. 20 с.

41. Хакимов, Б.Э. К разработке морфологического стандарта для

систем автоматической обработки текстов на татарском языке [Текст] /

Б.Э. Хакимов, Р.А. Гильмуллин // Системный анализ и семиотическое

моделирование: материалы всеросс. конф. с междунар. участием (SASM), или в виде матрицы весов нейронов в нейронных сетях)-

2011). – Казань, 2011. – С. 209–214.

42. Хакимов, Б.Э. Разрешение грамматической многозначности в

корпусе татарского языка [Текст] / Б.Э. Хакимов, Р.А. Гильмуллин,

139

Р.Р.Гатауллин // Учен. зап. Казан. ун-та. Сер. Гуманит. науки. – 2014. –

Т. 156, кн. 5. – С. 236–244.

43. Shen, Q. The Role of Context in Neural M), или в виде матрицы весов нейронов в нейронных сетях)orphological

Disambiguation [Text] / Qinlan Shen, Daniel Clothiaux, Emily Tagtow, Patrick

Littell, Chris Dyer // Proceedings of COLING 2016, the 26th International

Conference on Computational Linguistics: Technical Papers. – Osaka, Japan,

December 11-17, 2016. – P.181–191.

44. M), или в виде матрицы весов нейронов в нейронных сетях)uzychka, S. Conditional random field for morphological

disambiguation in Russian [Text] / S. M), или в виде матрицы весов нейронов в нейронных сетях)uzychka, A. Romanenko,

I Piontkovskaja // In Conference Dialog-2014. – Bekasovo, 2014. – P.455–465.

45. Yildiz, E. A M), или в виде матрицы весов нейронов в нейронных сетях)orphology-aware Network for M), или в виде матрицы весов нейронов в нейронных сетях)orphological

Disambiguation [Text] / Eray Yildiz, Caglar Tirkaz, H. Bahadir Sahin, M), или в виде матрицы весов нейронов в нейронных сетях)ustafa

Tolga Eren, and Ozan Sonmez // Proceedings of the Thirtieth AAAI Conference

on Artificial Intelligence. – 2016. – P.2863–2869.

46. Hochreiter, S. Long short-term memory [Text] / Sepp Hochreiter //

Neural Computation. – 1997. – 9 (8). – P.1735–1780. –

DOI:10.1162/neco.1997.9.8.1735. PM), или в виде матрицы весов нейронов в нейронных сетях)ID 9377276.

47. Gers, F. A. Learning to Forget: Continual Prediction with LSTM), или в виде матрицы весов нейронов в нейронных сетях)

[Text] / Felix A. Gers // Neural Computation. – 2000. – 12 (10) – P.2451–2471.

– DOI:10.1162/089976600300015015.

48. Hochreiter, S. Gradient flow in recurrent nets: the difficulty of

learning long-term dependencies [Text] / S. Hochreiter, Y. Bengio, P. Frasconi,

J. Schmidhuber // In S. C. Kremer and J. F. Kolen, editors, A Field Guide to

Dynamical Recurrent Neural Networks. IEEE Press. – 2001. – P. 464–467.

49. Graves, A. A Novel Connectionist System for Improved

Unconstrained Handwriting Recognition [Text] / A. Graves, M), или в виде матрицы весов нейронов в нейронных сетях). Liwicki, S.

Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber // IEEE Transactions on

Pattern Analysis and M), или в виде матрицы весов нейронов в нейронных сетях)achine Intelligence. – 2009. – V. 31. – №. 5. – P.855–

868.

140

50. Graves, A. Speech Recognition with Deep Recurrent Neural Networks

[Text] / Alex Graves, Abdel-rahman M), или в виде матрицы весов нейронов в нейронных сетях)ohamed, Geoffrey Hinton // Acoustics,

Speech and Signal Processing (ICASSP), 2013 IEEE International Conference.

– 2013. – P.6645–6649.

51. Condorcet, N. C. Essai sur l'application de l’analyse à la Probabilité

des Décisions rendues a la Pluralité des voix. / N. C. Condorcet // Paris:

L’Imprimerie Royale. – 1785.

52. Huang, T.S. A neuronet approach to information fusion [Text] /

T. S. Huang, C. P. Hess, H. Pan, Z. Liang // Proc. 1st IEEE Workshop on

M), или в виде матрицы весов нейронов в нейронных сетях)ultimedia Signal Processing. – 1997. – P.45–50.

53. Кашницкий, Ю.С. История развития ансамблевых методов

классификации в машинном обучении / Ю.С. Кашницкий, Д.И. Игнатов //

Интеллектуальные системы. Теория и приложения.

10.13140/RG.2.1.3933.2007. – 2015. – Т. 19. – № 4. – С. 37-55.

54. Гатауллин, Р.Р. Разрешение морфологической многозначности в

корпусе татарского языка на основе статистико-вероятностной модели

Purepos и нейросетевой модели LSTM), или в виде матрицы весов нейронов в нейронных сетях) [Текст] / Р.Р. Гатауллин,

Р.А. Гильмуллин, Б.Э. Хакимов // VI МЕЖДУНАРОДНАЯ

КОНФЕРЕНЦИЯ ПО КОМПЬЮТЕРНОЙ)][1PL(бЫз)]")]), "."]). ОБРАБОТКЕ ТЮРКСКИХ

ЯЗЫКОВ «TURKLANG 2018» (Труды конференции). – Ташкент:

Издательско-полиграфический дом «NAVOIY UNIVERSITETI», 2018. – С.

178–185.

55. Гатауллин, Р.Р. Гибридный морфологический анализатор

татарского языка на основе правил и статистики [Текст] / Р.Р. Гатауллин //

Научно-технический вестник Поволжья. No9 2018г. – Научно-технический

вестник Поволжья, 2018. – С. 89-92.

56. Druskat, S. corpus-tools.org: An Interoperable Generic Software Tool

Set for M), или в виде матрицы весов нейронов в нейронных сетях)ultilayer Linguistic Corpora [Text] / Stephan Druskat, Volker Gast,

Thomas Krause, Florian Zipser // Proceedings of the Tenth International

141

Conference on Language Resources and Evaluation (LREC 2016). – 2016. –

P.4492–4499.

57. Облачный сервис для аннотации текстовых данных Saltsoftware

[Электронный документ]. URL: https://saltsoftware.org [Дата обращения:

16.03.2019]

58. Облачный сервис для аннотации текстовых данных TagTog

[Электронный документ]. URL: http://docs.tagtog.net [Дата обращения:

16.03.2019]

59. Облачный сервис для аннотации текстовых данных DataTurks

[Электронный документ]. URL: https://dataturks.com/features/document-ner-

annotation.php [Дата обращения: 16.03.2019]

60. Стандарт ISO/IEC TR 19759:2005 [Электронный документ]. URL:

http://materjalid.tmk.edu.ee/heikki_eljas/y-vanad/Eriala/SWEBOK_ISO_IEC_T

R_19759_2005%28E%29.pdf [Дата обращения: 16.03.2019]

61. ГОСТ Р 56920-2016/ISO/IEC/IEEE 29119-1:2013 [Электронный

ресурс]: издание официальное. М.: Стандартинформ, 2016. URL:

http://docs.cntd.ru/document/1200134996 [Дата обращения: 16.03.2019]

62. Макконнелл, С. Влияние итеративных подходов на

предварительные условия [Текст] / Стив Макконнелл // Совершенный код

= Code Complete. – Русская Редакция, Питер, 2005. – С. 31. – 896 с.

142

Приложение 1

Система обозначений грамматических категорий (теги) в корпусе

татарского языка

Части речи

N noun имя существительное

ADJ adjective имя прилагательное

V verb глагол

ADV adverb наречие

NUM), или в виде матрицы весов нейронов в нейронных сетях) numeral числительное

PN pronoun местоимение

CNJ conjunction союз

POST postposition послелог

PART particle частица

INTRJ interjection междометие

M), или в виде матрицы весов нейронов в нейронных сетях)OD modal word модальное слово

IM), или в виде матрицы весов нейронов в нейронных сетях)IT imitative word звукоподражательное слово

Категория числа

Сокращения Расшифровка Название Алломорфы Условное

сокращений категории обозначение

морфемы

SG singular единственное - -

PL plural множественное -лар -ЛАр

-ләр

-нар

-нәр

Категория принадлежности (посессивность)

Сокращения Название категории Алломорфы Условное

143

обозначение

морфемы

POSS_1SG принадлежность 1 лицу ед. -ым -[Ы]м

числа -ем

POSS_2SG принадлежность 2 лицу ед. -ың -[Ы]ң

числа -ең

POSS_3SG принадлежность 3 лицу ед. - ы -[с]Ы

числа -е

-сы

-се

POSS_1PL принадлежность 1 лицу мн. -ыбыз -[Ы]бЫз

числа -ебез

-быз

-без

POSS_2PL принадлежность 2 лицу мн. -ыгыз -[Ы]гЫз

числа -егез

-гыз

-гез

POSS_3PL принадлежность 3 лицу мн. -ы -[с]Ы

числа -е

-сы

-се

Падежи существительных

Сокращения Расшифровка Название Алломорфы Условное

сокращений категории обозначение

морфемы

NOM), или в виде матрицы весов нейронов в нейронных сетях) nominative именительный - -

144

падеж

GEN genitive родительный -ның -нЫң

падеж -нең

(генитив)

DIR directive направительн -га -[Г]А

ый падеж -гә

(директив) -ка

-кә

-ма

-мә

DIR_LIM), или в виде матрицы весов нейронов в нейронных сетях) направительн -гача -[Г]АчА

ый падеж с -гәчә

ограничительн -кача

ым значением -кәчә

ACC accusative винительный -ны -н[Ы]

падеж -не

(аккузатив) -н

ABL ablative исходный -дан -[н]ДАн

падеж -дән

(аблатив) -тан

-тән

-нан

-нән

-ннан

-ннән

LOC locative местно- -да -[н]ДА

временной -дә

145

падеж -та

(локатив) -тә

-нда

-ндә

Атрибутивные формы, производные от существительных

Сокращения Расшифровка Название Алломорфы Условное

сокращений категории обозначение

морфемы

ATTR_M), или в виде матрицы весов нейронов в нейронных сетях)UN attributive атрибутив на - -лы -лЫ

munitative лы -ле

(мунитатив)

ATTR_ABES attributive атрибутив на - -сыз -сЫз

abessive сыз (абессив) -сез

ATTR_LOC attributive локативный -дагы -[н]ДА+гЫ

locative атрибутив -дәге

-тагы

-тәге

-ндагы

-ндәге

ATTR_GEN attributive генетивный -ныкы -нЫ(ң)+кЫ

genetive атрибутив -неке

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.