Методы, модели и программный инструментарий разрешения многозначности в текстах тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Гатауллин Рамиль Раисович
- Специальность ВАК РФ05.13.11
- Количество страниц 178
Оглавление диссертации кандидат наук Гатауллин Рамиль Раисович
3
Глоссарий
Полисемия Многозначность, многовариантность, то есть
наличие у слова (единицы языка, термина) двух и
более значений, исторически обусловленных или
взаимосвязанных по смыслу и происхождению.
Например, «платформа» – железнодорожная или
компьютерная платформа.
Лексическая В лексической системе языка слова, которые
омонимия пишутся и звучат одинаково, но имеют
совершенно разные значения. Например, ключ –
'родник' (студеный ключ) и ключ – 'металлический
стержень особой формы для отпирания и
запирания замка' (стальной ключ).
Грамматическая Слова, совпадающие лишь в какой-нибудь одной
омонимия грамматической форме (реже – в нескольких).
(омоформы) Например, три – числительное в именительном
падеже (три друга) и три – глагол в
повелительном наклонении единственного числа
2-го лица (три морковь на терке).
Разрешение Определение правильного варианта из множества
многозначности возможных, который соответствует текущему
(или контексту.
дизамбигуация)
Текстовый корпус Массив текстов, собранных в единую систему по
определенным признакам (языку, жанру, времени
создания текста и т.п.).
N-грамм Последовательность из n элементов (элементом
последовательности может быть, например, слово,
4
буква, морфема).
Контекст Законченный отрывок письменной или устной
речи (текста), общий смысл которого позволяет
уточнить значение входящих в него отдельных
слов, предложений.
Морфема Минимальная значащая единица языка,
выделяемая в составе слова и выполняющая
функции словообразования и формообразования.
Флективные языки Языки, в которых доминирует словоизменение при
помощи элементов (формантов), сочетающих
сразу несколько значений.
Агглютинативные Языки, в которых при словообразовании каждый
языки элемент (формант) несет только одно значение.
5
Введение
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Проблема семантического тождества слова в карачаево-балкарском языке: сравнительно с кумыкским языком2008 год, кандидат филологических наук Мамедова, Лейла Тофиковна
Системно-языковая и речевая омонимия в русском языке XI-XVII вв.2011 год, кандидат филологических наук Шелкова, Ирина Александровна
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Глагольное суффиксальное словообразование в современном английском языке (на материале субстандартной лексики)1984 год, кандидат филологических наук Пономарева, Ольга Борисовна
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Введение диссертации (часть автореферата) на тему «Методы, модели и программный инструментарий разрешения многозначности в текстах»
Актуальность проблемы.
Разрешение многозначности является одной из основных задач
автоматической обработки естественного языка. Результаты разрешения
могут использоваться для повышения точности и улучшения качества
применяемых методов в таких задачах, как классификация и
кластеризации текстов, машинный перевод, информационный поиск.
В естественном языке исследователи выделяют несколько типов
многозначности: морфологическую, синтаксическую, лексико-
семантическую и прагматическую. Для работы с каждым из этих типов
разрабатываются собственные методы.
Сложность и особенности разрешения многозначности для каждого
конкретного языка проявляются по-разному. Например, для английского
языка с бедной морфологией и жестким порядком слов в предложении
разрешение морфологической многозначности, как правило, сводится к
задаче POS-теггинга (от англ., part of speech – определение части речи
слова) и решается применением достаточно простых методов. Для
русского языка морфологическая многозначность не столь характерна, как
для английского и татарского языков, но, тем не менее, присуща.
Дополнительную сложность добавляет свободный порядок слов в русском
языке. В татарском языке, как и в других агглютинативных языках
тюркской группы, морфемы являются важнейшими значащими языковыми
единицами, которые несут как семантическую, так и синтаксическую
информацию. Имея теоретически неограниченное количество морфем,
присоединяемых к основе, морфологическая многозначность приобретает
разнообразные формы, что значительно усложняет задачу разрешения.
Разработка методов и моделей разрешения многозначности –
достаточно трудоемкий процесс, включающий в себя лингвистический
6
анализ многозначности в конкретном языке, создание и оценку качества
разрабатываемых моделей, а также настройку взаимодействия всех
элементов системы в целом. В настоящее время разработано множество
моделей и алгоритмов, использующихся при разрешении многозначности,
которые зачастую нацелены на решение узкого спектра задач и не
учитывают при этом всех особенностей процесса разработки программных
средств. Это приводит к тому, что разрабатывать программные средства
разрешения многозначности приходится с нуля, используя лишь базовый
набор имеющегося инструментария и заново решая проблемы, схожие для
многих других языков.
Таким образом, актуально решение проблемы создания комплексного
инструментария, который позволил бы автоматизировать весь процесс
создания и тестирования программных средств разрешения
многозначности с ориентацией на конкретный естественный язык.
Объектом исследования в диссертации является автоматизация
процессов создания и тестирования программных средств автоматического
разрешения многозначности в естественно-языковых (ЕЯ) текстах.
Предметом исследования в диссертационной работе является
разработка программного инструментария для автоматизации процессов
создания и тестирования программных средств разрешения
многозначности в ЕЯ-текстах.
Цель работы и задачи исследования. Основной целью
диссертационной работы является разработка программного
инструментария для автоматизации процессов создания и тестирования
программных средств, служащих для разрешения многозначности в
текстах на естественном языке (ЕЯ-текстах) и позволяющих сократить
время разработки программной системы за счет интеграции требуемых
моделей и обеспечения эффективного взаимодействия программных
компонентов, а также поддержки многопользовательского режима
решения базовых задач.
7
Для достижения поставленной цели в ходе диссертационного
исследования сформулированы и решены следующие задачи:
1) Разработка модели программного инструментария для
автоматизации процессов создания и тестирования программных средств
разрешения многозначности в ЕЯ-текстах;
2) Исследование методов, моделей и средств разрешения
многозначности;
3) Разработка и реализация моделей, в том числе лексико-
грамматической модели представления базы знаний, разработка
программного инструмента для формирования и тестирования лексико-
грамматической базы знаний;
4) Разработка программного инструментария для автоматизации
процессов создания и тестирования программных средств разрешения
многозначности в ЕЯ-текстах;
5) Анализ типов морфологической многозначности в ЕЯ-текстах;
выявление и описание лексико-грамматических особенностей конкретного
языка (на примере татарского языка) и формирование требований к набору
инструментов;
6) Разработка программных средств разрешения многозначности с
учетом лексико-грамматических особенностей конкретного языка (на
примере татарского языка).
Научная новизна полученных результатов;
1) Разработан новый программный инструментарий, позволяющий
автоматизировать процессы создания и тестирования программных
средств разрешения многозначности в ЕЯ-текстах;
2) Разработана продукционная лексико-грамматическая модель
представления базы знаний для разрешения морфологической
многозначности в ЕЯ-текстах, реализован программный инструмент для
формирования и тестирования разработанной базы знаний;
8
3) Впервые созданы программные средства разрешения
морфологической многозначности в ЕЯ-текстах на татарском языке на базе
разработанного программного инструментария.
Теоретическая и практическая ценность полученных
результатов. Разработанные модели и программные реализации
направлены на решение проблем в области обработки ЕЯ-данных,
возникающих при построении и тестировании программных средств
разрешения многозначности в ЕЯ-текстах. Предложенная программная
архитектура инструментария учитывает выявленные особенности
процессов создания и тестирования программных средств разрешения
многозначности. Важной особенностью системы является поддержка
одновременной работы специалистов по лингвистике разных уровней
компетенции с возможностью предоставления доступа к функционалу,
настраиваемого для каждого из специалистов.
Реализованный программный инструментарий позволяет
автоматизировать процессы решения стандартных задач и подзадач
разрешения многозначности в ЕЯ-текстах, заметно ускоряя процесс
создания новых систем, в том числе, для малоресурсных языков.
Теоретическая ценность результатов диссертации заключается в
разработанной диссертантом новой лексико-грамматической модели
представления базы знаний, способствующей повышению качества снятия
морфологической многозначности.
Разработанные программные модули в настоящее время используются
в практически значимых приложениях, связанных с обработкой ЕЯ-
текстов на татарском языке, таких, как классификация и кластеризация
текстов, машинный перевод, информационный поиск и контент-анализ.
Методы исследования. При разрешении многозначности
применялись методы, основанные на правилах, статистико-вероятностные
модели разрешения и методы машинного обучения. Программная
реализация основана на объектно-ориентированном подходе.
9
Положения, выносимые на защиту.
1) Программный инструментарий для автоматизации процессов
создания и тестирования программных средств разрешения
многозначности в ЕЯ-текстах;
2) Лексико-грамматическая модель представления базы знаний для
разрешения морфологической многозначности в ЕЯ-текстах;
3) Программные средства разрешения морфологической
многозначности в ЕЯ-текстах на татарском языке.
Степень достоверности и апробация результатов.
Исследования, проведенные в диссертации, соответствуют паспорту
специальности 05.13.11 – Математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей,
сопоставление приведено в таблице 1.
Таблица 1 – Сопоставление направлений исследований, предусмотренных
специальностью 05.13.11, и результатов, полученных в диссертации
Направление исследования Результат работы
3. Модели, методы, алгоритмы, Разработан программный
языки и программные инструментарий, обеспечивающий
инструменты для организации взаимодействие процессов
взаимодействия программ и разработки и тестирования
программных систем. программных средств разрешения
морфологической многозначности.
4. Системы управления базами Разработана система управления
данных и знаний. базой знаний для разрешения
морфологической многозначности.
7. Человеко-машинные интер- Разработан визуальный
фейсы; модели, методы, многооконный веб-интерфейс
алгоритмы и программные комплекса программного
средства машинной графики, инструментария, облегчающий
визуализации, обработки доступ, разработку, тестирование и
изображений, систем виртуальной использование базы знаний и
реальности, мультимедийного программных средств разрешения
общения. морфологической многозначности.
10
Программный модуль разрешения морфологической многозначности
в татарском языке зарегистрирован в Реестре программ для ЭВМ в
Федеральной службе по интеллектуальной собственности (Федеральный
институт промышленной собственности (ФИПС)). Разработанный
программный комплекс был использован в рамках проекта по созданию
национального корпуса татарского языка «Туган тел». Результаты работы
внедрены в учебный процесс по направлению 45.03.01 «Филология:
прикладная филология: татарский язык и литература, информационные
технологии с углубленным изучением иностранного языка» в Институте
филологии и межкультурной коммуникации Казанского федерального
университета (КФУ).
Результаты работы докладывались автором на следующих
международных конференциях и семинарах: Международных научно-
технических конференциях OSTIS (Республика Беларусь, г. Минск, 2014–
2016); Международных конференциях TEL «Языковая семантика: модели
и технологии» (г. Казань, 2014–2018); Международных конференциях по
машинной обработке тюркских языков TurkLang (Турция, г. Стамбул,
2014, РФ, г. Казань, 2015, г. Казань, 2017); 9-ой Международной
конференции ICCCI 2017 (Кипр, г. Никосия, 2017), а также на различных
республиканских и городских научных семинарах, итоговых научных
конференциях КФУ и Института прикладной семиотики Академии наук
Республики Татарстан (2014–2018).
Публикации. Основные положения и результаты диссертационной
работы опубликованы в 16 печатных изданиях, в том числе, 2 статьи – в
научных журналах из перечня ВАК («Ученые записки Казанского
университета», «Научно-технический вестник Поволжья»), 3 статьи – в
журналах, индексируемых SCOPUS («International Journal of Applied
Engineering Research», издательство Research India Publications;
«Computational Collective Intelligence. ICCCI 2017. Lecture Notes in
Computer Science», издательство Springer; «CEUR Workshop Proceedings»).
11
Структура и объем работы. Диссертация состоит из введения, трех
глав, заключения, списка использованной литературы и 3 приложений.
Объем диссертации составляет 173 страниц, включая 12 таблиц и 31
рисунок.
Благодарности. Автор выражает благодарность научному
руководителю, доктору технических наук, профессору, Сулейманову
Джавдету Шевкетовичу, кандидату технических наук, доценту Невзоровой
Ольге Авенировне, кандидату технических наук Гильмуллину Ринату
Абрековичу и кандидату технических наук Хусаинову Айдару Фаиловичу
за содействие и помощь в работе, ценные консультации и плодотворные
совместные обсуждения, способствовавшие реализации идей диссертации.
12
Глава 1. Аналитический обзор работ в области разрешения
многозначности в текстах
Разрешение многозначности является одной из основных задач
автоматической обработки естественного языка. Результаты разрешения
могут использоваться для повышения точности и улучшения качества
применяемых методов в таких задачах как классификация и кластеризация
текстов, машинный перевод, информационный поиск [40].
В естественном языке исследователи выделяют несколько типов
многозначности: морфологическая, синтаксическая, лексико-
семантическая и прагматическая многозначности. Для работы с каждым
из этих типов разрабатываются собственные методы [40].
Задача разрешения морфологической многозначности заключается в
определении для слова части речи и грамматических признаков,
соответствующих контексту. Морфологическая многозначность, в
основном, представлена грамматической омонимией, т. е. совпадением
слов в отдельных грамматических формах. Например, слово «стекло» в
зависимости от контекста может быть либо существительным,
обозначающим материал («смотреть через стекло»), либо глаголом в
прошедшем времени 3-го лица единственного числа («масло стекло»).
Задача разрешения синтаксической многозначности (многозначность
синтаксических структур) заключается в правильном определении
функций синтаксических единиц предложения. Примером такой
неоднозначности является предложение «мужу изменять нельзя»
(словоформа мужу – субъект или объект предложения?) [40].
Значения слов могут относиться к одной части речи, но различаться
по смыслу, например, «platform» – железнодорожная или компьютерная
платформа. В этом случае речь идет о полисемии, когда у одного слова
имеются два или более значения, взаимосвязанных по смыслу и
13
происхождению. Полисемия относится к лексической многозначности.
Сюда же следует относить и лексическую омонимию (слова совпадают в
звучании и написании, но имеют разные значения). Такими омонимами
являются слова лук («оружие») и лук («растение»). Задача разрешения
такой неоднозначности состоит в установлении значений слов или
составных терминов в соответствии с контекстом, в котором они
использовались [40].
Еще один тип неоднозначности возникает в результате употребления
местоимений или специальных существительных типа one, another (еще
один). Так, в предложении «Она уронила карандаш на стол и сломала его»
невозможно однозначно определить, что именно было сломано –
карандаш или стол (нельзя однозначно разрешить референцию
местоимения его) [40]. В этом случае говорят о прагматической
неоднозначности.
Сложность и особенности разрешения многозначности для каждого
конкретного языка проявляются по-разному. Например, для английского
языка с бедной морфологией и жестким порядком слов в предложении
разрешение морфологической многозначности, как правило, сводится к
задаче POS-теггинга (от англ., part of speech – определение части речи
слова) и решается применением достаточно простых методов. Для
русского языка морфологическая многозначность не столь характерна, как
для английского и татарского, но, тем не менее, присуща. Дополнительную
сложность добавляет свободный порядок слов в русском языке. В
татарском языке, как и в других агглютинативных языках тюркской
группы, морфемы являются важнейшими значащими языковыми
единицами, которые несут как семантическую, так и синтаксическую
информацию. Имея теоретически неограниченное количество
присоединяемых к основе морфем, морфологическая многозначность
приобретает разнообразные формы, что значительно усложняет задачу
разрешения.
14
Несмотря на значительные успехи в области разработки алгоритмов и
методов, проблема продолжает оставаться актуальной для многих языков,
включая тюркские языки. В диссертационной работе область исследований
фокусируется на проблеме разрешения морфологической многозначности,
как самой разнообразной и распространённой. Также морфологическая
многозначность лежит в основе более сложных типов, таких как
синтаксической или лексической многозначности. Соответственно, для
разрешения ситаксической или лексической многозначнсти требуется,
чтобы тексты были размеченные и со снятой морфологической
многозначностью.
В качестве языка апробации выбран татарский язык, относящийся к
агглютинативным языкам со сложной морфологической многозначностью.
Татарский язык имеет теоретически неограниченное количество
присоединяемых к основе морфем, так что морфологическая
многозначность приобретает разнообразные формы, что значительно
усложняет задачу разрешения. Соответственно, для татарского языка
разрешение морфологической многозначности особенно актуально, и
выполнено впервые в представленном объёме, с использованием
технологий и программных средств, разработанных диссертантом.
1.1. Классификация методов разрешения морфологической
многозначности
Задача разрешения морфологической многозначности была
поставлена еще в 50-60-х годах, и теоретические исследования имеют
многолетнюю историю. В основном разработанные методы делятся на 2
класса:
1. Методы, основанные на правилах;
2. Статистико-вероятностные методы (в том числе нейросетевые
модели).
15
Если контекстные методы опираются на контекстные правила,
созданные вручную, то статистико-вероятностные пытаются сначала
выявить закономерности в статистических данных, а затем используют
выявленные закономерности для решения задачи разрешения. В некоторых
случаях выявленные закономерности сохраняются в явном виде
(например, в форме контекстных правил, или структуры деревьев
решения), но чаще – как неявные числовые представления данных
(например, в виде вектора коэффициентов для метода опорных векторов
(eng. SVM), или в виде матрицы весов нейронов в нейронных сетях)), или в виде матрицы весов нейронов в нейронных сетях).
Таблица 2 – Точность морфологической разметки текстов (в том числе
включает разрешение морфологической многозначности)
Класс метода Методы Язык Точность
Методы, английск 99,5% [33]
основанные на ий
русский 95% [27]
правилах
татарски 95% [5]
й
Статистико- HM), или в виде матрицы весов нейронов в нейронных сетях)M), или в виде матрицы весов нейронов в нейронных сетях) английск 96% [30]
ий
16
вероятностные русский 95% [30, 33]
методы финский 97% [9]
венгерск 97% [12]
ий
турецкий 98% [8]
татарски 97% [25]
й
M), или в виде матрицы весов нейронов в нейронных сетях)EM), или в виде матрицы весов нейронов в нейронных сетях)M), или в виде матрицы весов нейронов в нейронных сетях) английск 96% [13, 30]
ий
русский 95% [30]
SVM), или в виде матрицы весов нейронов в нейронных сетях) английск 97,2% [39]
ий
русский 95,7% [39]
GPA турецкий 96% [4]
Нейронные LSTM), или в виде матрицы весов нейронов в нейронных сетях) турецкий 96% [43]
сети русский 91% [43]
татарски 95% [54]
й
CNN турецкий 93.5% [45]
Кроме представленных выше классов, существуют гибридные
методы, которые представляют собой комбинацию выше указанных
методов. Идея одних методов сводится к разделению области задач на
подзадачи, для каждого из которых определяется один из методов, а
результаты потом объединяются. Тогда как другие методы применяются
параллельно на одних и тех же данных, а конечный результат определяется
голосованием. Примером такого подхода является ансамбль (комитет)
моделей.
1.2. Методы, основанные на правилах
В конце 1950-х годов в работах K.E. Harper [7], A. Caplan [2]
основным способом снятия омонимии признавались изучение и описание
тех контекстных условий, в которых реализуется то или иное значение
слова. При этом под контекстом понималось окружение слова в тексте, т.е.
совокупность тех слов, с которыми многозначное слово употребляется.
17
Актуальным для исследуемой задачи также являлся вопрос о
минимальном разрешающем контексте. В этой связи заслуживают
внимания результаты, полученные A. Caplan [2] по исследованию
минимального разрешающего контекста. В работе анализировались 140
многозначных употребительных английских слов (в основном,
лексических омонимов), находившихся в различных контекстных
условиях. Автором выделены следующие виды контекстов:
сочетание с предшествующим словом – P1;
сочетание с последующим словом – F1;
сочетание с предшествующим и последующим словами – В1 (both);
сочетание с двумя предшествующими словами – P2;
сочетание с двумя последующими словами – F2;
сочетание с двумя предшествующими и двумя последующими
словами – В2;
все предложение в целом – S (sentence).
Основной вывод заключался в том, что цепочка B1 по эффекту
редуцирования многозначности (отношение количества значений слова в
конкретном контексте к их количеству в нулевом контексте) более
продуктивна, чем контекст, состоящий из двух предшествующих или двух
последующих слов (Р2 и F2), и приближается к эффекту, даваемому целым
предложением (S) [2].
В другом выводе подчеркивается важное значение материального
типа контекста, т.е. входят ли в непосредственное окружение
знаменательные слова, или слова, называемые автором «particles»
(предлоги, союзы, глаголы типа will или do, артикли, местоимения и
наречия типа there и др.). Первый тип контекста дает значительно
большую редукцию многозначности, чем контекст, содержащий слова без
конкретного лексического наполнения [2, 27].
Общие выводы A. Caplan сводятся к тому, что наиболее практичным
является контекст, состоящий из одного слова слева и одного слова справа
18
от анализируемой многозначной лексемы. Если же одно из слов окружения
типа «particle» (частица), то следует «усилить» контекст до двух слов с
обеих сторон [2, 27].
Исследования такого подхода для русского языка [27] показали, что
его применимость в реальных контекстах вряд ли возможна. Реальная
ситуация с разрешением омонимии в русском языке значительно сложнее
и не может быть разрешена на основе упрощенных схем. В отличие от
английского, в русском языке порядок слов относительно свободный,
предполагается, что количество возможных контекстов из-за этого
увеличивается. Для решения этой проблемы для русского языка была
предложена усложненная структура правил, а также предполагается в
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Технология автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков2014 год, кандидат наук Хусаинов, Айдар Фаилович
Форма, семантика и функции лексемы хорошо2014 год, кандидат наук Богданова, Маргарита Александровна
Типы и виды омонимов в современном лезгинском языке2002 год, кандидат филологических наук Курбанова, Мария Балаэфендиевна
Многозначность и омонимия в системе татарской глагольной лексики1999 год, кандидат филологических наук Гаптелганиева, Диляфруз Мунировна
Явления полисемии и омонимии в аварском языке в сопоставлении с языками разных систем2008 год, кандидат филологических наук Магомедова, Ирина Абдулкадыровна
Список литературы диссертационного исследования кандидат наук Гатауллин Рамиль Раисович, 2019 год
Литература
1. Brill, E. A simple rule-based part of speech tagger [Text] / E. Brill //
Proceedings of the third conference on Applied natural language processing
(ANLC’92). Stroudsburg, PA, USA: Association for Computational Linguistics.
– 1992. – P.152–155.
2. Caplan, A. An experimental study of ambiguity and context [Text] /
A. Caplan // M), или в виде матрицы весов нейронов в нейронных сетях)ech. Translation. – 1955. – V. 2. – No 2. – P.39–46.
3. Collins, M), или в виде матрицы весов нейронов в нейронных сетях). Discriminative training methods for hidden M), или в виде матрицы весов нейронов в нейронных сетях)arkov
models: Theory and experiments with perceptron algorithms [Text] / M), или в виде матрицы весов нейронов в нейронных сетях).
Collins // Proceedings of EM), или в виде матрицы весов нейронов в нейронных сетях)NLP. – 2002. – P.1–8.
4. Yuret, D. Learning morphological disambiguation rules for Turkish
[Text] / Deniz, Ferhan Ture // Proceedings of the Human Language Technology
Conference of the North American Chapter of the ACL. – New York, 2006. –
P.328–334.
5. Khakimov, B. E. Context-Based Rules for Grammatical
Disambiguation in the Tatar Language [Text] / Gataullin R. R., Khakimov B. E.,
Suleymanov D. Sh., Gilmullin R. A. // Computational Collective Intelligence.
ICCCI 2017. Lecture Notes in Computer Science. Springer, Cham. – Cyprus,
Nicosia, 2017. – Vol. 10449. – P.529-537.
6. Gataullin, R. M), или в виде матрицы весов нейронов в нейронных сетях)orphological Analysis System of the Tatar Language
[Text] / Gataullin Ramil, Gilmullin Rinat // Computational Collective
Intelligence. ICCCI 2017. Lecture Notes in Computer Science. Springer, Cham.
– Cyprus, Nicosia, 2017. – Vol. 10449. – P.519-528.
7. Harper, K. E. Contextual analysis [Text] / K. E. Harper // M), или в виде матрицы весов нейронов в нейронных сетях)ech.
Translation. – 1956. – V. 4. – No 3. – P.70–75.
8. Sak, H. M), или в виде матрицы весов нейронов в нейронных сетях)orphological disambiguation of turkish text with perceptron
algorithm [Text] / Hasim Sak, Tunga Gongur, M), или в виде матрицы весов нейронов в нейронных сетях)urat Saraclar // Computational
134
Linguistics and Intelligent Text Processing, 8th International Conference
CICLing. – M), или в виде матрицы весов нейронов в нейронных сетях)exico City, M), или в виде матрицы весов нейронов в нейронных сетях)exico, February 2007. – P.107–118.
9. Linden, K. Weighted finite-state morphological analysis of finnish
compounding with HFST-LEXC [Text] / Kristen Linden, Tommi Pirinen // In
Proceedings of the 17th Nordic Conference of Computational Linguistics
NODALIDA. – 2009. – V. 4. – P.89–95.
10. Lebret, R. Word Emdeddings through Hellinger PCA [Text] / Rémi
Lebret, Ronan Collobert // Proceedings of the 14th Conference of the European
Chapter of the Association for Computational Linguistics. – Gothenburg,
Sweden, April 26-30, 2014. – P.482–490.
11. Levy, O. Linguistic Regularities in Sparse and Explicit Word
Representations [Text] / Omer Levy, Yoav Goldberg // Proceedings of the
Eighteenth Conference on Computational Natural Language Learning.
Association for Computational Linguistics. – Baltimore, M), или в виде матрицы весов нейронов в нейронных сетях)aryland, USA, June,
2014. – P.171–180.
12. Orosz, G. PurePos 2.0: a hybrid tool for morphological
disambiguation [Text] / Orosz G., Novak A. // In Proceedings of the
International Conference on Recent Advances in Natural Language Processing
(RANLP 2013). INCOM), или в виде матрицы весов нейронов в нейронных сетях)A Ltd. Shoumen, Bulgaria. – Hissar, Bulgaria, 2013. –
P.539–545.
13. Ratnaparkhi, A. M), или в виде матрицы весов нейронов в нейронных сетях)aximum entropy model for part-of-speech tagging
[Text] / A. Ratnaparkhi // Proceedings of the Empirical M), или в виде матрицы весов нейронов в нейронных сетях)ethods in Natural
Language Processing. – Philadelphia, PA, USA, 1996. – P.133–142.
14. M), или в виде матрицы весов нейронов в нейронных сетях)ikolov, T. Distributed Representations of Words and Phrases and
their Compositionality [Text] / Tomas M), или в виде матрицы весов нейронов в нейронных сетях)ikolov, Ilya Sutskever, Kai Chen, Greg
Corrado, Jeffrey Dean // Proceedings of NIPS'13. – Lake Tahoe, Nevada, 2013.
– V. 2. – P.3111–3119.
15. Tufiş, D. Knowledge-based approach to morpho-lexical processing of
natural language [Text] / Tufiş D., Popescu O.A. // Proceedings of the
135
International Conference for Young Computer Scientists. – Beijing, 1991. –
P.405–408.
16. Weischedel, R. M), или в виде матрицы весов нейронов в нейронных сетях). Coping with ambiguity and unknown words
through probabilistic models [Text] / Weischedel Ralph M), или в виде матрицы весов нейронов в нейронных сетях). // Computational
Linguistics. M), или в виде матрицы весов нейронов в нейронных сетях)IT Press. – Cambridge, M), или в виде матрицы весов нейронов в нейронных сетях)A, USA, 1993. – V. 19. – Issue 2. –
P.361–382.
17. Бобичев, В.Л. Автоматическое снятие морфологической
многозначности при разметке корпуса [Текст] / В.Л. Бобичев // Тр.
междунар. конф. «Корпусная лингвистика–2008». – СПб.: СПбГУ, 2008. –
C. 45–49.
18. Бочаров, В.В. Программное обеспечение для коллективной
работы над морфологической разметкой корпуса [Текст] / В.В. Бочаров,
Д.В. Грановский // Труды международной конференции «Корпусная
лингвистика – 2011». 27–29 июня 2011 г., Санкт-Петербург. – СПб.: С.-
Петербургский гос. университет, Филологический факультет, 2011. – C.
348-351.
19. Галиева, А.М. Метаязык описания структуры татарской
словоформы для корпусной грамматической аннотации [Текст] /
А.М. Галиева, Б.Э. Хакимов, А.Р. Гатиатуллин // Учен. зап. Казан. ун-та.
Сер. Гуманит. Науки, 2013. – Т. 155, кн. – С. 287-296.
20. Гатауллин, Р.Р. Программный инструментарий для разрешения
морфологической многозначности в татарском языке [Текст] /
Р.Р. Гатауллин, Д.Ш. Сулейманов, Р.А. Гильмуллин // Открытые
семантические технологии проектирования интеллектуальных систем
OSTIS-2014 Open Semantic Technologies for Intelligent Systems,
МАТЕРИАЛЫ IV МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]). НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]).
КОНФЕРЕНЦИИ (Минск, 20-22 февраля 2014 года), – Минск.: БГУИР,
2014. – С. 503 –508.
21. Гатауллин, Р.Р. Аналитический обзор методов разрешения
морфологической многозначности [Текст] / Р.Р. Гатауллин // Российский
136
научный электронный журнал (Электронные библиотеки). – 2016. – Том
19. – № 2. – С. 98–114.
22. Гатауллин, Р.Р. Веб-инструментарий для снятия
морфологической многозначности в текстовом корпусе татарского языка
[Текст] / Р.Р. Гатауллин // Сохранение и развитие родных языков в
условиях многонационального государства: проблемы и перспективы:
материалы V Международной научно-практической конференции (Казань,
19-22 ноября 2014 г.). – Казань: Отечество, 2014. – С. 71–73.
23. Гатауллин, Р.Р. Контекстные правила для разрешения
морфологической многозначности в корпусе татарского языка [Текст] /
Р.Р. Гатауллин, Р.А. Гильмуллин // Открытые семантические технологии
проектирования интеллектуальных систем OSTIS-2016 Open Semantic
Technologies for Intelligent Systems, МАТЕРИАЛЫ V МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]).
НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]). КОНФЕРЕНЦИИ (Минск, 18-20 февраля 2016
года). – Минск: БГУИР, 2016. – С. 389–392.
24. Гатауллин, Р.Р. Программный инструментарий для разрешения
морфологической многозначности в татарском языке [Текст] / Р.Р.
Гатауллин, Д.Ш. Сулейманов, Р.А. Гильмуллин // Открытые
семантические технологии проектирования интеллектуальных систем
OSTIS-2014 Open Semantic Technologies for Intelligent Systems,
МАТЕРИАЛЫ IV МЕЖДУНАРОДНОЙ)][1PL(бЫз)]")]), "."]). НАУЧНО-ТЕХНИЧЕСКОЙ)][1PL(бЫз)]")]), "."]).
КОНФЕРЕНЦИИ (Минск, 20-22 февраля 2014 года). – Минск: БГУИР,
2014. – С. 503-508.
25. Гильмуллин, Р.А. Разрешение морфологической многозначности
текстов на татарском языке на основе инструментария PurePos [Текст] /
Р.А. Гильмуллин, Р.Р. Гатауллин // V МЕЖДУНАРОДНАЯ
КОНФЕРЕНЦИЯ ПО КОМПЬЮТЕРНОЙ)][1PL(бЫз)]")]), "."]). ОБРАБОТКЕ ТЮРКСКИХ
ЯЗЫКОВ «TURKLANG 2017». – Труды конференции. В 2-х томах. –
Казань: Издательство Академии наук Республики Татарстан, – C. 30-37.
137
26. Зеленков, Ю.Г. Вероятностная модель снятия морфологической
омонимии на основе нормализующих подстановок и позиций соседних
слов [Текст] / Ю.Г. Зеленков, И.В. Сегалович, В.А. Титов // Компьютерная
лингвистика и интеллектуальные технологии. Труды международного
семинара Диалог'2005. – М.: Наука, 2005. – С. 616.
27. Зинькина, Ю.В. Разрешение функциональной омонимии в
русском языке на основе контекстных правил [Текст] / Ю.В. Зинькина,
Н.В. Пяткин, О.А. Невзорова // Труды межд. конф. Диалог'2005. –
М.: Наука, 2005. – С. 198–202.
28. Кобзарева, Т.Ю. Универсальный модуль предсинтаксического
анализа омонимии частей речи в РЯ на основе словаря диагностических
ситуаций [Текст] / Т.Ю. Кобзарева, Р.Н. ƒАфанасьев // Труды междунар.Афанасьев // Труды междунар.
конференции Диалог'2002. – М.: 2002. – С. 258–268.
29. Курбатов, Х.Р. Грамматические омонимы в татарском языке
[Текст] / Х.Р. Курбатов // Татар теле һәм әдәбияты. Казан: Татар. кит.
нәшр., 1959. – С. 307–311.
30. Лакомкин, Е.Д. Анализ статистических алгоритмов снятия
морфологической омонимии в русском языке [Текст] / Е.Д. Лакомкин, И.В.
Пузыревский, Д.А. Рыжова // Доклады всероссийской научной
конференции АИСТ’2013. – Москва, 2013. – С. 184–195.
31. Салахова, Р.Р. Омонимичные суффиксы татарского языка /
Казань: Gumanitarya, 2007. 204 с.
32. Салимгараева, Б.С. Омонимы в современном татарском языке:
автореф. дис. канд. фил. наук: 10.02.02. Уфа, 1971. 82 с.
33. Сокирко, А.В. Сравнение эффективности двух методик снятия
лексической и морфологической неоднозначности для русского языка
(скрытая модель Маркова и синтаксический анализатор именных групп)
[Текст] / А.В. Сокирко, С.Ю. Толдова // Интернет-математика 2005. – М.,
2005. – С. 80–94.
138
34. Сулейманов, Д.Ш. Двухуровневое описание морфологии
татарского языка [Текст] / Д.Ш. Сулейманов, Р.А. Гильмуллин // Тезисы
Международной научной конференции "Языковая семантика и образ
мира" в 2 кн. – Казань: Изд-во Казан. ун-та, 1997. – Кн. 2. – С. 65–67.
35. Сулейманов, Д.Ш. Корпус татарского языка: концептуальные и
лингвистические аспекты [Текст] / Д.Ш. Сулейманов, Б.Э. Хакимов,
Р.А. Гильмуллин // Вестн. ТГГПУ. – № 4 (26). – С.211-216.
36. Сулейманов, Д.Ш. Системы и информационные технологии
обработки естественно-языковых текстов на основе прагматически-
ориентированных лингвистических моделей: автореф. дис. докт. тех. наук:
05.13.14. Казань, 2000.
37. Татарская грамматика / ред.– Казань: Татар. книж. изд-во, – Т.II.
Морфология. – 397 с.
38. Татарский национальный корпус “Туган тел” [Электронный
документ]. URL: http://web-corpora.net/TatarCorpus/search/?
interface_language=ru [Дата обращения: 16.03.2019].
39. Ткаченко М.В., Модель и алгоритм улучшения распознавания
частей речи в текстах, содержащих ошибки: курс. работа. науч. рук.: Л.С.
Выговский, ассистент кафедры АСОИУ, СПбГЭТУ ЛЭТИ, СПбГу, Санкт-
Петербург, 2010. 20 с.
40. Турдаков, Д.Ю. Методы и программные средства разрешения
лексической многозначности терминов на основе сетей документов:
автореф. дис. канд. тех. наук: 05.13.11. Москва, 2010. 20 с.
41. Хакимов, Б.Э. К разработке морфологического стандарта для
систем автоматической обработки текстов на татарском языке [Текст] /
Б.Э. Хакимов, Р.А. Гильмуллин // Системный анализ и семиотическое
моделирование: материалы всеросс. конф. с междунар. участием (SASM), или в виде матрицы весов нейронов в нейронных сетях)-
2011). – Казань, 2011. – С. 209–214.
42. Хакимов, Б.Э. Разрешение грамматической многозначности в
корпусе татарского языка [Текст] / Б.Э. Хакимов, Р.А. Гильмуллин,
139
Р.Р.Гатауллин // Учен. зап. Казан. ун-та. Сер. Гуманит. науки. – 2014. –
Т. 156, кн. 5. – С. 236–244.
43. Shen, Q. The Role of Context in Neural M), или в виде матрицы весов нейронов в нейронных сетях)orphological
Disambiguation [Text] / Qinlan Shen, Daniel Clothiaux, Emily Tagtow, Patrick
Littell, Chris Dyer // Proceedings of COLING 2016, the 26th International
Conference on Computational Linguistics: Technical Papers. – Osaka, Japan,
December 11-17, 2016. – P.181–191.
44. M), или в виде матрицы весов нейронов в нейронных сетях)uzychka, S. Conditional random field for morphological
disambiguation in Russian [Text] / S. M), или в виде матрицы весов нейронов в нейронных сетях)uzychka, A. Romanenko,
I Piontkovskaja // In Conference Dialog-2014. – Bekasovo, 2014. – P.455–465.
45. Yildiz, E. A M), или в виде матрицы весов нейронов в нейронных сетях)orphology-aware Network for M), или в виде матрицы весов нейронов в нейронных сетях)orphological
Disambiguation [Text] / Eray Yildiz, Caglar Tirkaz, H. Bahadir Sahin, M), или в виде матрицы весов нейронов в нейронных сетях)ustafa
Tolga Eren, and Ozan Sonmez // Proceedings of the Thirtieth AAAI Conference
on Artificial Intelligence. – 2016. – P.2863–2869.
46. Hochreiter, S. Long short-term memory [Text] / Sepp Hochreiter //
Neural Computation. – 1997. – 9 (8). – P.1735–1780. –
DOI:10.1162/neco.1997.9.8.1735. PM), или в виде матрицы весов нейронов в нейронных сетях)ID 9377276.
47. Gers, F. A. Learning to Forget: Continual Prediction with LSTM), или в виде матрицы весов нейронов в нейронных сетях)
[Text] / Felix A. Gers // Neural Computation. – 2000. – 12 (10) – P.2451–2471.
– DOI:10.1162/089976600300015015.
48. Hochreiter, S. Gradient flow in recurrent nets: the difficulty of
learning long-term dependencies [Text] / S. Hochreiter, Y. Bengio, P. Frasconi,
J. Schmidhuber // In S. C. Kremer and J. F. Kolen, editors, A Field Guide to
Dynamical Recurrent Neural Networks. IEEE Press. – 2001. – P. 464–467.
49. Graves, A. A Novel Connectionist System for Improved
Unconstrained Handwriting Recognition [Text] / A. Graves, M), или в виде матрицы весов нейронов в нейронных сетях). Liwicki, S.
Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber // IEEE Transactions on
Pattern Analysis and M), или в виде матрицы весов нейронов в нейронных сетях)achine Intelligence. – 2009. – V. 31. – №. 5. – P.855–
868.
140
50. Graves, A. Speech Recognition with Deep Recurrent Neural Networks
[Text] / Alex Graves, Abdel-rahman M), или в виде матрицы весов нейронов в нейронных сетях)ohamed, Geoffrey Hinton // Acoustics,
Speech and Signal Processing (ICASSP), 2013 IEEE International Conference.
– 2013. – P.6645–6649.
51. Condorcet, N. C. Essai sur l'application de l’analyse à la Probabilité
des Décisions rendues a la Pluralité des voix. / N. C. Condorcet // Paris:
L’Imprimerie Royale. – 1785.
52. Huang, T.S. A neuronet approach to information fusion [Text] /
T. S. Huang, C. P. Hess, H. Pan, Z. Liang // Proc. 1st IEEE Workshop on
M), или в виде матрицы весов нейронов в нейронных сетях)ultimedia Signal Processing. – 1997. – P.45–50.
53. Кашницкий, Ю.С. История развития ансамблевых методов
классификации в машинном обучении / Ю.С. Кашницкий, Д.И. Игнатов //
Интеллектуальные системы. Теория и приложения.
10.13140/RG.2.1.3933.2007. – 2015. – Т. 19. – № 4. – С. 37-55.
54. Гатауллин, Р.Р. Разрешение морфологической многозначности в
корпусе татарского языка на основе статистико-вероятностной модели
Purepos и нейросетевой модели LSTM), или в виде матрицы весов нейронов в нейронных сетях) [Текст] / Р.Р. Гатауллин,
Р.А. Гильмуллин, Б.Э. Хакимов // VI МЕЖДУНАРОДНАЯ
КОНФЕРЕНЦИЯ ПО КОМПЬЮТЕРНОЙ)][1PL(бЫз)]")]), "."]). ОБРАБОТКЕ ТЮРКСКИХ
ЯЗЫКОВ «TURKLANG 2018» (Труды конференции). – Ташкент:
Издательско-полиграфический дом «NAVOIY UNIVERSITETI», 2018. – С.
178–185.
55. Гатауллин, Р.Р. Гибридный морфологический анализатор
татарского языка на основе правил и статистики [Текст] / Р.Р. Гатауллин //
Научно-технический вестник Поволжья. No9 2018г. – Научно-технический
вестник Поволжья, 2018. – С. 89-92.
56. Druskat, S. corpus-tools.org: An Interoperable Generic Software Tool
Set for M), или в виде матрицы весов нейронов в нейронных сетях)ultilayer Linguistic Corpora [Text] / Stephan Druskat, Volker Gast,
Thomas Krause, Florian Zipser // Proceedings of the Tenth International
141
Conference on Language Resources and Evaluation (LREC 2016). – 2016. –
P.4492–4499.
57. Облачный сервис для аннотации текстовых данных Saltsoftware
[Электронный документ]. URL: https://saltsoftware.org [Дата обращения:
16.03.2019]
58. Облачный сервис для аннотации текстовых данных TagTog
[Электронный документ]. URL: http://docs.tagtog.net [Дата обращения:
16.03.2019]
59. Облачный сервис для аннотации текстовых данных DataTurks
[Электронный документ]. URL: https://dataturks.com/features/document-ner-
annotation.php [Дата обращения: 16.03.2019]
60. Стандарт ISO/IEC TR 19759:2005 [Электронный документ]. URL:
http://materjalid.tmk.edu.ee/heikki_eljas/y-vanad/Eriala/SWEBOK_ISO_IEC_T
R_19759_2005%28E%29.pdf [Дата обращения: 16.03.2019]
61. ГОСТ Р 56920-2016/ISO/IEC/IEEE 29119-1:2013 [Электронный
ресурс]: издание официальное. М.: Стандартинформ, 2016. URL:
http://docs.cntd.ru/document/1200134996 [Дата обращения: 16.03.2019]
62. Макконнелл, С. Влияние итеративных подходов на
предварительные условия [Текст] / Стив Макконнелл // Совершенный код
= Code Complete. – Русская Редакция, Питер, 2005. – С. 31. – 896 с.
142
Приложение 1
Система обозначений грамматических категорий (теги) в корпусе
татарского языка
Части речи
N noun имя существительное
ADJ adjective имя прилагательное
V verb глагол
ADV adverb наречие
NUM), или в виде матрицы весов нейронов в нейронных сетях) numeral числительное
PN pronoun местоимение
CNJ conjunction союз
POST postposition послелог
PART particle частица
INTRJ interjection междометие
M), или в виде матрицы весов нейронов в нейронных сетях)OD modal word модальное слово
IM), или в виде матрицы весов нейронов в нейронных сетях)IT imitative word звукоподражательное слово
Категория числа
Сокращения Расшифровка Название Алломорфы Условное
сокращений категории обозначение
морфемы
SG singular единственное - -
PL plural множественное -лар -ЛАр
-ләр
-нар
-нәр
Категория принадлежности (посессивность)
Сокращения Название категории Алломорфы Условное
143
обозначение
морфемы
POSS_1SG принадлежность 1 лицу ед. -ым -[Ы]м
числа -ем
-м
POSS_2SG принадлежность 2 лицу ед. -ың -[Ы]ң
числа -ең
-ң
POSS_3SG принадлежность 3 лицу ед. - ы -[с]Ы
числа -е
-сы
-се
POSS_1PL принадлежность 1 лицу мн. -ыбыз -[Ы]бЫз
числа -ебез
-быз
-без
POSS_2PL принадлежность 2 лицу мн. -ыгыз -[Ы]гЫз
числа -егез
-гыз
-гез
POSS_3PL принадлежность 3 лицу мн. -ы -[с]Ы
числа -е
-сы
-се
Падежи существительных
Сокращения Расшифровка Название Алломорфы Условное
сокращений категории обозначение
морфемы
NOM), или в виде матрицы весов нейронов в нейронных сетях) nominative именительный - -
144
падеж
GEN genitive родительный -ның -нЫң
падеж -нең
(генитив)
DIR directive направительн -га -[Г]А
ый падеж -гә
(директив) -ка
-кә
-ма
-мә
-а
-ә
DIR_LIM), или в виде матрицы весов нейронов в нейронных сетях) направительн -гача -[Г]АчА
ый падеж с -гәчә
ограничительн -кача
ым значением -кәчә
ACC accusative винительный -ны -н[Ы]
падеж -не
(аккузатив) -н
ABL ablative исходный -дан -[н]ДАн
падеж -дән
(аблатив) -тан
-тән
-нан
-нән
-ннан
-ннән
LOC locative местно- -да -[н]ДА
временной -дә
145
падеж -та
(локатив) -тә
-нда
-ндә
Атрибутивные формы, производные от существительных
Сокращения Расшифровка Название Алломорфы Условное
сокращений категории обозначение
морфемы
ATTR_M), или в виде матрицы весов нейронов в нейронных сетях)UN attributive атрибутив на - -лы -лЫ
munitative лы -ле
(мунитатив)
ATTR_ABES attributive атрибутив на - -сыз -сЫз
abessive сыз (абессив) -сез
ATTR_LOC attributive локативный -дагы -[н]ДА+гЫ
locative атрибутив -дәге
-тагы
-тәге
-ндагы
-ндәге
ATTR_GEN attributive генетивный -ныкы -нЫ(ң)+кЫ
genetive атрибутив -неке
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.