Модели и сервисы многофункционального лингвистического интернет-ресурса на базе структурно-параметрической модели тюркской морфемы тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Альменова Акмарал Байжановна
- Специальность ВАК РФ05.13.11
- Количество страниц 192
Оглавление диссертации кандидат наук Альменова Акмарал Байжановна
Введение
Глава 1. Аналитический обзор и постановка задачи исследования
1.1. Понятие лингвистических моделей
1.2. Лингвистические модели для тюркских языков
1.3. Лингвистические базы данных
1.4. Многофункциональные лингвистические процессоры
1.5. Аналитический обзор работ в области разработок морфологических анализаторов для тюркских языков
1.6. Выводы по главе
Глава 2. Архитектура структурно-параметрической модели тюркской морфемы и многофункционального лингвистического Интернет ресурса
2.1. Архитектура структурно-параметрической модели тюркской морфемы
2.2. Система формализмов модели
2.3. Система правил модели
2.3.1. Правила классификации
2.3.2. Правила сочетания
2.4. Архитектура многофункционального интернет-сервиса
2.4.1. Модуль администрирования
2.4.2. Модуль заполнения Базы данных
2.4.3. Модуль лингво-статистического сравнения близости языков
2.4.4. Модуль морфологического анализа
2.5. Выводы по главе
Глава 3. Многофункциональный лингвистический интернет-сервис: описание интерфейса, базы данных и их реализации
3.1. Интерфейс многофункционального лингвистического интернет-сервиса
3.2. Описание интерфейса для незарегистрированных пользователей
3.3. Структура базы данных многофункционального лингвистического интернет-ресурса
3.4. Этапы разработки многофункционального лингвистического интернет-сервиса
3.5. Выводы по главе
Заключение
Список литературы
Приложение
Приложение
Приложение
Приложение
Приложение
Список сокращений и условных обозначений
СПФМ - Структурно-параметрическая функциональная модель
МРФН - Морфонологический уровень
МРФЛ - Морфологический уровень
ЕЯ - Естественный язык
ЭВМ - электронно-вычислительная машина
АН РТ - Академия наук Республики Татарстан
ЛБД - Лингвистическая база данных
ТБД - Типологическая база данных
ГЛБД - Глобальная лексикостатистическая база данных
БД - База данных
СУБД - Система управления базами данных IPA - International Phonetic Association
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний2009 год, кандидат физико-математических наук Гильмуллин, Ринат Абрекович
Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей2000 год, доктор технических наук Сулейманов, Джавдет Шевкетович
Морфемное строение слова в башкирском и английском языках2016 год, кандидат наук Билалова Дина Нуримановна
Структурно-функциональное моделирование лексики в прагматически-ориентированных лингвопроцессорах2002 год, кандидат технических наук Гатиатуллин, Айрат Рафизович
Сопоставительно-сравнительное исследование морфем чувашского языка с применением формальных методов2010 год, кандидат филологических наук Желтов, Павел Валерианович
Введение диссертации (часть автореферата) на тему «Модели и сервисы многофункционального лингвистического интернет-ресурса на базе структурно-параметрической модели тюркской морфемы»
Введение
Актуальность темы диссертации. Начиная с 60-х годов прошлого века по нарастающей осуществляются исследования в области компьютерной обработки тюркских языков, а также разрабатываются системы и технологии с целью активного использования тюркских языков в информационном пространстве как языков накопления, обработки и передачи информации. Наибольшее количество работ посвящено разработкам в области автоматизации морфологического анализа, морфологического аннотирования текстов, что вполне ожидаемо и естественно для тюркских языков и объясняется их структурными особенностями и важным значением морфологии практически во всех аспектах обработки языков тюркской группы, будь то снятие многозначности, определение тональности текста или машинный перевод и поиск информации в электронном пространстве. Наиболее активно в данной области работают турецкие, уйгурские, казахские, российские ученые, что отражается также и в количестве публикаций и программных разработок.
Вместе с тем, практически отсутствует реальная интеграция исследований по обработке тюркских языков, происходит дублирование лингвистических моделей и ресурсов, а также программных модулей их обработки, в основе своей на 70-80 и более процентов являющихся общими для всех тюркских языков. Актуальным является преодоление такого дублирования, объединение усилий на совместных разработках и также обмен программными модулями. Это позволяет сэкономить ресурсы, как финансовые, так и кадровые, направить усилия специалистов на нерешенные проблемы и достичь общего прорыва в области создания технологий для обработки тюркских языков, и даже создавать новые технологии обработки информации на основе лексико-грамматических особенностей тюркских языков.
В перспективе это должно повысить эффективность создания многоязычных систем обработки текстов и послужить решению других
фундаментальных и прикладных задач. Для их решения необходимы концептуальные и формальные лингвистические модели, базы данных, единые для тюркских языков, а также программное обеспечение, построенное на основе этих моделей. Очевидно, одним из важных требований к такого рода разработкам сегодня, тем более, в перспективе, является размещение их в виде общедоступных открытых интернет-сервисов.
Для построения таких моделей, баз данных и программных модулей перспективным является прагматически-ориентированный подход к разработке лингвистических моделей, ресурсов и лингвистического программного обеспечения, включающих минимальный набор средств, достаточный для решения определенного круга задач. Сулеймановым Д.Ш. [43] дается следующая классификация прагматически-ориентированных лингвистических моделей: 1) семиотические (семантико-контекстные) модели, обеспечивающие глубинное проникновение в текущий контекст и трансформацию его с сохранением смысла как внутри одной модели так и между разными моделями (например, системы машинного перевода, системы извлечения знаний); 2) диалоговые запросно-ответные или интерактивные модели, обеспечивающие естественно-языковой диалог автоматизированной системы с пользователем при запросах к системе или ответах пользователя на вопросы системы; 3) концептуально-формальные модели, обеспечивающие целевую обработку текстов согласно соответствующим формальным правилам определенного языкового уровня (собственно грамматики ЕЯ); 4) структурно-параметрические функциональные модели (СПФМ), являющиеся наиболее полными описаниями элементов и их взаимосвязей определенного ЕЯ-уровня или уровней, обеспечивающими разработчиков концептуальной информацией, необходимой при построении систем и информационных технологий обработки естественно-языковых текстов.
Модель, представленная в диссертационной работе, является комплексной многоуровневой моделью, состоящей из множества подмоделей.
Это подмодели, относящиеся к 3-ему и 4-ому классам прагматически-ориентированных моделей, согласно приведенной классификации. Первая группа подмоделей, это структурно-параметрические функциональные подмодели, которые представляют собой описание тюркских языковых единиц. Вторая группа подмоделей — это концептуально-формальные подмодели, которые описывают правила языковых уровней: морфонологического и синтаксического. В данной диссертационной работе описана модель морфонологического уровня. Эти модели положены в основу технологий анализа языковых структур, реализованных в рамках диссертационной работы.
Актуальность создания такого типа комплексной многоуровневой, многоязычной модели, лингвистической базы данных и многофункционального инструментария заключается также в том, что эта модель позволяет эксплицитно отразить взаимосвязи между различными языковыми уровнями, единицами этих языковых уровней, провести статистический сравнительный анализ параметрических данных с описанием языковых свойств.
Объект исследования. Объектом исследования является процесс создания концептуальных моделей и программных средств, а также лингвистического Интернет-ресурса для автоматизированной обработки и использования тюркских языков.
Предмет исследования. Предметом исследования являются технологии автоматизации создания многофункциональной модели морфологического (МРФЛ) и морфонологического (МРФН) уровней естественных языков (ЕЯ) с учетом соответствующих им структурно-параметрических характеристик.
Цель работы и задачи исследования. Целью диссертационной работы является разработка концептуальных и формальных моделей МРФЛ и МРФН уровней, баз данных и программных модулей в рамках проекта многофункционального многоязычного лингвистического Интернет-ресурса, основанного на структурно-параметрической функциональной модели тюркской морфемы.
Достижение поставленной цели предполагает решение следующих исследовательских и прикладных задач:
1. Разработка концептуальных и формальных моделей для представления языковых единиц МРФЛ и МРФН уровней тюркских языков на основе их исследования и сравнительного анализа;
2. Разработка базовых модулей многопользовательской многоязычной программно-информационной среды для создания, модификации и применения лингвистической базы данных в виде интернет-ресурса на основе структурно-параметрических моделей МРФЛ и МРФН языковых уровней;
3. Заполнение базы данных МРФЛ и МРФН языковых уровней многофункционального многоязычного лингвистического интернет-ресурса на примере татарского, казахского, турецкого языков;
4. Разработка технологий сравнительного анализа близкородственных языков на уровнях МРФЛ и МРФН с использованием структурно-параметрической модели тюркской морфемы и реализация их в виде отдельного сервиса;
5. Создание программы МРФЛ анализа и синтеза тюркских словоформ на основе структурно-параметрической модели тюркской морфемы.
Научная новизна
1. Реализована многоязычная версия структурно-параметрической функциональной модели (СПФМ) тюркской морфемы на основе прагматически-ориентированного подхода к построению систем обработки ЕЯ-информации;
2. Разработаны базовые модули многофункционального многоязычного многопользовательского интернет-сервиса для создания, модификации и использования лингвистической базы данных с описанием МРФЛ и МРФН уровней СПФМ тюркской морфемы;
3. Осуществлено заполнение базы данных языковых уровней МРФЛ и МРФН многофункционального многоязычного интернет-ресурса на примере
татарского, казахского, турецкого, а также крымскотатарского и узбекского языков;
4. Разработана программа морфологического анализа для тюркских языков с использованием МРФЛ и МРФН аспектов СПФМ тюркской морфемы;
5. Реализованы технологии сравнительного анализа близости языков с использованием МРФЛ и МРФН аспектов СПФМ тюркской морфемы.
Теоретическая и практическая ценность полученных результатов.
Теоретическая ценность полученных в диссертации результатов заключается в разработке компонентов многофункционального многоязычного многопользовательского лингвистического интернет-сервиса, являющегося ресурсной базой для программных продуктов, осуществляющих компьютерную обработку тюркских языков, а также новых моделей и алгоритмов для сравнительного анализа степени близости тюркских языков по заданным параметрам.
Практическая значимость заключается в том, что разработанный интернет-сервис может быть использован в качестве информационно-справочной системы, содержащей наиболее полную информацию о тюркских языковых единицах - морфемах, а также в качестве технологического инструментария для заполнения базы морфем для разных тюркских языков и для осуществления научно-прикладных исследований учеными-тюркологами в области морфологии.
Методология и методы исследования.
При разработке структуры модели и ее наполнении использовались описательно-аналитический и контекстологический методы.
При разработке структуры подмоделей использованы методы моделирования и сопоставительного анализа.
При разработке программного комплекса использовались методы алгоритмического моделирования, структурного программирования, логического программирования.
Положения, выносимые на защиту:
1. Концептуально-формальные и структурно-параметрические функциональные модели для описания свойств языковых единиц морфологического и морфонологического уровней тюркских языков, как базовые лингвистические компоненты программ для обработки тюркских языков;
2. Программный инструментарий многопользовательской многоязычной программно-информационной среды для создания, модификации и использования базы данных, созданной на основе СПФМ языковых единиц МРФЛ и МРФН уровней многофункционального интернет-ресурса;
3. Алгоритмы и программа МРФЛ анализа и генерации тюркских словоформ с возможностью анализа аналитических (многословных) форм единиц языка;
4. Технология и программный инструментарий для лингво-статистического сравнения близости тюркских языков с использованием СПФМ тюркской морфемы.
Степень разработанности темы исследования
Исследование и разработка прагматически-ориентированных лигвистических моделей, включая модели, относящиеся к диалоговым, концептуально-фомальным и структурно-параметрическим осуществляется группой ученых-исследователей Казанского федерального (Поволжского) университета и Академии наук РТ под руководством Сулейманова Д.Ш. Одной из первых разработок была структурно-функциональная модель татарской аффиксальной морфемы, представленная в монографии [44]. На основе этой модели создана лингвистическая база данных, а также программно-
информационный комплекс для заполнения модели и ряд программных модулей по обработке текстов на татарском языке.
Структурно-параметрическая модель разрабатывается по спиральной технологии жизненного цикла, которая достигается с помощью версионности программного обеспечения, постоянного уточнения модели и добавления новых функций пользователя.
В данной диссертации описаны новые результаты, полученные в ходе концептуального, функционального и технологического развития структурно -параметрической модели тюркских морфем.
Апробация и внедрения результатов работы.
Разработанный многофункциональный интернет-сервис используется участниками международного проекта UniTurk для унификации системы тэгов и грамматических категорий, используемых в разработках для тюркских языков. Многофункциональный интернет-сервис также используется в учебном процессе в Казанском федеральном университете по курсу "Компьютерная лингвистика".
Публикации. По результатам выполненных исследований опубликовано 8 работ, в том числе в трех научных журналах из перечня ВАК («Казанская наука», «Программные продукты и системы», «Филология и культура»), а также получено свидетельство о внедрении программы морфологического анализа для тюркских языков, разработанная на базе структурно-параметрической модели тюркской морфемы в поисково-аналитическую систему Exactus.
Структура и объем работы. Диссертационная работа включает введение, три главы, заключение, список литературы и 5 приложений. Материал диссертации изложен на 132 страницах текста (без приложения), включающих в себя 47 рисунка и 7 таблиц.
Глава 1. Аналитический обзор и постановка задачи исследования
В данной главе дается аналитический обзор разработок и литературы по теме диссертации. Анализируются концептуальные и формальные лингвистические модели, лингвистические базы данных, лингвопроцессоры и другое лингвистическое программное обеспечение. Произведен подробный анализ СПФМ татарской аффиксальной морфемы и программного комплекса для заполнения этой модели, разрабатываемой в институте прикладной семиотики АН РТ.
1.1. Понятие лингвистических моделей
Одним из основных инструментов компьютерной лингвистики является лингвистическая модель, для которой в литературе по компьютерной лингвистике дается следующее определение [26]:
Модель в лингвистике - это искусственно создаваемое лингвистом реальное или мысленное устройство, воспроизводящее, имитирующее своим поведением поведение какого-либо другого настоящего устройства в лингвистических целях.
Особенности моделей в компьютерной лингвистике:
1. формальность и алгоритмизуемость;
2. экспериментальная обоснованность, с возможностью тестирования на
разных текстах;
3. использование словарей как обязательной составляющей моделей.
В настоящее время не существует единой системы классификации лингвистических моделей, поэтому используются разные типы классификации.
Типы лингвистических моделей: 1. по охвату структуры языка:
- общие (глобальные) стремятся охватить весь язык: (vocabulary, grammar)
- частные, которые описывают определенный уровень языка:
а. фонологический уровень;
б. морфологический уровень;
в. синтаксический;
г. лексико-семантический.
2. по типологическому статусу:
- универсальные - стремятся охватить все языки мира;
- специфические - характерны для определенного языка или группы языков.
Например: тюркская группа языков.
3. по гносеологическому статусу:
- модели языка;
- модели лингвистических знаний - различные фонетические школы;
- модели деятельности лингвиста.
4. по конечной цели исследования:
- теоретические;
- прикладные.
5. по используемым методам:
- математические модели;
- психологические модели;
- социологические модели.
Сулеймановым Д.Ш. [43] был предложен прагматически-ориентированный подход к разработке лингвистических моделей, определяющий минимальный набор средств для решения определенного круга задач, исходя из принципа «достаточности» в конкретной ситуации, а также классификация лингвистических моделей по прагматическим признакам:
1) когнитивные (семантико-контекстные) модели, обеспечивающие глубинное проникновение в текущий контекст и трансформацию его с сохранением смысла как внутри одной модели, так и между разными моделями (например, системы машинного перевода, системы извлечения знаний);
2) диалоговые запросно-ответные или интерактивные модели, обеспечивающие естественно-языковой диалог автоматизированной системы с пользователем при запросах к системе или ответах пользователя на вопросы системы. Функция таких моделей, помимо анализа или синтеза ЕЯ-текстов, заключается в формировании корректного образа ответа на запрос и/или реакции на ответ пользователя;
3) концептуально-формальные модели, обеспечивающие целевую обработку текстов согласно соответствующим формальным правилам определенного языкового уровня (собственно грамматики ЕЯ, специальных грамматик или формальных систем);
4) структурно-параметрические функциональные модели (СПФМ), являющиеся наиболее полными описаниями определенного ЕЯ-уровня или уровней, обеспечивающие разработчиков структурно-функциональной, а также справочной информацией, необходимой при построении систем и информационных технологий обработки естественно-языковых текстов.
Сложные лингвистические модели согласно этой классификации, могут не принадлежать полностью к какому-то одному типу, а состоять из нескольких подмоделей, каждая из которых принадлежит определенному типу из этой классификации. Так, одна модель может содержать описание лингвистических единиц отдельного языкового в соответствии с четвертым типом классификации Сулейманова, а описание этих единиц служить базой для использования в решении целевых задач в соответствии с третьим типом. Например, подмодель четвертого типа содержит описание морфем, а подмодель третьего типа наборы правил для использования этих морфем в задачах морфологического анализа или синтеза. А уже программа морфологического анализа может быть использована в программах машинного перевода в соответствии с первым типом классификации Сулейманова.
1.2. Лингвистические модели для тюркских языков
Количество программных разработок по компьютерной обработке тюркских языков, а также компьютерных лингвистических моделей намного меньше чем для индоевропейских языков. Первые работы по обработке тюркских языков появились в 60-е годы 20 века и практически все они посвящены решению задачи морфологического анализа и синтеза. Известно, что в настоящее время в мире проводится большое количество исследований специалистов в области компьютерной обработки тюркских языков. Среди них можно отметить работы по обработке казахского языка [7], [23], [34], [50], [53], [55], [70], [83], кыргызского языка [17], [30], узбекского языка [1], [74], крымскотатарского языка [18], [60], уйгурского языка [56], [59], [63], и для других языков тюркской группы [15], [19], [58], [85].
Также проводится множество научных конференций, секций, семинаров, где пресдставляются результаты работ специалистов в области компьютерной обработки тюркских языков [46], [47], [48], [77], [78].
В качестве одной из первых работ можно отметить работу 1962 года Халитовой Н.А. с соавторами по морфологическому анализатору для системы машинного перевода для татарского языка [51]. В соответствии с классификацией Сулейманова модель, представленную в данной работе, можно отнести к моделям 3-го типа.
В основном первые лингвитические модели для тюркских языков описывают морфологию и программы морфологического анализа тюркских языков. В 1978 году появилась работа по статистическим исследованиям для тюркских языков, и в частности, для казахского языка [8]. Бектаевым была сделана статистико-информационная типология тюркского текста, получены математические лингвистические модели и русско-казахский, казахско-русские словари.
Этому посвящена и работа Махмудова А.М. 1982 года для азербайджанского языка [25]. Автором построена лингвистическая модель
морфологического анализа тюркской словоформы, реализованная в виде воспроизводящей инженерно-лингвистической модели для азербайджанского языка. В работе Садыкова Т. [35] на основе системного подхода анализируется морфологическая структура киргизского языка. Результаты анализа использовались в целях построения модели порождения реальных именных словоформ по заданной лексико-грамматической информации.
Основной особенностью первых разработок морфологического анализатора является, то что, они все являются языкозависимыми, поскольку морфотактические правила языка были встроены в саму программу. Соответственно для использования этой программы с другим тюркским языком необходимо было переписывать сам программный код. С течением времени технологии менялись, создавались анализаторы универсальные для разных тюркских языков, увеличивались размеры словарей, наращивалась скорость обработки, возрастал процент анализируемых слов. Несмотря на то, что с начала создания первых программ морфологического анализа для тюркских языков прошло уже около 50 лет, работы в данном направлении не прекращаются и в настоящее время. Подтверждением этого являются следующие работы по морфологическим анализаторам: универсального [6], для татарского [11], башкирского [29], [37], казахского [54], чувашского [16], турецкого [75], хакасского [14] языков.
Эти модели согласно классификации, Сулейманова относятся к моделям третьего типа, что означает при разработке каждой модели для отдельного языка Li необходимо производить исследования грамматики этого языка. Данный результат показывает актуальность в разработке моделей 4-го типа с описанием наиболее полной информации, обеспечивающей разработчиков структурно-параметрической, функциональной, а также справочной информацией о языковых единицах. Информация, представленная в лингвистических моделях четвертого типа, может стать базой для создания лингвистических моделей других типов, а это особенно актуально для тюркских языков, поскольку проведенный анализ лингвистических баз данных
показывает, что для тюркских языков лингвистических баз данных намного меньше чем для языков индоевропейской группы.
В.А. Плунгян в своей работе [31] определяет три модели морфологии:
1) элементарно комбинаторная;
2) элементарно процессная;
3) словесно парадигматическая.
Элементарно комбинаторная модель - это модель, основным инструментом которой является линейная сегментация.
В языках с элементарно процессной моделью морфологии некоторые алломорфы рассматриваются как исходные, а другие — как производные, которые могут быть получены из первых путем применения различных операций типа «фонологических процессов».
В словесно парадигматических моделях вообще происходит отказ от морфемного членения при описании словоизменения. Именно словоформа и оказывается минимальной единицей грамматического описания в парадигматической модели.
Согласно классификации Плунгяна тюркские языки относятся к языкам элементарно-комбинаторного типа.
Согласно другой морфологической классификации тюркские языки относятся к языкам агглютинативного типа, которые имеют следующие структурные особенности. Словоформа в агглютинативных языках образуется путем присоединения к основе однозначных стандартных аффиксов (аффиксальных морфем) в строгом порядке; границы морфем отчетливы, фонетические изменения на стыках морфем подчиняются строгим правилам. Однако парадигма конкретного слова имеет чрезвычайную сложность и многоместность, что обусловлено большим числом словоизменительных аффиксов.
Морфема в лингвистике определяется, как минимальная значащая часть слова, совокупность морфов (алломорфов), имеющих одинаковое значение и ряд других общих признаков.
В работе [14] также отмечаются следующие особенности агглютинативных языков:
- развитая система словоизменительных аффиксов (аффиксльных морфем), большинство из которых грамматически однозначны (т.е. одним аффиксом выражается один грамматический признак);
- единый тип словоизменения: отсутствие строгого разграничения между именным и глагольным типом словоизменения - склонением и спряжением;
- отсутствие значимых морфонологических чередований в основах, четкая фонетическая обусловленность использования алломорфов.
Это подтверждает, что морфема, как структурная единица, в тюркских языках играет намного большую роль, чем в языках другого типа. Это является обоснованием того, что именно морфема взята как базовая единица концептуально-функциональной модели (4-го типа), согласно классификации прагматически-ориентированных лингвистических моделей.
Работа по созданию таких моделей уже велась. В работе Сулейманова, Гатиатуллина [44] описана структурно-функциональная модель для аффиксальных морфем. В этой модели описываются свойства морфем, которые представлены в виде параметров модели и проявляются на разных языковых уровнях: морфонологическом, морфологическом, синтаксическом и семантическом. Архитектура структурно-функциональной модели татарской аффиксальной морфемы представлена на рисунке 1.1.
Для этой модели было разработано программное обеспечение и заполнена база данных для аффиксальных морфем татарского языка. Модель, база данных и программное обеспечение имели следующие особенности:
- в модели дается только частичное описание аффиксальных морфем, поскольку полное описание свойств аффиксальных морфем возможно только во взаимосвязи с описанием корневых морфем;
- программное обеспечение и структура базы данных позволяли работать только с одним языком, хотя потенциальные возможности модели позволяют
сделать ее многоязычной и именно многоязычность добавляет модели целый ряд функциональных возможностей;
- программное обеспечение было локальным и не позволяло реализовать многопользовательскую, распределенную версию, что также способствует повышению практической ценности модели.
Рисунок 1.1 - Структура модели 1.3. Лингвистические базы данных
Лингвистическая база данных (ЛБД) — это специальная структура данных, которая служит для хранения и эффективного использования исходной, промежуточной и конечной информации о естественно-языковых объектах и их отношениях (см. рисунок 1.2).
В работе Мальковского [24] утверждается, что системы, работающие с естественным языком, например, системы машинного перевода, информационно-поисковые системы, характеризуются тем, что решающую
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Историческая фонетика тюркских (башкирского, татарского) и баскского языков: сравнительно-сопоставительный анализ2016 год, кандидат наук Сулейманова, Дильбар Данисовна
Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики: Морфемика. Морфонология. Элементы фонологической трансформаторики2004 год, доктор филологических наук Крылов, Сергей Александрович
Характеристика морфемного состава даргинского языка2010 год, кандидат филологических наук Умарханова, Джаннат Адуевна
Методы, модели и программный инструментарий разрешения многозначности в текстах2019 год, кандидат наук Гатауллин Рамиль Раисович
Консонантизм нижне-тёйского говора сагайского диалекта хакасского языка: Сопоставительный аспект2005 год, кандидат филологических наук Субракова, Вия Васильевна
Список литературы диссертационного исследования кандидат наук Альменова Акмарал Байжановна, 2018 год
Список литературы
1. Абдурахмонова Н. Моделирование грамматических категорий и аналитических глаголов узбекского языка как этап морфологического анализа в машинном переводе / Н. Абдурахмонова // V Международная конференция по компьютерной обработке тюркских языков «Тигк1ап§ 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 156-180.
2. Альменова, А.Б. Мультифункциональная модель тюркских морфем как база данных для семантической поисковой системы тюркских языков / А.Б. Альменова, А.Р. Гатиатуллин, П.В. Пшеничный // Казанская наука. Казань: Изд-во Казанский Издательский Дом. - 2014. - № 10. - С. 145147.
3. Альменова, А.Б. Инструментарий для определения лингво-статистической близости языков с использованием модели тюркской морфемы / А.Б. Альменова // Программные продукты и системы. - 2018. -№ 1. - С. 172-176.
4. Альменова, А.Б. Структурно-функциональная модель тюркских морфем как инструмент для разработки семантических поисковых систем для тюркских языков / А.Б. Альменова, А.Р. Гатиатуллин // Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы V Международной научно-практической конференции (Казань, 19-22 ноября 2014 г.). - Казань: Отечество, 2014. - С. 73-76.
5. Альменова, А.Б. Мультифункциональная модель тюркских морфем как база данных для программ обработки тюркских текстов / А.Б. Альменова, А.Р. Гатиатуллин // Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы VI Международной научно-практической конференции. -Казань: Отечество, 2015. - С. 17-18.
6. Архангельский, Т.А. Принципы построения морфологического парсера для разноструктурных языков: дис... к-та фил. наук : 10.02.21 / Архангельский Т.А. - М., 2012. - 197 с.
7. Барахнин, В.Б. Алгоритм построения словоформ с использованием флективных классов для систем морфологического анализа казахского языка / В.Б. Барахнин, Л.Х. Лукпанова, А.А. Соловьев // Вестник Новосибирского Государственного Университета. Серия: Информационные технологии. - 2014. Т. 12, вып. 2. - С. 25-32.
8. Бектаев, К.Б. Статистико-информационная типология тюркского текста: Монография. / Отв. ред. Р.Г. Пиотровский. - Алма-Ата: Наука, 1978. -183 с.
9. Володин, А.П. Палеоазиатские языки / А.П. Володин. - М.: Языки мира, 1996. - 231 с.
10. Высокопроизводительный PHP Фреймворк - Phalcon Framework [Электронный ресурс] URL: https://phalconphp.com/ru/ [Дата обращения: 19.03.2018]
11. Гатиатуллин, А.Р. Методы лингвистического анализа текстов на татарском языке и их применение в поисковой системе Exactus* / А.Р. Гатиатуллин, А.М. Баширов, Г.С. Осипов, И.В. Смирнов, А.О. Шелманов // Труды ИСА РАН. - 2016. - Т.66. - № 1. - С. 18-25.
12. Глобальная лексикостатистическая база данных [Электронный ресурс]. URL: http : //starling.rinet. ru/new100/mainr. htm [Дата обращения: 16.03.2018]
13. Документация 5.х I Laravel по-русски [Электронный ресурс] URL: https://laravel.ru/docs/v5 [Дата обращения: 10.03.2018]
14. Дыбо, А.В. Автоматический морфологический анализ для корпусов тюркских языков / А.В. Дыбо, А.В. Шеймович // Филология и культура. -2014. № 2 (36). - C. 20-26.
15. Дыбо, А.В. Опыт компьютерно-ориентированного описания тувинской морфонологии в рамках системы автоматического морфологического анализа / А.В. Дыбо, А.В. Шеймович // V Международная конференция
по компьютерной обработке тюркских языков «Turklang 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 27-49.
16. Желтов, П.В. Морфологический анализатор чувашского языка / П.В. Желтов // Материалы Международной конференции студентов и аспирантов по фундаментальным наукам «Ломоносов 2002», М:изд-во. МГУ, 2002. - С. 11.
17. Исраилова, Н.А. Морфологический анализатор кыргызского языка / Н.А. Исраилова, П.С. Бакасова // V Международная конференция по компьютерной обработке тюркских языков «Turklang 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 100-116.
18. Кубединова, Л.Ш. О реализации системы морфологической разметки крымскотатарского электронного корпуса / Л.Ш. Кубединова, А.Р. Гатиатуллин // Труды XIV Международной конференции по компьютерной и когнитивной лингвистике TEL'2016 "Семантические модели и технологии". - Казань: Изд-во Казан. ун-та, 2016. - С. 90-94.
19. Кулиева, З.Ю. Применение сравнительного анализа английского и азербайджанского языков для создания базы знаний морфологического анализатора в экспертной системе поддержки машинного перевода / З.Ю. Кулиева // V Международная конференция по компьютерной обработке тюркских языков «Turklang 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 181224.
20. Колисниченко, Д. PHP и MySQL. Разработка Web-приложений / Д. Колисниченко // - 2015, - 593 с.
21. Котеров, Д. PHP 7 Наиболее полное руководство / Д. Котеров, И. Симдянов // Издательство БХВ-Петербург, - 2017, - 1088 с.
22. Литвиненко, Н.А. Технология программирования на C++. Начальный курс / Н.А. Литвиненко // Учебное пособие. Изд-во: БХВ-Петербург, 2010. - 281 с.
23. Макажанов, А. Разработка синтаксического, лексического и морфологического наборов разметок для казахского языка / А. Макажанов, О. Махамбетов, И. Сабыргалиев, Ж. Есенбаев // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2014. - Казань: Издательство «ФЭН» АН РТ - С. 129-135.
24. Мальковский, М.Г. Об автоматизированном формировании лингвистических баз знаний / М. Г. Мальковский, В. Г. Абрамов, А. В. Субботин // Сб. тр. Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-98». — Казань, 1998, - С. 831836.
25. Махмудов, М.А. Разработка системы формального морфологического анализа тюркской словоформы: на материале азербайджанского языка: диссертация ... кандидата филологических наук: 10.02.06 / Махмудов М.А. - Баку, 1982. - 150 с.
26. Медведева, Т.Н. Формальные модели в лингвистике: Учебное пособие / Т.Н. Медведева. - Саратов: Научная книга, 2010. - 56 с.
27. Мельчук, И.А. Курс общей морфологии. Т. IV. / И. А. Мельчук // Пер. с фр. Е.Н. Саввиной под общ.ред. Н.В. Перцова. - М.: Вена: Языки славянской культуры: Венский славистический альманах, 2001. - 584 с.
28. Мишанкина, Н. А. Базы данных в лингвистических исследованиях / Н. А. Мишанкина // Вопросы лексикографии. 2013. № 1. - С. 25-33. URL: http://vital.lib.tsu.rU/vital/access/manager/Repositorv/vtls:000453477
29. Орехов, Б.В. Проблемы автоматической морфологии агглютинативных языков и парсер башкирского языка / Б.В. Орехов, Е.А. Слободян // Информационные технологии и письменное наследие: материалы международной научной конференции / отв. ред. В.А. Баранов. Уфа; Ижевск: Вагант, 2010. - С. 167-171.
30. Панков, П.С. Материалы для морфологического анализа и представление пространства в кыргызском языке / П.С. Панков, С.Ж. Карабаева // V Международная конференция по компьютерной обработке тюркских языков «Turklang 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 117134.
31. Плунгян, В.А. Общая морфология: Введение в проблематику: Учебное пособие / В.А. Плунгян. - М.: Эдиториал УРСС, 2000. - 384 с.
32. Поляков, В.Н. Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях (на материале созданной в ИЯ РАН БД «Языки мира») / В.Н. Поляков, В.Д. Савельев, В.Д. Соловьев // КИИ-2006: труды конференции - Т.1. - М.: Физматлит. - 2006. - С. 217-224.
33. Раушенбах, Г.В. Меры близости и сходства / Г.В. Раушенбах // Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - С. 169-203.
34. Рахимова, Д.Р. Построение семантических отношении в машинном переводе / Д.Р. Рахимова // Вестник КазНУ, №№1, - 2014, - С. 90-101.
35. Садыков Т. Проблемы моделирования тюркской морфологии: (аспекты порождения кирг. имен. словоформы) / Т. Садыков. АН КиргССР, Ин-т яз. и лит. - Фрунзе: Илим, 1987. - 120 с.
36. Сегалович И. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов / И. Сегалович, М. Маслов // Диалог'98. Казань, 1998. Т.2.
37. Сиразитдинов, З.А. Алгоритмическая грамматика словоизменения башкирского языка // [Электронный ресурс]. URL: http://mfbl.ru/bashdb/algram/ algram.htm [Дата обращения: 08.04.2018].
38. Современный учебник JavaScript [Электронный ресурс] URL: https://learn.iavascript.ru/ [Дата обращения: 10.03.2018]
39. Справочник по HTML: [Электронный ресурс] // URL:http://htmlbook.ru/HTML/ [Дата обращения: 10.03.2018]
40. Сулейманов, Д.Ш. Многофункциональная модель тюркской морфемы / Д.Ш. Сулейманов, А.Р. Гатиатуллин, А.Б. Альменова, А.М. Баширов // Филология и культура. Philology and Culture. - 2016. - № 2(44). - С. 143151.
41. Сулейманов, Д.Ш. Многофункциональная модель тюркской морфемы / Д.Ш. Сулейманов, А.Р. Гатиатуллин, А.Б. Альменова, А.М. Баширов // Материалы I форума гуманитарных наук «Великая степь». Астана: -2016. - С. 176-186.
42. Сулейманов, Д.Ш. Многофункциональная модель тюркской морфемы: отдельные аспекты / Д.Ш. Сулейманов, А.Р. Гатиатуллин, А.Б. Альменова, А.М. Баширов // XIV Международная конференция по компьютерной и когнитивной лингвистике TEL'2016 "Семантические модели и технологии". - 2016. - С. 168-171.
43. Сулейманов, Д.Ш. Обработка ЕЯ-текстов на основе прагматически-ориентированных лингвистических моделей / Д.Ш. Сулейманов // Сб.под ред. Соловьева В.Д.: Обработка текста и когнитивные технологии. -Вып.3. Труды научного семинара «Когнитивное моделирование» (Пущино, окт. 1998г.). - С. 205-212.
44. Сулейманов, Д.Ш. Структурно-функциональная компьютерная модель татарских морфем / Д.Ш. Сулейманов, А.Р. Гатиатуллин. - Казань: Фэн, 2003. - 220 с.
45. Сулейманов, Д.Ш. Двухуровневое описание морфологии татарского языка / Д.Ш. Сулейманов, А.А. Гильмуллин, Р.А. Гильмуллин // Тез. Межд. научн. конф., посвященной 200-летию университета: "Языковая семантика и образ мира" (Казань, 7-10 октября 1997г.). Книга 2. - Казань: Изд-во Казан. ун-та, 1997. - С. 65-67.
46. Труды первой международной конференции «Компьютерная обработка тюркских языков». - Астана: ЕНУ им. Л.Н. Гумилева, 2013. - 345 с.
47. Труды четвертой международной конференции «Компьютерная обработка тюркских языков». - Бишкек: КГТУ им. И. Раззакова, 2016. -238 с.
48. Труды пятой международной конференции «Компьютерная обработка тюркских языков». - Казань: Академия наук Республики Татарстан, 2017. Т.1. - 300 с. Т.2. - 328 с.
49. Тузов, В.А. Морфологический анализатор русского языка / В.А. Тузов // Вестник СПБУ, сер. 1. - 1996. - Вып. 1. - №15. - С. 41-45.
50. Тукеев, У.А. Разработка Англо-Казахского Переводчика На Базе Open-Source Платформы Apertium / У.А. Тукеев, А.Н. Шормакова, А. Айткулова, А. Сундетова // Сулеймен Демирел Атындагы Университет Хабаршысы, 2014. Том №28, С. 99-111.
51. Халитова, Н.А. Морфологический анализ при машинном переводе с татарского языка на русский / Н.А. Халитова, Р.А. Закирова, Р.У. Гимадудтинова // Вероятностные методы и кибернетика. I, Сборник работ НИИММ им. Н. Г. Чеботарева при Казанском университете, Учен. зап. Казан. ун-та, 122, № 4, Изд-во Казанского ун-та, Казань, 1962, С. 98-105.
52. Хэррон, Д. Node.js Разработка серверных веб-приложений на JavaScript / Д. Хэррон // Изд-во: ДМК Пресс, 2012.
53. Шарипбаев, А.А. Определение множества предложений казахского языка с помощью контекстно-свободной грамматики / А.А. Шарипбаев, Б.Ш. Разахова // Доклады Академии Наук Республики Казахстан. -Алматы, 2005. - №5. - С. 123-128.
54. Шарипбаев, А.А. Интеллектуальный морфологический анализатор, основанный на семантических сетях / А.А. Шарипбаев, Г.Т. Бекманова, Б.Ж. Ергеш, А.К. Бурибаева, М.Х. Карабалаева // Материалы международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (0STIS-2012). Минск, БГУИР, 16-18 февраля 2012 г. - С. 397-400.
55. Шарипбаев, А.А. Единый морфологический анализатор для казахского и
турецкого языков / А.А. Шарипбаев, Г.Т. Бекманова, Г. Алтынбек, Е. Адалы, Л. Жеткенбай, У. Каманур // V Международная конференция по компьютерной обработке тюркских языков «Turklang 2017». - Труды конференции. В 2-х томах. Т - Казань: Издательство Академии наук Республики Татарстан, - С. 232-245.
56. Adongbieke, G. Research on Uyghur word segmentation / G. Adongbieke, M. Ablimit // Journal of Chinese information processing, 2004, 18(6). - P. 61-65.
57. AfBo: a World-Wide Survey of Affix Borrowing. URL: http://afbo.info/ [дата обращения: 12.04.2018].
58. Akba, F. Assessment of Feature Selection Metrics for Sen-timent Analysis: Turkish Movie Reviews / F. Akba, A. U?an, E. Sezer, H. Sever // In 8th European Conference Data Mining, P. 180-184 (2014).
59. Altenbek, G Automatic Morphological Tagging of Contemporary Uighur Corpus / G. Altenbek // The IEEE International Conference on Information Reuse and Integration, 2006, - P. 557-560.
60. Altintas, K. A Morphological Analyzer for Crimean Tatar / K. Altintas, I. Cicekli // In: Proceedings of the 10th Turkish Symposium on Artificial Intellegence and Neural Networks (TAINN'2001). - 2001. - P. 180-189.
61. Antworth, E.L. PC-KIMMO: a two-level processor for morphological analysis / E.L. Antworth // Occasional Publications in Academic Computing No. 16. Dallas: Summer Institute of Linguistics, 1990. - 273 p.
62. ASP.NET [Electronic resource] URL:https://www.asp.net/ [Дата обращения: 10.03.2018]
63. Batuer, A. A Uyghur Morpheme Analysis Method based on Conditional Random Fields / A. Batuer, S. Maosong // International Journal of Asian Language Processing, 2009, 19(2): P. 69-83.
64. CodeIgniter Web Framework [Electronic resource] URL: https: //codeigniter.c om/ [Дата обращения: 10.03.2018]
65. Eloquent: перевод, произношение, транскрипция, примеры использования [Электронный ресурс]
URL:http://wooordhunt.ru/word/eloquent [Дата обращения: 10.03.2018]
66. Goltekin, C. A Freely Available Morphological Analyzer for Turkish / C. Goltekin // In: Proceedings of the 7th International Conference on Language Resources and Evaluation, (2010). - P. 820-827.
67. Groff, R. James. The Complete Reference. SQL Third Edition / J.R. Groff, P.N. Weinberg, A.J. Oppel // Mc. Graw Hill, 2010. - 882 p.
68. Java.com: Java и вы [Электронный ресурс] URL: https: //www.j ava.com/ru/ [Дата обращения: 10.03.2018]
69. JavaScript [Electronic resource] URL:http://javascript.ru/ [Дата обращения: 10.03.2018]
70. Kessikbayeva, G. Rule based morphological analyzer of Kazakh language / G. Kessikbayeva, I. Cicekli // In Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Baltimore, Maryland: ACL, June 2014, - P. 4654.
71. Lutz, M. Learning Python. Powerful Object-Oriented Programming / M. Lutz // 5th Edition. Published by O'Reilly Media, 2013. - 1541 p.
72. MariaDB в сравнении с MySQL - особенности - MariaDB Knowledge Base [Электронный ресурс] URL: https: //mariadb.com/kb/ru/mariadb-vs-mysql-features/ [Дата обращения: 05.03.2018]
73. MySQL.RU [Электронный ресурс] URL:http://www.mysql.ru/docs/man/
74. Matlatipov, G. Representation of Uzbek morphology in prolog / G. Matlatipov, Z. Vetulani // Aspects of Natural language Processing, 2009. - P. 83-110.
75. Oflazer, K. Two-level Description of Turkish Morphology / K. Oflazer // Literary and Linguistic Computing, - Vol. 9, No 2, - 1994.
76. PHP: Hypertext Preprocessor [Electronic resource] URL:http://php.net/
77. Proceedings of the International Conference on Turkic Language Processing (TURKLANG-2014). (Istanbul, November 6-7, 2014). - Istanbul: Ozkaracan Matbaacilik-Bagcilarr, 2014. - 135 p.
78. Proceedings of the International Conference "Turkic Languages Processing:
TurkLang-2015". - Kazan: Academy of Sciences of the Republic of Tatarstan Press, 2015. - 488 p.
79. Python [Electronic resource] URL: http s: //www.python.org/ [Дата обращения: 10.02.2018]
80. R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL: http://www.R-project.org
81. Rusrails: Ruby on Rails по-русски [Электронный ресурс] URL:http://rusrails.ru/ [Дата обращения: 10.04.2018]
82. Sarda, D. Python for the Busy Java Developer. The Language, Syntax, and Ecosystem / D. Sarda // Apress*. Singapore, - 2017. - 72 p.
83. Sharipbay, A.A. Synchronized liner tree for morphological analysis and generation of the Kazakh language / A.A. Sharipbay, G. Bekmanova, B. Yergesh, A. Mukanova // Proceedings of the international conference "Turkic languages processing", TurkLang 2014, Istanbul, 2014. - P. 113-117.
84. SQL.ru - все про SQL, базы данных, программирование и разработку информационных систем [Электронный ресурс] URL:http://www.sql.ru/ [Дата обращения: 10.03.2018]
85. Suleymanov, Dz.Sh. Multifunctional model of morphemes in the Turkic group languages (on the example of Kazakh and Tatar languages) / Dz.Sh. Suleymanov, A.R. Gatiatullin, A.B. Almenova // Proceedings of the International Conference on Turkic Language Processing (TURKLANG-2014). (Istanbul, November 6-7, 2014). - Istanbul: Ozkaracan Matbaacilik-Bagcilarr, 2014. - P. 33-37.
86. Symfony, High Performance PHP Framework for Web Development URL:https://symfony.com/ [Дата обращения: 10.03.2018]
87. The Atlas of Pidgin and Creole Language Structures Online [Electronic resource]. URL: http://apics-online.info/ [Дата обращения: 16.03.2018]
88. The Tower of Babel [Electronic resource]. URL: http://starling.rinet.ru [Дата обращения: 16.03.2018]
89. The World Atlas of Language Structures Online [Electronic resource]. URL: http://wals.info/ [Дата обращения: 16.03.2018]
90. Yii PHP Framework [Electronic resource] URL : http : //www.yiiframework.co m/ [Дата обращения: 10.03.2018]
Приложение 1 Акты о внедрении
В Диссертационный совет Д 212.081.35
420008. Казань, ул. Кремлевская, д. 18.
Справка о внедрении
Настоящим подтверждаем. что ретультаты диссертационного исследования Альменовой А.Б. на тему: «Модели и сервисы многофункционального лингвистического интернет-ресурса на бате структурно-параметрической модели тюркской морфемы» обладают актуальностью, представляют научный и практический интерес. Материалы многофункционального лиигвистическосо интернет-ресурса на бак структурно-параметрической модели тюркской морфемы внедрены в обраювательную программ) по дисциплине «Компьютерная лингвистика», преподаваемой на кафедре информационных систем Катанскою федерального университета.
юместитель «ведуюшего кафедрой, к.ф-м.н., доцент 1
А.Ф Галимянов
Приложение 2 Поля таблиц базы данных
1) Блок таблиц «Управление доступом пользователей»
1.1) Таблица пользователей "users":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - имя пользователя,
- email, строка - адрес электронной почты (логин) пользователя,
- password, строка - зашифрованное значение пароля пользователя,
- settings, объект JSON - дополнительные свойства пользователя,
- perms, объект JSON - набор прав доступа для данного пользователя (позволяет переопределить значение поля perms группы пользователей),
- is_admin, логическое значение - указывает, является ли данный пользователь администратором, который получает высшие права доступа к системе,
- remember_token, строка - значение токена, позволяющего восстановить сеанс работы с системой пользователям с истекшей сессией без дополнительного входа в систему,
- created_at, дата/время - дата добавления пользователя,
- updated_at, дата/время - дата обновления записи пользователя,
- user_group_id, числовое поле - группа пользователей, к которой относится данный пользователь, связь с записью в таблице user_groups.
1.2) Таблица групп пользователей "user_groups":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - название группы пользователей,
- perms, объект JSON - набор прав доступа для данной группы пользователей,
- is_unreg, логическое значение - показывает, следует ли отнести к этой группе незарегистрированных пользователей,
- created_at, дата/время - дата создания группы пользователей,
- updated_at, дата/время - дата обновления записи группы пользователей.
1.3) Таблица запросов на сброс паролей для пользователей "password_resets":
- email, строка - адрес электронной почты (логина) пользователя, который запрашивает сброс пароля,
- token, строка - код подтверждения пользователя,
- created_at, дата/время - дата создания запроса.
1.4) Таблица запросов пользователей на изменения данных в определенных
разделах системы "data_requests":
- id, числовое поле - уникальный идентификатор, значение вычисляется
автоматически при добавлении записи,
- model_id, числовое поле - связь с записью в таблице объекта, к которому относится запрос на изменение,
- user_id, числовое поле - связь с записью в таблице пользователей users, показывает, кто предлагает изменения,
- op_type, числовое поле - тип операции (создание, обновление, удаление), применяемой к требуемому объекту,
- status, числовое поле - состояние запроса на изменение: новое (не рассмотрено), принято или отклонено,
- data, объект JSON - значение, которое следует установить (для операций создание, обновление),
- created_at, дата/время - дата/время создания запроса на изменение,
- updated_at, дата/время, - дата/время обновления запроса на изменение. 1.5) Таблица прав пользователей не создается отдельно, но вместо этого записи данной таблицы связываются с записями пользователей и групп пользователей в виде JSON-объекта в соответствующих таблицах.
2) Блок таблиц "Языки и алфавиты":
2.1) Таблица языков "languages":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- lang, символьное поле - кодовое обозначение языка в соответствии со стандартом ISO,
- full_name, строка - название языка на английском языке (название языка по умолчанию).
2.2) Таблица названий языков в привязке к языкам интерфейса "language_names":
- language_id, числовое поле - связь с записью в таблице языков,
- sys_code, символьное поле - показывает, к какому языку интерфейса системы относится запись,
- name, строка - название языка на данном языке интерфейса.
2.3) Таблица алфавитов "alphabets":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- language_id, числовое поле - связь с записью в таблице языков languages, показывает, к какому языку относится данный алфавит,
- name, строка - название алфавита (например, "cyrillic", "latin" и т.д.),
- sort, числовое поле - порядковый номер алфавита в списке алфавитов языка,
- base_alphabet_id, числовое поле - связь с записью в таблице алфавитов, указывается при составлении зависимостей алфавитов,
- hide_from_list, логическое значение - указывает, нужно ли скрыть этот алфавит из общего списка языков и алфавитов на сайте,
- iso_code, строка - код алфавита в соответствии со стандартом ISO 639-2.
2.4) Таблица букв и символов "alphabet_letters":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- alphabet_id, числовое поле - связь с записью в таблице алфавитов alphabets, показывает, к какому алфавиту относится данная буква,
- majuscule, строка - заглавное написание буквы алфавита,
- minuscule, строка - строчное написание буквы алфавита,
- start_case, строка - написание в начале слова,
- end_case, строка - написание в конце слова,
- def_ipa, строка - произношение буквы по умолчанию,
- sort, числовое поле - порядковый номер буквы в алфавите,
- base_letter_ids, текстовое поле - связь с базовыми буквами при составлении зависимостей алфавитов, значение представляет из себя перечисленные через запятую идентификаторы.
2.5) Таблица вариантов произношений букв и символов '4ра":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- а^аЬеЫейег^, числовое поле - связь с записью в таблице букв алфавитов alphabet_letters, показывает, какой букве относится данное обозначение,
- ipacode, строка - код 1РА фонетического значения буквы алфавита.
3) Блок таблиц "Аффиксальная морфема":
3.1) Таблица идентификаторов морфологических категорий аффиксальных морфем "tags":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- code, строка - уникальное кодовое значение идентификатора
аффиксальной морфемы, определяется программно,
- typ_name, строка - типологическое название аффиксальной морфемы на английском языке,
- rus_name, строка - типологическое название аффиксальной морфемы на русском языке,
- user_id, числовое поле - связь с записью в таблице пользователей users, необязательное поле, которое указывает на пользователя, предложившего данный идентификатор морфологической категории,
- comment, текстовое поле - позволяет дополнительно указать на особенности идентификатора морфологической категории.
3.2) Таблица названий идентификаторов "tag_names":
- tag_id, числовое поле - связь с записью в таблице идентификаторов tags,
- alphabet_id, числовое поле - связь с записью в таблице алфавитов alphabets,
- name, строка - название идентификатора морфологической категории аффикса на данном языке применительно к определенному алфавиту.
3.3) Таблица морфем "morphemes":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - текстовое обозначение морфемы,
- code, строка - кодовое значение морфемы, вычисляется программно,
- tag_id, числовое поле - связь с записью в таблице идентификаторов аффиксальных морфем, показывает идентификационное значение морфемы (для связи с морфемами других языков),
- alphabet_id, числовое поле - связь с записью в таблице алфавитов alphabets, показывает, к какому алфавиту относится данная аффиксальная морфема.
3.4) Таблица последовательностей морфем "morpheme_seq":
- prev_id, числовое поле - предшествующая морфема, связь с записью в таблице морфем morphemes,
- next_id, числовое поле - последующая морфема, связь с записью в таблице морфем morphemes.
3.5) Таблица алломорфов "allomorphs":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - текстовое значение алломорфа,
- code, строка - уникальное кодовое значение алломорфа, вычисляется программно,
- morpheme_id, числовое поле - связь с записью в таблице морфем morphemes, показывает, к какой морфеме относится данный алломорф,
- sort, числовое поле - порядковый номер алломорфа в списке алломорфов морфемы,
- can_be_final, логическое значение - показывает, может ли данный алломорф быть завершающим в слове,
- grouping, числовое поле - группировка алломорфов по принципу одинаковости присоединяемых последующих алломорфов.
3.6) Таблица последовательностей алломорфов "allomorph_seq":
- prev_id, числовое поле - предшествующий алломорф, связь с записью в таблице allomorphs,
- next_id, числовое поле - последующий алломорф, связь с записью в таблице.
4) Блок таблиц "Корневая морфема":
Корневая морфема
stem classes
id INT,
language_id INT, code CHAR, description VARCHAR
stem_ types
id INT,
alphabetjd INT,
stem class id INT,
uniq code INT,
rule VARCHAR,
sample VARCHAR,
cutoff INT
> f
stems
id INT,
name VARCHAR, ps_code CHAR, alphabetjd INT, stem_type_id INT code INT
IZZ~
concept_stems
concept_id INT, stem_id INT, sort INT
4.1) Таблица классов корневых морфем "stem_classes":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- language_id, числовое поле - связь с записью в таблице языков languages, определяет, к какому языку относится данный класс корневых морфем,
- code, символьное поле - код класса корневых морфем, в данном случае
это может быть обозначение класса склонения по типу существительных, глаголов и т.д.,
- description, строка - описание назначения класса корневых морфем.
4.2) Таблица типов склонения/спряжения корневых морфем "stem_types":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- alphabet_id, числовое поле - связь с записью в таблице алфавитов alphabets, показывает, к какому алфавиту относится данное склонение корневых морфем,
- stem_class_id, числовое поле - класса корневых морфем, к которому относится данный тип склонения, связь с записью в таблице классов корневых морфем,
- uniq_code, числовое поле - уникальный код типа склонения,
- rule, строка - правила, которые описывают, какие корневые морфемы соответствуют данному типу их склонения,
- sample, строка - образец корневой морфемы на данном языке, которая подходит для указанного типа склонения,
- cutoff, числовое поле - количество отсекаемых символов в конечной части корневой морфемы данного типа при присоединении аффиксов.
4.3) Таблица корневых морфем "stems":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - текстовое обозначение корневой морфемы,
- ps_code, символьное поле - код части речи корневой морфемы,
- alphabet_id, числовое поле - связь с записью в таблице алфавитов alphabets, показывает, к какому алфавиту относится данная корневая морфема,
- stem_type_id, числовое поле - тип склонения корневой морфемы, связь с записью в таблице stem_types,
- code, числовое поле - уникальное кодовое обозначение корневой
морфемы, вычисляется программно.
4.4) Таблица концептов - синонимических рядов "concepts":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- name, строка - обобщенное интернациональное название концепта.
4.5) Таблица связей корневых морфем с концептами "concept_stems":
- concept_id, числовое поле - связь с записью в таблице концептов concepts,
- stem_id, числовое поле - связь с записью в таблице корневых морфем stems,
- sort, числовое поле - порядковый номер (семантическая приоритетность) концепта по отношению к корневой морфеме.
5) Блок таблиц "Связи корневых и аффиксальных морфем":
5.1) Таблица связей аффиксальных морфем с классами корневых морфем "morpheme_stem_classes":
- morpheme_id, числовое поле - связь с записью в таблице морфем morphemes,
- stem_class_id, числовое поле - связь с записью в таблице связей аффиксальных алломорфов с типами склонения/спряжения корневых морфем stem_classes.
5.2) Таблица связей аффиксальных алломорфов с типами склонения/спряжения корневых морфем "allomorph_stem_types":
- allomorph_id, числовое поле - связь с записью в таблице алломорфов allomorphs,
- stem_type_id, числовое поле - связь с записью в таблице типами склонения/спряжения корневых морфем stem_types,
- prefix, строка - префиксальная добавляемая часть к алломорфу при связывании с корневой морфемой.
6) Блок "Прочие системные таблицы":
6.1) Таблица миграций (версий) базы данных "migrations":
- id, числовое поле - уникальный идентификатор, значение вычисляется автоматически при добавлении записи,
- migration, строка - код (название файла) миграции,
- batch, числовое поле - пакет, в рамках которого выполнена миграция.
Приложение 3
Структура контроллеров системы
Структура контроллеров системы представлена в следующем виде:
1) Контроллеры для работы с аффиксальной морфемой:
1.1) Affix\TagsController - работа с идентификаторами морфологических категорий;
1.2) Affix\MorphemesController - работа с аффиксальными морфемами (морфологический аспект);
1.3) Affix\AllomorphsController - работа с аффиксальными алломорфами (морфонологический аспект).
2) Контроллеры для работы с корневой морфемой:
2.1) Stem\MorphemesController - работа с морфологическим аспектом -классами корневых морфем;
2.2) Stem\AllomorphsController - работа с морфонологическим аспектом - типами склонения/спряжения корневых морфем;
2.3) Stem\StemsController - работа с корневыми морфемами;
2.4) Stem\ConceptsController - работа с синонимическими рядами (концептами) корневых морфем активного языка.
3) Контроллеры для работы с сессиями и учетными записями пользователей:
3.1) Auth\LoginController - аутентификация пользователей (вход в систему и выход из нее);
3.2) Auth\RegisterController - регистрация пользователей в системе;
3.3) Auth\ForgotPasswordController - восстановление пароля забывшего его пользователя;
3.4) Auth\ResetPasswordController - сброс пароля пользователя при восстановлении доступа к системе.
4) Прочие контроллеры:
4.1) AlphabetsController - работа с алфавитами языков системы;
4.2) LanguagesController - работа с языками системы;
4.3) AlphabetLettersController - работа с буквенным составом алфавита;
4.4) UserGroupsController - управление группами пользователей;
4.5) UsersController - управление пользователями;
4.6) ComparisonController - работа со сравнением языков;
4.6) HomeController - основная страница системы со статистикой языков, сводная таблица морфем.
Политики организации доступа
Для применения прав доступа пользователей на основе свойства perms модели User() текущего пользователя используется механизм политик организации доступа к различным разделам системы.
Эти политики определяют, имеет ли текущий пользователь доступ к разделу, и если да, то какого характера этот доступ (право на просмотр,
предложение или внесение изменений). Система содержит следующий список политик:
1) BasicPolicy - базовая политика работы с любыми разделами сайта (для авторизации действий администратора);
2) LanguagePolicy - политика работы с языками;
3) AlphabetPolicy - политика работы с алфавитами;
4) AlphabetLetterPoHcy - политика работы с буквенным составом алфавита;
5) TagPolicy - политика работы с идентификаторами корневых морфем;
6) MorphemePolicy - политика работы с аффиксальными морфемами;
7) AllomorphPolicy - политика работы с алломорфами;
8) StemPolicy - политика работы с корневыми морфемами;
9) StemQassPoHcy - политика работы с классами корневых морфем;
10) StemTypePolicy - политика работы с типами склонений корневых морфем;
11) ConceptPolicy - политика работы с концептами;
12) UserGroupPolicy - политика работы с группами пользователей;
13) UserPolicy - политика работы с пользователями.
Приложение 4 Языки - просмотр базы данных
Id Код Название
id lang full name
1 tat [tatar] Татарский
2 kaz [kazakh] Казахский
3 tur [turkish] Турецкий
4 crh [crimeantatar] Крымскотатарский
5 uzb [uzbek] Узбекский
6 bak [bashkir] Башкирский
7 gag [gagauz] Гагаузский
8 kdr [karaim] Караимский
9 kaa [karakalpak] Каракалпакский
10 krc [karachay-balkar] Карачаево-балкарский
11 kir [kyrgyz] Киргизский
12 aze [azerbaijani] Азербайджанский
13 kum [kumyk] Кумыкский
14 nog [nogay] Ногайский
15 tyv [tyva] Тувинский
16 tuk [turkmen] Туркменский
17 alt [altai] Алтайский
18 uig [uigur] Уйгурский
19 kjh [chakas] Хакасский
20 chv [chuvash] Чувашский
21 cjs [shor] Шорский
22 sak [sakha] Саха (якутский)
23 dol [dolgan] Долганский
24 kas [kashkay] Кашкайский
25 sal [salar] Саларский
26 tel [teleu] Телеутский
27 uzj [uzbek] uzbek
28 uzb [uzbek] uzbek
29 cmn [common] Обобщенный
Морфологические категории - просмотр базы данных
Типологическое
Id Код название Название на русском языке
id code typ name rus name
1 SG Singular Единственное число
2 PL Plural Множественное число
3 POSS.1SG 1st person singular possessive Притяжательность+ Единственное число + 1 лицо
4 POSS.2SG 2st person singular possessive Притяжательность+ Единственное число + 2 лицо
5 POSS.3 3st person possessive Притяжательность + 3 лицо
6 POSS.1PL 1st person plural possessive Притяжательность+ Множественное число + 1 лицо
7 POSS.2PL 2st person plural possessive Притяжательность+ Множественное число + 2 лицо
В 1SG 1st person singular Единственное число + 1 лицо
9 2SG 2st person singular Единственное число + 2 лицо
10 3SG 3st person singular Единственное число + 3 лицо
11 1PL 1st person plural Множественное число + 1 лицо
12 2PL 2st person plural Множественное число + 2 лицо
13 3PL 3st person plural Множественное число + 3 лицо
14 NOM Nominative Основной падеж
15 DIR Directive Направительный падеж
16 DIR LIM Limited directive Направительный падеж с ограничительным значением
17 ABL Ablative Исходный падеж
1В LOC Locative Местно-временной падеж
19 ACC Accusative Винительный падеж
20 GEN Genitive Притяжательный падеж
21 INST Instrumentative Инструментатив
22 ATTR LOC Attributive locative Аффикс местно-временной
23 ATTR GEN Attributive genitive Аффикс притяжательный
24 ATTR ABES Attributive abessive Аффикс отсутствия
Attributive
25 ATTR MUN munitative Аффикс обладания
26 SIM 1 Similative 1 Аффикс уподобления 1
27 SIM 2 Similative 2 Аффикс уподобления 2
2В SIM 3 Similative 3 Аффикс уподобления 3
29 EQU Equative Уподобительный аффикс - образа действия
30 COMP Comparative Сравнительная степень
31 NMLZ Nominalizator Номинализация
32 INT Interrogative Вопросительные частицы
33 INT MIR Interrogative-Mirative Вопросительно-удивительная частица
34 PROB Probabilitive Неопределенные частицы
35 NEG Negative Отрицание
36 PRES 1 Present Настоящее время
37 PRES 2 Present Настоящее время
38 PST DEF Past definite Прошедшее категорическое время
39 PST INDF 1 Past indefinite Прошедшее результативное время
40 PST INDF 2 Давнопрошедшее неочевидное
41 PST TRAN Past Transitive Прошедшее транзитивное
42 FUT INDF Future indefinite Будущее неопределенное время
43 FUT DEF Future definite Будущее категорическое время
44 ACT Actor Исполнитель
45 USIT Usitative Атрибут склонности
Adverbial verb
46 ADVV ACC accompanist Деепричастие сопутствующего действия
Adverbial verb Отрицательная форма деепричастия
47 ADVV NEG 1 negative сопутствующего действия
Adverbial verb
48 ADVV ANT antecedent Деепричастие предшествования
Adverbial verb
49 ADVV SUCC successive Деепричастие следования
50 INF 1 Infinitive 1 Инфинитив
51 INF 2 Infinitive 2 Инфинитив
52 VN 1 Verbal Noun 1 Имя действия 1
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.