Математическое, алгоритмическое и программное обеспечение автоматического предсинтаксического анализа текста в системах управления базами лингвистических знаний тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Розанов, Алексей Константинович
- Специальность ВАК РФ05.13.11
- Количество страниц 117
Оглавление диссертации кандидат наук Розанов, Алексей Константинович
Оглавление
Оглавление
Введение
Глава 1. Развитие методов анализа и синтеза форм слов естественных языков в ХХ - XXI вв
Глава 2. Методы повышения скорости анализа форм слов
2.1. Обозначения строк
2.2. Преобразования строки. Элементарные преобразования
2.3. Цепочки преобразований
2.3.1. Обозначения цепочек, их тождественность и эквивалентность
2.3.2. Избыточность цепочек и их редукция
2.4. Грамматическая информация и цепочки преобразований
2.5. Повышение скорости анализа форм слов в текстах
2.5.1. Направления работ по ускорению процесса анализа форм слов
2.5.2. Ускорение анализа форм слов путём оптимизации представления цепочек преобразований
2.5.3. Хранение всех словоформ в словаре для ускорения анализа форм слов
2.5.4. Рекомендации к выбору алгоритма анализатора
Глава 3. Представление знаний о формообразовании естественных языков
3.1. Подходы к организации словарей в системах анализа форм слов
3.1.1. Хранение правил преобразования без их структуризации
3.1.2. Таблицы основ, окончаний и вспомогательные таблицы
3.1.3. Словари со структурированной грамматической информацией
3.2. Представление основных структурных единиц словаря
3.2.1. Элементарные компоненты грамматической информации
3.2.2. Представление морфологических форм
3.2.3. Представление правил получения словоформ
3.2.4. Представление парадигм
3.2.5. Иерархия типов слов в словаре
3.2.6. Обобщённая структура словаря
3.3. Представление результатов анализа слов текста и словаря
3.3.1. Форматы хранения словаря и файлов с результатами анализа
3.3.2. ХМЬ-представление словаря
3.3.3. Формальная грамматика, описывающая словарь
3.3.4. Кодирование результатов анализа текста
3.3.5. Хранение результатов при наличии полного банка словоформ
3.3.6. Морфологическое сжатие текста
Глава 4. Разработка комплекса программ определения и генерации форм слов естественных языков
4.1. Цели и задачи разработки комплекса программ генерации и определения форм слов
4.2. Выбор средств разработки
4.3. Планирование структуры модулей системы
4.4. Реализация основного модуля генерации и определения форм слов естественных языков
4.5. Реализация редактора словарей информационной системы
4.5.1. Задачи, решаемые средством редактирования словарей
4.5.2. Структура редактора словаря
4.6. Применение алгоритмов анализа и синтеза форм слов в электронных словарях
4.7. Экспериментальная проверка эффективности алгоритмов анализа форм слов естественных языков
Заключение
Библиографический список
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Лингвистическое и программное обеспечение автоматизированной системы верификации орфографии и грамматики текстов финно-угорских языков2013 год, кандидат наук Килеев, Вячеслав Васильевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Автоматизация лингвистической обработки словарей научно-технической информации1984 год, кандидат технических наук Яфаева, Гузал Мирзахмедовна
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Введение диссертации (часть автореферата) на тему «Математическое, алгоритмическое и программное обеспечение автоматического предсинтаксического анализа текста в системах управления базами лингвистических знаний»
Введение
Актуальность темы исследования
В настоящее время информация является одним из наиболее ценных ресурсов в мире. Объёмы информации, порождаемой, передаваемой и, как следствие, нуждающейся в оперативной обработке и, что немаловажно, оперативном восприятии, непрерывно растут. Вследствие этого всё большую ценность приобретают методы автоматизации обработки информации [1].
Текст является одной из важнейших форм представления информации, поэтому в свете постоянного увеличения интенсивности информационных потоков всё более важную роль играет автоматическая обработка текста.
Обработка текста на естественном языке - это процесс, включающий в себя несколько стадий, соответствующих уровням обработки текста: морфологический (выделение и анализ отдельных слов текста), синтаксический (определение структур предложений), семантический (выявление смысла) и прагматический (определение целей говорящего).
Предсинтаксический анализ текста на естественном языке, включающий в себя в общем случае этап разбиения текста на слова и этап определения форм слов, является необходимым в любом процессе, включающем обработку текста на естественном языке, поэтому тема диссертации, посвященная повышению скорости определения форм слов в текстах на естественных языках, является актуальной.
Степень разработанности темы
Существенный вклад в развитие методов автоматической обработки текстов на естественных языках внесли отечественные учёные Г.Г. Белоногов [2, 3, 4, 5, 6], Э.В. Попов [1, 7, 8, 9, 10], Д.А. Поспелов [11, 12, 13], Ю.Д. Апресян [14, 15], М.Г. Мальковский [16, 17], И.В. Сегалович [18, 19], В.М. Брябин [20], О.С. Кулагина [21, 22] Ю.Н. Марчук [23, 24], И.А. Мельчук [25], А.С. Нариньяни [26], В.А. Фомичев [27, 28, 29] и другие, а также зарубежные специалисты Т. Виноград (Г. Winograd)
[30, 31, 32], В.А. Вудс (W.A. Woods) [33, 34], К. Коскенниеми (K. Koskenniemi) [35], М. Портер (M. Porter) [36], Н. Хомский (N. Chomsky) [37, 38, 39], Д. Джурафски (D. Jurafsky) [40], Дж. Мартин (J.H. Martin) [41] и другие.
Первым этапом обработки текста является этап определения форм слов. Алгоритм определения форм слов - это правило, ставящее в соответствие каждому из слов анализируемого текста специальный маркер, описывающий грамматическую информацию, присущую этому слову (например, «столами» - «неодушевлённое существительное во множественном числе, в творительном падеже»).
Существует целый ряд алгоритмов определения форм слов, однако каждому из них присущи некоторые недостатки (невысокая скорость определения форм слов, ориентированность на конкретный язык, невозможность обратного процесса -генерации форм слов с заданной грамматической информацией).
Устранить перечисленные недостатки позволяет метод генерации и определения форм слов, который является универсальным, и допускает как анализ (определение), так и синтез (генерацию) форм слов. Однако универсальность достигается за счет низкой скорости анализа.
Соответствие паспорту специальности
Диссертация соответствует пункту 4 «Системы управления базами данных и знаний» специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», поскольку в работе разработаны программные средства для ЭВМ, включающие систему управления базами знаний о формообразовании естественных языков, и метод решения задачи определения и генерации форм слов на основе этих знаний.
Цель и задачи исследования
Целью диссертационной работы является разработка методов повышения скорости определения форм слов естественных языков и усовершенствование способа представления знаний о формообразовании естественных языков.
Для достижения цели диссертационного исследования необходимо решить
следующие задачи:
- разработать универсальную языконезависимую модель представления правил формообразования и алгоритмы на ее основе, применение которых повысит скорость определения форм слов;
- разработать формальное описание структуры словаря системы генерации и определения форм слов, использующей предложенные алгоритмы, что позволило бы сделать процесс заполнения словаря как можно менее трудоёмким;
- разработать информационную систему генерации и определения форм слов, реализующую разработанные алгоритмы.
Научная новизна
Научная новизна выполненных исследований состоит в следующем:
1) предложены модель представления правил формообразования естественных языков, метод повышения скорости определения форм слов на её основе, использующий особенности постфиксного базиса элементарных операций и обеспечивающий полуторакратный прирост скорости определения по сравнению с существующими аналогами и метод повышения скорости анализа на основе построения полного банка словоформ (обеспечивающий ещё большую скорость определения за счёт увеличенных затрат памяти), приведены рекомендации по их применению;
2) разработана формальная грамматика, описывающая структуру словаря для хранения знаний о формообразовании, необходимого для повышения скорости определения форм слов;
3) получено представление знаний о формообразовании русского языка в терминах предложенной модели, отличающееся высоким уровнем структуризации знаний и снижающее трудозатраты при пополнении словаря (система требует ввода только словоформ, соответствующих разрешённым комбинациям грамматических значений, исключая заведомо запрещённые, например, падежные формы неизменяемых существительных, причастия совершенного вида настоящего времени,
сравнительная степень относительных прилагательных; усреднённая доля запрещённых комбинаций в русском языке для разных частей речи колеблется от 1-5% (доля неизменяемых существительных) до 90-95% (глаголы));
4) разработан метод морфологического представления текста, позволяющий сохранить результаты анализа текста и обеспечивающий сжатие текста до 30-40% от исходного.
Теоретическая и практическая значимость работы
Ценность проведенной работы состоит в том, что в её результате была построена универсальная иерархическая модель представления знаний о формообразовании естественных языков, включающая в себя и разбиение хранимых слов языка на их классы, и ассоциации классов с правилами формообразования, и гибкую систему описания парадигм для отдельных классов слов.
Для языков, характеризующихся постфиксным формообразованием, предложены алгоритмы анализа форм слов, обеспечивающие более высокую по сравнению с существующими аналогами скорость определения форм слов.
Результаты, полученные в диссертационном исследовании, являются развитием научного направления разработки и исследования универсальных методов генерации и определения форм слов.
В результате работы был создан программный комплекс, использующий предложенную модель организации знаний о формообразовании языка для решения задачи определения и генерации форм слов, включающий в себя редактор словарей, средство анализа текстов и систему проверки знаний формообразования.
Объект исследования
Объектом исследования является система правил формообразования естественного языка, исследуемая с целью построения её формальной модели для системы анализа форм слов естественных языков.
Предмет исследования
Предметом исследования являются математические модели правил
формообразования естественных языков и алгоритмы, решающие в рамках этих моделей задачи генерации и определения форм слов естественных языков.
Методология и методы исследования
Теоретико-методологической основой исследования являются труды отечественных и зарубежных авторов, посвящённые проблемам анализа текстов на естественных языках.
К числу применённых в работе общенаучных методов относятся метод формализации, метод моделирования, системный подход.
При решении задач диссертационного исследования нашли применение теория алгоритмов и структур данных, а также элементы теории алгебр, графов, формальных грамматик, алгоритмов и морфологических категорий в лингвистике.
Положения, выносимые на защиту
- модель представления правил формообразования естественных языков, алгоритм определения форм слов на её основе, использующий встречные префиксные деревья для представления правил формообразования, алгоритм, определения форм слов, основанный на подходе «определение через генерацию»;
- формальное описание структуры словаря в системе генерации и определения форм слов (на языке описания формальных грамматик);
- представление знаний о формообразовании русского языка в терминах предложенной модели;
- алгоритм кодирования проанализированных текстов, обеспечивающий их морфологическое сжатие.
Решение поставленных задач
Решение задач проведено по следующей схеме. Рассматривается одна из существующих моделей представления правил формообразования (цепочки элементарных преобразований), анализируются возможные подходы к ускорению алгоритма анализа при определённых условиях (в частности, для постфиксного базиса элементарных операций), доказывается существование верхнего предела числа
операций в цепочке, что даёт возможность более компактного представления правил преобразования. Это, в свою очередь, приводит к построению более эффективных алгоритмов анализа (для языков с постфиксным формообразованием).
Поскольку любая система анализа форм слов естественного языка, использующая словарь (слов в начальных формах или основ), обязательно требует структуризации этого словаря, в работе также решается задача создания и формального описания структуры словаря системы, использующей предложенные алгоритмы для анализа форм слов, которая позволила бы сделать процесс заполнения словаря как можно менее трудоёмким.
Для проверки практической применимости разработанных моделей и алгоритмов в рамках работы создан программный комплекс Salvinia, предназначенный для решения задач определения и генерации форм слов, и набран тестовый словарь, содержащий более 8000 начальных форм слов (гистограмма, описывающая структуру тестового словаря, приведена в главе 4).
С помощью созданного программного комплекса выполнен ряд контрольных замеров скорости определения форм слов на больших наборах слов с целью сравнения её со скоростью работы существующих средств анализа.
Личный вклад диссертанта
Все результаты диссертационной работы получены автором самостоятельно, что отражено в библиографии. Программные средства, реализующие предложенные алгоритмы, разработаны автором. Работы, выполненные в соавторстве, подчинены общей постановке проблемы и концепции её решения, предложенной автором.
Степень достоверности и апробация результатов
Достоверность научных результатов, вынесенных на защиту, подтверждена экспериментальной проверкой скорости предложенных методов, свидетельством о регистрации программы для ЭВМ, наличием актов внедрения исследований в организациях и компаниях.
Полученные результаты докладывались на Всероссийской научно-технической.
конференции «Новые информационные технологии в научных исследованиях» (г. Рязань, 2011, 2013 гг.), научно-практической конференции «Традиции и инновации в лингвистике и лингвообразовании» (г. Арзамас, 2012 г.), на конференции «Математические методы в технике и технологиях» (г. Рязань, 2015 г.), 6th Seminar on Industrial Control Systems: Analysis, Modeling and Computation (г. Москва, 2016 г.), а также на научном семинаре в Рязанском государственном радиотехническом университете под руководством д.ф.-м.н., профессора Миронова В.В.
Внедрение результатов работы
Результаты исследований, подтвержденные соответствующими актами, внедрены:
- в компании «Консалт Недвижимость» для первоначальной классификации объявлений по их наиболее вероятным целям;
- во внутренней системе генерации документов компании «ДизайнЕвроСтрой» для согласования падежей;
- в учебном процессе в ФГБОУ ВПО «Рязанский государственный радиотехнический университет».
Публикации
Основные результаты диссертации отражены в 16 работах, 7 из которых опубликованы в изданиях из перечня ВАК, 1 публикация в каталоге в Web of Science. Получено 2 свидетельства о регистрации программы для ЭВМ.
Структура и объем работы
Диссертация состоит из введения, четырёх глав, разделенных на параграфы (15 параграфов), заключения, списка литературы, включающего 107 наименований, и 2 приложений. Работа изложена на 117 страницах стандартного машинописного текста, содержит 6 таблиц.
Краткое содержание диссертации
Первая глава содержит краткий обзор известных методов анализа и синтеза форм слов, разработанных в XX - XXI вв., описывает их отличительные особенности,
а также преимущества и недостатки.
Вторая глава посвящена способам ускорения процесса анализа форм слов естественных языков. В этой главе рассматривается существующая модель представления правил преобразования слов (цепочки преобразований), исследуются особенности представления правил формообразования в конкретных базисах операций, доказывается утверждение о максимальной длине цепочки преобразований, приводится алгоритм редукции цепочек, предлагается алгоритм анализа форм слов для постфиксного базиса операций, обеспечивающий большую скорость анализа, предлагается алгоритм анализа через генерацию (обеспечивающий ещё большую скорость анализа, но требующий гораздо больших затрат памяти) и приводятся оценка скорости анализа форм слов по сравнению с результатами в работе [42].
Третья глава посвящена рассмотрению вопросов представления словаря в системах генерации и определения форм слов естественных языков. Рассмотрены существующие способы организации словарей, описаны их недостатки, и предложен иерархический способ организации словаря, подразумевающий разбиение всех слов языка на супертипы, типы и семейства. В главе приводится описание разработанного способа организации данных и алгоритмов работы со словарём. Приводится также формальная грамматика языка описания словарей, дающая полное, точное и строгое описание предложенного способа организации словаря системы генерации и определения форм слов. В третьей главе также рассмотрены вопросы представления результатов анализа текста, приведены алгоритмы их кодирования и декодирования. В последнем параграфе третьей главы также описан эффект морфологического сжатия, заключающийся в том, что файл с результатами анализа текста имеет меньший размер, чем исходный текстовый файл.
Четвёртая глава посвящена разработке комплекса программ анализа и генерации форм слов. В главе освящены вопросы разработки структуры информационной системы (приводится диаграмма классов, структура модулей программы), её архитектуры (помимо монолитной приведён вариант распределенной
архитектуры, со схемой размещения модулей), рассматриваются преимущества предложенного способа разбиения системы на модули по сравнению с иными архитектурами.
Помимо этого, в четвёртой главе приведены данные экспериментальной проверки эффективности разработанных автором (и описанных в главах 2, 3) алгоритмов. В сводной таблице приведены как статистические данные созданного словаря (число начальных форм слов, число цепочек, число супертипов, типов и семейств, и так далее), так и подсчитанные показатели эффективности алгоритмов -скорости анализа и затраченные объёмы памяти для каждого из предложенных алгоритмов анализа форм слов.
В заключении приводятся основные направления дальнейшего развития предложенной автором модели системы генерации и определения форм слов естественных языков и сферы возможного применения реализованных алгоритмов.
Глава 1. Развитие методов анализа и синтеза форм слов естественных языков в ХХ - XXI вв.
Несмотря на всеобщую информатизацию и господство цифровых средств обработки, хранения, передачи и выдачи информации, одной из центральных проблем, препятствующих росту доступности информации, является проблема понимания естественного языка. Так, к примеру, на настоящий момент не существует универсальных методов формализации знаний, выраженных на естественном языке [40], хотя разнообразные прикладные онтологии на искусственных языках (например, на языке OWL) применяются довольно успешно [43]. Помимо этого, большинство людей знают очень небольшое число естественных языков, и для обладания информацией последняя должна быть переведена на эти языки - и это обуславливает актуальность проблемы адекватного машинного перевода текстов [44, 45].
С ростом актуальности задач автоматизации переводов текстов начала формироваться математическая лингвистика - ветвь науки искусственного интеллекта, которая имеет целью использование математических моделей для описания естественных языков.
В задачах обработки текстов на естественных языках традиционно выделяют морфологический, синтаксический, семантический и прагматический уровни понимания [1, 40].
На морфологическом уровне решаются задачи разбиения текста на слова (в тех языках, где такая задача решается нетривиально [46, 47]), и определения грамматической информации, соответствующей каждому из слов текста.
Синтаксический уровень включает в себя определение структуры текста, то есть деление его на предложения, устойчивые словосочетания и прочие структурные единицы текста.
На семантическом уровне система анализирует смысл, заключенный в тексте с целью формализации информации и сохранения её в формате, удобном для обработки
с помощью ЭВМ, либо с целью получения представления этой информации на другом естественном языке [40]. Методы этого уровня находят своё применение в вопросно-ответных системах [2], информационно-поисковых системах [48, 49], естественноязыковых системах [7, 50], а также в интеллектуальных решателях задач и системах управления [51, 11, 52].
На прагматическом уровне система (как правило, прагматический анализ представлен блоком целей в экспертных системах, работающих в диалоговом режиме) трактует вводимую пользователем информацию как запрос или команду, и определяет возможность (или, например, правомерность) её выполнения, а также то, какие действия необходимо для этого предпринять.
В целом следует отметить, что развитие методов морфологического анализа и синтеза во многом определялось развитием средств вычислительной техники и успехами в конкретных областях математики (так, с развитием математической статистики появились методы приближенного анализа без словаря [53, 54]) и искусственного интеллекта (в частности, нейронных сетей [55]).
Подавляющее большинство методов анализа и синтеза словоформ являются зависимыми от языка и либо не могут быть применены к другим языкам вообще, либо требуют существенной переработки для функционирования в контексте других языков [56]. Это во многом обусловлено тем, что системы, использующие морфологические модули, реализующие рассматриваемые алгоритмы, изначально создавались для одного конкретного языка (или, в случае систем машинного перевода, для конкретной пары языков). Следует, однако, отметить, что сами идеи зачастую являются достаточно универсальными для их распространения если не на все естественные языки, то на значительную их часть.
В данной главе будут названы в порядке их появления основные методы, подходы и алгоритмы, применяемые для анализа форм слов естественных языков [57]. Для каждого из методов будет приведено краткое описание сути подхода, будут указаны основные преимущества и недостатки, и для тех методов, которые нашли
своё применение в известных успешных проектах, таковые также будут отмечены.
Алгоритм анализа слов русского языка Г. Г. Белоногова
Г.Г. Белоногов совместно с Т.С. Белоноговой и А.К. Родионовой предложили в рамках автоматизированной информационно-поисковой системы точные и приближенные процедуры морфологического анализа и синтеза словоформ [4].
Словарь основ содержит основы нормальных форм слов и вариантные основы (для двух типов изменения основы: чередования согласных и нерегулярных основ). Вариантная основа - основа, отличающаяся от основы нормальной формы слова чередованием букв.
Достоинства метода:
- простота структуры словаря основ и таблиц;
- простота алгоритма для слов с неизменяемыми основами;
- определение словоформ, отсутствующих в словарях системы.
Недостатки метода:
- структура таблиц не универсальна: для синтеза форм слов необходимо преобразовать морфологическую таблицу;
- словарь основ содержит несколько основ одного слова;
- каждый тип изменения основы русского языка обрабатывается отдельным алгоритмом;
- ориентация только на русский язык;
- ориентация на флективный анализ по окончанию.
В работе Г.Г. Белоногова и В.И. Богатырева [3], помимо алгоритмов анализа, приведена весьма детальная структурная информация о формообразовании в русском языке (так, приведены наиболее распространённые флективные классы слов, таблицы окончаний и таблицы для отыскания грамматической информации по окончаниям и номерам флективных классов).
Представленное деление основ на классы и, что важно, весьма полный перечень флективных классов для русского языка, представляют интерес даже вне контекста
рассматриваемой автором системы.
Помимо прочего, автор предлагает приближённые методы определения основ слов, отсутствующих в словаре. В работе [3] приводится оценка, свидетельствующая о 95% вероятности правильного определения основы слова. Тестирование проводилось на словаре объёмом около 30 тысяч словоформ. В наборе, из которого были исключены иностранные слова, вероятность верного определения основы возрастала до 97%.
Следует отметить, что авторы этого подхода развивали идеи впоследствии, о чём свидетельствуют их более поздние публикации [2, 4, 5, 6] (в работах [4, 5] и некоторых более поздних работах соавторами Г.Г. Белоногова являлись Зеленков Ю.Г., Новоселов А.П., Хорошиловы Александр и Алексей).
Алгоритм стемминга (М. Портер)
Мартин Портер разработал алгоритм стемминга [36] (от англ. stem - основа) (конец 1970-х), который заключается в отделении от словоформы суффиксов и окончаний и получении основы для ее дальнейшей автоматической обработки. По Портеру, основу составляют корень и приставка. Данный метод стемминга позиционируется автором как чисто алгоритмический, в отличие от словарных методов, описанных выше. В то же время в программной реализации суффиксы и окончания присутствуют в программном коде, хотя рациональней было бы хранить их в словаре. Этот метод получения основы реализован в системе Snowball [58].
Достоинства метода:
- простота алгоритма;
- простая структура словарей;
- реализован для основных европейских языков.
Недостатки метода:
- возможен только анализ, но не синтез;
- нужно определять порядок отделения суффиксов и окончаний;
- ориентация на флективный анализ по окончанию;
- отсутствие обработки аналитических форм слов.
На своей странице в сети Интернет [59] Мартин Портер предоставляет большой список реализаций стеммера на различных языках программирования. В числе прочих в списке присутствуют такие популярные языки, как C, C#, Java, Perl, Python, Visual Basic (как 6, так и .NET), Delphi, Javascript, PHP и Ruby. Среди специальных и менее известных языков можно отметить T-SQL, Common Lisp и erlang.
Следует также отметить, что все реализации, приведённые на домашней странице Портера, распространяются бесплатно (лицензия BSD).
Двухуровневая модель определения и генерации форм слов (Киммо Коскенниеми)
В начале 1980-х Киммо Коскенниеми из Университета Хельсинки (Финляндия) предложил двухуровневую модель для определения и генерации форм слов [35].
Модель включает два уровня представления: лексический уровень (ЛУ) и поверхностный уровень (ПУ), между которыми вводятся правила (соответствия). ЛУ формируется путем применения правил естественного языка без учета контекста, а ПУ учитывает контекст, в котором эти правила используются.
Достоинства метода:
- позволяет описывать любые изменения в форме слова;
- реализация для языков со сложным изменением основ;
- универсальная структура словарей для анализа и синтеза.
Недостатки метода:
- для каждого типа изменения форм слов необходимо разрабатывать и описывать соответствующий автомат;
- при большом количестве изменений форм слов (в русском языке их 67 [3]) увеличивается размер хранимых данных и время для описания автоматов;
- сложность в обслуживании файлов;
- отсутствие обработки аналитических форм слов.
В рамках модели KIMMO созданы морфологии японского [60], арабского [61],
шведского [62], финского [35] и многих других языков.
Морфологический компонент системы TULIPS-2
М.Г. Мальковский разработал морфологический компонент [16, 17] (начало 1980-х), являющийся составной частью систем общения с человеком на естественном языке (TULIPS, TULIPS-2).
Морфологический компонент состоит из словаря основ, словаря окончаний, таблицы чередований и таблицы исключений. Словарь основ состоит из статей, содержащих морфосинтаксические показатели и лексико-семантические значения.
В настоящее время существуют реализации данного метода с помощью современных средств программирования и баз данных (БД).
Достоинства метода:
- можно описывать любые изменения в синтетических формах слов;
- простота алгоритма для слов с неизменяемыми основами.
Недостатки метода:
- сложный формат статей в словарях;
- структура словарей не универсальна: для синтеза форм слов необходимо преобразовать словарь окончаний;
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович
Разработка системы формального морфологического анализа тюркской словоформы: на материале азербайджанского языка1982 год, кандидат филологических наук Махмудов, Масуд Ахмед оглы
Метод многофакторной идентификации морфологических признаков русского слова: на материале имени существительного по корпусу текстов2012 год, кандидат наук Гашков, Александр Владимирович
Модели и технологии поверхностного понимания текста2002 год, кандидат технических наук Королев, Алексей Николаевич
Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных1997 год, кандидат физико-математических наук Исмоилова, Рано Мизробовна
Список литературы диссертационного исследования кандидат наук Розанов, Алексей Константинович, 2016 год
Библиографический список
1. Попов Э.В. Общение с ЭВМ на естественном языке / Науки об искусственном. 2-е изд. М.: Едиториал УРСС, 2004. 360 с.
2. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983. 288 с.
3. Белоногов Г.Г., Богатырёв В.И. Автоматизированные информационные системы / под ред. К.В. Тараканова. М.: Сов. радио, 1973. 328 с.
4. Белоногов Г.Г., Новосёлов А.П. Автоматизация процессов накопления, поиска и обобщения информации. Библиотека программиста. М.: Наука, 1979. 256 с.
5. Белоногов Г.Г., Зеленков Ю.Г., Новосёлов А.П., Хорошилов Александр А., Хорошилов Алексей А. Метод аналогии в компьютерной лингвистике // Сб. "Научно-техническая информация", сер. 2, №1, ВИНИТИ. 2000.
6. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. 248 с.
7. Попов Э.В. Искусственный интеллект: Кн. 1. Системы общения и экспертные системы: справочник / под ред. Э.В. Попова. М.: Радио и связь, 1990. 464 с.
8. Дракин В.Н., Попов Э.В., Преображенский А.Б. Общение конечных пользователей с системами обработки данных. М.: Радио и связь, 1988. 288 с.
9. Попов Э.В., Фирдман Г.Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. М.: Наука, 1976. 456 с.
10. Попов Э.В. Экспертные системы: решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987. 288 с.
11. Поспелов Д.А. Логико-лингвистические модели в системах управления. М.: Энергоиздат, 1981. 231 с.
12. Поспелов Г.С., Поспелов Д.А. Искусственный интеллект: прикладные системы. М.: Знание, 1985. 48 с.
13. Искусственный интеллект. В 3 кн. Кн. 2. Модели и методы: справочник / под ред. Д.А. Поспелова. М.: Радио и связь, 1990. 303 с.
14. Лингвистический процессор для сложных информационных систем / Ю.Д. Апресян, И.М. Богуславский, Л.Л. Иомдин и др. М.: Наука, 1992. 256 с.
15. Лингвистическое обеспечение системы ЭТАП-2 / Ю.Д. Апресян, И.М. Богуславский, Л.Л. Иомдин и др. М.: Наука, 1989. 296 с.
16. Мальковский М.Г. Диалог с системой искусственного интеллекта. М.: Издательство МГУ, 1985. 214 с.
17. Мальковский М.Г., Волкова И.А. Анализатор системы TULIPS-2. Морфологический уровень // Вестник Моск. ун-та. Сер. Вычисл. матем. и кибернетика, Т. 1, № 1, 1981. С. 70-76.
18. Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для неописанных в словаре слов // Тр. Междунар. сем. по компьютерной лингвистике и ее приложениям Диалог-98. М., 1998. Т. 2. С. 547-552.
19. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // MLMTA-2003. Las Vegas. 2003 June.
20. Диалоговые системы в АСУ / В.М. Брябин, А.Я. Любарский, Л.И. Микулич и др.; под ред. Д.А. Поспелова. М.: Энергоатомиздат, 1983. 208 с.
21. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979. 320 с.
22. Некоторые вопросы математической лингвистики, возникающие в связи с машинным переводом / Г.П. Багриновская, О.С. Кулагина, А.А. Ляпунов, Т.Н. Молошная // Машинный перевод и прикладная лингвистика: бюллетень Объединения по машинному переводу. 1961. № 6. С. 19-37.
23. Марчук Ю.Н. Компьютерная лингвистика. М.: АСТ; Восток-Запад, 2007. 317 с.
(некоторые аспекты). В кн. Перевод: традиции и современные технологии. М.: ВЦП, 2002. - С. 70-75.
25. Мельчук И.А. Русский язык в модели "Смысл-Текст". Семантика, синтаксис. М.: Школа "Языки русской культуры", 1995. 682 с.
26. Взаимодействие с ЭВМ на естественном языке. Сб. науч. тр. / под ред. А.С. Нариньяни. Новосибирск: Вычисл. центр Сибирского отделения АН СССР, 1978. 234 pp.
27. Правиков А.А., Фомичев В.А. Разработка рекомендательной системы с естественно-языковым интерфейсом на основе математических моделей семантических объектов // Бизнес-информатика. Междисциплинарный науч.-практ. журнал ГУ-ВШЭ, № 4 (14), 2010. С. 3-11.
28. Фомичев В.А. Формализация проектирования лингвистических процессоров. М.: Макс Пресс, 2005. 368 с.
29. Fomichov V.A. Semantics-Oriented Natural Language Processing. Mathematical Models and Algorithms. 2010, 2010. 328 pp.
30. Виноград Т. К процессуальному пониманию семантики // Новое в зарубежной лингвистике. Вып. 12 / Сост.: В.А. Звегинцев; под ред. Б.Ю. Городецкого. М.: Радуга, 1983. С. 123-170.
31. Виноград Т. Программа, понимающая естественный язык / пер. с англ. С.С. Калитина; под ред. Г.Е. Поздняка. М.: Мир, 1976. 294 с.
32. Winograd T. Language as a Cognitive Process. // Reading, MA: Addison-Wesley, ISBN 020108-571-2, 1983. 608 pp.
33. Вудс В.А. Сетевые грамматики для анализа естественных языков: пер. с англ. // Кибернетический сборник. Вып. 13. М.: Мир, 1976. С. 120-158.
34. Woods W.A. Transition network grammars for natural language analysis // Communications of the ACM, Vol. 13, No. 10, 1970. pp. 591-606.
35. Koskenniemi K. Two-level Morphology: A General Computational Model for Wordform Recognition and Production. University of Helsinki, Department of General Linguistics, 1983, Publications No. 11.
36. Porter M.F. An algorithm for suffix stripping // Program. July 1980. Vol. 14. No. 3. pp. 130-137.
37. Хомский Н. Синтаксические структуры // Новое в лингвистике. Вып. 11. М.: Иностранная литература, 1962. С. 412-527.
38. Хомский Н. Три модели описания языка // Кибернетический сборник. Вып. 2. М. : 1961. С. 81-92.
39. Chomsky N. Aspects of the Theory of Syntax. Cambridge: M.I.T. Press, 1965. 261 pp.
40. Jurafsky D., Martin J.H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2nd ed. Pearson Prentice-Hall, 2009. 988 pp.
41. Martin J.H. A Computational Model of Metaphor Interpretation. San Diego, CA: Academic Press, ISBN 0-12-474730-2, 1990. 229 pp.
42. Пруцков А.В. Генерация и определение форм слов естественных языков на основе их последовательных преобразований. // Вестник РГРТУ .№1 (выпуск 27), Рязань, 2009.
43. Каширин Д.И., Каширин И.Ю. Модели представления знаний в системах искусственного интеллекта // Вестник РГРТУ, № 31, 2010. С. 36-43.
44. Искусственный интеллект машинного перевода: интервью с профессором Г.Г.Белоноговым // Chip. 2002. № 5. С. 142-145.
45. Каким быть машинному переводу в XXI веке / Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. и др. // В кн. Перевод: традиции и современные технологии. М.: ВЦП, 2002. 56-69 с.
языке // Материалы XII международной конференции «Китайское языкознание. Изолирующие языки». - Институт языкознания РАН. 2004.
47. Nianwen Xue. Chinese Word Segmentation as Character Tagging // The Association for Computational Linguistics and Chinese Language Processing. 2003. Vol. 8. pp. 2948.
48. Громов Ю.Ю., Поляков Д.В., Лыонг Х.Д., Шихук А.Б.М.П.Б. Формализация информационной потребности с помощью коллокаций на основе теории нечётких множеств для пертинентного поиска текстовых сведений // Информация и безопасность. 2012. Т. 15. № 2. С. 213-218.
49. Поляков Д.В., Попов А.И., Матвеева А.С., Карасёв П.И., Балюков Д.А. Оценка семантической значимости нечётких коллокаций на основе обобщённой векторно-пространственной модели текстовой коллекции // Прикаспийский журнал: управление и высокие технологии. 2016. № 1(33). С. 10-25.
50. Миронов В.В., Заволокин А.И., Розанов А.К. Проблема формализации правил русско-английского и англо-русского переводов текстов // Информатизация образования и науки, № 22, 2014. С. 149-160.
51. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1990. 372 с.
52. Минский М. Фреймы для представления знаний. М.: Энергия, 1979. 151 с.
53. Goldsmith J. Unsupervised Learning of the Morphology of a Natural Language // University of Chicago, 1998; John Goldsmith (ed.), The Last Phonological Rule, pp. 173-194. Chicago: University of Chicago Press.
54. Ножов И.М. Прикладной морфологический анализ без словаря // Тр. конф. по искусственному интеллекту КИИ-2000, Т. 1, М.: Физматлит, 2000. С. 424-429.
55. Шуклин Д.Е. Морфологический и синтаксический разбор текстов как конечный автомат, реализованный семантической нейронной сетью, имеющей структуру синхронизированного линейного дерева // Новые информационные технологии:
материалы 5-го науч.-практ. сем. / МГИЭМ - М., 2002. С. 74-85.
56. Пруцков А.В., Розанов А.К. Методы морфологической обработки текстов // Прикаспийский журнал: управление и высокие технологии, № 3 (27), 2014. С. 119-133.
57. Розанов А.К. Основные подходы к решению задачи генерации и определения форм слов естественных языков // Традиции и инновации в лингвистике и лингвообразовании: сборник статей по материлам второй научно-практической конференции с международным участием / отв. ред. К.А. Власова; АГПИ -Арзамас: АГПИ, 2012. С. 30-34.
58. URL: http://snowball.tartarus.org/ (дата обращения: 20.02.2012).
59. URL: http://tartarus.org/~martin/PorterStemmer/index.html (дата обращения: 20.02.2012).
60. Alam Y.S. A Two-level Morphological Analysis of Japanese // Texas Linguistic Forum, Vol. 22, 1983. pp. 229-252.
61. Beesley K.R. Arabic finite-state morphological analysis and generation. In COLING-96: Proceedings of the 16th international conference on computational linguistics, Vol. 1, 1996. pp. 89-94.
62. Blaberg O. A two-level description of Swedish. In F.Karlsson (ed.), 1985. pp. 43-62.
63. Демьянков В.З. Основы теории интерпретации и её приложения в вычислительной лингвистике. М.: Изд-во Моск. ун-та, 1985. 76 с.
64. Демьянков В.З. Морфологическая интерпретация текста и ее моделирование. М.: Изд-во МГУ, 1994. 206 с.
65. Демьянков В.З. Интерпретация, понимание и лингвистические аспекты их моделирования на ЭВМ. М.: Изд-во МГУ, 1989. 171 с.
66. Андреев А.М., Березкин Д.В., Брик А.В. Лингвистический процессор для информационно-поисковой системы // Компьютерная хроника, № 11, 1998. С.
79-100.
67. URL: http://linguistica.uchicago.edu/ (дата обращения: 20.02.2012).
68. Пруцков А.В. Морфологический анализ и синтез текстов посредством преобразований форм слов // Вестник Рязанской государственной радиотехнической академии. 2004. № 15. С. 70-75.
69. Смит У. Методы и алгоритмы вычислений на строках. : Пер. с англ. М: ООО "И.Д. Вильямс", 2006. 496 pp.
70. Ахманова О.С. Словарь лингвистических терминов. 2-е изд. М.: УРСС : Едиториал УРСС, 2004. 571 с.
71. Lomakina L.S., Rodionov V.B., and Surkova A.S. Hierarchical Clustering of Text Documents // Automation and Remote Control. 2014. Vol. 75. No. 7. pp. 1309-1316.
72. Ломакина Л.С., Суркова А.С., Буденков С.С. Кластеризация текстовых данных на основе нечёткой логики // Системы управления и информационные технологии. 2014. № 1(55). С. 73-77.
73. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. СПб: Питер, 2013. 704 с.
74. Миронов В.В., Розанов А.К. Подходы к оптимизации алгоритма определения форм слов естественных языков, основанного на цепочках последовательных преобразований строк // Информатизация образования и науки, № 25, 2015. С. 43-54.
75. Розанов А.К., Пруцков А.В. Способы повышения скорости работы алгоритма морфологического анализа форм слов естественных языков // Вестник Рязанского государственного радиотехнического университета, № 53, 2015. С. 65-70.
76. Розанов А.К. Использование префиксных деревьев для оптимизации доступа к наборам строк // Новые информационные технологии в научных исследованиях: материалы XVIII Всероссийской науч.-техн. конф. студентов, молодых ученых
и специалистов / Рязань, РГРТУ, 2013. С. 52-53.
77. Розанов А.К. Представление правил префиксных и постфиксных преобразований строк на основе префиксных деревьев // Новые информационные технологии в научных исследованиях: материалы XVIII Всероссийской науч.-техн. конф. студентов, молодых ученых и специалистов / Рязань, РГРТУ, 2013. С. 53-55.
78. Розанов А.К. Метод предсинтаксического анализа текста на основе знаний о формообразовании естественного языка // Математические методы в технике и технологиях. Материалы XXVIII международной научной конференции / Рязань, 2015.
79. Rozanov A.K. The fast vocabulary-based algorithm for natural language word form analysis // ITM Web of Conferences, No. 6, 2016.
80. Розанов А.К. Быстрый алгоритм анализа словоформ естественного языка с трехуровневой моделью словаря начальных форм // Журнал "Cloud of Science", Т. 3, № 1, 2016.
81. Пруцков А.В., Розанов А.К. Программное обеспечение методов обработки форм слов и числительных // Вестник РГРТУ. 2011. № 38. С. 78-82.
82. Fredkin E. "Trie Memory" // Communications of the ACM #3 (9), September 1960. pp. 490-499, Association for Computing Machinery, New York, USA, 1960.
83. Гельбух А.Ф., Сидоров Г.О. К вопросу об автоматическом морфологическом анализе флективных языков // Труды межд. конференции Диалог - 2005. М. 2005. С. 92-96.
84. std:map container reference, std:map:at // CppReference.com. 2015. URL: http:// en.cppreference.com/w/cpp/container/map/at (дата обращения: 23.02.2015).
85. System.Collections.Generic.Dictionary // MSDN Help. URL: http:// msdn.microsoft.com/ru-ru/library/xfhwa508(v=vs.110).aspx (дата обращения:
23.02.2015).
86. Java HashMap Reference // Oracle Java Documentation. URL: http://docs.oracle.com/ javase/7/docs/api/java/util/HashMap.html (дата обращения: 23.02.2015).
87. Розанов А.К. Организация словаря в системах генерации и определения форм слов естественных языков // Вестник Рязанского государственного радиотехнического университета, № 49, 2014. С. 55-63.
88. Жеребило Т.В. Словарь лингвистических терминов: Изд. 5-е, испр-е и дополн. Назрань: Изд-во "Пилигрим", 2010.
89. Реформатский А.А. Введение в языковедение / Под ред. В.А. Виноградова. М.: Аспект Пресс, 1996. 536 с.
90. Лингвистический энциклопедический словарь / Гл. ред. В.Н. Ярцева. - М.: Советская энциклопедия, 1990. - 688 с.
91. Русская грамматика: научные труды. В 2-х тт. / Брызгунова Е.А., Габучан К.В. (ред.). М.: Институт русского языка имени В.В. Виноградова, 2005. 1496 с.
92. Дейт К. Дж. Введение в системы баз данных / пер. К. Птицин. Вильямс, 2006. 1328 с.
93. Грэхем И. Объектно-ориентированные методы. Принципы и практика. 3-е изд. М.: Издательский дом "Вильямс", 2004. 880 с.
94. Ward M. Language Oriented Programming // Software - Concepts and Tools, No. 15, 1994. pp. 147-161.
95. Taha W. Domain-Specific Languages // ICCES'08. International Conference on Computer Engineering & Systems, Cairo, Egypt, 25-27 November. 2008.
96. Yet Another Compiler Compiler URL: http://dinosaur.compilertools.net/ (дата обращения: 23.02.2015).
97. Албахари Д., Албахари Б. C# 5.0. Справочник. Полное описание языка (пер. с англ., C# 5.0 in a Nutshell: The Definitive Reference). М.: Вильямс, 2013. 1008 с.
98. Seemann M. Dependency Injection in.NET. Manning, 2011. 584 pp.
99. Wallace B. McClure, Nathan Blevins, John J. Croft IV, Jonathan Dick, and Chris Hardy. Professional Android Programming with Mono for Android and.NET / C#. Birmingham: Wrox Press Ltd., ISBN 978-1-118-02643-4, 2012. 552 pp.
100. Mark Easton, Jason King. Cross-Platform.NET Development: Using Mono, Portable.NET, and Microsoft.NET. New York: Apress, ISBN 1-59059-330-8, 2004. 560 pp.
101. Mark Mamone. Practical Mono. New York: Apress, ISBN13: 978-1-59059-548-0, 2005. 424 pp.
102. Greg Shackles. Mobile Development with C#: Building Native iOS, Android and Windows Phone Applications. O'Reilly, ISBN 978-1-449-32023-2, 2012. 174 pp.
103. Троэлсен Э. Язык программирования C# 5.0 и платформа.NET 4.5. Вильямс, ISBN 978-5-8459-1814-7, 2013. 1312 с.
104. Microsoft corp. Working with Classes and Other Types (Class Designer) // MSDN Library. URL: http://msdn.microsoft.com/ru-ru/library/ek97fxxe.aspx (дата обращения: 11.10.2014).
105. Миронов В.В., Заволокин А.И., Розанов А.К. Электронная информационно-поисковая система "Русско-английский математический словарь" // Информатизация образования и науки. 2013. № 3 (19). С. 167-176.
106. Миронов В.В., Бухенский К.В., Заволокин А.И., Розанов А.К. Информационная система "Русско-английский словарь математических терминов" (Комплекс программ). Издание 1.2 (исправленное и дополненное) // М. РАО, Объединённый фонд электронных ресурсов "Наука и образование", 2013. Рег. №18 951.
107. Mironov V.V., Zavolokin A.I., Rozanov A.K. Preparing electronic handbook for using active grammar during process of translation of technical texts into English // SHS Web of Conferences, No. 29, 2016.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.