Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Кобзарева, Татьяна Юрьевна

  • Кобзарева, Татьяна Юрьевна
  • кандидат филологических науккандидат филологических наук
  • 2008, Москва
  • Специальность ВАК РФ10.02.21
  • Количество страниц 192
Кобзарева, Татьяна Юрьевна. Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения: дис. кандидат филологических наук: 10.02.21 - Прикладная и математическая лингвистика. Москва. 2008. 192 с.

Оглавление диссертации кандидат филологических наук Кобзарева, Татьяна Юрьевна

ВВЕДЕНИЕ

Актуальность исследования

Цель работы и задачи исследования

Объект, предмет и материал исследования

Новизна и значимость исследования

Теоретическая значимость исследования

Прикладная значимость исследования

Основные результаты исследования

Практическая ценность работы

Основные используемые понятия

Методы исследования

Апробация

Структура работы

ПЕРВАЯ

ГЛАВА. Автоматический синтаксический анализ русского предложения: история и современное состояние проблемы

1.1. История постановки задачи

1.2. Теоретические предпосылки создания автоматического синтаксического анализа. Структурный синтаксис.

1.3. Первые работы по синтаксическому анализу русского текста

1.4. Современное состояние проблемы

1.5.Частные проблемы автоматического анализа

1.6. Вероятностные подходы

1.7. Выводы

ВТОРАЯ

ГЛАВА. Свойства проективности и рекурсивности и их роль в иерархизации синтаксического анализа

2.1. Введение

2.2. Проективность и рекурсивность подчинительных связей

2.2.1. Понятие проективного фрагмента

2.2.2. Иерархия предикативных ситуаций в сегменте

2.2.3. Место именных и предложных групп в линейной структуре предложения

2.2.4. Особенности линейной организации рекурсивной «матрешки» именных и предложных групп

2.2.5. Процедура анализа рекурсивных структур. Анализ матрешек именных и предложных групп

2.2.6. Типы линейной конфигурации именных и предложных групп

2.2.7. Некоторые проблемы, возникающие при анализе согласованного определения в препозиции к хозяину

2.2.8. Ограничение зоны поиска хозяина согласованного определения и слуги предлога как фильтр проективности

2.2.9. Выводы по разделу 2.2.

2.3. Рекурсивность и проективность сочинительных связей в русском тексте

2.3.1. Введение

2.3.2. Функциональные особенности структуры сочиненных групп

2.3.2.1. Сочинительное сокращение

2.3.2.2. Обязательная манифестация сочинения в тексте

2.3.2.3. Сочинительное сокращение как фактор недревовидности графа

2.3.2.4. Рекурсивность и проективность сочинительных связей. Зоны влияния сочиненных слов

2.3.2.5. Рекурсивность и иерархия сочинительных связей

2.3.3. Выводы к разделу 2.3.

ТРЕТЬЯ

ГЛАВА. Общие принципы организации системы, иерархия модулей синтаксического анализа и их задачи

3.1 Уровни анализа и соответствующие им модули СА

3.2. Динамическая и статическая компоненты анализа

3.2.1. Верификация лингвистических и алгоритмических решений

3.2.2. Структура словарей и морфологический анализ

3.2.2.1. Словари

3.2.2.2. Морфологический анализ

3.2.3. Синтагмы

3.2.4. Особенности организации процедуры анализа рекурсивных структур

3.3. Задачи модулей

3.3.1. Модуль постморфологического анализа

3.3.1.1. Числительные

3.3.1.2. Названия в кавычках

3.3.1.3. Имена собственные лиц

3.3.2. Модуль разрешения омонимии частей речи

3.3.2.1. Словосочетания

3.3.2.2. Частичная омонимия

3.3.2.3. Словарь типов омонимии частей речи

3.3.3. Модуль предсегментации

3.3.3.1. Именные и предложные группы

3.3.3.1.1. Поиск хозяина имени собственного

3.3.3.1.2. Анализ определительных именных и предложных групп

3.3.4. Модуль сегментации

3.3.5. Модуль внутрисегментного анализа

3.3.6. Межсегментный анализ

3.3.7. Анализ кореференции

ЧЕТВЕРТАЯ

ГЛАВА. Моделирование сегментной структуры русского предложения. Два этапа сегментации.

4.1. Омонимия и синонимия знаков препинания в русском тексте

4.1.1. Знаки препинания и проективность линейной структуры

4.1.2. Омонимия и бифункциональность знаков препинания 103 4.1.2.1.Запятая

4.1.2.2. Тире

4.1.2.3. Двоеточие

4.1.2.4. Скобки

4.1.2.5. Точка

4.1.3. Омонимия знаков препинания и сегментная омонимия линейной структуры предложения

4.1.3.1. Примеры неоднозначности сегментации при определении значения запятой — правой границы сегмента vs. оператора сочинения

4.1.3.2. Некоторые неоднозначности интерпретации знаков препинания при определении левой границы вложенных сегментов, вытекающей из омонимии знаков препинания

4.1.4. Синонимия знаков препинания

4.2. Грамматика сегментной структуры русского предложения и принципы его сегментации

4.2.1. Сегментация как ключевая компонента системы

4.2.2. Сегмент в линейной структуре предложения

4.2.3. Идеальная модель линейной структуры сегментов в русском предложении

4.2.4. Осложнение линейной структуры предложения вложениями

4.2.5. Операторы и их функции в предложении: функции запятых и сочинительных союзов

4.2.6. Бифункциональность запятой и функциональная неоднозначность операторов

4.2.7. Сегментация

4.2.7.1. Объект, задача и организация анализа

4.2.7.2.Две ступени моделирования сегментной структуры

4.2.7.2.1 Стратегия анализа ос-сегментов

4.2.7.2.2. Процедура формирования а-сегмента

4.2.8. Свойство проективности линейной структуры сегментов

4.2.9. Семантика сегментной структуры или условия присоединения

4.2.9.1. Условия удлинения деепричастных и причастных оборотов

4.2.9.1.1. Запреты присоединения

4.2.9.1.2. Условия присоединения

4.2.9.1.2.1. Присоединение без опоясывания

4.2.9.1.2.2. Условия присоединения (З-отрезка по сочинению при разрыве

4.2.9.1.2.3. Условия присоединение (3-отрезка по управлению при разрыве

4.2.9.2. Построение а-сегмента — придаточного

4.1.9.3. Условия удлинения а-отрезка - придаточного

4.2.9.4. Анализ сочинения предикатов при удлинении придаточных

4.2.10. Построение Р-сегментов

4.2.11. Выводы к разделу 4.2.

4.3. Второй этап сегментации — построение графа связей сегментов

4.3.1.Лингвистический базис построения связей сегментов и некоторые проблемы, возникающие при поиске слова - хозяина сегмента

4.3.2. Отношения между сегментами

4.3.3. Особенности сегментной структуры предложения, осложняющие поиск межсегментных связей

4.3.3.1. Факторы, осложняющие ответ на вопрос, какое слово является хозяином а-сегмента

4.3.3.2. Факторы, осложняющие ответ на вопрос, где искать хозяина а-сегмента

4.3.4. Проективность межсегментных связей

4.3.5. Общие правила проективности межсегментных связей

4.3.6. Поиск хозяина деепричастного оборота

4.3.7. Специфика поиска хозяина ПП

4.3.7.1. Виды ПП

4.3.7.1.1. А

4.3.7.1.2. В

4.3.7.1.2.1. Скрепы

4.3.7.1.2.2.Семантика хозяина ПП

4.4. Выводы к разделу 4.3.

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Введение диссертации (часть автореферата) на тему «Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения»

Работа посвящена исследованию свойств линейной структуры русского предложения, важных для организации автоматического синтаксического анализа (СА), и созданию на основе полученных результатов теоретической базы и самой системы синтаксического анализа, экспериментальные реализации которой подтвердили продуктивность найденного подхода.

Этот подход позволил разделить СА на несколько ступеней и построить лингвистически обоснованную и процедурно удобную их иерархию.

Главной особенностью лингвистического базиса системы является такая линейная грамматика сегментной структуры русского предложения, которая позволяет начинать собственно синтаксический анализ с моделирования его сегментной структуры до этапа анализа внутренней структуры сегментов, т.е. до построения большей части связей слов.

Актуальность исследования

Актуальность работы определяется тем, что хотя задача синтаксического анализа, необходимого для всех систем машинного перевода и автоматического понимания текстов, была поставлена более полувека назад, устойчивой и общепринятой системы синтаксического анализа до сих пор не создано. Чтобы продвинуться в ее решении, сегодня необходимо не только совершенствовать имеющиеся наработки, но и находить новые подходы — как в теоретическом плане, так и в плане практическом.

Очевидно, что задача синтаксического анализа, сначала казавшаяся, как и задача машинного перевода, решаемой в обозримое время, является — в силу бесконечной вариативности естественного языка — сложнейшей задачей, допускающей лишь приближенные решения.

Актуальность избранного в диссертации теоретического подхода обусловлена назревшей необходимостью построения для СА особой — систематически описывающей семантику линейного синтаксиса — грамматики, которая позволяет определить иерархию лингвистически обоснованных подзадач СА и которую можно использовать при разных конечных целях анализа.

Компьютерные технологии совершенствуются. Возникла возможность, не боясь усложнения программ, использовать алгоритмические решения, естественно вытекающие из свойств текста и позволяющие упрощать грамматический базис системы, не только не поступаясь сложностью реальной языковой картины, но создавая возможности более полного ее анализа.

Цель работы и задачи исследования

Целью диссертации в теоретическом аспекте является исследование семантики линейного синтаксиса русского предложения и создание грамматики его линейной структуры, а в прикладном - разработка на этой основе иерархически организованной модульной системы СА, позволяющей строить синтаксически истинные интерпретации линейной структуры русского предложения, минимально используя лексико-семантическую информацию.

Для достижения этой цели в диссертации решаются следующие задачи.

1. Исследуются свойства линейной структуры русских предложений.

2. На основании результатов этих исследований строятся идеальные модели синтаксических явлений, что позволяет лингвистически и процедурно обоснованно построить иерархию этапов синтаксического анализа.

3. Каждый этап анализа организуется как независимый модуль, для которого на основании идеальных моделей, созданных для рассматриваемых явлений, исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальных моделей в тексте.

4. Создается линейная грамматика, позволяющая на ранних этапах анализа моделировать сегментную структуру русского предложения.

5. На основе этой линейной грамматики для каждого модуля строятся алгоритмы, строящие синтаксическую структуру анализируемых единиц текста.

6. Определяются и решаются проблемы предсинтаксического анализа.

Объект исследования — линейная организация предложений в русских письменных текстах, не являющихся записью или имитацией устной речи.

Предмет исследования — универсальные и специфические свойства линейной структуры русского предложения, определяющие возможность построения процедурно удобной и лингвистически обоснованной иерархии модулей системы синтаксического анализа.

Материалом для проверки теоретических гипотез и возможностей алгоритмических стратегий служили художественные тексты (в основном проза О.Мандельштама, В.Набокова, М.Булгакова, Л.Толстого), газетная и журнальная публицистика, энциклопедические статьи.

Новизна работы

Теоретическая новизна работы состоит в том, что впервые вводится как феномен, требующий системного исследования, новый уровень синтаксического моделирования — семантика линейного синтаксиса, для которого строится грамматика линейного синтаксиса, описывающая этот срез синтаксических явлений.

Именно на этой основе впервые оказалось возможным автоматически сегментировать русское предложение с сегментной структурой любой сложности на фрагменты, внутри которых могут быть эффективно использованы методы СА, основанные на классических «однопредикатных» моделях, восходящих к концепции Л.Теньера.

Это исследование обусловило прикладную новизну работы -позволило разработать принципиально новую организацию СА: лингвистически обоснованное деление СА на несколько этапов, задачи которых решают работающие в жестком порядке независимые модули.

Специфика системы состоит в том, что создан работающий на основе линейной грамматики сегментной структуры модуль сегментации, который строит сегменты — простые-главные и придаточные предложения, деепричастные, причастные и другие обороты - все обособляемые по правилам русской пунктуации части предложения — уже на первых шагах моделирования структуры предложения, до того, как анализируется внутренняя структура каждого из сегментов, т.е. основная часть связей слов и сегментов строится после сегментации.

Впервые систематически рассмотрена проблема значимой для СА омонимии частей речи: создана типология такой омонимии в русском языке в рамках словаря [Зализняк 1980] , построена грамматика и модуль разрешения наиболее важных для синтаксиса ее типов.

Новизна работы заключается также в лингвистически обоснованном широком применении при СА естественного языка алгоритмов рекурсивного типа.

Теоретическая значимость исследования

Теоретическая значимость работы заключается в углублении наших представлений о строении синтаксического уровня языка и разнообразии взаимодействующих на этом уровне механизмов.

Исследование позволило описать многие феномены линейной структуры русского предложения и в то же время показало, как их использование может — путем иерархизации анализа — существенно облегчить решение различных проблем СА, в частности, избежать в ходе анализа построения ложных гипотетических связей, тем самым предупреждая возможность комбинаторного взрыва.

Построение сегментов, во-первых, облегчает последующие этапы СА и, во-вторых, является базой для формирования нового объекта — графа сегментов предложения — который может служить основой для следующего этапа моделирования структуры многосегментного предложения — исследования семантики связей его сегментов.

Прикладная значимость исследования

Определены этапы автоматического СА — два модуля предсинтаксического анализа и четыре модуля собственно СА, построена иерархия этих модулей для русского языка.

Модули предсинтаксического анализа:

1. постморфология - этап решения несловарных проблем морфологического анализа;

2. разрешение омонимии частей речи.

Модули собственно синтаксического анализа:

1. предсегментация — построение необходимых для сегментации связей слов, определяющих единицы линейной структуры при сегментации, в частности, проективные фрагменты именных и предложных групп (см. 2.1 второй главы);

2. сегментация — построение сегментов (см. 2-ой раздел четвертой главы);

3. внутрисегментный анализ - построение графа связей слов внутри сегментов;

4. межсегментный анализ - установление связей между сегментами (см. 3-й раздел четвертой главы).

На основе новых алгоритмических стратегий анализа, обоснованных построенной грамматикой, и семантики линейного синтаксиса анализируемых зон синтаксических явлений для каждого модуля разработаны рекурсивные алгоритмы, доказавшие при экспериментальных реализациях перспективность подхода. В настоящее время система суммарно включает в себя 69 алгоритмов и подпрограмм (см. в Приложении «Список алгоритмов поверхностно-синтаксического анализа»).

Впервые на основе идеальной модели и грамматики линейной сегментной структуры русского предложения реализованы рекурсивные процедуры, позволяющие строить сегменты в предложениях с любыми грамматически допустимыми комбинациями любого количества любых сегментов перед моделированием внутренней структуры сегментов, т.е. перед построением большей части связей слов.

Свойства проективности и рекурсивности используются непосредственно в процессе анализа, что позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации.

На основе словаря типов омонимии частей речи и линейной грамматики этой зоны явлений для самых больших групп и самых существенных для СА типов такой омонимии разработан модуль их разрешения для письменного русского языка.

Построен рекурсивный алгоритм, позволяющий находить подчинительные связи слов, являющихся границами проективных фрагментов определительных именных групп с согласованными распространенными определениями и предложных групп для линейных структур любой комбинаторной сложности с учетом потенциально возможных неоднозначностей интерпретации.

Основные результаты исследования

1. Важные для СА свойства — проективность и рекурсивность подчинительных и сочинительных связей - исследованы с точки зрения их манифестации в линейной структуре сегмента и в сегментной структуре предложения.

2. На основе выявленных особенностей линейной структуры предложения разработано лингвистически естественное и алгоритмически удобное иерархическое членение СА на шесть процедурно независимых модулей, включающее два предсинтаксических (постморфология и разрешение омонимии частей речи) и четыре синтаксических (предсегментация, сегментация, внутрисегментный анализ - моделирование структуры сегментов, межсегментный анализ — построение связей сегментов).

3. Построена собственно система СА, шесть модулей которой состоят суммарно из 69 алгоритмов и стандартных подпрограмм, большая часть которых запрограммирована в экспериментальном режиме и при

5* тестировании демонстрирует хорошие результаты. Ее лингвистический и алгоритмический аппараты позволили минимизировать используемый инструментарий и строить на каждом этапе только синтаксически истинные варианты интерпретации предложения.

4. Разработана служащая базисом модуля сегментации грамматика линейной сегментной структуры русского предложения (РП), позволяющая моделировать сегментную структуру предложения на этапе, предшествующем анализу связей внутри каждого из однопредикатных высказываний, составляющих многосегментное предложение. В ней описаны функциональные значения знаков препинания, их омонимия и синонимия, идеальная модель сегментной структуры русского предложения и обоснованы контекстные условия, определяющие при построении сегментов значения возможных текстовых манифестаций этой модели путем определения функций знаков препинания.

5. На основе грамматики сегментной структуры созданы и реализованы рекурсивные алгоритмы модуля сегментации русского предложения.

6. Промоделирована иерархия связей внутри сегмента, определяющая линейную организацию сегмента и рекурсивной линейной структуры проективных фрагментов определительных именных и предложных групп (ИГ и ПГ), позволяющая иерархизировать задачи моделирования структуры предложения.

7. Разработан рекурсивный алгоритм, строящий проективные фрагменты ИГ и ПГ любой степени сложности.

8. Для решения задач пред синтаксического анализа, важных для С А естественного текста, построена классификация типов омонимии частей речи русского языка в объеме словника «Грамматического словаря» А.А.Зализняка и грамматика и соответствующий модуль разрешения наиболее значимых типов этой омонимии.

Практическая ценность работы

Описанные свойства линейной структуры русского предложения, разработанные модели и сами модули СА могут быть применены во многих системах автоматической обработки русского текста.

Грамматика линейного синтаксиса, модели и алгоритмы являются продуктивной базой дальнейших теоретических и экспериментальных исследований в области СА, позволяющей совершенствовать и сам базис, и программные средства его реализации.

Результаты исследования сегментной структуры и функциональных значений знаков препинания могут быть эффективно использованы как объясняющая модель при преподавании русского синтаксиса.

Грамматика линейного синтаксиса, служащая лингвистическим базисом системы, может быть успешно использована для разработки компьютерных обучающих программ как для целей совершенствования синтаксических навыков у школьников, так и для обучения синтаксису русского языка как иностранного.

Программная реализация системы может служить аппаратом исследования специфики синтаксиса разных авторов и разных функциональных стилей, и, в том числе, для изучения тенденций современных изменений в синтаксисе русского языка. По мере накопления материала она сможет использоваться как инструмент стилистической экспертизы.

В настоящее время аспиранткой Отделения интеллектуальных систем в гуманитарной сфере РГГУ A.M. Баталиной и старшим преподавателем этого Отделения М.Е. Епифановым на базе алгоритмов системы создана инструментальная среда для экспериментов с алгоритмами синтаксического анализа, которая позволяет легко корректировать и пополнять алгоритмы.

Основные используемые понятия.

При обсуждении линейной структуры предложения (S) будем использовать следующие понятия.

Слова и морфологически автономные группы слов [Плунгян 2003], эксплицитно заданные пробелами и функционирующие как слова. Сегменты - части предложения с эксплицитно заданными соответственно правилам русской пунктуации границами: простые предложения или простые в роли главных (простые-главные), придаточные предложения, деепричастные обороты, всякого рода определительные, вводные и другие обороты, требующие обособления.

Операторы: знаки препинания, сочинительные союзы и их комбинации -компоненты линейной структуры, служащие границами сегментов, и\или манифестирующие сочинительные связи слов или сегментов [Кобзарева 2005]: функциональная омонимия и синонимия знаков препинания рассмотрена в четвертой главе.

Проективные фрагменты — отрезки предложения, удовлетворяющие условиям проективности [Иорданская 1967], которые являются частью сегментов и границами которых служат слова, связанные отношениями подчинения или сочинения [Кобзарева 2006, 2007-6]. Связи слов и сегментов

При моделировании структуры S будем различать три вида связей слов и\или сегментов: 1. направленные от хозяина к слуге отношения подчинения, 2. ненаправленное отношение сочинения и 3. ненаправленное отношение кореференции. 6) Синтагмы

Все связи слов и сегментов получают при анализе номера соответственно номерам синтагм в списке принятой в системе классификации связей (см. «Список синтагм» в Приложении). При этом синтагмы не объединяются в отношения непосредственной доминации, как в [Мельчук 1964, Иорданская 1967], т.е. семантическая эквивалентность синтагм не устанавливается.

Методы исследования Идеальная модель явления

На каждом из моделируемых уровней, для которого создается отдельный модуль анализа в системе, на основании лингвистических представлений и наблюдений соответствующих явлений строятся одна или несколько идеальных моделей подлежащих анализу синтаксических явлений. Каждая такая модель является обобщением, объединяющим большую часть возможных в русском языке линейно-комбинаторных манифестаций группы синтаксически близких явлений.

На каждом этапе анализа предполагается строить только синтаксически истинные варианты интерпретации линейной структуры. Для этого создаются универсальные фрагменты грамматики линейной структуры русского предложения и исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальной модели в тексте.

Универсальные свойства текста и динамическая компонента анализа Важную роль в исследовании играет установка на поиск

1. универсальных свойств текста, присущих структурам всех синтаксических уровней,

2. специфических лингвистических особенностей рассматриваемых структур,

3. способов оптимального использования найденных свойств.

На основании этих свойств вводятся универсальные, работающие на всех этапах анализа правила и специфические для каждого уровня правила, которые задают набор возможных структур для рассматриваемых явлений, а также определяют оптимальные процедуры идентификации структур.

Группы лингвистических правил объединены в алгоритмы, каждый из которых представляет собой дерево, узлами которого являются описания ситуаций, определяющие синтаксическое значение текстовых манифестаций синтаксически близких явлений, моделируемых данным алгоритмом. Каждый модуль системы включает в себя несколько алгоритмов, определяющих свойства синтаксической структуры, информация о которых необходима для следующего этапа анализа. Контекстные ситуации в алгоритмах записываются на естественном языке в форме, близкой к обычным грамматическим описаниям, что делает их легко доступными для понимания.

Используется обычная морфологическая и следующая словарная синтаксическая информация:

1) грамматическая, не описывающая лексической сочетаемости, модель управления: способность управлять существительными в определенных падежах, инфинитивом, предлогом и подчинительным союзом и

2) синтаксически значимые семантические классы существительных (предметы одушевленные - неодушевленные, единицы измерения, параметры и т.д.).

Структура самих алгоритмов и языка объектного моделирования, используемого в настоящее время для экспериментальной реализации системы [Баталина 2004, 2005, 2006, 2007-а, 2007-6], позволяют легко исправлять и пополнять множество возможных ситуаций линейного контекста, учитываемых при анализе, уточнять списки исключений из правил непосредственно в алгоритмах, не меняя словарную информацию о лексемах. Проверка истинности моделей и работоспособности используемых алгоритмических стратегий

Проверка истинности построенных моделей, их дополнение и корректировка предполагают постоянное уточнение описанных явлений и лингвистический поиск не охваченных алгоритмами явлений. Чтобы это было возможно, необходима в первую очередь экспериментальная реализация соответствующих фрагментов системы. Каждая из моделей и соответствующий фрагмент грамматики, задающий условия актуализации явления, являются базисом определенного алгоритмического решения. Программы алгоритмов должны отлаживаться в два этапа: in vitro и in vivo. Отладка in vitro предполагает отладку программ на искусственно отобранных или созданных специально для отладки искусственных примерах, тестирующих соответствие программ алгоритмам, т.е. реализованной версии лингвистической модели. После достижения такого соответствия необходимо работать in vivo — на естественных текстах, представляющих естественное многообразие манифестаций явления. Это очень важный этап, на котором могут выявляться неучтенные и часто неожиданные варианты явлений или просто недостаточность сформулированных определений линейных конфигураций.

Апробация

Общий лингвистический базис системы, модели синтаксических явлений для построения отдельных модулей и экспериментальные варианты их программных реализаций были представлены на 14 конференциях: на КИИ-2000 и КИИ-2002 - седьмой и восьмой национальных конференциях по искусственному интеллекту с международным участием, на 5-ой международной конференции "Информационное общество, информационные ресурсы и технологии телекоммуникации", ВИНИТИ, Москва, 2000; на IV International Conference "Interactive Systems: Problems of Human-Computer Interaction". September 23-27, 2001; на международной научной конференции Мегалинг'2007 - Горизонты прикладной лингвистики и лингвистических технологий (совместный); на 7-ой международной конференции «НТИ-2007»; на международной конференции «Диалог» в 2001- 2008 годах .

С использованием алгоритмов, разработанных в ходе данного диссертационного исследования, и при консультации автора были написаны 16 курсовых и 9 дипломных работ, а также выполнены и защищены 3 кандидатские диссертации в Институте лингвистики РГГУ и других вузах.

Лингвистический базис и алгоритмические решения описаны автором в статьях, опубликованных в материалах перечисленных конференций и в статьях в Московском лингвистическом журнале в 2004 г., Т.8 №1 [Кобзарева 2004-6], в Вестнике РГГУ. № 8/07, Серия «Языкознание» (Московский лингвистический журнал № 9/2) в 2007 году [Кобзарева 2007в], в НТИ, Сер.2, №1 в 2007 году [Кобзарева 2007-а] и в Вестнике РГТУ, Серия «Языкознание» в 2008 году [Кобзарева 2007-6].

Работа была поддержана грантами ФЦП - проект № 482, РФФИ — проекты № 03-06-80109 и № 03-06-80434.

Грамматику линейного синтаксиса и программные реализации фрагментов системы автор диссертации использует в двух авторских курсах для студентов Отделения теоретической лингвистики Института лингвистики РГГУ.

Структура работы

В первой главе дается исторический обзор и описывается современное состояние работ по данной проблематике.

Во второй главе рассматриваются важные структурные особенности линейной организации русского предложения. Их описание представляет семантику линейного синтаксиса и вводит новый уровень описания — грамматику линейного синтаксиса, которая определяет как общую архитектуру системы, так и алгоритмические стратегии анализа.

В третьей главе описаны собственно иерархия этапов анализа линейной структуры предложения и соответствующие модули системы с кратким лингвистическим и алгоритмическим обоснованием используемых стратегий.

В четвертой главе подробно изложены основные положения впервые разработанной для русского языка линейной грамматики сегментной структуры русского предложения и алгоритмический базис решения задач двух этапов сегментации предложения - построения сегментов и графа их связей.

Работу завершает Заключение.

Далее следуют Библиография и Приложения.

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Заключение диссертации по теме «Прикладная и математическая лингвистика», Кобзарева, Татьяна Юрьевна

4.4. Выводы к разделу 4.3.

Как было показано, при построении связей между сегментами мы можем на основании свойств проективности сегментов определить зону, где находится слово-хозяин сегмента-слуги.

Основные сложности поиска слова хозяина возникают при появлении альтернативы для ПП, которые в сегменте-хозяине могут и замещать валентности, и выступать как присубстантивные определения актантов и сирконстантов. Для грамматически корректного решения этой проблемы^ необходимо задавать в словаре информацию о лексической сочетаемости существительных и подчинительных союзов, что требует отдельного исследования.

ЗАКЛЮЧЕНИЕ

Основными результатами работы, выносимыми на защиту и определяющими научную и прикладную новизну работы, являются следующие.

1. Исследование линейной организации подчинительных и сочинительных связей и сегментной структуры русского предложения, изложенное в диссертации, вводит новый уровень синтаксического описания — уровень семантики линейной структуры текста, который предлагается называть линейным синтаксисом.

2. Для этого среза синтаксических явлений разработана грамматика линейного синтаксиса для следующих синтаксических явлений. 2.1.Свойства проективности и рекурсивности впервые систематически исследованы применительно к организации линейной структуры подчинительных и сочинительных связей как внутри сегментов, так и для сегментной структуры русского предложения.

2.2.Рассмотрена иерархия проективных подчинительных связей в линейной структуре сегментов, порождающая рекурсивность линейной структуры сегментов.

2.3 .Именные и предложные группы (ИГ и ПГ) изучены с точки зрения проективности и рекурсивности их линейной структуры.

2.4.Применительно к линейной структуре предложения исследованы свойства проективности и рекурсивности сочинительных связей.

2.5.Построена грамматика сегментной структуры, моделирующая семантику линейного синтаксиса сегментной структуры русского S, в рамках которой описаны а) значимая для СА функциональная омонимия и синонимия знаков препинания и б) идеальная модель сегментной структуры, с использованием которой и на основе семантики линейной сегментной структуры разработаны рекурсивные процедуры, моделирующие сегменты путем определения по контексту функций знаков препинания до этапа моделирования структуры связей слов внутри сегментов; а также в) на основе свойств проективности сегментов и сочинительных отношений моделируется структура связей сегментов.

2.6.Для решения задач предсинтаксического анализа построена синтаксически обоснованная типология омонимии частей речи, а для самых существенных для СА типов определены принципы ее разрешения по грамматическому контексту.

3.На основе грамматики линейного синтаксиса СА разбит на шесть подзадач и определена их иерархия.

4. Построена система СА, состоящая их 6 работающих в жестком порядке независимых модулей, суммарно состоящих их 69 алгоритмов и стандартных подпрограмм (см. «Список алгоритмов» в Приложении): два модуля предсинтаксического анализа, решающие морфосинтаксические проблемы, и четыре модуля собственно синтаксического анализа: предсегментация — построение связей, определяющих линейные компоненты S, выступающие единицами текста при сегментации, сегментация — построение сегментов, внутрисегментный анализ — построение всех связей слов в сегментах и межсегментный анализ — построение связей сегментов.

5. На основе исследованных в грамматике линейного синтаксиса свойств линейной структуры в СА применены естественно вытекающие из этих свойств алгоритмические стратегии СА — рекурсивные алгоритмы.

5.1. Впервые на основе идеальной модели и линейно-комбинаторной грамматики сегментной структуры русского S реализованы рекурсивные процедуры, которые позволяют строить сегменты в русских S с любыми грамматически допустимыми комбинациями любого количества любых сегментов до построения большей части связей слов.

5.2.Использование свойств проективности и рекурсивности в ходе анализа позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации S.

5.3.Построены рекурсивные алгоритм, позволяющий находить подчинительные связи слов — границ проективных фрагментов, выступающих единицами линейной структуры при сегментации, в частности — определительных именных и предложных групп любой комбинаторной сложности со всеми потенциально возможными неоднозначностями интерпретации (1раздел второй главы).

5.4.0боснованы алгоритмические стратегии - применение рекурсивных процедур для анализа рекурсивных линейных структур.

Список литературы диссертационного исследования кандидат филологических наук Кобзарева, Татьяна Юрьевна, 2008 год

1. Агранат 1999. Агранат Т.Б., Кулагина О.С. О способах различения омонимии предложных словосочетаний при автоматическом анализе текста (на примере конструкций с предлогом С) НТИ ВИНИТИ Сер. 2 Информац. процессы и системы М. 1999 №7 с. 28-31

2. Адамец 1992. Адамец П. Несколько замечаний о синтаксической омонимии в русском языке.\\Системные семантичнские связи языковых единиц. М.1992.

3. Апресян 1989. Апресян Ю.Д., Богуславский И.М., Иомдин Д.Л., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы Этап-2, М.: Наука, 1989.

4. Арутюнова 1976. Арутюнова Н.Д. Предложение и его смысл. М.: Наука. 1976.

5. Бакулов 1990-а. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Системы семейства ЭТАП// Справочник, Искусственный интеллект, Книга 1, Системы общения и экспертные системы, Москва «Радио и связь» 1990, С. 253-255

6. Бакулов 1990-6. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Система французско-русского машинного перевода ФРАП // Справочник, Искусственный интеллект, Книга 1, Системы общения и экспертные системы, Москва «Радио и связь» — 1990, С.255-260.

7. Баталина 2004-6. Баталина A.M., Айриян Г.Ю., Епифанов М.Е.,.Кобзарева Т.Ю., Лахути Д.Г. Автоматизация отладки алгоритмов поверхностно-синтаксического анализа // Труды Международной конференции Диалог'2005, С. 45-50.

8. Владимирова 1985. Владимирова Е.В., Карпова Г.Д., Лесскис Г.А., Урииовская И.Д. Словарь окончаний в системе автоматического индексирования документов "Скобки". // НТИ, Сер.2, №6, 1985, с 29-31.

9. Гершензон 2002. Гершензон Л.М., Панкратов Д.В. Фрагментационный анализ русского предложения в системе ARTEFACT. // Труды Международного семинара Диалог'2002. Т. 2. Протвино 2002. С. 126-132.

10. Гладкий 1969. Гладкий А. В., Мельчук И. А., Элементы математической лингвистики, М., 1969.

11. Гладкий 1973. Гладкий А. В., Формальные грамматики и языки, М., 1973.

12. Гладкий 1985. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985

13. Гладкий 2007. Гладкий А.В. Синтаксические структуры естественного языка. М., 2007.

14. Дрейзин 1988. Дрейзин Ф.А. Синтаксическая омонимия // Машинный перевод и прикладная лингвистика. М., 1988

15. Ермаков 2004. Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. Москва, Наука, 2004 - С. 185-190.

16. Зализняк 1980. Зализняк А.А. Грамматический словарь русского языка. — М.: Русский язык, 1980.

17. Зинкина 2005. ЗинькинаЮ.В., ПяткинН.В., Невзорова О.А. Разрешение функциональной омонимии в русском языке на основе контекстных правил // Труды межд. конф. Диалог'2005.-М.: Наука, 2005. С. 198-202.

18. Ингве 1965. Ингве В. Гипотеза глубины. Новое в лингвистике. Вып.1 V. Изд. Прогресс. М.1965. с.126-138.

19. Иомдин 1990. Иомдин JI.JI. Автоматическая обработка текста на ЕЯ: модель согласования. М. Наука. 1990.

20. Иомдин 2002. Иомдин JI.JI. Уроки русско-английского. Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2002. М.: Наука, 2002 — С. 2002

21. Иомдин 2003. Иомдин JI.JI. Большие проблемы малого синтаксиса. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Компьютерная лингвистика и интеллектуальные технологии: Москва, Наука, 2003 - С 216-222

22. Иорданская 1967-а. Иорданская JI.H. Синтаксическая омонимия в РЯ (с точки зрения автоматического анализа и синтеза). НТИ, сер.2 1967, №5 -С 917

23. Иорданская 1967-6. Иорданская JI.H. Автоматический синтаксический анализ. Т.2. Межсегментный синтаксический анализ. —■ Новосибирск.: Наука, 1967.

24. Кнорина 1972. Кнорина JI.B., Раскина А.А. Использование словаря-справочника омонимии флексий при автоматической обработке текста. Ереван, 1972. 5 с. (Автоматическая обработка текстов на естественных языках: Семинар стран-членов СЭВ).

25. Кобзарева 2001-6. Кобзарева Т.Ю., Афанасьев Р.Н. Построение комплекса алгоритмов разрешения морфологических неоднозначностей на базе словаря диагностических ситуаций. Обработка текста и когнитивные технологии, вып.6. Казань: "Отечество", 2001.

26. Кобзарева 2002-6. Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения // КИИ'2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. М.: Физматлит т. 1. С. 192-198.

27. Кобзарева 2003. Кобзарева Т.Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского языка // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2003. — М.: Наука, 2003.— С 278 -284.

28. Кобзарева 2004-а. Кобзарева Т.Ю. Морфанализ in vivo. // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2004. — М.: Наука, 2004. — С 286-291.

29. Кобзарева 2004-6. Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. — М.: Изд-воРГГУ, 2004. —Т. 8.— №1.— С.31-80.

30. Кобзарева 2005. Кобзарева Т.Ю. Омонимия и синонимия знаков препинания в русском тексте II Компьютерная лингвистика и интеллектуальныетехнологии. Труды Международной конференции Диалог'2005. — М: Наука,2005. —С. 233-237.

31. Кобзарева 2007-а. Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ, Сер.2, 2007, № 1. С 23-35.

32. Кобзарева 2007-6. Кобзарева Т.Ю. Лингвистический базис анализа поверхностно-синтаксических связей сегментов в русском предложении. Вестник РГГУ. № 6, Серия «Языкознание»: Московский лингвистический журнал, Т.Ю, 2008 С. 173-186

33. Кронгауз 2001. Кронгауз М.А. Семантика. М. 2001.

34. Кулагина 1979. Кулагина О.С. Исследования по машинному переводу. — М.: Наука, 1979.

35. Кулагина 1987. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт Ин-та прикладной математики им. М.В.Келдыша АН СССР № 205,М.

36. Кулагина 1990. Кулагина О.С. О синтаксическом анализе на основе предпочтений. Препринт Ин-та прикладной математики им. М.В.Келдыша АН СССР № 3,М.

37. Кулагина 2001. Кулагина О.С. Об одном подходе к установлению отношений между простыми предложениями в составе сложного при автоматическом анализе текстов. Математические вопросы кибернетики. 2001, №10,-С. 15-34

38. Лаптева 2003. Лаптева О.А. Речевые возможности текстовой омонимии. М. 2003.

39. Леонтьева 1986. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271, М.,1986. г

40. Леонтьева 1996. Леонтьева Н.Н. О предмете "прикладная лингвистика" // Московский лингвистический альманах "Спорное в лингвистике". 1996. Вып.1.

41. Леонтьева 1995. Леонтьева Н. Н. «Политекст»: информационный анализ политических текстов. // НТИ, Сер.2, 1995, №4.

42. Леонтьева 2006. Леонтьева Н. Н. Автоматическое понимание текста: системы, модели, ресурсы — М., 2006

43. Лесерф 1963. Д. Лесерф. Применение программы и модели конфликтной ситуации к автоматическому синтаксическому анализу, М.: Научно-техническая информация, 1963, вып. 10.

44. Мальковский 2006. Мальковский М.Г., Старостин А.С. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» \\ Компьютерная лингвистика и интеллектуальные технологии, Труды Международной конференции Диалог 2008. М. Наука, 2006 С .

45. Мартемьянов 2004. Мартемьянов Ю. С. Логика ситуаций. Строение текста. Терминологичность слов. М.: Языки русской культуры, 2004.

46. Мельчук 1964. Мельчук И.А. Автоматический синтаксический анализ. Т.1. — Новосибирск.: Ред.-изд. отдел Сибирского отделения АН СССР, 1964.

47. Мельчук 1985. Мельчук И.А. Поверхностный синтаксис русских числовых выражений. Wien: Wiener Slawischer Almanach 1985

48. Мельчук 1993. Мельчук И.А. Согласование, управление, конгруэнтность. ВЯ 1993 №5.-С. 16-58.

49. Мельчук 1995. Мельчук И.А. Русский язык в модели «Смысл Текст». М. 1995.

50. Невзорова 2006. Невзорова О.А., Зинькина, Ю.В.,Пяткин Н.В. Методконтекстного разрешения функциональной омонимии: анализ применимости. Труды Международной конференции Диалог'2006. — М.: Наука С.

51. Ножов 2002. Ножов И.М. Проектирование сегментационного анализатора русского предложения // КИИ-2002. Труды конференции, т.1 — М., Физматлит, 2002.

52. Ножов 2003. Ножов И.М. Процессор синтаксической сегментации русского предложения // НТИ. Сер. 2. — 2003. — № 11. — С. 26-37.

53. Падучева 1964. Падучева, Е.В. О способах представления синтаксической структуры предложения // ВЯ. 1964. N 2.

54. Падучева 1971. Падучева Е.В. О порядке слов в предложениях с сочинением: сочинительная проективность//НТИ. Сер. 2, 1971, №3. С 14-20

55. Падучева 1974. Падучева, Е.В. О семантике синтаксиса: Материалы к трансформационной грамматике русского языка. М., 1974.

56. Панкратов 2000. Панкратов Д. В., Гершензон Л. М., Ножов И. М. Описание фрагментации и синтаксического анализа в системе Диалинг. // Техническая документация, www.aot.ru, 2000.

57. Пащенко 1967. Пащенко Н.А. Об одном подходе к проблеме снятия омонимии при автоматической обработке текста на естественном языке. НТИ. Сер.2. №4. 1967.

58. Пешковский 2001. Пешковский A.M. Русский синтаксис в научном освещении. Языки славянской культуры. М 2001.

59. Плунгян 2003. Плунгян В.А. Общая морфология. Введение в проблематику.М., 2003.

60. Поспелов 1959. Поспелов Н.С. Сложноподчиненное предложение и его структурные типы// ВЯ. 1959 №2. с.21-27

61. Ревзин 1978. Ревзин И.И. Структура языка как моделирующей системы. М.: Наука. 1978.

62. Санников 1963. Санников В.З. Место распространенного определения по отношению к определяемому слову в русской фразе. ВЯ, 1963, №1 с. 124130.

63. Санников 1987. Санников В.З. Русские сочинительные конструкции (Семантика. Прагматика. Синтаксис.). Автореферат диссертации. Москва -1987.

64. Севбо 1967. Севбо П.А. О громоздкости синтаксических структур. НТИ. Сер.2. N2 1971.

65. Сиротинина 1974. Сиротинина О.Б. Порядок слов в русском языке. М.1974.

66. Сокирко 2001. Сокирко А. В. Семантические словари в автоматической обработке текста (по материалам системы Диалинг). Автореф. дисс. к.т.н. — М., 2001.

67. Соколова 1987. Соколова Е.Г. Об организации формализованного синтаксического представления в терминах членов предложения. // Сб.научных трудов. Вып. 271, МП и ПЛ. Проблемы создания системы автоматического перевода. Москва 1987, С. 35-63.

68. Сущанская 1089. Сущанская Н. Ф. Программный препроцессор для естественноязыковых интерфейсов. Автореф. дисс. к.т.н. — К.: РИО ИК, 1989.

69. Теньер 1988. Теньер Люсьен, Основы структурного синтаксиса. — М.: Прогресс, 1988.

70. Тестелец 2001. Тестелец Я.Г. Введение в общий синтаксис. М., 2001.

71. Федорова 2004. Фёдорова О.В., Янович И.С. Об одном типе синтаксической многозначности, или Кто стоял на балконе \\ Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2004— М.: Наука, С 644-649.

72. Фитиалов 1967. Фитиалов С.Я. Об эквивалентности грамматики НС и грамматики зависимостей // Проблемы структурной лингвистики. М., 1967

73. Хомский 1962. Хомский Н., Синтаксические структуры // Новое в лингвистике, вып. 2, -М., 1962.

74. Хомский 1972. Хомский Н. Аспекты теории синтаксиса // Изд.Моск.ун-та,1972.

75. Циммерлинг 1999. Циммерлинг А.В. Порядок слов и синтаксические позиции. // Труды международного семинара "Диалог 98" по компьютерной лингвистике и её приложениям /А.С. Нариньяни (ред.). Казань, 1999.

76. Шахматов 2001. Шахматов А.А. Синтаксис русского языка. М.2001.

77. Шведова 1979. Шведова И.Ю.(отв. ред.) Грамматика современного русского литературного языка. М., 1979

78. Шрейдер 1964. Шрейдер Ю.Ф. Свойство проективности языка. НТИ, 1964, №8.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.