Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке: Пунктуац. компонент тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Полякова, И. Н.

  • Полякова, И. Н.
  • кандидат физико-математических науккандидат физико-математических наук
  • 1994, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 147
Полякова, И. Н.. Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке: Пунктуац. компонент: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 1994. 147 с.

Оглавление диссертации кандидат физико-математических наук Полякова, И. Н.

ВВЕДЕНИЕ . б

ГЛАВА 1. МЕТОДИКА ПОСТРОЕНИЯ ФОРМАЛИЗОВАННОЙ МОДЕМ СИСТЕМЫ ПУНКТУАЦИОННЫХ ПРАВИЛ. МОДЕЛЬ

ПУНКТУАЦИИ РУССКОГО ЯЗЫКА

П.1 Определение и назначение пунктуации

П.2 История пунктуации

П.З Знаки препинания в текстах различной функционально-стилевой принадлежности

П.4 Основные понятия описываемой /методики

П.5 Лишние и пропущенные знаки препинания в анализируемом тексте

П.6 Отделяющие и выделяющие пунктуационные правила 33 П.7 Отделяющие и выделяющие знаки препинания . 34 П.8 Обязательные, рекомендательные и факультативные правила.

П.9 Роль морфологии, синтаксиса, семантики и интонации при проверке правил рассматриваемой модели.

П.10 Важность знания ключевых служебных слов . 43 П.11 Локализуемые и нелокализуемые ошибки . 43 П.12 Дополнительная информация для проверки некоторых правил рассматриваемой модели . 44 П.13 Методика построения формализованной модели системы пунктуационных правил

П. 14 Общая характеристика английской пунктуации и описание на основе разработанной методики пунктуационной модели английского языка

П.14.1 Сравнительный анализ пунктуации английского и русского языков

П.14.2 Модель пунктуации английского языка

ГЛАВА 2. ПУНКТУАЦИОННЫЙ КОМПОНЕНТ СИНТАКСИЧЕСКОГО АНА

ЛИЗАТОРА (СПК) И ЕГО ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

П.1 Основные программные модули и их реализация. . 56 П.2 Процессорная и беспроцессорная реализация алгоритмов пунктуационного контроля

П.З Режимы работы СПК. Диалоговый режим

П.4 Пакетный режим работы. Степени полномочий

П.5 Схема работы пунктуационного компонента

П.6 Описание работы пунктуационного компонента . . 70 П.6.1 Общий алгоритм проверки пунктуационных правил.

П.6.2 Дополнительные составляющие лингвистической базы данных, необходимые для работы основных программных модулей

П.6.3 Описание основных программных модулей

ГЛАВА 3. АДАПТИВНЫЕ ВОЗМОЖНОСТИ СПК.

П.1 "Конфликтные" ситуации, при возникновении которых вызывается блок языковой адаптации

П.1.1 Недопустимые знаки препинания

П.1.2 Допустимые знаки препинания

П. 1.3 Авторские знаки препинания.

П.1.2 Изменяемость значений знаков препинания . 92 П.2 Метазнания, используемые при адаптации пунктуационного компонента

П.З Описание блока языковой адаптации

П.3.1 Модуль, обрабатывающий допустимые знаки препинания - ISD0P . 99 П.3.2 Модуль, обрабатывающий недопустимые знаки препинания - ISNT . 100 П.3.3 Модуль, обрабатывающий авторские знаки препинания - 0BRAW . 102 П.3.4 Модуль, контролирующий процесс адаптации к авторским знакам препинания - ADAPTP . . 103 П.3.5 Модуль, осуществляющий выбор знака препинания - WIBZN.

ГЛАВА 4. ПРИКЛАДНЫЕ СИСТЕМЫ, РАЗРАБОТАННЫЕ

НА ОСНОВЕ СПК.

П.1 Адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов 107 П. 2 Система, обучающая пунктуации русского языка

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке: Пунктуац. компонент»

Задача машинной обработки текстов на естественном языке (ЕЯ) возникла с появлением ЭВМ. Хотя ЭВМ создавались в основном для вычислительных работ, вскоре после их появления стали предприниматься попытки использования их для обработки символьной и текстовой информации. Весьма важная роль принадлежит здесь программным средствам обработки текстов, представленных на том или ином ЕЯ - системам общения человека с ЭВМ на ЕЯ (ЕЯ-системам). К числу таких систем относятся как традиционные системы автоматической обработки текстов (например, системы машинного перевода, автоматического реферирования и индексирования, автоматизации лингвистических исследований и редакционно-издательской деятельности), так и системы ввода текстовой информации в ЭВМ с помощью систем оптического распознавания символов и систем распознавания звучащей речи.

Одной из первых областей применения ЭВМ для решения невычислительных задач является машинный перевод. Надежда на возможность машинного перевода возникла задолго до начала коммерческого производства компьютеров. Поначалу задача представлялась несложной. Предложение на исходном языке преобразуется в соответствующее предложение на другом языке с помощью двух основных операций. Во-первых, отдельные слова заменяются своими переводами, во-вторых, переведенные слова переставляются и видоизменяются по правилам языка, на который осуществляется перевод текста [1]. Однако разработанные программы выдавали настолько плохой перевод, что его невозможно было понять.

Из опыта развития машинного перевода стало ясно видно, что поверхностный подход (без выделения синтаксического и семантического уровней) к языку не годится C2D. Для удовлетворительного автоматического перевода необходим учет синтаксических и семантических связей слов и фраз, определенное "понимание" машиной того, что она переводит. В последние годы, например, во многих системах машинного перевода был значительно развит синтаксический компонент, введено тщательно разработанное синтаксическое представление текста, предприняты попытки введения семантического уровня. Но почти все существующие в настоящее время системы машинного перевода либо реализуют тривиальные схемы перевода (пословный перевод и учет простейших синтаксических связей), либо используются лишь как экспериментальные системы СЗ].

Определенный опыт в создании ЕЯ-систем накоплен и разработчиками систем искусственного интеллекта (ИИ). В отличие от работ по машинному переводу, в работах по ИИ есть уже уровень синтаксической обработки, используется некоторое семантическое представление текста, однако ЕЯ рассматривается менее полно и подробно, часто - без составления полного его описания. Приемлемость систем, обеспечивающих диалог человека с ЭВМ на так называемом "ограниченном" ЕЯ, определяется узостью проблемной области , в которой функционируют эти системы [4,5 и др.]. При этом практически единственным достоинством указанных систем, является хорошая "читабельность" текстов, написанных на их входном языке. Ведь ограниченный ЕЯ требует предварительного изучения. Во многих же ситуациях выучить некоторый несложный формальный язык и общаться с машиной на нем пользователю бывает проще, чем постоянно следить за соблюдением ограничений на используемый в повседневной речевой практике ЕЯ. Отметим также, что в этих системах, как правило, нет средств, обеспечивающих "разумную" реакцию на незнакомый (не описанный явно в лингвистической базе данных) языковой объект. Большинство существующих ЕЯ-систем при появлении незнакомого объекта либо отказываются выполнять какие-либо действия, либо просто игнорируют незнакомый языковой объект. Для анализа реальных (а не экспериментальных) текстов необходимы адаптивные ЕЯ-системы, способные настраиваться на конкретного пользователя и предметную область (ПО), а также обрабатывать языковые конструкции, формально противоречащие лингвистическим знаниям системы. Функциональные требования к ЕЯ-системам, выполнение которых должно обеспечить человеку условия общения, близкие условиям его обычной речевой практики, - так называемая концепция необременительного диалога -предложены и разработаны М.Г.Мальковским в С63. При этом очевидно, что для разработки перспективных ЕЯ-систем необходимо создание достаточно полных формализованных моделей ЕЯ, эффективная программная реализация разрабатываемых моделей.

В нашей стране комплексной программой лингвистических исследований, направленных на расширение используемых в информатике данных о русском языке, является программа создания Машинного фонда русского языка (МФРЯ) С7]. Идея создания фонда как технологической основы для разработки ЕЯ-систем нашла широчайший отклик как в лингвистической среде, так и в среде программистов и разработчиков ЭВМ. В нашей стране работы по созданию Ш?РЯ довольно активно начались с 1986г. Но в настоящее время, в связи с проблемой финансирования, эти работы практически приостановлены. Однако актуальность этой задачи с каждым днем возрастает. Разработка МФРЯ - гигантская проблема, объединяющая широкий спектр исследований, направленных на углубление и совершенствование данных о русском языке, на развитие средств автоматической обработки данных и общения с ЭВМ на русском языке. Она включает в себя следующие основные задачи:

1. Перевод академических словарей и грамматики в словар-но-грамматические банки данных.

2. Создание автоматически пополняемых словоуказателей и словарей на базе текстов деловых и разговорных стилей, текстов научно-технической литературы и документации.

3. Соединение в единый фонд данных об общеупотребительном русском языке и данных терминологических фондов.

4. Создание фондов лингвистических алгоритмов и программ, включая процессоры русского языка.

Программное обеспечение МФРЯ может быть разделено на два класса: программные комплексы, являющиеся функциональными моделями языковой деятельности человека и осуществляющие анализ и синтез естественно-языковых высказываний, и утилиты и программы различного назначения, свободно комбинируемые в целях формирования программных комплексов какого-либо специального назначения.

В фонде утилитных алгоритмов и программ следует отметить особо важную роль программ для ввода, редактирования, коррекции и издательской подготовки текстов. К ним относятся :

-текстовые редакторы - программы интерактивного ввода новых текстов в память ЭВМ, располагающие широким спектром средств для работы с текстом;

-текстовые автокорректоры ("спеллеры"), то есть программы автоматического обнаружения и исправления ошибок произвольного происхождения (наиболее продуктивным является сочетание автокорректоров с Ж, позволяющее обнаруживать синтаксические и стилистические ошибки);

-программы издательской подготовки, придающие тексту полиграфически законченную форму вне зависимости от типа устройства, выдающего текст на печать;

-программы синтеза готовых форм - средство подготовки анкет, отчетов, словарных статей и т.д.

Наибольшее распространение получили текстовые редакторы и автокорректоры. Создание автокорректоров сталкивается с рядом принципиальных и не решенных в полном объеме проблем - компактное хранение словарей, эффективные методы морфологического и синтаксического анализа и т.д. Тем не менее на очереди - создание систем, способных производить более сложное по сравнению с автокорректорами автоматическое или автоматизированное редактирование текстов на ЕЯ. В идеале же необходима система, выполняющая функции научного редактора - человека, осуществляющего литературную и научную правку научно-технических текстов. При этом очевидно, что подобные системы должны опираться на результаты'работы лингвистического процессора (ЛП). (Такое направление развития представляет разрабатываемая на кафедре алгоритмических языков факультета ВМиК МГУ под руководством профессора М.Г.Мальковского система ЛИНАР (литературно-НАучный Редактор) - интеллектуальная система комплексного контроля и редактирования русскоязычных текстов С83, в составе которой используется ЛП АДАМАНТ £63.) ЛП является, как правило, ядром практически любой ЕЯ-системы. Ведь именно он обеспечивает анализ фраз и получение их синтактико-семантического представления.

В настоящее время разрабатываются ЛП двух основных типов -интегрального и модульного [93. Модульный подход предполагает такое устройство системы, при котором каждому уровню лингвистического анализа соответствует отдельный компонент (модуль) системы: морфологический, синтаксический, семантический. Системы модульного типа допускают разные схемы взаимодействия модулей (последовательная работа, параллельный перемежающийся анализ) - это не меняет существа дела: синтаксис и семантика обрабатываются в системе разными механизмами. При этом синтаксический уровень представлен в системе в явном виде: он выделен в отдельный блок, преобразующий текст в его синтаксическое представление. Примером системы, проектируемой по модульному принципу, может служить , к примеру, система APT СЮ]. Разработка системы производится приблизительно в течение последних пяти лет в ИПМ им М.В.Келдыша и имеет целью построение экспериментального ЛП, выполняющего процедуры анализа текста в модульном варианте.

Адаптивный многоцелевой анализатор АДАМАНТ, разрабатываемый на факультете ВМиК МГУ под руководством М.Г.Мальковского Сб] и являющийся лингвистическим ядром трех систем - TULIPS-2 [63, ДИНАР С8], СИСФОРМ [11], также представляет модульную систему. АДАМАНТ имеет модули морфологического, синтаксического и семантического анализа, а также блок лингвистических метазнаний, позволяющих ЛП адаптироваться к незнакомым словам и конструкциям, а также выявлять ошибки во входном тексте. (Адаптивные возможности вообще являются очень сильной чертой рассматриваемой системы.) Характер взаимодействия модулей таков, что анализ конкретной фразы предполагает перемежающееся подключение морфологического, синтаксического и семантического анализаторов.

В системе САГА С93 ,в силу ориентации на широкую предметную область и разнообразные виды текстов (с самого начала САГА проектировалась как промышленно-ориентированная система для обработки текстов электротехнической тематики и других отраслей машиностроительного комплекса), разработчиками также принят модульный принцип построения системы. Каждый модуль стремится дать достаточно полное описание на соответствующем ему уровне лингвистического анализа.

Другая стратегия построения Ж реализована в системах интегрального анализа с линейно упорядоченной обработкой (то есть одноразовым проходом по тексту) С9]. Синтаксический и семантический анализаторы (а зачастую и анализатор прагматического уровня) слиты в единый блок. Система ориентируется сразу на формирование на основе текста достаточно богатых концептуальных структур, а не на постепенную "глубинизацию" понимания, как это имеет место в системах модульного типа. В системе интегрального типа не предусматривается формирование синтаксического представления входного текста. Синтаксическая информация используется фрагментарно и лишь как вспомогательная.

Одним из основополагающих понятий интегрального анализа являются понятия практической цели и интереса [12]. Именно практические цели, преследуемые при обработке текста, направляют использование всего комплекса знаний и позволяют выделить из текста ту информацию, которая представляется наиболее важной. Практические цели задают и ту шкалу, в соответствии с которой часть информации , содержащаяся в тексте, признается более важной, более интересной, а другая часть - менее интересной или несущественной вовсе. Очевидно, что анализатор, воплощающий принцип интереса, не должен затрачивать время на обработку " неинтересной" части текста. Поэтому идея интегральной обработки тесно связана с понятием переменной глубины анализа. Один из идеологов интегрального подхода - Р.Шенк ([133 с. 447) - так определяет это понятие: "Человек, понимающий тексты на естественном языке, руководствуется тем, что он хочет знать (а также тем, что он не хочет знать). Это позволяет ему не замечать всех неоднозначностей , проблем полисемии, бесчисленных импликаций, и других трудностей. Но то, что он теряет в плане совершенства достигаемого уровня понимания, он компенсирует скоростью и надежностью процесса обработки текста. Возможно настало время предоставить нашим машинам те же преимущества" .

Со стратегией линейно упорядоченного интегрального анализа связываются надежды на эффективные быстродействующие системы, обеспечивающие надежное глубокое понимание текста на ЕЯ. Пожалуй, с максимальной ясностью этот подход изложен в работах [13,14,15]. Концепция интегрального линейно упорядоченного анализа представляет собой скорее идеал модели понимания, сформировавшийся в рамках теоретических исследований по ИИ. Приближаются к идеалу проекты прикладных моделей, которые по условиям своего функционирования близки к моделям исследовательского характера. Имеется в виду предельно узкая ПО и соответственно узкий подъязык, для которых создаются такие системы. Например, анализатор Р.Шенка [13] - газетные заметки по терроризму, модель "Текст-Действительность" Г.С.Цейтина [14,16] - арифметические задачи на движение, МЭРФИ М.Селфриджа [17] предметный мир робота-манипулятора, программа APRIL [6,18] - арифметические задачи в словесной формулировке. В ПО, где содержание текста в целом ясно еще до начала его обработки (оно уляжется в одну из предусмотренных концептуальных схем, добавив к ней лишь уточняющую информацию) , нет необходимости тратить время на, например, полноценный синтаксический разбор. Соответственно синтаксический анализатор в таких системах (в той мере, в какой он может быть выделен) обычно достаточно прост и неполон.

Однако для систем, ПО которых достаточно широка, идея интегральной обработки пока в чистом виде использована быть не может: система не знает, какого рода информация поступает на вход. Для таких систем более эффективным в настоящее время следует признать модульный подход. Но это не означает, что идея интегрального подI хода не может быть применена к этим системам в ослабленном виде. В систему модульного типа могут быть внесены и вносятся элементы интегрального подхода. Например, система может допускать совмещение в одной структуре представления данных результатов работы процедур разных уровней (синтаксической и элементов семантической структур в системах АДАМАНТ [6,193, DB-DIALOG [91). В системе, сохраняющей принципиальное разделение разных уровней анализа, могут использоваться особые приемы взаимодействия модулей, нарушающие нормальную временную последовательность их работы (параллельный синтаксический и семантический анализ в системе ПОЭТ [20], логически перемежающийся анализ разных уровней в системе АДАМАНТ [61). Также в рамках одного модуля, осуществляющего анализ высказывания на определенном уровне, могут использоваться в редуцированном виде декларативные или процедурные знания более высокого уровня (например, использование семантических признаков в синтаксическом анализе - в системах АДАМАНТ [6], ПОЭТ [20], APT[10], использование редуцированных синтаксических процедур на этапе морфологического анализа - в системе САГА [9]).

Другая идея, связанная с построением "человекоподобных" систем - идея линейно упорядоченного анализа - также представляется привлекательной для систем модульного типа. Такой тип анализа лежит в основе алгоритмов Е.И.Анно [21]. Из числа зарубежных систем, использующих эту идею, можно указать, например, анализатор PARAGRAM [22].

Как видим, ЛП модульного типа, при всей его громоздкости, не является атрибутом систем старого поколения, коль скоро речь идет о системах, предназначенных для широкой ПО. Альтернативы процессору модульного типа в этой ситуации пока попросту нет. Остановимся более подробно на работе синтаксического этапа анализа в системах модульного типа, т.к. именно синтаксис занимает центральное место в грамматической системе языка. (Это определяется тем, что сфере синтаксиса специально принадлежат те языковые единицы, которые непосредственно служат для общения людей и непосредственно соотносят сообщаемое с реальной действительностью, включая сюда как внешнюю, так и внутреннюю, интеллектуальную и эмоциональную сферу жизни.)

В настоящее время существует много различных разработок синтаксических анализаторов (СА). Но практически все СА работают на "ограниченном" множестве русского языка [93. Ограничения на входной текст бывают очень разные. Например, самое общее ограничение большинства СА касается единиц синтаксического анализа: синтаксическое представление строится только для отдельного предложения. При этом в одних системах предложения рассматриваются изолированно друг от друга, а в других возможен локальный выход процедуры анализа за рамки одного предложения.

Практически все СА модульного типа имеют ограничения, связанные с невозможностью привлекать знания о внешнем мире.

К числу ограничений анализатора должны быть отнесены и такие, которые связаны с определенным уровнем развитости его лингвистической базы знаний. Однако в описаниях систем такие ограничения в лучшем случае указываются лишь частично. Насколько можно судить по описаниям систем, наиболее типичными являются ограничения, накладываемые на структуру анализируемого предложения. Ограничения этого рода в той или иной степени имеют практически все системы. К жестким ограничениям можно отнести, например, требования определенного порядка слов, которые используются в некоторых диалоговых робото-технических системах. Локальное ограничение на порядок следования элементов предложения использует система японско -английского машинного перевода ([231: если сохранён стандартный порядок следования элементов, то автоматически применяется трансформация поверхностной структуры глагола в глубинную). К ограничениям может приводить также отсутствие или редуцированность средств анализа связей между частями сложного предложения. Отсюда требование не более одного придаточного предложения в системе ПОЭТ [20], ограничения на количество запятых в САГА [9] (не анализируются в ней также предложения с двоеточием и некоторые типы предложений с тире), изолированный анализ частей сложного предложения в системе группы Г.Г.Белоногова [24], возможность фрагментарного анализа в системе АДАМАНТ [6]. Любопытно, что в системе APT, хотя и устанавливаются связи между частями сложного предложения любой структуры, но в некоторых случаях они носят условный характер: вершина придаточного предложения механически подчиняется вершине главного. Некоторые системы вводят ограничения на анализ вводных слов (например, ЯИП [25]), деепричастного или причастного оборотов (например, ПОЭТ [20]). Ряд систем использует ограничения, касающиеся однородных членов предложения (например, система ШП выдвигает ограничение на количество и состав однородных членов [25]). Также ЯИП накладывает серьезные ограничения на структуру простого предложения. В нем, например, может быть не более одного личного глагола. Не рассчитан данный алгоритм и на анализ предложения без глагола, поэтому предусмотрено в такие предложения искусственно добавлять глагол "быть". Большинство модулей синтаксического анализа исходит из предположения проективности поступившего на анализ предложения. Таковы СА в системах ЯИП, группы Г.Г.Белоногова. Алгоритм ЯИП исходит из предположения грамматической правильности предложения и проективности его структуры, однако не накладывает априорных ограничений, связанных с правильностью и проективностью. Результат анализа в случае неправильной или непроективной конструкции будет неверным. Многие системы вводят ограничение на использование в предложении формул. Также наиболее типичными являются ограничения, касающиеся длины анализируемого предложения, и ограничения, накладываемые на лексический состав предложения. Ограничения на длину связаны в основном с техническими аспектами реализации системы. Так, система РЕЗОН допускает не более 50 слов во фразе [263, ЭТАП-2 - не более 35 [273.

Ограничения же, накладываемые на лексический состав предложения, тоже достаточно разнообразны. В системе ПОЭТ [203, например, предусмотрены ограничения на использования отдельных глагольных форм: ПОЭТ допускает у глагола только форму изъявительного наклонения 3 лица. Система же РЕЗОН, например, имеет ограничение на количество омонимов (в том числе падежных омонимов) в предложении [263. Многие анализаторы могут работать только с известными системе словами (РЕЗОН [263, ЭТАП-2 [273, ПОЭТ [203). Для того же, чтобы СА мог работать на открытом словаре, необходим аппарат, позволяющий определять грамматические характеристики любого незнакомого слова. Такой аппарат предусмотрен в системах группы Г.Г.Белоногова [243, САГА [93, АДАМАНТ [63.

Также наиболее типичными ограничениями на входной текст синтаксических анализаторов являются ограничения, связанные с требованием правильности анализируемой цепочки словоформ. Большинство систем рассчитаны только на анализ грамматически, орографически и пунктуационно правильной цепочки словоформ, составляющей предложение. Такие же языковые явления, которые принято называть нег-рамматичностью (к неграмматичности высказывания могут приводить разнообразные орфографические искажения слов, ошибки в расстановке пробелов, ошибки при склонении и спряжении слов, несоблюдение чередований, нарушение правил согласования и управления, нарушение норм синтаксической и семантической сочетаемости слов, пунктуационные ошибки и т.п.) во многих системах не учитываются.

Конкретный анализатор может иметь все или некоторые из указанных ограничений. Однако практически во всех существующих в настоящее время СА не используются пунктуационные знания С9] (как правило, из-за отсутствия достаточно полного формализованного описания пунктуации). СА либо рассчитаны на анализ только пункту-ационно правильных цепочек словоформ, либо обнаруживают лишь некоторые типы ошибок, выявляемые обычно с помощью шаблонов на основе ключевых служебных слов [28]. Но пунктуационные ошибки в реальных предложениях русского языка довольно часты. Разделим их условно на две группы. Ошибки одной группы связаны с уровнем пунктуационной грамотности и появляются в основном в тех типах текстов русского языка, которые не проходят этап профессионального редактирования (например - реплики в диалоге пользователя с ЭВМ). Причиной ошибок другого рода является несовершенное владение навыками машинописи профессиональных машинисток и операторов, ответственных за ввод текстов в ЭВМ. В работе [29] для таких ошибок предложено название "типографские". При этом для русскоязычных машинисток и операторов более характерны " типографские" ошибки, т.е. ошибки, которые не могут быть исправлены и при условии предварительного редактирования вводимого текста. Однако система должна осуществлять полноценный синтаксический анализ поступающего на вход языкового материала, не накладывая при этом строгих ограничений, которые требуют обязательного предварительного редактирования вводимого текста. Поэтому актуальным является вопрос о разработке средств обнаружения и исправления таких ошибок.

Методы обнаружения и исправления орфографических ошибок в текстах широкой тематики базируются на представлении о тексте как о цепочке независимо появляющихся словоформ. Диагностика же и исправление синтаксических и пунктуационных ошибок предполагает взгляд на текст как на последовательность связанных единиц, комбинирование которых имеет свои закономерности. По свидетельству [301, подходы к автоматизации выявления и коррекции этих ошибок можно разбить на две группы: синтаксически ориентированные подходы и подходы, основанные на концептуальных фреймах.Последние больше пригодны для систем, работающих в строго ограниченной области. Для текстов широкой тематики предназначены синтаксически ориентированные подходы. Все они очень похожи. Синтаксический анализатор сначала пытается обработать поступившее на вход предложение средствами грамматики, рассчитанной на правильный ввод. Если это не удаётся, некоторые условия ослабляются. Какие грамматические правила смягчаются, зависит от учитываемых системой синтаксических и пунктуационных ошибок. Например, в русских текстах иногда оказывается пропущенной запятая, обособляющая причастный оборот в постпозиции. Для того, чтобы такое предложение могло быть обработано, требуется временная отмена условия обязательного наличия запятой, присутствующего в каноническом правиле.Эта стратегия имеет два существенных недостатка, которые сформулированы в статье [30]. Во -первых, ослабление грамматических правил "аналогично открыванию ящика Пандоры" и неизбежно влечет за собой возрастание числа возможных интерпретаций. Во-вторых, этот подход отличается " компьютерной неэффективностью" , так как анализатор не может опознать ошибочный ввод прежде, чем будет закончен анализ средствами канонической грамматики. В упомянутой статье предложен другой вариант синтаксически ориентированного подхода, лишенный, по-крайней мере, второго из указанных недостатков. Предлагается сначала использовать слабую грамматику, а затем подвергнуть обрабатываемое предложение фильтрации на основе строгих требований правильности. Специфика этого подхода, сужающая сферу его возможного применения, состоит в том, что наличие ошибки предполагается более вероятным, чем соблюдение норм грамматики. Поэтому такой вариант синтаксически ориентированного подхода может применяться разве что в системах обучения языку.

В заключении подчеркнем, что описанные методы позволяют автоматически обнаружить синтаксическую ошибку в предложении только тогда, когда анализатору не удается построить связный синтаксический граф для этого предложения. Однако ошибки, при которых возможно получение формально приемлемой, но по сути неверной интерпретации, остаются невыявленными. При этом никаких сообщений об ошибках не поступает. Учитывая же, что СА должен быть способен обрабатывать реальный текст, а не экспериментальный массив, то есть уметь анализировать текст с возможными, например, пунктуационными ошибками, которые в реальных предложениях ЕЯ достаточно часты, очевидно, что перспективные ЕЯ-системы должны быть оснащены полноценными моделями пунктуации и соответствующими программными средствами. Исследования, выполненные в предлагаемой работе, имеют целью формализавать описание системы пунктуационных правил и разработать программные средста, позволяющие решить проблему использования пунктуационных знаний синтаксическим анализатором в составе ЕЯ-систем различного назначения.

В диссертации предлагается новая методика построения формализованной модели системы пунктуационных правил. На основе данной методики строится (и описывается) достаточно полная (полнота понимается как с точки зрения объема учитываемых языковых явлений, так и с точки зрения лингвистической обоснованности) модель пунктуации русского языка. Разработка модели в рамках задачи создания адаптивных ЕЯ-систем позволяет естественным образом учитывать высокую вариативность пунктуации - факт, существенно ограничивающий возможности традиционного (неадаптивного) подхода. Построенная модель используется для создания пунктуационного компонента СА, способного адаптироваться к особенностям употребления знаков препинания в анализируемых текстах различной функционально-стилевой принадлежности. Полученный пунктуационный компонент позволяет снять ограничение обязательной пунктуационной правильности предложения при его синтаксическом анализе и избежать, по-возможности, получения неверной его интерпретации при наличии в нем пунктуационных ошибок. Причем предлагаемый компонент может работать как в составе СА, так и в качестве "препроцессора" пунктуационного контроля и коррекции русскоязычных текстов. Для реализации указанного компонента разработаны новые адаптивные алгоритмы пунктуационного контроля текста. Принципиально важным моментом является также сочетание полноты лингвистического обеспечения с полнотой программной реализации.

Таким образом, основная цель работы состоит в разработке целостного подхода к решению проблемы использования пунктуационных знаний синтаксическим анализатором в составе различных ЕЯ-систем. Решение данной задачи предполагает:

- разработку для ЕЯ-систем методики построения формализованной модели системы пунктуационных правил;

- разработку алгоритмов, осуществляющих выявление и коррекцию пунктуационных ошибок в анализируемых текстах;

- проверку предложенного подхода путем построения открытой (т.е. предусматривающей возможность ее пополнения и коррекции) модели пунктуации русского языка, а также создание на ее основе программно реализованного пунктуационного компонента СА для адаптивных ЕЯ-систем различного назначения.

В первой главе описывается методика построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам, рассматривается построенная на основе этой методики модель пунктуации русского языка, приводятся необходимые для данного исследования сведения о русской пунктуации.

Во второй главе рассматривается разработанный и программно реализованный на основе полной открытой модели пунктуации русского языка пунктуационный компонент СА русскоязычных текстов (СПК), описываются алгоритмы пунктуационного контроля текста.

В третьей главе рассматривается необходимость и способы адаптации пунктуационного компонента к незнакомым ему пунктуационным ситуациям и индивидуальным особенностям автора текста в употреблении знаков препинания, описываются пунктуационные метазнания и алгоритмы, осуществляющие адаптивные возможности СПК.

В четвертой главе описываются модельные версии прикладных систем, разработанных на основе предлагаемого пунктуационного компонента.

В заключении сформулированы основные результаты работы и указаны возможности их практического применения.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Полякова, И. Н.

- 118 -ЗАКЛЮЧЕНИЕ

Предложенная работа является одним из этапов решения сложной и актуальной проблемы создания программных средств, обеспечивающих общение человека с ЭВМ на естественном языке. Выполненные исследования имеют целью формализавать описание системы пунктуационных правил и разработать программные средста, позволяющие решить проблему использования пунктуационных знаний синтаксическим анализатором в составе ЕЯ-систем различного назначения.

Получены следующие основные результаты:

1. Для адаптивных систем общения человека с ЭВМ на естественном языке разработана методика построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам.

2. На основе предложенной методики построена модель пунктуации русского языка и лингвистическая база данных, описывающая систему правил русской пунктуации.

3. Разработан и программно реализован пунктуационный компонент синтаксического анализатора, способный адаптироваться к особенностям употребления знаков препинания в обрабатываемых,, текстах.

4. Предложены схемы использования разработанного пунктуационного компонента в составе прикладных систем:

- контроля синтаксической структуры текста;

- обучения языку.

Реализованы модельные версии соответствующих систем.

Все перечисленные результаты являются новыми и имеют как теоретическое, так и прикладное значение. Достоверность результатов подтверждается использованием построенной пунктуационной модели и разработанного пунктуационного компонента в конкретных программных средствах (СИПКО, система обучения пунктуации русского языка) , а также в составе адаптивных ЕЯ-систем различного назначения (АДАМАНТ, ЛИНАР и др.).

Проведенные исследования показали также возможность применения предлагаемой в диссертации методики построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам к описанию пунктуации различных ЕЯ, имеющих свои особенности и характерные черты. Так, на основе предложенной методики описаны модели пунктуации не только русского, но и английского языков.

Согласно разработанной в диссертации методике построены модель пунктуации русского языка и лингвистическая база данных, описывающая систему правил русской пунктуации. Предлагаемый в работе пунктуационный компонент СА, созданный на их основе, используется на кафедре алгоритмических языков факультета ВМиК МГУ в составе СА ЛП АДАМАНТ и интеллектуальной системы комплексного контроля и редактирования русскоязычных текстов ЛИНАР, а также в Институте системного анализа РАН. На базе полученного компонента разработаны и программно реализованы модельные версии (исследовательские прототипы) некоторых прикладных систем - система, обучающая пунктуации русского языка, и адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов.

Результаты диссертации могут быть использованы при разработке ЕЯ-систем различного назначения, в которых необходимы пунктуационные знания о языке - систем автоматизированного обучения, автоматического перевода, автоматизации лингвистических исследований и редакционно-издательской деятельности, определения авторства текста (путем выявления характерных пунктуационных ошибок автора), распознавания звучащей речи.

Автор выражает искреннюю благодарность за общее руководство, полезные советы и внимание к работе своим научным руководителям профессору Михаилу Георгиевичу Мальковскому и Ирине Анатольевне Волковой.

Список литературы диссертационного исследования кандидат физико-математических наук Полякова, И. Н., 1994 год

1. Виноград Т. Работа с естественными языками. // Современный компьютер. Сборник научно-популярных статей. - М.: Мир, 1986. - С. 90-107.

2. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.

3. Дж. Слокум. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. /У НВЗЛ. Вып. XXIV. М.: Прогресс, 1989. - С. 357-406.

4. Попов Э.В. Система взаимодействия с ЭВМ на ограниченном русском языке. // Программирование, 1978, «4. С. 66-76.

5. Микулич Л.И., Червоненкис А.Я. Специализированная диалоговая система. // Вопросы разработки прикладных систем. Новосибирск: ВЦ СО АН СССР, 1979. - С. 111-129.

6. Мальковский М.Г. Программно-информационное обеспечение адаптивных систем общения с ЭВМ на естественном языке:

7. Дисс. . докт. физ.-мат. наук М. ,1990.

8. Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986.

9. Мальковский М.Г., Большакова Е.И., Волкова И.А. и др. Эксперименты с системой ЛИНАР. // Труды машинного фонда русского языка. Т. 1. М.: ИРЯ АН СССР, 1991. - С. 51-71.

10. Карпова Д.Г., Пирогова Ю.К., Кобзарева Т.Ю., Миказлян Е.В. Компьютерный синтаксический анализ: описание моделей и направлений разработок. // Итоги науки и техники, сер. Вычислительные науки. Т. 6. М.: ВИНИТИ, 1991.

11. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. М.: ИПМ АН СССР, препринт #205, 1987.

12. Лукашевич Н.В. Автоматизированное формирование проблемно-ориентированных баз знаний для систем общения с ЭВМ на естественном языке: Дисс. . канд. физ.-мат. наук М., 1989.

13. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. // НВЗЛ. Вып. XXIV. М.: Прогресс,1989. С. 5-31.

14. Шенк Р., Бирнбаум Л. и др. Интегральная понимающая система. // НВЗЛ. Вып. XII. М.: Радуга, 1983. - С. 401-449.

15. Цейтин Г.С. О соотношении естественного языка и формальной модели. // Вопросы кибернетики. М.: АН СССР,1982. С. 28-34.

16. Моделирование языковой деятельности в интеллектуальных системах. М.: Наука, 1987.

17. Железняков М.М., Невлева Т.Н., Новицкая И.М. и др. Опыт построения модели типа "Текст Действительность" с использованием ассоциативных сетей. // Машинный фонд русского языка: Предпроектные исследования. - М.: ИРЯ АН СССР,1988. С. 140-167.

18. Селфридж М. Интегральная обработка обеспечивает надежное понимание. // НВЗЛ. Вып. XXIV. М.: Прогресс,1989. С. 161-208.

19. Мальковский М.Г. Программа APRIL, решающая арифметические задачи в словесной формулировке. // Алгоритмы и алгоритмические языки, вып.6. М.: ВЦ АН СССР,1973. С. 113-159.

20. Волкова И.А., Мальковский М.Г. Лингвистический процессор АДАМАНТ: синтаксический компонент. // III Всес. конф. по созданию Машинного фонда русского языка. / Тезисы докладов.

21. Ч. 1. М.: ИРЯ АН СССР, 1989. - С. 143-146.

22. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.

23. Анно Е.И. К типологии алгоритмов синтаксического анализа (для формальных моделей естественного языка). // НТИ. Сер.2, 1980, «3. С. 15-22.

24. Hirst G, Semantic interpretation and the resolution of ambiquiti. Cambridge Un.Press. - 1987.

25. NagaoM., Tsujii J., Mitamura K, Hirakawa N., Kume M. A machine translation system from Japanese into English another perspective of system. //1. COLING 80. P. 414-424.

26. Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации: Лингвистические аспекты. // Итоги науки и техники. сер. Информатика. Т.8. М.: ВИНИТИ, 1984.

27. Каалеп Х.-Я. Синтаксический анализатор естественного языка в ЯИП (языковой интерфейс для ПРИЗ). // Машинный фонд русского языка. / Тезисы конференции. 4.1. М.: ИРЯ АН СССР,1989. С. 157-160.

28. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

29. Харин Н.П. Автоматическое восстановление пропущенных запятых на основе служебных слов. // НТИ, сер.2, 1992 ,#7. С. 26-28.

30. Emirkanian L.5 Bouchard L. Knowledge integration in a rolust and efficient morphosyntactic analyzer for French. // COLING 88. 1. - P. 166-171.

31. Kudo I., KoshinoH., Chung M., Morimoto T. Schema method: A framework for correcting grammatically ill-formed input. // COLING 88. 1. - P. 407-412.

32. Розенталь Д.Э. Пунктуация и управление в русском языке. М.: Книга, 1988.

33. Былинский К.И., Розенталь Д.Э. Трудные случаи пунктуации. М.: Искусство, 1961.

34. Былинский К.И., Никольский Н.Н. Справочник по орфографии и пунктуации для работников печати. М.: Искусство, 1957.

35. Дудников А.В. Пунктуация сложного предложения. М.: Учпедгиз, 1958.

36. Голуб И.В., Розенталь Д.Э. Секреты хорошей речи. М.: Международные отношения, 1993.

37. Правила русской орфографии и пунктуации. М.: Учпедгиз, 1956.

38. Грот Я.К. Русское правописание. Спб., 1886.

39. Валгина Н.С. Русская пунктуация: принципы и назначение. М.: Просвещение, 1979.

40. Шапиро А.Б. Современный русский язык. Пунктуация. М.: Просвещение, 1966.

41. Иванова В.Ф. История и принципы русской пунктуации. Л.: ЛГУ, 1962.

42. Ломоносов М.В. Полное собрание сочинений. Т. VII. "Труды по филологии". М.: АН СССР, 1952.

43. Грот Я. К. Спорные вопросы русского правописаеия от Петра Великого доныне. Филологические разыскания. 4.2. Спб., 1899.

44. Пешковский A.M. Школьная и научная грамматика. М., 1918.

45. Крючков С.Е., Максимов Л.Ю. Современный русский язык. Синтаксис сложного предложения. М.: Просвещение, 1969.

46. Ломизов А.Ф. Обучение пунктуации в средней школе (Проблемы методики). М.: Педагогика, 1975.

47. Шварцкопф Б.С. Современная русская пунктуация : система и ее функционирование: Автореф. дисс. . докт. филол. наук М., 1988.

48. Шапиро А.Б. Основы русской пунктуации. М.: АН СССР, 1955.

49. Былинский К.И., Жилин А.Н. Справочная книга корректора. М.: Искусство, 1960.

50. Розенталь Д.Э. Справочник по правописанию и литературной правке. М.: Книга, 1989.

51. Розенталь Д.Э. Вопросы русского правописания. Практическое руководство. М.: МГУ, 1962.

52. Грамматика русского языка. Т. 2, 4.2. М.: АН СССР, 1954.

53. Ицкович В.А. Опыт описания современной пунктуации. // Нерешенные вопрсы русского правописания. М.: Наука, 1974.

54. Ломизов А.Ф. Методика пунктуации в связи с изучением синтаксиса. М.: Учпедгиз, 1959.

55. Беляева М.А. Грамматика английского языка. М.: Высшая школа, 1984.

56. Берман И.М. Грамматика английского языка. М.: Высшая школа, 1994.

57. Качалова К.Н., Израилевич Е.Е. Практическая грамматика английского языка. М.: Внешторгиздат, 1959.

58. Воронин М.Т. Употребление запятой в предложениях с союзом И (основные случаи). М.: АПН РСФСР, i960.

59. Шварцкопф Б.С. О факультативных случаях употребления кавычек. // Нерешенные вопросы русского правописания. М.: Наука, 1974.

60. Современный русский язык. В 3-х частях. Ч. 2. Словообразование. Морфология. - М.: Просвещение, 1987.

61. Современный русский язык. / Под ред. Д.Э.Розенталя. 4.2. -Синтаксис. М.: Высшая школа, 1976.

62. Пехливанова К.И., Лебедева М.Н. Грамматика русского языка в иллюстрациях (для иностранцев, изучающих русский язык). М.: Русский язык, 1991.

63. Шанский Н.М. и др. Фразеологические обороты русского языка. -М.: Русский язык, 1988.

64. Фразеологический словарь русского языка. / Под ред. А.И.Молот-кова. М.: Русский язык, 1986.

65. Ефимов А.И. Стилистика художественной речи. М.: МГУ, 1957.

66. Современная русская пунктуация. М.: Наука, 1979.

67. Костяева Т.А., Чуриков Г.М. Сборник диктантов по пунктуации для 8-9 классов. М.: Просвещение, 1989.

68. Федоренко Л.П., Лотарев В.К. Практикум по орфографии и пунктуации. М.: Просвещение, 1979.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.