Программно-информационное обеспечение многоязыковой генерации текстов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Болдасов, Михаил Викторович

  • Болдасов, Михаил Викторович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2004, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 223
Болдасов, Михаил Викторович. Программно-информационное обеспечение многоязыковой генерации текстов: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2004. 223 с.

Оглавление диссертации кандидат физико-математических наук Болдасов, Михаил Викторович

Введение.

1. Основы построения систем ЕЯГ.

1.1. Системы ЕЯГ и лингвистически мотивированный подход.

1.2. Подходы к построению систем ЕЯГ.

1.2.1. Входное представление для систем ЕЯГ.

1.2.2. Системы МЯГ.

1.2.3. Модульность и конвейерность схемы генерации систем ЕЯГ.

1.3. Архитектура систем ЕЯГ.

1.3.1. Вычислительные методы реализации этапов генерации.

1.3.2. Промежуточные представления в процессе генерации.

1.3.3. Этап макропланирования.

1.3.3.1. Определение содержания.

1.3.3.2. Структурирование содержания: Теория предикативных схем.

1.3.3.3. Структурирование содержания: Теория риторических структур.

1.3.4. Этап микропланирования.

1.3.4.1. Агрегация.

1.3.4.2. Лексикализация.

1.3.4.3. Вставка ссылочных конструкций.

1.3.5. Этап языкового оформления.

1.3.5.1. Грамматики SFG.

1.3.5.2. Грамматики TAG.

1.3.5.3. Грамматики Смысл-Текст.

1.3.5.4. Двунаправленные грамматики.

1.3.6. Этап физического представления.

1.4. Нерешенные вопросы в построении систем ЕЯГ и выводы для данной работы.

2. Грамматика русского языка в системе KPML.

2.1. Системно-функциональная теория.

2.2. Среда KPML.

2.2.1. Системы.

2.2.2. Входное представление SPL.

2.2.3. Модуль выбора системы.

2.2.4. Модуль Inquiry.

2.2.5. Морфологический блок.

2.3. Лексико-грамматический ресурс русского языка.

2.3.1. Реализация в ресурсе русской грамматики согласования.

2.4. Система AGILE.

2.4.1. Входное представление дескриптивной логики. Т-Вох и А-Вох.

2.4.2. Жанры текстов инструкций системы AGILE.

2.4.3. Реализация стадии языкового оформления.

2.4.4. Выводы из опыта участия в проекте AGILE.

3. Среда поддержки разработки и эксплуатации генераторов DEMLinG и генератор QGen.

3.1. Назначение и состав предлагаемых инструментальных средств.

3.1.1. Обрабатываемые данные.

3.1.1.1. Понятие роли в обрабатываемых данных.

3.1.1.2. Свойства.

3.1.1.3. Описание обрабатываемых данных на языке XML.

3.1.2. Ресурсы.

3.1.2.1. Ресурс сценария.

3.1.2.2. Ресурс планирования.

3.1.2.3. Ресурс грамматического оформления.

3.1.2.4. Ресурс лексического выбора.

3.1.3. Реализация инструментальных средств в системе DEMLinG.

3.1.3.1. Модуль морфологического оформления, интегрируемый в систему

DEMLinG.

3.2. Архитектура генераторов в системе DEMLinG.

3.2.1. Генератор QGen.

3.2.2. Модель генерации в системе QGen.

3.2.2.1. Макропланирование.

3.2.2.2. Микропланировапие. Переход к грамматическому представлению

3.2.2.3. Языковое оформление.

3.2.2.4. Этап морфологического оформления.

3.2.3. Особенности предложенной схемы генерации.

3.2.4. Технология создания генераторов QGen в среде DEMLinG.

3.3. Оценка полученного результата.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Программно-информационное обеспечение многоязыковой генерации текстов»

Язык лежит в основе человеческой деятельности. Языковую деятельность человека можно поделить на две составляющие: понимание языка и составление высказываний на языке, исходя из целей говорящего. Отсюда две важнейшие задачи, решаемые при компьютерной обработке текстов: аиализ и синтез (генерация) текстов на Естественном Языке (ЕЯ).

Естествешю-языковая Генерация (ЕЯГ) занимается проблемой автоматического порождения текстов на ЕЯ из внутреннего представления информации в компьютере, представленного в формальном виде. Цель исследований в области ЕЯГ - создание интеллектуальных компьютерных систем, которые бы могли производить понятные для человека тексты на различных ЕЯ. Входным представлением таких систем могут быть, например, таблицы БД, формальные спецификации программ, метеорологические карты. Создаваемые системами ЕЯГ тексты - это обычно типовые документы, такие как отчеты, разъяснения и справочная информация.

Данная работа посвящена проблеме создания эффективных методов и алгоритмов автоматической генерации текстов па естественном языке и реализации на их основе программно-информационного обеспечения, поддерживающего как собственно генерацию текстов, так и процесс разработки и сопровождения многоязыковых генераторов.

Тема работы актуальна. На современном этапе развития компьютерной индустрии роль естественно-языковых технологий выдвигается на первый план. Значительно возросла потребность пользователей программного обеспечения в представлении информации в текстовом виде. В связи с этим задача создания программных систем ЕЯГ приобретает особое значение. На сегодняшний момент системы ЕЯГ успешно применяются в таких задачах, как:

Генерация текстовых прогнозов погоды из графических представлений на погодных картах [Goldberg et al. 1994];

Отчеты по статистическим данным, полученным из БД или крупномасштабных таблиц [Iordanskaia et al. 1992];

Интерпретация медицинской информации в понятной для пациентов форме [Buchman et al. 1995; Cawsey et al. 1995]

Описание цепочки принятых решений при работе экспертной системы [Swartout 1983];

Подготовка ответов на вопросы об объектной Базы Знаний (БЗ) [Reiter et al. 1995].

Представленный список задач ни в коей мере нельзя считать полным; в исследовательской литературе описывается также множество других приложений.

В условиях расширения международных связей все большое внимание уделяется сейчас исследованиям, связанным с многоязыковой генерацией (МЯГ) [Соколова, Шаров 1998], позволяющей создавать тексты на нескольких языках на основе представления информации, единого для всех этих языков. Первая коммерческая система МЯГ появилась только в начале 90'х годов XX века в Канаде. Она была предназначена для генерации морских сводок погоды на английском и французском языках. Наиболее типичными системами МЯГ являются:

Средства, помогающие представителям службы сервиса составлять письма своим клиентам [Springeret al. 1991; Coch 1996];

Средства, помогающие инженерам создавать описания к своим чертежам [McKeown et al. 1994]

Средства, помогающие служащим отдела кадров составлять описания вакансий [Caldwell and Korelsky 1994];

Средства, помогающие техническим писателям составлять инструкции по пользованию программным продуктом [Paris et al. 1995] [Kruijff et al. 2000].

Естественный язык трудно поддается формализации. Для создания генератора, работающего даже в относительно узкой Предметной Области (ПО), требуется привлечение больших массивов знаний о языке, на котором синтезируется результирующий текст. Поэтому наиболее актуальным представляется решение следующих задач:

• формализация предметных знаний о языке, создание массивов языковых ресурсов;

• создание программных средств разработки и эксплуатации таких ресурсов. Поставленные проблемы решены не в полной мере. В настоящее время они привлекают внимание многих исследователей. Решению этих проблем и посвящена данная диссертация.

Основной целью представленной диссертационной работы является создание программно-информационного обеспечения, состоящего из: информационного компонента, представленного грамматиками, словарями и другими языковыми ресурсами; программной составляющей - набора инструментальных средств, поддерживающих разработку и эксплуатацию систем ЕЯГ.

Традиционно процесс генерации разделяется на два этапа: этап планирования и этап языкового оформления. На этапе планирования выбирается последовательность изложения в создаваемом тексте и определяются структуры образующих его предложений. На этапе языкового оформления решаются задачи согласования и упорядочения слов в построенных планах предложений.

Теоретическая база для этапа языкового оформления, хорошо проработана лингвистами. К настоящему времени существует ряд лингвистических теорий, и реализующих их систем. Наиболее популярная и хорошо проработанная среди них -это теория системно-функциональной лингвистики и реализующая ее система KPML [Bateman 1996]. В рамках созданных систем разработаны грамматические ресурсы для отдельных языков. Для русского языка таких ресурсов разработано не было. Поэтому первый рассматриваемый в данной диссертации вопрос - это вопрос создания грамматического ресурса русского языка.

Грамматический ресурс русского языка был создан в рамках системы KPML. Ресурс в совокупности с системой KPML образует законченный модуль, полностью реализующий этап Языкового оформления текста. На входе этот модуль получает описание предложения на языке SPL. План предложения, записанный на этом языке, определяет отдельные слова предложения и семантические (т.е. смысловые) связи между ними. На выходе из этого модуля создаются предложения на ЕЯ. Ресурс системы KPML состоит из двух частей: грамматического компонента (сети грамматики) и лексического компонента (словаря).

Ресурс русского языка создавался в рамках европейского проекта AGILE вместе с грамматиками чешского и болгарского языков корпусным методом в расчете на задачу описания текстов руководств по программному обеспечению для пользователей. Созданный в рамках данной работы фрагмент грамматики русского языка полностью реализует грамматические явления, обнаруженные в специально созданном для проекта AGILE корпусе текстов инструкций по использованию инструментальной компьютерной системой Автокад [Zirbel and Combs 1996]. При создании этого фрагмента были смоделированы такие языковые явления, как глагольные характеристики переходности, вида, наклонения и модальности, а также согласование, порядок слов в предложении, конъюнкция, языковое оформление квантитативных конструкций, явления пропуска подлежащего в предложении, языковое оформление сложных предложений.

Этап планирования текста в существующих системах, разработанных другими авторами, проработан значительно слабее. Для этого этапа еще не было реализовано ни ресурсов генерации, пи инструментальных средств, поддерживающих разработку и эксплуатацию соответствующего модуля системы. В диссертации предлагается набор программных средств, поддерживающих создание обоих модулей системы генерации. Предлагаемые инструментальные средства состоят из интерпретаторов и отладчиков языков описания действий процесса генерации, средств координации взаимодействия различных модулей ЕЯГ. Модули генерации могут быть созданы в рамках предлагаемых инструментальных средств или же интегрированы с помощью СОМ-интерфейса. Для выделения языков, необходимых для описания процесса генерации, было проведено исследование архитектур существующих генераторов текстов на ЕЯ, в результате чего были выделены три основных вида деятельности и, соответственно, три языка описания процесса генерации:

Вид деятельности Язык описания процесса генерации

Структурные преобразования данных - язык планирования

Выбор слов в предложениях создаваемого текста - язык лексического выбора

Согласование и упорядочение слов в предложении - язык грамматического оформления

Предлагаемые инструментальные средства реализованы в единой среде разработки и эксплуатации генераторов текстов на ЕЯ. Эта среда была названа DEMLinG (Development Environment for MultiLingual Generators).

Виртуальная машина системы DEMIinG включает в себя интерпретаторы и отладчики языков планирования, лексического выбора, грамматического оформления и сценария. Виртуальная машина предусматривает также возможное подключение к ней через СОМ-интерфейс модулей генерации, реализованных в других системах (например, модуля языкового оформления, реализованного в системе KPML, или модуля морфологического оформления, реализованного фирмой Dialing).

Кроме определения средств описания процесса генерации, очень важен вопрос архитектуры генераторов, создаваемых в системе DEMLinG. Архитектура системы ЕЯГ описывается схемой генерации, настроенной на особенности решения прикладных задач. Она определяет, как создавать новый генератор в предлагаемых инструментальных средствах, какие задачи и в какой последовательности должны решаться в процессе генерации, и какие языки должны использоваться для описания действий, проводимых для решения поставленных задач. В диссертации предлагаются как модель организации генераторов с использованием системы KPML в качестве модуля языкового оформления для решения задач разработки сложных генераторов, так и модель без использования системы KPML для решения задач, где необходима высокая скорость работы генератора и не требуется полного описания ЕЯ. Использование предлагаемых схем генерации предоставляет пользователю системы DEMLinG эффективную технологию разработки систем ЕЯГ.

Поэтому в диссертации предлагаются как модель организации генераторов с использованием системы KPML в качестве модуля языкового оформления для решения задач разработки сложных генераторов, так и модель без использования системы KPML для решения задач, где необходима высокая скорость работы генератора и не требуется полного описания ЕЯ.

Практическая значимость. Разработка реальных приложений, созданных в рамках предложенных инструментальных средств является одним из критериев их возможностей и зрелости. Мощность предлагаемых компонентов инструментальной базы и возможность их использования в реальных задачах подтверждена экспериментально путем построения опытных генераторов в каждом из созданных средств.

Грамматический ресурс русского языка успешно использован при разработке системы AGILE [Kruijff et al. 2000] - генератора в помощь техническому писателю для создания руководств для программного обеспечения AutoCAD на болгарском, чешском и русском языках. Автор принимал активное участие в разработке планирующего ресурса и в адаптации используемого грамматического ресурса к создаваемому генератору. Проведенный эксперимент показал эффективность использования построенной грамматики русского языка в проектах по созданию сложных ЕЯ-генераторов.

Генератор QGen (Query Generator) решает задачу представления SQL запроса к БД на ЕЯ для ЕЯ-интерфейсов InBASE [Жигалов и Соколова 2001], которые позволяют обращаться к реляционным базам данных на ЕЯ. Особенности решаемой задачи требуют от генератора небольших размеров и высокой скорости работы. Поэтому было решено реализовывать отдельные генераторы для каждой конкретной БД, с которой работает система 1пВА5Е. К настоящему моменту система ЕЯГ (^Осп поддерживает два языка генерации (русский и английский) и две базы данных: опытную базу, описывающую кадры предприятия, созданную в качестве примера применения системы ¡пВАБЕ, и базу данных сети автомобильных магазинов, интерфейс для которой разрабатывается сейчас для одного из интернет-магазинов. Генератор строился по заказу РосПИИ ИИ для его интеграции в систему ¡пВАБЕ [Жигалов и Соколова 2001].

Новизна данной диссертационной работы состоит в том, что:

1. На основе анализа современных систем генерации в работе сформулирован новый подход к созданию адаптивных многоязыковых систем генерации, работающих в ограниченных предметных областях. Стержнем этого подхода является предлагаемая модель генерации, подкрепленная тремя разработанными языками описания действий, проводимых системой ЕЯГ в рамках предложенной модели. Предлагаемые языки описывают три основных вида деятельности систем ЕЯГ: структурные преобразования данных, лексический выбор и языковое оформление (согласование и упорядочение слов в предложении). Процесс генерации может быть полностью описан на этих языках с помощью наборов продукционных правил в виде однонаправленного конвейера трансформаций входного представления данных. На основе предложенного подхода была реализована инструментальная среда РЕМЬтв, поддерживающая разработку и эксплуатацию генераторов текстов на ЕЯ.

2. Смоделирован и реализован представительный фрагмент формального грамматического описания русского языка, базирующийся на основных концепциях системно-функциональной теории. Созданный ресурс может быть использован в предлагаемой среде РЕМЬтв с помощью реализованных в ней средств интеграции, как готовый модуль языкового оформления для создаваемых в рамках этой системы генераторов.

Диссертация состоит из трех глав, заключения, списка литературы, включающего 134 названия, и девятнадцати приложений. В первой главе анализируется состояние дел в области построения систем ЕЯГ и приводится обзор наиболее значительных работ в этой области. В конце главы выделяются актуальные задачи, которые решались в дайной работе, и определяются основные методики их решения.

Во второй главе рассматривается задача наполнения системы языкового оформления KPML знаниями по русскому языку. Здесь также приведен обзор системы KPML, и общее описание системы AGILE, в которой использовались созданные ресурсы. В конце главы приведены выводы по использовании системы KPML и разработанного грамматического ресурса.

Третья глава посвящена описанию созданных в рамках данной работы инструментальных средств поддержки разработки и эксплуатации систем ЕЯГ. В начале главы обсуждается состав и основные принципы организации предлагаемых инструментальных средств. Затем рассматривается способ их реализации в среде DEMLinG. Далее рассматриваются две альтернативные схемы генерации, разработанные для реализации в генераторах, создаваемых в рамках этой среды. Подробно обсуждается одна из предложенных схем на примере разработанного в системе DEMLinG генератора QGen. В конце главы приведены выводы об особенностях предложенной схемы генерации и дается оценка полученного результата.

В заключении кратко сформулированы основные теоретические и практические результаты работы. Приведены сведения об апробации и публикациях, в которых отражены основные результаты диссертации.

В приложениях приводятся:

Классификация свойств в системе DEMLinG и описание особенностей каждой группы

Описание синтаксиса ресурса сценария системы DEMLinG.

Описание языка задания ресурса планирования системы DEMLinG.

Описание операций образцов в ресурсе планирования системы DEMLinG

Описание языка описания ресурса грамматического оформления системы DEMLinG.

Описание операций образцов в ресурсе грамматического оформления системы DEMLinG

Описание языка задания словарного ресурса системы DEMLinG.

Описание операций образцов словарного ресурса системы DEMLinG

Описание способа подключения внешнего модуля морфологического оформления к системе DEMLinG.

Спецификация базового СОМ-иптерфейса для наследования интерфейсов морфологических модулей системы DEMLinG

Описание объектной модели виртуальной машины системы DEMLinG

Спецификация СОМ-интерфейса виртуальной машины системы DEMLinG для ее интеграции в другие приложения.

Описание среды разработки ресурсов генерации DEMLinG Development Environment.

Описание предметных групп, используемых в генераторе QGen.

Примеры правил этапа оптимизации в генераторе QGen. * Описание лексического ресурса генератора QGen

Сеть применения каскадных шаблонов для построения грамматической структуры из предметного представления OQL для генератора QGen. Сети NP- и VP-грамматик.

Описание синтагм, реализованных в генераторе QGen

Примеры правилэтапа структурного форматирования в генераторе QGen.

В заключение выражаю глубокую благодарность научному руководителю проф. М.Г. Мальковскому за постановку задачи, постоянную помощь и полезные обсуждения результатов. Значительную помощь в работе над лингвистическими основами применяемого в системе DEMLinG подхода оказала к.ф.н. Е.Г. Соколова. Выражаю ей большую благодарность за полезные консультации в лингвистической стороне вопроса разработки генераторов AGILE и QGen. Также большая благодарность за постановку практической задачи создания ЕЯ генератора QGen директору РосНИИ ИИ к.ф-м.н. A.C. Нарипьяни, руководителю проекта InBASE к.т.н. В.А. Жигалову и руководителю российской части проекта AGILE к.ф-м.н. С.А. Шарову.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Болдасов, Михаил Викторович

Основные результаты диссертации были опубликованы в девяти научных статьях [Соколова, Болдасов 2000; Boldasov et al. 2002; Соколова, Болдасов 2002; Boldasov, Sokolova, Malkovsky 2002; Болдасов 2002a; Болдасов 2002b; Boldasov, Sokolova 2003a; Болдасов 2003; Boldasov, Sokolova 2003b]. Сделано более десяти докладов на международных конференциях ДИАЛОГ2000 (Россия), ДИАЛОГ'2002 (Россия), TSD 2002 (Чехия), "Искусственный Интеллект 2002" (Украина), ДИАЛОГ2003 (Россия), MLMTA-03 (США), на семинаре Lecture Series 18 лингвистического центра Vilem Mathesius (Карлов Университет, Прага, Чехия) и научных семинарах в МГУ, ИСП РАН, ИСА РАН, РОС НИИ ИИ.

Заключение

К основным результатам диссертации можно отнести следующее:

• Разработаны методы и алгоритмы генерации текстов естественного языка на основе XML-представления информации. Предложенные методы ориентированы на создание систем генерации текстов, настраиваемых на конкретные предметные области.

• Построено формальное описание грамматики и лексики русского языка для реализации "информационных ресурсов" в системах генерации текстов.

• Создана инструментальная программная среда для разработки и эксплуатации систем многоязыковой генерации.

Разработанная инструментальная среда использовалось при реализации npoeicra InBASE (создание естественно-языкового интерфейса баз данных) для генерации текстов естественноязыкового представления SQL запросов к базам данных на русском и английском языках.

Объем реализации созданного лингвистического ресурса может быть оценен следующими цифрами: грамматическая компонента этого ресурса описана 2245 правилами (макросами языка Лисп), лексическая компонента состоит из 485 правил. Ресурс разрабатывался в рамках международного проекта AGILE (проект № PL961004) по программе INCO-COPERNICUS, и был успешно сдан комиссии этой программы.

Объем кода системы DEMLinG составил 10558 строк. Объем реализации ресурсов систем генерации, разработанных в рамках данной системы, составил 508 правил. Из них 303 правила словарных правила и 19 правил грамматического оформления. Инструментальное средство DEMLinG было внедрено в РосНИИ ИИ, что подтверждено соответствующим актом об использовании результатов диссертационной работы, и успешно используется там для решения прикладной задачи построения модулей естественно-языковой генерации для разработанной в этом институте системы построения ЕЯ-интерфейсов к базам данных InBASE.

Список литературы диссертационного исследования кандидат физико-математических наук Болдасов, Михаил Викторович, 2004 год

1. Соколова Е.Г., Болдасов М.В. 2000 Идеационпые дискурспыс функции и структура задачи при многоязыковой генерации текстов инструкций // Труды Международного семинара ДИАЛОГ'2000 по компьютерной лингвистике и ее приложениям Т. 2, Протвино 2000

2. Michael V. Boldasov, Lena G. Sokolova, Michail G. Malkovsky 2002, User query understanding by InBASE system as a source for a multilingual NL generation module (first step). Springer Lecture Notes in Computer Science, Vol. 2448, pp. 33-40.

3. Болдасов М.В. 2002a О генераторе естественно-языковых высказываний для системы ЕЯ-интерфейсов к базам данных InBASE. Материалы научно-технической конференции "Искусственный Интеллект 2002", т. 2, Таганрог-Донецк, 2002, стр. 23-25.

4. Болдасов М.В. 2002b О генераторе естественноязыковых высказываний системы ЕЯ-интерфейсов к базам данных InBASE // Научно-теоретический журнал Искусственный Интеллект 4'2002 (ISSN 1561-5359), Наука i осв5та 2002., стр. 172179

5. Michael V. Boldasov, Elena G. Sokolova 2003a: QGen Generation Module for the Register Restricted InBASE System. In: A. Gelbukh (Ed.), Springer Lecture Notes in Computer Science, Vol. 2588,2003, pp. 465-476.

6. Болдасов M. B. 2003 Парадигмы генерации ЕЯ текстов в инструментальной среде DEMLinG. // Труды Международной конференции ДИАЛОГ'2003 по компьютерной лингвистике и интеллектуальным технологиям стр. 66-75 Протвино 2003

7. Жигалов В.А., Соколова Е.Г. 2001: InBASE: ТЕХНОЛОГИЯ ПОСТРОЕНИЯ ЕЯ-ИНТЕРФЕЙСОВ К БАЗАМ ДАННЫХ. Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям, т.2, стр. 123-135 Аксаково 2001.

8. Зализняк, А. (1977). Грамматический словарь русского языка, Русский язык, Москва.

9. Караулов Ю.Н. (ред.) Русский язык. Энциклопедия. 2-е изд., псрсработ. и дополн. М. «Большая Российская Энциклопедия»; Издательский дом «Дрофа», 199713

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.