Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Хаптахаева, Наталья Баясхалановна

  • Хаптахаева, Наталья Баясхалановна
  • кандидат технических науккандидат технических наук
  • 2005, Улан-Удэ
  • Специальность ВАК РФ05.13.11
  • Количество страниц 200
Хаптахаева, Наталья Баясхалановна. Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Улан-Удэ. 2005. 200 с.

Оглавление диссертации кандидат технических наук Хаптахаева, Наталья Баясхалановна

Введение.

1 Описание проблемы и обзор существующих решений.

1.1 Обзор систем приобретения знаний.

1.2 Описание проблем по созданию систем приобретения знаний и предлагаемых подходов к их решению.

1.3 Анализ методов построения грамматик.

1.4 Выводы по главе и содержательное описание задачи.

2 Представление решения задачи в виде системы продукций и язык ситуационного моделирования.

2.1 Описание формального аппарата.

2.2 Представление решения задач в виде систем продукций.

2.2.1 Формализация методов морфологического анализа.

2.2.1.1 Правила морфологического анализа.

2.2.1.2 Диагностирующие конструкции морфологического анализа.

2.2.2 Формализация методов решения задачи препроцессориой обработки научного текста.

2.2.2.1 Правила препроцессорной обработки полнотекстового документа.

2.2.2.2 Диагностирующие конструкции препроцессорной обработки.

2.2.3 Формализация способа выделения терминов научного текста.

2.2.3.1 Правила выделения терминов научного текста.

2.2.3.2 Диагностирующие конструкции выделения терминов научного текста.

2.2.4 Представление знаний лингвистических словарей в виде базы фактов.

2.3 Анализ систем продукций, представленных на естественном языке.

2.4 Язык и грамматика ситуационного моделирования

2.4.1 Язык ситуационного моделирования.

2.4.2 Грамматика ситуационного моделирования.

2.5 Выводы по главе.

3 Модель МП-процессора.

3.1 Модифицированный синтаксически управляемый перевод продукционных правил с ограниченного естественного языка в классический вид.

3.1.1 Постановка задачи.

3.1.2 Схема синтаксически управляемого перевода и грамматика свойств.

3.1.3 Модифицированный синтаксически управляемый перевод.

3.2 Реализация МСУ-схемы над Ы1(1)-грамматакой.

3.2.1 Расщепление исходной грамматики.

3.2.2 Система множеств Ы1(1)-ситуаций для грамматик-компоиент.

3.2.3 Построение множеств Ы1(1)-таблиц.

3.2.3.1 Объединенная система множеств Ы1(1)-ситуаций для исходной грамматики

3.2.3.2 Множество 1Л1(1)-таблиц по множествам 1Л1(1)-ситуаций.

3.2.3.3 Оптимизация множества ЬЯ(1)-таблиц.

3.2.4 Модель МП-процессора.

3.3 Выводы по главе.

4 Описание программного обеспечения и вычислительных экспериментов.

4.1 Описание системы преобразования ядер продукций.

4.2 Апробация корректности построенных предикатов первого порядка.

4.3 Выводы по главе.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов»

Актуальность. Настоящее время характеризуется широким внедрением информационных и телекоммуникационных технологий во все сферы человеческой деятельности. Это вызвано, в первую очередь, положительными результатами как теоретических, так и прикладных исследований в области информатики, связанных с обработкой, передачей и представлением информации. При этом дальнейшее развитие данной области возможно при интеллектуализации информационных процессов. На современном этапе наибольшее распространение получили системы обработки данных, построенные по технологии OLTP — OnLine Transaction Process. Вместе с тем, такие интеллектуальные информационные системы, как EIS - Executive Information System, DSS - Decision Support System, экспертные системы и другие подобные системы, широкого распространения не получили. Главной причиной такого относительно слабого промышленного внедрения систем, основанных на знаниях, по мнению аналитиков, является отсутствие проверенных источников знаний [22, 85, 89]. Действительно, основным источником знаний является эксперт, а процесс приобретения знаний, во-первых, является трудоемким и, во-вторых, его достаточно сложно организовать. Передача знаний выполняется в процессе длительных и пространных собеседований между инженером по знаниям и экспертом в определенной предметной области, способным достаточно четко сформулировать имеющийся у него опыт. Из-за низкой скорости процесса передачи знаний многие исследователи рассматривают функцию приобретения знаний в качестве одного из главных «узких мест» технологии экспертных систем [61, 99]. В связи с этим в последнее время все больше внимания уделяется проблемам автоматической обработки естественноязыковых научных текстов (ОЕЯТ). Этому способствуют и темпы развития всемирной сети Интернет, которые обеспечивают создание единой информационной инфраструктуры, содержащей гигантские объемы информации и огромное число общедоступных сервисов [2, 19, 32, 50, 67]. Одной из основных целей автоматической обработки естественно-языкового текста является построение модели предметной области. Для получения качественных баз знаний предметной области, которые являются результатом автоматической^ обработки естественно-языкового текста, они должны утверждаться экспертом. Однако для этого необходимо разработать специальные способы и средства, обеспечивающие автоматическую обработку текста.

Анализ методов автоматической обработки естественно-языковых текстов показал, что в настоящее время они находятся в стадии развития. При этом наиболее проработанными являются вопросы лексического и морфологического анализа [15, 30, 47, 74]. В зависимости от предметной области, характера решаемых задач, цели обработки естественно-языкового текста существующие методы могут изменяться, модифицироваться. Для этого необходимо организовать накопление описаний таких методов. Наличие формализованных и апробированных методов обуславливает необходимость такого их декларативного представления, в которое может вноситься уточнение, модификация. В связи с этим встает проблема, заключающаяся в разработке системы приобретения знаний о методах решения задач обработки естественно-языковых текстов. Она связана с решением научной проблемы создания модели преобразователя, который позволит определить естественно-языковое представление методов и преобразовать его в формальный классический вид с целью последующего формирования декларативной базы знаний о методах обработки естественноязыковых текстов.

Методы обработки естественно-языковых научных текстов должны быть описаны на естественном языке. В связи с этим необходимым является анализ предложений естественного языка. Современные работы в области лингвистики [3, 48] утверждают, что единицы текста (предложение, лексема, морфема и т.д.) создают некоторый ситуационный контекст, который должен отражать форму и содержание текста в случае, если единицей текста является предложение; предложение, если единицей текста является лексема; лексему, если единицей текста является морфема. Анализ таких языковых ситуаций в научном тексте составляет одну из основ современной лингвистики. По мнению А.А. Залевской [29] ситуационный подход заключается в акцентировании внимания на том, что для человека, как пользователя языком, значение слова реализуется через включение его в некоторую более объемную единицу - пропозицию, фрейм, схему, сцену, сценарий, событие, ментальную модель и т.п. При этом подчеркивается важность функционирования значения слова не в отдельности, а в определенных связях с другими словами.

Ситуационный подход связан с понятиями репрезентации и ментальных моделей. Ментальная модель может быть определена как некоторое знание в долговременной или кратковременной памяти, структура которого соответствует структуре репрезентируемой ситуации [29]. Чаще всего для описания ситуаций используют продукционные правила [33, 66]. При этом ментальные модели являются внутренними структурами, которые отражают взаимосвязь понятий. Таким образом, необходимо проанализировать отношения между понятиями, выполнить их классификацию, определить структуру каждой категории отношений.

Множество недостатков естественного языка, которые делают его не удобным для использования с целью четкого описания постановки задачи и, в первую очередь, его неоднозначность, обуславливают необходимость определения средств формализации естественного языка. Одним из таких средств является формализм исчисления предикатов первого порядка, с помощью которого «можно описать почти все, что относится к математике и очень многое из того, что выражено на естественном языке» [49]. Вышесказанное позволяет сделать вывод о том, что ядро продукции должно описываться как формула предикатов первого порядка и включать отношения между понятиями.

Таким образом, методы решения задач обработки естественно-языкового текста могут быть представлены в виде системы продукционных правил, описанных на естественном языке. Преобразование их в формальный вид должно осуществляться на основе методов теории формальных грамматик и автоматов [4,5, 83,40,34,37, 14,21,82, 104, 90].

Объект исследований — продукционное правило, представленное на естественном языке и описывающее некоторую ситуацию, в которой находятся объекты (единицы) предложения научного текста.

Предмет исследований - отображение ядер продукционных правил на естественном языке в формулы логики предикатов первого порядка.

Цель исследований - решение проблемы построения модели преобразователя для отображения естественно-языкового представления ядер продукции в формулы логики предикатов первого порядка.

Задачи исследований. Для достижения указанной цели в работе поставлены и решены следующие задачи:

1) анализ методов решения задач естественно-языковой обработки научного текста и представление их в виде систем продукций на естественном языке с целыо выявления диагностирующих конструкций, составляющих основу ядер продукций;

2) построение грамматики, позволяющей выполнять отображение правил на ограниченном естественном языке в продукции на языке логики предикатов первого порядка;

3) создание модели преобразователя для отображения естественно-языкового представления ядер продукции в формулы логики предикатов первого порядка.

Основная идея диссертации. Рассматриваемая работа строится на предположении, что предложение научного текста определяет ситуационный контекст, в котором находятся единицы предложения - лексемы. Ситуации принято представлять продукциями. С другой стороны, ситуация, как правило, представляется конъюнкцией фактов, описывающей причину, из которой вытекает некоторое следствие. При этом конъюнкцию фактов можно рассматривать как ядро продукции. Каждый факт есть высказывание о взаимосвязи понятий, входящих в ситуационный контекст. Взаимосвязь понятий определяется каким-либо отношением. Существуют глобальные классификации отношений. Каждая категория отношений делится на группы. Отношению в группе соответствует своя ментальная модель или структура. Эту структуру можно выявить посредством диагностирующих конструкций. Таким образом, строится биекция «отношение <-» диагностирующая конструкция». Поэтому необходимо рассмотреть отношения, релевантные предметной области задачи для каждого рассматриваемого метода. Унификация диагностирующих конструкций позволяет определить язык ситуационного моделирования методов обработки текста. Для описания языка строится грамматика, по которой создается схема синтаксически управляемого перевода (СУ-схема). Реализация СУ-схемы является основой для построения модели преобразователя.

Методы исследований. Методологической и теоретической основой исследования послужили математический аппарат теории искусственного интеллекта, логики предикатов первого порядка, теории формальных грамматик и автоматов, методы математической лингвистики.

При определении диагностирующих конструкций использованы классификации концептуальных объектов и концептуальных отношений лингвистов И. Дальберга, С.Е. Никитиной, а также ведущих специалистов в области искусственного интеллекта Д.А. Поспелова, Г.С. Осипова и Д.Ш. Сулеймапова. Структура продукции соответствует классической, приведенной в работах Д.А. Поспелова. За основу языка ситуационного моделирования взят язык ситуационного управления Д.А. Поспелова. Разработка грамматики базируется на методах теории формальных грамматик Н. Хомского, а, именно, на методах наиболее широкого подкласса контекстно-свободных грамматик - Ы1(&)-грамматик и грамматики свойств, описанных в работах Д. Кнута, А. Ахо, Д. Ульмана, Б.К. 7

Мартыненко, Ю.Г. Карпова. При построении модели МП-процессора применены методы синтаксического анализа для Ы1(&)-грамматик, оптимизации LR(&)-анализаторов и методы реализации СУ-схемы над Ы1(&)-грамматикой, представленные в работах Д. Кнута, А. Ахо, Д. Ульмана, Р.Сети, Ф.Л. Де Ремера, А.Дж. Кореньяка, Дж.Э. Хопкрофта, В. Брауэра, Б.К. Мартыненко и др.

Основные результаты и научная новизна. Основным результатом диссертационной работы является модель преобразователя, позволяющая выполнить отображение ядер продукционных правил на естественном языке в формулы логики предикатов первого порядка. Кроме того, при разработке модели получены следующие наиболее значимые результаты, содержащие, по мнению автора, элементы научной новизны:

1) определены диагностирующие конструкции, которые отражают семантику онтологических отношений между понятиями и позволяют наполнить содержанием центральный элемент простых ядерных конструкций языка ситуационного управления в случае использования языка для анализа научных текстов;

2) модифицирована СУ-схема с входной Ы1(1)-грамматикой, которая дополнена элементами грамматики свойств, а именно таблицами свойств, что обеспечивает независимость модели МП-процессора от конкретной задачи.

Практическая ценность. Практическая значимость выполненных исследований состоит в том, что полученные результаты могут быть применены при формализации методов решения задач с использованием ситуационного подхода и при разработке системы приобретения знаний о методах решения задач обработки естественно-языковых текстов. Использование указанных результатов позволяет повысить эффективность разработки и качество проектирования системы приобретения знаний.

Достоверность полученных результатов. Для реализации модели МП-процессора разработано программное обеспечение "InTransSit", с помощью которого проведены вычислительные эксперименты, позволившие подтвердить жизнеспособность предложенной в работе модели. Программное обеспечение зарегистрировано в отделе регистрации программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (свидетельство об официальной регистрации программы для ЭВМ №2005612856 от 3.11.2005). Корректность предикатов, сгенерированных программным обеспечением, была проверена в среде программирования Visual Prolog. Для доказательства достоверности грамматики и правильности выполнения перевода входной цепочки в соответствии с СУ-схемой в работе использован метод индукции.

Использование результатов диссертации. Ценность полученных результатов подтверждается их использованием в Бурятском региональном центре новых информационных технологий при разработке систем приобретения знаний. Одной из функций МП-процессора является контроль корректности представления ситуаций на естественном языке. Эта возможность используется в работе Тверского регионального ресурсного центра для распознавания правильности описания ситуаций в виде набора фактов, представляющих собой высказывание на естественном языке. Также результаты используются в виде библиотеки методов Южно-Российским региональным центром информатизации (ЮГИНФО) РГУ для описания задач области знаний или деятельности при создании онтологической спецификации структуры предметных областей научных исследований ЮГИНФО.

Кроме того, материалы диссертации используются в учебной деятельности Восточно-Сибирского государственного технологического университета в рамках учебно-методического обеспечения дисциплин «Естественно-языковые системы» и «Теория языков программирования и методы трансляции», изучаемых студентами специальности 230105 «Программное обеспечение вычислительной техники и автоматизированных систем». Результаты исследований методов естественноязыковой обработки научных текстов вошли в материалы итогового отчета о научно-исследовательской работе «Исследование и разработка методов и алгоритмов семантического анализа естественно-языкового текста», выполненной в 2004 году по гранту Правительства Республики Бурятия для молодых ученых РБ.

Использование результатов подтверждено соответствующими актами.

Личный вклад автора. Автором исследованы методы решения задач автоматической обработки естественно-языковых научных текстов и разработаны диагностирующие конструкции, на основе которых построены язык и грамматика ситуационного моделирования. На базе построенной грамматики модифицирована СУ-схема, реализация которой позволила построить модель МП-процессора.

Апробация результатов диссертации. Результаты диссертационных исследований докладывались и обсуждались на второй Всероссийской научно-технической конференции «Искусственный интеллект в XXI веке» (Пенза, 2004), шестой Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2005), девятой Всероссийской конференции «Проблемы информатизации региона»

Красноярск, 2005). Кроме этого основные результаты работы были опубликованы в журнале «Открытое и дистанционное образование» Ассоциации образовательных и научных учреждений «Сибирский Открытый Университет» (Томск, 2005).

Публикации. По теме работы опубликовано 5 печатных работ общим объемом более 1,8 п.л.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и семи приложений. Работа содержит 200 страниц машинописного текста, в том числе основной текст - 143 страницы, 14 рисунков и 21 таблица. Список литературы содержит 115 наименований. Объем приложений составляет 57 страниц.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Хаптахаева, Наталья Баясхалановна

4.3 Выводы по главе

Разработанное программное обеспечение "InTransSit" позволило провести эксперименты, в ходе которых в систему вводилось описание метода решения задач обработки естественно-языкового научного текста в виде продукционного правила на естественном языке. В результате работы системы "InTransSit" был получен перевод введенных правил морфологического анализа, препроцессорной обработки научного текста и выделения терминов в научном тексте. Результаты проведенных экспериментов подтвердили работоспособность модели МП-процессора.

Проверка корректности построенных формул логики предикатов первого порядка была проведена в среде Visual Prolog, для этого было разработано специальное программное обеспечение.

Таким образом, предложенная в работе модель МП-процессора является жизнеспособной, полученные предикаты адекватно решают поставленную задачу, что доказывается проведенными экспериментами.

Заключение

В диссертационной работе разработана модель МП-процессора, реализующего отображение продукционных правил с естественного языка в формулу логики предикатов первого порядка. В процессе создания модели достигнута цель исследования, и получены следующие результаты:

1. Выполнена формализация методов решения задач морфологического анализа, препроцессорной обработки научного текста и выделения терминов научного текста в виде систем продукций с использованием ситуационного подхода. В результате формализации были усовершенствованы продукционные правила на естественном языке для морфологического анализа, построены правила для препроцессорной обработки текста и выделения терминов.

2. Выявлены и унифицированы диагностирующие конструкции, составляющие основу разработанных продукционных правил. Это позволило создать язык и грамматику ситуационного моделирования. Предложенная грамматика является универсальной и может быть использована для представления знаний о методах решения задач естественно-языковой обработки текста в виде систем продукций.

3. Создан модифицированный синтаксически управляемый перевод (МСУ-перевода) с входной 1Л(1)-грамматикой, который определяется МСУ-схемой. Входная Ы1(1)-грамматика была разбита на 14 грамматик-компонентов, для которых построено семейство множеств 1Л(1)-ситуаций. Объединение множеств Ы1(1)-ситуаций грамматик-компонент в множество Ы1(1)-ситуаций для исходной грамматики позволило построить оптимальное множество ЬЯ(1)-таблиц на основе выявления ф-недостижимого множества Ы1(1)-таблиц.

4. Модифицирован алгоритм реализации МСУ-схемы над LR(1)-грамматикой, на основе которого предложена модель МП-процессора. Правильность основополагающих теоретических положений модели доказана методом индукции.

5. Выполнена экспериментальная апробация предложенной модели МП-процессора. и построенных им предикатов, результаты которой подтверждают основные положения работы.

6. Полученные результаты могут быть применены при разработке системы приобретения знаний о методах решения задач обработки естественно-языковых текстов.

Список литературы диссертационного исследования кандидат технических наук Хаптахаева, Наталья Баясхалановна, 2005 год

1. Адаменко А.Н., Кучуков A.M. Логическое программирование и Visual Prolog. -СПб.: БХВ-Петербург, 2003. 992 с.

2. Айман Мохамед Мофтах Кхамес Йоунес Бериша. Исследование и разработка методов извлечения знаний для создания интеллектуальных систем поддержки принятия решений: Дис. канд. техн. наук: 05.13.11. Москва, 2005.-218 с.

3. Арутюнова Н.Д. Предложение и его смысл. Логико-семантические проблемы. -М.: Наука, 1976.-380 с.

4. Ахо А., Сети Р., Ульман Дж. Компиляторы. Принципы, технологии, инструменты.- М.: Вильяме, 2001. 135 с.

5. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т.1,2. М.: Мир, 1978. - 234 с.

6. Ахо А.В., Хопкрофт Д.Э., Ульман Д.Д. Структуры данных и алгоритмы: Учебное пособие: Пер. с англ. М.: Вильяме, 2000. - С. 225-257.

7. Аюшеева Н.Н. Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке: Дис. . канд. техн. наук: 05.13.11 Улан-Удэ, 2004. - 214 с.

8. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. М.: Мир, 2003. - 212 с.

9. Белоногов Г.Г., Котов Р.Г. Автоматические информационно-поисковые системы. -М.: Сов. Радио, 1968 г.-415 с.

10. Поляков В. Н. Синтез формальных моделей языка и смысла как проблема семантической обработки естественного языка // Новости искусственного интеллекта. 1997. -№ 1. - С. 6-63.

11. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983. - 380 с.

12. Берестова В.И., Рыбина Г.В. Технология проектирования систем, основанных на знаниях, на базе инструментальных средств ИНТЕР-ЭКСПЕРТ и LEONARDO: Лабораторный практикум. М.: МИФИ, 1992. - 86 с.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.