Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Баталина, Анна Михайловна

  • Баталина, Анна Михайловна
  • кандидат технических науккандидат технических наук
  • 2008, Москва
  • Специальность ВАК РФ05.25.05
  • Количество страниц 134
Баталина, Анна Михайловна. Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа: дис. кандидат технических наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Москва. 2008. 134 с.

Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Баталина, Анна Михайловна

В рамках данной работы на предварительном этапе было проведено исследование структуры алгоритмов Т.Ю Кобзаревой, выявлены и классифицированы основные типы используемых в них конструкций. Для обзора содержания и классификации используемых в алгоритмах конструкций бьша специально разработана и сделана небольшая база данных в MS Access. Для исследования топологии алгоритмов ПСА бьшо проведено их преобразование к «сжатому» виду. (Подробнее эти приемы предварительного анализа алгоритмов ПСА описаны в Приложении 4.) В результате этой деятельности задача бьша поставлена и специфицирована (совместно с М.Е.Епифановым [6]).Разработаны и реализованы программные средства для построения (входные языки) и поддержки объектных моделей алгоритма и анализируемого предложения.Реализованная модель вычисления алгоритма учитывает возможность раскрытия омонимических и синтаксических неоднозначностей, поддерживая так называемое пространство альтернатив анализируемого предложения. Модель алгоритмов и адекватная ей модель вычисления допускает вызов одного алгоритма другим с передачей параметров-значений и параметров-переменных (аналогично процедурам в Паскале). Это позволяет разработчикам алгоритмов ПСА удобным образом декомпозировать задачи распознавания лингвистических ситуаций. (Вызов одного алгоритма из другого в настоящее время нередко применяется их автором, Т.Ю. Кобзаревой.) На базе описанных объектных моделей реализована инструментальная система для тестирования и отладки лингвистических алгоритмов, опробованная на алгоритмах ПСА и поддерживающая функциональность, обычную для отладчиков инструментальных сред разработки программного обеспечения (пошаговое выполнение, точки прерывания, просмотр значений переменных и т.п.). Система поддерживает возможность печати подробного протокола вычисления алгоритма, который печатается традиционным образом в «рабочее» окно и выдается в отдельный файл в разработанном автором xml-формате. Такой файл может быть «поднят» отдельным приложением [1] (автор - Г.Ю.Айриян) и показан в виде дерева с возможностью скрывать несущественные стадии вычисления (см. п. 7.2.1). (В разработке дизайна этого приложения автор данной работы принимал непосредственное участие.) Для удобного просмотра результатов анализа предложения И.М. Ножовым реализован инструмент для визуализации (viewer) синтаксических связей, сегментов и характеристик слов в предложении. Для передачи данных этой программе автором данной работы была реализована конверсия пространства альтернатив анализируемого предложения в xml-документ.Однако еще одним значимым результатом является опыт практического применения реализованной автором инструментальной среды для моделирования и отладки алгоритмов синтаксического анализа. Автором данной работы были промоделированы и полностью или частично отлажены такие алгоритмы, как: • модули предсинтаксиса (стандартные универсальные подпрограммы проверки согласования, алгоритмы постморфологии, корректирующие и дополняющие результаты морфологического анализа) • часть алгоритмов модуля предсегментации (построение атрибутивных именных групп и предложных групп, построение конструкций с именами собственными, построение конструкций с числами, построение сложных сказуемых, построение синтагм со слугами - обособленными приложениями) • модуль экспресс-сегментации • модуль внутрисегментного анализа (поиск сказуемого и подлежащего, заполнение словарно заданных валентностей, поиск хозяина предложной группы, поиск хозяев слабоуправляемых именных групп в родительном падеже и

наречий)

В процессе моделирования и первоначального тестирования были выявлены некоторые неточности в оригинальных алгоритмах, которые позднее были исправлены их автором Т.Ю.Кобзаревой. Непосредственное моделирование алгоритмов ПСА осуществлялось в сжатые сроки.Кроме того описываемая инструментальная среда применялась для моделирования и отладка алгоритмов ПСА и в рамках дипломных работ [33,

37, 48] при консультировании или под руководством [37, 48] автора данной работы.Реализованная объектная модель, по существу, имеет более универсальный характер и может применяться не только для моделирования алгоритмов ПСА. По сути, эта модель так называемой «распознающей сети» правил, а реализованная на базе такой модели инструментальная среда позволяет экспериментировать с такой сетью, в том числе - отлаживать правила. Для того чтобы применять модель распознающей сети к другим приложениям, требуется лишь соответствующим образом изменить реализацию объекта-скоупа, представляющего вычисление в рамках одной альтернативы. Такая модификация облегчается объектно-ориентированным подходом к имплементации системы.