Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Манушкин, Евгений Сергеевич
- Специальность ВАК РФ05.13.12
- Количество страниц 111
Оглавление диссертации кандидат технических наук Манушкин, Евгений Сергеевич
Оглавление
Введение
Глава 1. Обзор методов синтаксического анализа
1.1. Автоматическая обработка проектной документации
1.2. Роль и задачи синтаксического анализа в полном анализе текста
1.3. Методы повышения производительности синтаксического анализа
1.4. Системы синтаксического анализа, использующие синтаксическую сегментацию
1.4.1. Поверхностный синтаксический анализатор STP
1.4.2. Поверхностный синтаксический анализатор группы "Диалинг"
1.4.3. Поверхностный синтаксический анализатор польского языка Spajd
1.5. Формализмы основанные на порождающей теории Н. Хомского
1.5.1. Расширенные сети переходов
1.5.2. Head Driven Phrase Structure
1.5.3. Расширенные формы Бэкуса-Наура
1.5.4 Affix Grammar over Finite Lattices (AGFL)
1.6. Формализмы использующие взаимоотношения слов
1.6.1 Treeton
1.6.2. Link Grammar
1.7. Выводы
Глава 2. Формальная основа предложенного метода автоматического предсинтаксического анализа
2.1. Спецификация грамматики расширенных БНФ
2.2. Спецификация грамматики ATN
2.3. Алгоритм преобразования грамматики расширенных БНФ в грамматику ATN
2.4. Выводы
Глава 3. Метод автоматического предсинтаксического анализа проектной документации61
3.1. Вычисление терминальных множеств, необходимых для проведения синтаксической сегментации
3.2. Метод автоматического предсинтаксического анализа проектной документации
3.3. Алгоритм интерпретации разметки текста, полученной на этапе предсинтаксического анализа
3.4. Выводы
Глава 4. Практическая реализация и тестирование предложенного метода
4.1. Описание модуля морфологического анализатора системы "Crosslator"
4.2. Описание тестирующего комплекса
4.3. Описание эксперимента
4.4. Выводы
Заключение
Список используемой литературы
Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Метод автоматизированной генерации правил синтаксического анализа проектной документации2010 год, кандидат технических наук Дроздов, Вячеслав Вадимович
Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов2012 год, кандидат технических наук Литвинов, Максим Игоревич
Разработка и исследование инструментальных средств многоязыковой трансляции2005 год, кандидат технических наук Фадеев, Роман Викторович
Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации2009 год, кандидат технических наук Тарасенко, Антон Витальевич
Реализация автоматической синтаксической сегментации русского предложения2003 год, кандидат технических наук Ножов, Игорь Михайлович
Введение диссертации (часть автореферата) на тему «Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик»
Введение
В ходе своего существования предприятия формируют огромные архивы документации. В этих архивах содержатся не только результаты официального документооборота (приказы, распоряжения и пр.), но и техническая документация по выполняемым и выполненным проектам: технические отчеты, проектная документация, планы и т.д. Значительная часть этих документов оформлена в формате текстового описания.
Одной из задач систем автоматизированного проектирования является систематизация хранения данных об изделии и приведение всей документации к единому стандарту. В этой области широко используются СALS-технологии. CALS (Continuous Acquisition and Life cycle Support) — "совокупность базовых принципов, управленческих и информационных технологий, обеспечивающая поддержку жизненного цикла изделий (преимущественно машиностроительных) на всех его стадиях" [45]. Использование данных технологий предполагает наличие некоторой интегрированной информационной среды (единого информационного пространства [45]), в которой, по средствам электронной передачи данных, происходит взаимодействие между всеми участниками жизненного цикла изделия: от разработчиков и поставщиков до заказчиков изделия.
Составными частями CALS являются широко распространенные технологии ILM (Information Lifecycle Management) [15, 48, 26] и PDM (Product Data Management) [14, 31]. Основной задачей ILM-систем является хранение документации на изделие. Кроме того, ILM-системы отвечают за процессы хранения, распределения, миграции, архивировании и удаления данных в инфраструктуре предприятия. PDM системы позволяют управлять данными об изделии и управлять информационными процессами жизненного цикла изделия, которые создают и используют эти данные. Для построения единого информационного пространства PDM используются в интеграции с Computer Aided Design / Manufacturing (CAD/CAM) системами, которые предназначены для проектирования, разработки технологий, расчета
материальных и трудовых нормативов и т.д., а также в интеграции с системами Enterprise Resource Planning System (ERP), которые обеспечивают функции управления продажами, снабжением, производством и т.д. На рис. 1 представлена общая схема интеграции CAD/CAM, PDM и ERP систем.
(Сдаетрукгершй
состав иэдеямя
Управление документооборотом
Конструкторская Технолсгичеек документация
произв.
Справочник мтвриагшв
Нормы расхода
Техпроцессы,
маршруты
Планирование,
Номенклатура. Спецификация Маршрут '
Список отступлений от норм . Щ | .
Рис. 1. общая схема интеграции CAD/CAM, PDM и ERP систем Использование единого информационного пространства предприятия позволяет перейти к безбумажной обработке проектной документации. Однако подобные технологии не производят интеллектуальную обработку данных, которая могла бы еще больше ускорить процесс разработки. Современное развитие науки и компьютерных технологий позволяют перейти на качественно иной уровень работы с документацией. На данный момент ведется переход от электронного хранилища к автоматической обработке документации. Автоматическая обработка документации позволяет выполнять такие задачи, как, например, поддержка документации на нескольких языках и автоматическое исправление ошибок в тексте, информационный поиск и составление баз знаний о проектах. Для выполнения этих и многих других задач автоматической обработки документации требуется использование методов компьютерной лингвистики, которые занимаются непосредственно обработкой текстов на естественном языке.
Исследования в области компьютерной лингвистики были начаты еще в 40-х годах. Впервые задача обработки текстов (точнее, задача машинного
перевода) была поставлена Уорреном Уивером, который предложил рассматривать задачу перевода как процесс дешифрования [102]. Знаменитый Джорджтаунский эксперимент [80], в котором компьютер перевел 60 довольно простых предложений с русского языка на английский, подавал большие надежды и привлек значительные средства в машинную лингвистику. Через десять лет в 1966 комиссия Национальной Академии Наук ALPAC (Automatic Language Processing Advisory Committee) сделала вывод о том, что за десять лет в области машинной обработки текстов не было достигнуто ни одного серьезного результата и исследования в области машинной лингвистики были приостановлены. Однако в 1968-1970 году Тери Виноград, работавший в то время в MIT, разработал первую диалоговую систему SHRDLU, которая по командам оператора осуществляла изменения в мире геометрических фигур [104]. Одним из самых серьезных достижений в компьютерной лингвистики американской школы является исследование формальных грамматик, проведенное Н. Хомским [72, 74, 64]. Практически все дальнейшие исследования американской школы берут свою основу в порождающей теории Хомского.
В то же время в Советском союзе исследования велись намного активнее, чем в США. 1954 году начались работы по созданию систем машинного перевода в Институте точной механики и вычислительной техники Академии наук СССР. Вскоре были получены первые успехи, и работы в этой области стали вестись в различных научно-учебных центрах. Уже в 1955 году был проведен эксперимент со словарём в 2300 слов. В Институте прикладной математики АН СССР под руководством О.С. Кулагиной и И.А. Мельчука исследования велись в двух направлениях -англо-русский и франко-русский перевод.
Одними из выдающихся достижений советских исследователей в области компьютерной лингвистики являются модель «Смысл<-»Текст», разработанная И.А. Мельчуком в системе автоматического перевода технических текстов ЭТАП [3, 4], система французско-русского перевода
"ФРАП" [33, 6] и система машинного перевода политических текстов "ПОЛИТЕКСТ" [34].
На сегодняшний день существует огромное количество коммерческих компаний, занимающиеся машинной лингвистикой. Примером отечественных компаний, достигнувших результатов и находящихся на мировом уровне являются Yandex [95], Promt [60] и многие другие. Таким образом скромные лабораторные системы машинного перевода превратились сегодня в целую отрасль науки и промышленности.
Для автоматической обработки текстовой документации зачастую требуется проводить полный анализ текста, который требует существенных временных затрат. Синтаксический анализ является самым ресурсоемким этапом анализа текста. Это связано как с неоднозначностью естественного языка так и с неоднозначностью правил синтаксического анализа. На сегодняшний день существует огромное количество теоретических методов проведения синтаксического анализа и их практических реализаций. Как показывает практика, системы, использующие базы правил анализа, по качеству не уступают самым современным системам, которые используют статистические подходы. Довольно популярными в этой области являются теории американской школы, основанные в большинстве своем на порождающей теории Н. Хомского [72, 74, 64]. Яркими примерами таких теорий являются расширенные сети переходов (ATN - Augmented Transition Networks) [107, 105, 101] и AGFL (Affix Grammar over Finite Lattices -грамматика аффиксов) [76, 103].
В таких системах большее число правил гарантирует лучший результат. Однако чем больше правил, тем меньше может оказаться скорость разбора предложения.
Для ускорения работы синтаксического анализа часто используют дополнительные этапы анализа. Одним из таких этапов является этап синтаксической сегментации [46], который выделяет априорную информацию о структуре предложения на основе выделения его фрагментов
или составных конструкций [108, 88]. Синтаксический анализатор будет проводить разбор исходя из того, что найденные слова принадлежат той или иной синтаксической категории и не будет предпринимать заведомо ложные попытки разобрать предложение по-другому. За счет этого количество итераций разбора заметно сокращается и, как результат, существенно уменьшаются вычислительные затраты.
Правила для этапа синтаксической сегментации зачастую зависят от правил синтаксического анализа. Составление таких правил вручную требует тщательного изучения грамматики, к тому же правила, составленные человеком, требуют проверки и отладки. Мало того, что проверка и отладка являются достаточно долгим и трудоемким процессом, они к тому же не дают стопроцентной гарантии достоверности данных правил.
В связи с этим, разработка метода автоматического предсинтаксического анализа текстов проектной документации на изделие, является актуальной, так как предлагаемые теоретические положения позволяют автоматизировать процесс проектирования этапа синтаксической сегментации. Новые разработки и методы в области компьютерной лингвистики позволят внедрять новые технологии обработки проектной документации в САПР. Технические решения, связанные с автоматической обработкой текстов проектной документации, являются хорошим дополнением существующих СЛЬЭ-технологий.
Цель работы. Целью диссертационной работы является повышение эффективности построения систем анализа проектной документации за счет автоматизации труда разработчиков таких систем. Задачи исследования
1. Анализ существующих методов синтаксического анализа и систем, использующих этап синтаксической сегментации.
2. Разработка алгоритма преобразования правил в формате расширенных БНФ в правила в формате расширенных сетей переходов (АТ1Ч).
3. Разработка формального метода вычисления терминальных множеств, использующихся на этапе предсинаксического анализа проектной документации.
4. Разработка метода автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик.
5. Проектирование и разработка программного комплекса для предсинтаксического анализа текстов проектной документации, а также проведения вычислительных экспериментов для тестирования разработанного метода.
Методы исследования. При решении поставленных задач использовались основные методы теории компиляторов, компьютерной лингвистики, дискретной математики, в частности теории графов, а также методы объектно-ориентированного программирования. Научная новизна выполненной работы.
1. Предложен алгоритм эквивалентного преобразования грамматики расширенных БНФ в грамматику АТМ.
2. Предложен новый метод вычисления терминальных множеств, необходимых для решения задачи проведения предсинтаксического анализа проектной документации.
3. Предложен новый метод, позволяющий проводить этап предсинтаксического анализа в системах анализа проектной документации, использующих грамматики расширенных БНФ и АТ1Ч.
4. Разработан метод тестирования качества и производительности результатов, полученных в диссертационной работе. Практическая значимость результатов. Предложено новое
техническое решение, позволяющее ускорить работу этапа синтаксического анализа текстов проектной документации. Решение использует только информацию о правилах синтаксического анализа, записанных в форме БНФ или АТ1Ч. Это позволяет разработчикам систем синтаксических анализаторов реализовывать этап синтаксической сегментации текста практически без
затрат времени на разработку правил сегментации и без обязательного привлечения профессионалов в области компьютерной лингвистики, что в результате сокращает финансовые затраты и время, необходимые на разработку системы. В свою очередь проведение этапа синтаксической сегментации позволяет значительно увеличить производительность систем анализа проектной документации.
Автором разработано программное обеспечение, выполняющее предсинтаксический анализ предложений на основе предложенного метода. В результате проведенных экспериментов было установлено, что сокращение времени разбора отдельных предложений в результате применения разработанного метода превышает 80%, тогда как среднее ускорение находится на уровне 10%.
Реализация и внедрение результатов. Алгоритмы и методы, описанные в данной работе, реализованы автором в компьютерной программе. Программа создавалась как с целью апробации и совершенствования разрабатываемых методов и алгоритмов, так и с целью практического использования в машинном переводчике "Кросслейтор", разрабатываемом в ИПМ им. М.В. Келдыша РАН и при выполнении гос. контракта П-261 в рамках ФЦП "Научные и научно-педагогические кадры инновационной России" на 2009-2013 гг., заключенного между Министерством образования и науки и МИЭМ. Результаты работы обсуждались на научно-практическом семинаре «Новые информационные технологии в автоматизированных системах» в 2009 и 2010 годах.
Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:
1. «Международная конференция Ме§а1лп§'08», Партенит, 2008 г.
2. «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», М., МИЭМ, 2009 г.
3. «Новые информационные технологии в автоматизированных системах», М. 2009
4. Всероссийская конференция «Знания - Онтологии - Теории», Новосибирск 2009 г.
5. «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», М., МИЭМ, 2010 г.
6. «Новые информационные технологии в автоматизированных системах», М. 2010 г.
7. «Новые информационные технологии в автоматизированных системах», М. 2012 г.
Публикации. Всего автором опубликовано 8 научных работ из них 2 в журналах из перечня ВАК.
1. Манушкин Е.С., Клышинский Э.С. Метод автоматического порождения правил синтаксической сегментации для задач анализа текстов на естественном языке // Информационные технологии и вычислительные системы, 4,2009 г., С. 57-66.
2. Манушкин Е.С., Клышинский Э.С. Метод автоматического порождения правил синтаксической сегментации для расширенных сетей переходов // Информационные технологии и вычислительные системы, № 2,2011г., С. 58-67.
3. Манушкин Е.С. Метод автоматической генерации правил синтаксическо сегментации // Материалы ежегодной научно-технической конференции студентов, аспирантов и молодых специалистов МИЭМ. - М. МИЭМ, 2009, С. 147.
4. Клышинский Э.С., Манушкин Е.С. Метод автоматической генерации правил синтаксической сегментации // Сб. трудов двенадцатого научно-практического семинара «Новые информационные технологии», М. 2009, С. 135-148.
5. Клышинский Э.С., Манушкин Е.С. Математическая модель порождения правил синтаксической сегментации // Сб. трудов второй
Всероссийской конференции «Знания - Онтологии - Теории», Новосибирск 2009, Том 2, С. 182-186.
6. Манушкин Е.С. Выделение правил синтаксической сегментации в нотации расширенных сетей переходов // Материалы ежегодной научно-технической конференции студентов, аспирантов и молодых специалистов МИЭМ. - М. МИЭМ, 2010, С. 204.
7. Манушкин Е.С. Применение метода автоматической генерации правил синтаксической сегментации для расширенных сетей переходов // Сб. трудов тринадцатого научно-практического семинара «Новые информационные технологии», М. 2010, С. 93-106.
8. Манушкин Е.С. Метод автоматической разметки предложения для этапа синтаксической сегментации // Сб. трудов пятнадцатого научно-практического семинара «Новые информационные технологии», М. 2012, С. 191-198.
Структура работы. Диссертация объемом в 111 страницы содержит 9 таблиц и 30 рисунков, состоит из введения, четырех глав с выводами, заключения и списка использованной литературы из 108 наименований. На защиту выносятся следующие основные положения:
• Формальный метод вычисления терминальных множеств, необходимых для метода автоматического предсинтаксического анализа проектной документации.
• Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик
Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Регуляризация контекстно-свободных грамматик на основе эквивалентных преобразований синтаксических граф-схем2009 год, кандидат технических наук Федорченко, Людмила Николаевна
Метод моделирования процедур в лингвистическом процессоре автоматизированных диалоговых систем управления2003 год, кандидат технических наук Плоткин, Борис Владимирович
Модель принятия решения на основе синтаксического анализа в задачах обработки патентной информации2011 год, кандидат технических наук Буштедт, Владислав Андреевич
Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения2008 год, кандидат филологических наук Кобзарева, Татьяна Юрьевна
Программное обеспечение для метапоиска информации в гипертекстовой среде2002 год, кандидат технических наук Крищенко, Всеволод Александрович
Заключение диссертации по теме «Системы автоматизации проектирования (по отраслям)», Манушкин, Евгений Сергеевич
4.4. Выводы
Для тестирования предложенного метода был разработан программный комплекс, который использует модуль лексического анализа системы "СгоБзкШг" и позволяет проводить синтаксический анализ предложением с использованием различных методов оптимизации. Предложенный метод тестировался на корпусе, составленным из технических текстов, и на корпусе литературного текста. Для тестирования была использована грамматика русского языка, записанная в формате расширенных БНФ и состоящая из 129 правил, которая конвертировалась в формат АТ1Ч. Для сравнения с существующими методами оптимизации анализа, корпусы тестировались также с использованием метода ЬЦ1) разбора.
В результате тестирования первого корпуса установлено, что применение предложенного метода дало прирост производительности на 4%, тогда как применение ЬЦ1) разбора только понизило производительность анализа. В результате тестирования второго корпуса было установлено, что применение предложенного метода дало прирост производительности на 7%, тогда как комбинация предложенного метода с методом ЬЦ1) разбора дало прирост на 8,7%.
Изучая представленные графики (см. рис. 28, 29 и 30) становится очевидно, что для предложений, не требующих много вычислительных ресурсов (до 1000 итераций анализа без применения методов оптимизации) лучше всего подходит метод ЬЦ1) разбора, в то время как предложенный метод для рассматриваемых предложений дает прирост производительности почти в два раза ниже, чем 1Х(1) разбор. Однако метод 1Х(1) разбора практически перестает работать и в некоторых случаях даже понижает производительность анализа предложений, для которого требуется больше вычислительных ресурсов (от 1000 и более итераций анализа без применения методов оптимизации).
Исходя из проведенного эксперимента можно установить следующее:
• Предложенный метод дает преимущество перед использованием метода 1Х(1) разбора для небольших корпусов текста
• Для больших корпусов текста оптимальным является использование предложенного метода в сочетании с методом ЬЦ1) разбора.
• Наилучшее ускорение анализа достигалось на предложениях, в середине которых присутствовали метки, однако встречаемость таких предложений в корпусе довольно низкая.
При экспериментах с системой "СговвМог" (использующей правила в формате БНФ) было установлено, что ускорение этапа анализа отдельных предложений увеличивалось как минимум в два раза и колебалось в среднем между 10 и 20 процентами. Следует отметить, что данная система развивается в течение более чем десяти лет и применяемые в ней инженерные решения зачастую более оптимальны, чем в тестовом комплексе, разработанном автором в ходе исследования. Поэтому увеличение прироста скорости анализа в "СгозбМог" по сравнению с тестирующим комплексом является вполне закономерным.
Заключение
Большая часть проектной документации содержит описание оформленное в виде текста на естественном языке. Для автоматической формализации такого описания в контексте CALS технологий зачастую проводят полный анализ текста проектной документации. Системы, проводящие качественный анализ текстов на естественном языке, используют полный синтаксический анализ.
Среди методов, позволяющих выполнять полный синтаксический анализ, методы классической школы являются наиболее изученными, к тому же большинство этих методов позволяет выполнять анализ с учетом всех возможных синтаксических интерпретаций предложения. Однако производительность систем, использующих такие методы анализа, значительно меньше производительности систем с неполным анализом. Применение этапа синтаксической сегментации, размечающего текст документации с использованием априорной информации о его синтаксической структуре, могло бы значительно повысить производительность существующих систем полного анализа текстов проектной документации. Внедрение этапа сегментации в системы полного анализа текстов позволит значительно ускорить процесс обработки проектной документации, что в результате позволит сократить общее время на разработку изделия.
В первой главе был указан существенный недостаток существующих моделей сегментации - отсутствие механизмов обработки синтаксической омонимии на уровне границ сегментов и синтаксических групп, что делает такие модели неприменимыми в полном синтаксическом анализе. Данную проблему можно решить путем выделения всех вероятных границ сегментов предложения на этапе сегментации. Также в первой главе показано, что ни в одной системе, использующей сегментацию, не проработан вопрос автоматического пополнения базы правил сегментации. В следствие этого правила сегментации добавляются лингвистами вручную, что является трудоемким процессом и представляет собой препятствие для разработки систем обработки документации для широкого спектра предметных областей. Для гарантии достоверности таких правил требуется вручную проанализировать огромные массивы текстов, выделяя примеры и контрпримеры для правил. Зачастую эти обстоятельства заставляют разработчиков отказываться от проектирования этапа синтаксической сегментации. В связи с этим разработка метода, позволяющего автоматизировать процесс разработки правил сегментации является особенно актуальной.
Для решения поставленных задач в работе предложен метод предсинтаксического анализа текстов проектной документации, который используется для проведения этапа сегментации в системах, использующих полный анализ текстов на естественном языке. Данный метод в качестве входных данных использует грамматики, записанные в формате расширенных БНФ или АТК Во второй главе показана связь между этими грамматиками, а также изложен алгоритм преобразования грамматики расширенных БНФ в формат АТК. Для описания метода автоматического предсинтаксического анализа текстов проектной документации была предложена методика вычисления терминальных множеств. Использование результатов разметки текста в ходе синтаксического анализа описано в алгоритме интерпретации полученной разметки. Данный алгоритм является одним из вариантов использования предварительно полученной разметки на этапе синтаксического анализа при стандартном обходе расширенной сети переходов путем рекурсивного спуска.
Для тестирования предложенного метода был разработан программный комплекс, который использует модуль лексического анализа системы "Сгс^Мог" и позволяет проводить синтаксический анализ предложением с использованием различных методов оптимизации. Предложенный метод тестировался на корпусе, составленным из технических текстов и корпусе литературных текстов. Для тестирования была использована грамматика русского языка, записанная в формате расширенных БНФ и состоящая из 129 правил. Для сравнения с существующими методами оптимизации анализа, корпусы тестировались также с использованием метода ЬЦ1) разбора.
В результате тестирования первого корпуса установлено, что применение предложенного метода дало прирост производительности на 4%, тогда как применение ЬЦ1) разбора только понизило производительность анализа. В результате тестирования второго корпуса было установлено, что наилучшее повышение производительности дает комбинация предложенного метода с методом ЬЦ1) разбора. Изучая представленные графики (см. рис. 28, 29 и 30) становится очевидно, что для предложений, не требующих много вычислительных ресурсов (до 1000 итераций анализа без применения методов оптимизации) лучше всего подходит метод ЬЬ(1) разбора, в то время как предложенный метод для рассматриваемых предложений дает прирост производительности почти в два раза ниже, чем 1Х(1) разбор. Однако метод ЬЬ(1) разбора практически перестает работать и в некоторых случаях даже понижает производительность анализа предложений, для которого требуется больше вычислительных ресурсов (от 1000 и более итераций анализа без применения методов оптимизации).
Исходя из проведенного эксперимента можно установить следующее:
• Предложенный метод дает преимущество перед использованием метода 1Х(1) разбора для небольших корпусов текста
• Для больших корпусов текста оптимальным является использование предложенного метода в сочетании с методом ЬЦ1) разбора.
• Наилучшее ускорение анализа достигалось на предложениях, в середине которых присутствовали метки, однако встречаемость таких предложений в корпусе довольно низкая.
При экспериментах с системой "СгозвкШг" (использующей правила в формате БНФ) было установлено, что ускорение этапа анализа отдельных предложений увеличивалось как минимум в два раза и колебалось в среднем между 10 и 20 процентами. Следует отметить, что данная система развивается в течение более чем десяти лет и применяемые в ней инженерные решения зачастую более оптимальны, чем в тестовом комплексе, разработанном автором в ходе исследования. Поэтому увеличение прироста скорости анализа в "Сгобз^ог" по сравнению с тестирующим комплексом является вполне закономерным.
В перспективе данный метод может быть адаптирован к системе АвРЬ. Однако данный метод не подходит к грамматикам, использующим взаимоотношения слов, поскольку в основе метода лежат методы ЬЬ-грамматик, которые могут быть применены только к КС-подобным грамматикам.
Список литературы диссертационного исследования кандидат технических наук Манушкин, Евгений Сергеевич, 2012 год
Список используемой литературы
1. Абрамов А.П., Выдрук Д.Г., Федунов Б.Е. Компьютерная система оценки реализуемости алгоритмов деятельности экипажа // Известия РАН. Теория и системы управления - 2006. - №4 сс. 122-134
2. Антонов A.B., Курзинер Е.С. Автоматическое определение тематики большого необработанного текстового массива // [Труды международной конференции "Диалог" 2002] URL: http://www.dialog-21 .ru/digest/archive/2002/?year=2002«&vol=22725&id=7516 (дата обращения: 11.03.2012).
3. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JL, Лазурский A.B., Митюшин Л.Г., Санников В.З., Цинман Л.Л. Лингвистический процессор для сложных информационных систем. М: Наука, 1992.
4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский A.B., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП 2. М: Наука, 1989.
5. Ахо А., Сети Р., Ульман Д. Компиляторы. Принципы, технологии, инструменты. М.: Издательский дом «Вильяме», 2003.
6. Бакулов А.Д., Леонтьева H.H., Шаляпина З.М. Отечественные системы машинного перевода. Искусственный интеллект: в 3 кн. Кн. 1 Системы общения и экспертные системы: Справочник / под ред. Э.В.Попова, М.: Радио и связь, 1990.
7. Баранов А.Г. Моделирование применения корпусных методов для локальных лингвистических исследований // [Труды международной конференции "Диалог" 2010] URL: http://www.dialog-21.ru/digests/dialog2010/materials/html/Baranov.htm (дата обращения: 11.03.2012).
8. Беликов В.И. От сырого к вареному. Методологические заметки // [Труды международной конференции "Диалог" 2009] URL:
http://www.dialog-21 .ra/digests/dialog2009/materials/pdf/Belikov.pdf (дата обращения: 11.03.2012).
9. Беляев О.И., Выдрин А.П. Документирование языков с использованием среды SIL FieldWorks Language Explorer (на материале осетинского языка) // [Труды международной конференции "Диалог" 2010] URL: http://www.dialog-21.ru/digests/dialog2010/materials/html/Belyaev.htm (дата обращения: 11.03.2012).
Ю.Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков A.A., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011.
Н.Востриков A.B., Клышинский Э.С., Морозов С.Н., Манушкин Е.С., Максимов В.Ю. Исследование метода автоматической генерации правил фрагментарного анализа // Сб. тезисов международной конференции MegaLing'08, Партенит, 2008
12.Галактионов В.А., Мусатов A.M., Мансурова О.Ю., Ёлкин C.B., Клышинский Э.С., Максимов В.Ю., Аминева С.Н., Жирнов Р.В., Игашов С.Ю., Мусаева Т.Н. Система машинного перевода «Кросслятор 2.0» и анализ ее функциональности для задачи трансляции знаний // Препринт ИПМ им. М.В.Келдыша РАН. Москва, 2007.
13.Гладкий A.B. Синтаксические структуры естественного языка, Изд. 2 -М.: ЖИ, 2007. С. 12-15.
14.Глинских А. Мировой рынок PDM-систем // Компьютер-Информ, №7, 2001.
15.Головченко А. ILM - концепция и инструментарий // PC Week Review, №1, 2008.
16.Гольдин В.В., Журавский В.Г., Сарафанов A.B., Кофанов Ю.Н. Информационная поддержка жизненного цикла электронных средств. М.: Радио и связь, 2002. - 379 с.
17.Грибиненко М.В. Типы связей между сигнификативными дескрипторами в сочетании метафорических моделей // [Труды
международной конференции "Диалог" 2010] URL: http://www.dialog-21 .ru/digests/dialog2010/materials/html/Gribinenko.htm (дата обращения: 11.03.2012).
18.Давыдов В. Visual С++. Разработка Windows-приложений с помощью MFC и API-функций. С-т Петербург: БХВ-Петербург, 2008.
19.Демьянков В.З. Теория прототипов в семантике и прагматике языка // [Сайт профессора, доктора филологических наук, заместителя директора Института языкознания РАН Валерия Закиевича Демьянкова]. URL: http://www.infolex.rU/Prot.html#_Toc32159104 (дата обращения: 11.03.2012).
20.Дроздов В.В. Автоматическая генерация правил для грамматик естественных языков // Материалы ежегодной научно-технической конференции студентов, аспирантов и молодых специалистов МИЭМ. М. МИЭМ, 2009. С. 63-64.
21. Дроздов В.В. Автоматическая генерация правил для системы, использующей грамматический подход к синтаксическому анализу // Журнал «Научно-техническая информация», № 5, сер. 2, 2010. С. 19-23.
22.Дроздов В.В., Клышинский Э.С. Метод автоматической генерации правил синтаксического анализа для грамматик в БНФ // Материалы двенадцатого научно-практического семинара «Новые информационные технологии в автоматизированных системах».- М. МИЭМ, 2009. С. 149-153.
23.Дроздов В.В., Клышинский Э.С. О повышении качества синтаксического анализа текста за счет обучения с учителем // Журнал «Качество Инновации Образование», №10, 2010. С. 45-52.
24.Елкин C.B., Клышинский Э.С., Стеклянников С.Е. Проблемы создания универсального морфосемантического словаря // Сб. трудов Международных конференций IEEE AIS'03 и CAD-2003, том 1, Дивноморское. 2003.
25.Жирнов Р.В., Клышинский Э.С., Максимов В.Ю. Модуль фрагментарного анализа в составе системы машинного перевода. Crosslator 2.0 // Вестник ВИНИТИ, 2005 г. НТИ. Серия 2. №8 С. 31-33
26.Клышинский Э.С. Перспективные методы обработки проектной документации // Сб. трудов XII Всероссийской научной конференции RCDL'2010 (Казань 13-17 октября 2010). Казань: Казанский ун-т 2010 сс. 129-134
27.Клышинский Э.С., Ёлкин C.B., Бондаренко A.B., Визильтер Ю.В. Методы обработки данных в корпоративных информационных системах. М.: МГУП, 2009.
28.Клышинский Э.С., Кочеткова H.A., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2010, 2010.
29.Клышинский Э.С., Манушкин Е.С. Математическая модель порождения правил синтаксической сегментации // Сб. трудов второй Всероссийской конференции «Знания - Онтологии - Теории», Новосибирск, 2009, Том 2, С. 182-186.
30.Клышинский Э.С., Манушкин Е.С. Метод автоматической генерации правил синтаксической сегментации // Сб. трудов двенадцатого научно-практического семинара «Новые информационные технологии», М. 2009, С. 135-148
31 .Колчин А. Что такое PDM? // PC Week, №38, 2001.
32.Корчагин K.M. Поэтический подкорпус национального корпуса русского языка как акцентологический источник // [Труды международной конференции "Диалог" 2008] URL: http://www.dialog-21 .ru/digests/dialog2008/materials/html/Korchagin.htm (дата обращения: 11.03.2012).
33. Леонтьева H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация // Сборник научных трудов Выпуск 217: Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода, М., 1987.
34.Леонтьева. H.H. «Политекст»: информационный анализ политических текстов. // НТИ, Сер.2, 1995, №4.
35.Литвинов М.И. Комплексный метод снятия частеречной омонимии с использованием статистики совместного употребления слов в тексте на русском языке // по материалам XII-ой Национальной конференции по искусственному интеллекту с международным участием.
36.Литвинов М.И. Метод повышения качества снятия омонимии с использованием статистики совместного употребления слов // журнал «Качество Инновации Образование», 2010 г., 11-й выпуск.
37.Литвинов М.И. Модели управления на основе сочетаний из трёх слов и глагольное управление для поверхностного синтаксического анализа // Сб. трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-13». М.: МИЭМ, 2010. С. 107-112.
38.Мальковский М.Г., Старостин A.C. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» // Труды международного семинара Диалог'2006, М., 2006.
39.Мальковский М.Г., Старостин A.C. Система treeton: анализ под управлением штрафной функции // Международный журнал "Программные продукты и системы" выпуск № 1, 2009.
40.Мальковский М.Г., Старостин A.C. Система морфо-синтаксического анализа Treeton и мультиагентный синтаксический анализатор Treevial: принцип работы, система правил и штрафов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ.
поиску / [отв. ред. П. И. Браславский]. — Екатеринбург: Изд-во Урал, ун-та, 2007, С. 135-143.
41.Манушкин Е.С. Метод автоматической разметки предложения для этапа синтаксической сегментации // Сб. трудов пятнадцатого научно-практического семинара «Новые информационные технологии», М. 2012 С. 191-198.
42.Манушкин Е.С. Применение метода автоматической генерации правил синтаксической сегментации для расширенных сетей переходов // Сб. трудов тринадцатого научно-практического семинара «Новые информационные технологии», М. 2010, С. 93-106
43.Манушкин Е.С., Клышинский Э.С. Метод автоматического порождения правил синтаксической сегментации для задач анализа текстов на естественном языке // Информационные технологии и вычислительные системы, 4, 2009 г., С. 57-66
44.Манушкин Е.С., Клышинский Э.С. Метод автоматического порождения правил синтаксической сегментации для расширенных сетей переходов // Информационные технологии и вычислительные системы, № 2, 2011г., С. 58-67
45.НИЦ CALS-технологий "Прикладная логистика" // [Сайт научно исследовательского центра CALS технологий в России] URL:http://www.cals.ru/policy/ (дата обращения: 11.03.2012).
46.Ножов И.М. Реализация автоматической синтаксической сегментации русского предложения // Диссертация на соискание ученой степени кандидата технических наук, М.: РГГУ, 2003.
47.0 нас // [Официальный сайт проекта АОТ] URL:http://www.aot.ru/history.html#4 (дата обращения: 11.03.2012).
48,Орлов С. Жизненный цикл ILM // LAN №7, 2007.
49. Отрасли // [Официальный сайт компании ПРОМТ] URL: http://www.promt.ru/industry/ (дата обращения: 11.03.2012).
50.ПРОМТ выписывает читательский билет в MSDN Library // [Официальный сайт компании ПРОМТ] URL: http://www.promt.ru/press/news/10397/ (дата обращения: 11.03.2012).
51.Рассел С., Норвиг П. Искусственный интеллект. Современный подход. Москва - С-т Петербург - Киев: Вильяме, 2006, С. 1093.
52.Семенова С.Ю. Домашние слова (в аспекте памяти) // [Труды международной конференции "Диалог" 2008] URL: http://www.dialog-21 .ru/digests/dialog2008/materials/pdf/Semenova.pdf (дата обращения: 11.03.2012).
53.Семенова С.Ю. Энциклопедическая информация о слове и лексические классы // [Труды международной конференции "Диалог" 2010] URL: http://www.dialog-21.ru/digests/dialog2010/materials/pdf/Semenova.pdf (дата обращения: 11.03.2012).
54.Силонов А.Ф. Модульный принцип описания этимологии в многоязычном электронном словаре // [Труды международной конференции "Диалог" 2010] URL: http://www.dialog-21 .ru/digests/dialog2010/materials/pdf/Silonov.pdf (дата обращения: 11.03.2012).
55.Синтаксический анализ // [Синтаксический анализ] URL: http://aot.ru/docs/synan.html (дата обращения: 11.03.2012).
56.Современная американская лингвистика: фундаментальные направления; под ред. A.A. Кибрика, И.М. Кобозевой, И.А. Секериной. М.:УРСС, 2002. 477 с.
57.Старостин A.C., Арефьев Н.В., Мальковский М.Г. Синтаксический анализатор «Treevial». Принцип динамического ранжирования гипотез // Труды международного семинара Диалог'2010, М., 2010.
58.Старостин A.C., Мальковский М.Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа "Treeton" // Материалы международной конференции "Диалог 2007". Москва, 2007, С. 516-524.
59.Тестелец Я.Г. Введение в общий синтаксис. М.: РГГУ, 2001 г. 798 с.
60.Технологии компании ПРОМТ // [Сайт компании ПРОМТ]. URL: http://www.promt.ru/company/technology/promt/ дата обращения: 23.08.2010).
61.Формальные модели анализа и распознавания языковых структур // [Сайт Международной конференций по компьютерной лингвистике «Диалог»]. URL: http://www.dialog-21.ru/trends/?id=2026&forum_id=17&f=l (дата обращения: 26.05.2011).
62.Фрагментационный анализ // [Фрагментарнй анализ] URL: http://aot.ru/docs/fragman.html (дата обращения: 11.03.2012).
63.Хахалин Т.К. Предметная онтология для понимания текстов геометрических задач // [Труды международной конференции "Диалог" 2008] URL: http://www.dialog-21 .ru/digests/dialog2008/materials/pdf/Khakhalin.pdf (дата обращения: 11.03.2012).
64.Хомский Н. Синтаксические структуры // Новое в лингвистике; Под ред. Звегинцева В.А. вып. II, М.: Прогресс, 1962, С. 412-527.
65.Черненьков Д.М., Клышинский Э.С. Формальный метод пополнения словарей морфологического анализа с использованием несловарной лексики // Вестник компьютерных и информационных технологий, №3, 2011, сс. 22-28
66.Backus J.W. The syntax and semantics of the proposed international algebraic language of the Zurich ACM-GAMM Conference // Proceedings of the International Conference on Information Processing, UNESCO, 1959, pp. 125-132.
67.Bobrow D.G. Natural language input for a computer problem-solving system // Semantic information processing; Ed. by Minsky M. Cambridge (Mass.): The MIT Press, 1969. pp. 146 - 226.
68.Buczynski A., Przepiorkowski A. Demo: An Open Source Tool for Partial Parsing and Morphosyntactic Disambiguation // [Proceedings of LREC
2008] URL: http://nlp.ipipan.waw.pl/Spejd/LREC2008.demo.pdf (дата обращения: 11.03.2012).
69.Buczynski A., Wawer A. Shallow parsing in sentiment analysis of product reviews // Proceedings of the Partial Parsing workshop at LREC 2008, pp. 14-18.
70.Chomsky N. Aspects of the Theory of Syntax. Cambridge, MA: The MIT Press, 1965.
71.Chomsky N. Lectures on government and binding. The Pisa Lectures. Dordrecht: Foris, 1981.
72.Chomsky N. Syntactic Structures. The Hague: Moution, 1957.
73.Chomsky N. The Minimalist Program. Cambridge (Mass.): The MIT Press, 1995.
74.Chomsky N. Three models for the description of // IRI Transactions on Information Theory, 1956. pp. 113-124.
75.Cornelis H.A. Koster Erik Verbruggen. The AGFL Grammar Work Lab // Proceedings FREENIX/Usenix 2002 Dept. Сотр. Sci. University of Nijmegen (KUN) The Netherlands, pp. 13-18.
76.Cornelis H.A. Koster, Stefan Gradmann. The language belongs to the People! // Proceedings LREC 2004, Lisbon, May 26-28 2004
77. Drozdov V.V. Automatic Generation of Rules for a System that Uses a Grammatical Approach to Syntactic Analysis // Automatic Documentation and Mathematical Linguistics, No. 3, Vol. 44, 2010, pp. 121-126.
78.Gazdar G., Klein E., Pullum G., Sag I. Generalized Phrase Structure Grammar. Cambridge (Mass.): The MIT Press, 1985.
79.Grinberg D., Lafferty J., Sleator D. A Robust Parsing Algorithm For Link Grammars // Shool of Computer Science, Carnegie Mellon University, August 1995.
80.Hutchins J. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954 // [Publications on machine translation, computer-based translation technologies, linguistics and other
topics] URL: http://www.hutchinsweb.me.uk/GU-IBM-2005.pdf (дата обращения: 11.03.2012).
81.Knuth D.E. Backus Normal Form vs. Backus Naur Form // Communications of the ACM, 1964, Vol. 7, Issue 12, pp. 735-736.
82.Lafferty J. Sleator D. Temperley D. Grammatical Trigrams: A Probabilistic Model of Link Grammar //Proceedings of the AAAI Conference on Probabilistic Approaches to Natural Language, 1992.
83.Lezius Wolfgang. Morphy - German Morphology, Part-of-Speech Tagging and Applications in Ulrich Heid // Editors: Stefan Evert, Egbert Lehmann and Christian Rohrer, Proceedings of the 9th EURALEX International Congress, Germany, Stuttgart, 2000, pp. 619-623.
84.Lovins J.B. Development of a stemming algorithm // Mechanical Translation and Computational Linguistics 11, 1968, pp. 22-31.
85.Manual for the AGFL system version 2.8 march 2009 // [AGFL Руководство пользователя версия 2.8] URL: http://www.agfl;cs.ru.nl/papers/manual28.pdf (дата обращения: 11.03.2012).
86.Michie Donald. Memo Functions and Machine Learning // Nature, No. 218, pp. 19-22,1968.
87.Miiller S. The babel-system: An HPSG Prolog implementation // In Proceedings of the 4th International Conference on the Practical Application of Prolog, London, 1996. pp. 263-277.
88.Neumann G., Brauny C., Piskorski J. A Divide-and-Conquer Strategy for Shallow Parsing of German Free Texts // ANLC '00 Proceedings of the sixth conference on Applied natural language processing, 2000, pp. 239-246.
89.Neumann G., Piskorski J. A Shallow Text Processing Core Engine // Computational Intelligence, 2002. Vol. 18, № 3, pp. 451-476.
90.Pollard C., Sag, I.A. Head-Driven Phrase Structure Grammar. Chicago: University of Chicago Press, 1994.
91.Porter M.F. An algorithm for suffix stripping // Program, 1980, Vol. 14, № 3, pp. 130-137.
92.Przepiorkowski A. Towards a Partial Grammar of Polish for Valence Extraction // [Proceedings of Grammar and Corpora 2007] URL: http://nlp.ipipan.waw.pl/~adamp/Papers/2007-
grammar.and.corpora/Przepiorkowski.pdf (дата обращения: 11.03.2012).
93.Przepiorkowski A., Buczynsk A. Shallow Parsing and Disambiguation Engine // [Proceedings of 3rd Language & Technology Conference, 2007] URL: http://nlp.ipipan.waw.pl/~adamp/Papers/2007-ltc-spade/Spade.pdf (дата обращения: 11.03.2012).
94.Robert D., Levine W., Detmar Meurers. Head-Driven Phrase Structure Grammar Linguistic Approach, Formal Foundations, and Computational Realization // The Ohio State University, 2006.
95.Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // [Proceedings MLMTA, 2003] URL: http://company.yandex.ru/articles/iseg-las-vegas.html (дата обращения: 11.03.2012).
96.Sleator D., Temperley D. Parsing English with a Link Grammar // Carnegie Mellon University, 1991.
97.SPADE parsing system: Sentence-level PArsing for DiscoursE // [License Agreement for SPADE] URL:http://www.isi.edu/licensed-sw/spade/ (дата обращения: 11.03.2012).
98.Thorne J.P. A computer model for the perception of syntactic structure // Proceedings of the Royal society. Edinburg: English Language Research Unit, Edinburg University, 1968. V. 171. pp. 377 - 386.
99.Tufis D. It Would Be Much Easier If WENT Were GOED // [Fourth Conference of the European Chapter of the Association for Computational Linguistics] URL: http://aclweb.Org/anthology-new/E/E89/E89-1020.pdf (дата обращения: 11.03.2012).
100.Vollger A. Tagging and parsing German using Spejd // [Web page of Hrafn Loftsson the Professor of School of Computer Science Reykjavik University] URL: http://www.ru.is/faculty/hraftl/studentsЯndependentStudy_Spejd.pdf (дата обращения: 11.03.2012).
101. Wanner E., Maratsos M. An ATN approach to comprehension. In M. Halle, J. Bresnan, and G.A. Miller. Linguistic Theory and Psychological Reality. Cambridge: MIT Press, 1978.
102.Weaver W. Translation. Technical Report, 1949. Reprinted in Machine Translation of languages. Cambridge, MA: The MIT Press 1955. pp. 15-23.
103.Welcome to AGFL Natural Language Processing // [Официальный сайт проекта AGFL]. URL: http://www.agfl.cs.ru.nl/ (дата обращения: 11.03.2012).
104.Winograd Т. Language as Cognitive Process, Syntax. Addison-Wesley, Vol. 1, 1983.
105.Woods W.A. An Experimental Parsing System for Transition Network Grammars. New-York: Algorithmics Press, pp. 111-154.
106.Woods W.A. Semantics and quantification in natural language question answering // Advances in computers. - N.Y. etc., 1978. V.17. pp. 1-87.
107.Woods W.A. Transition Network Grammars for Natural Language Analysis // Ed. By D.G. Bobrow, Communications of the ACM, Vol. 13, № 10,1970, pp. 591-606
108.Yoon-Hyung Roh, Young-Ae Seo, Ki-Young Lee, Sung-Kwon Choi. Long Sentence Partitioning using Structure Analysis for Machine Translation // [Proceedings of the 6 Natural Language Processing Pacific Rim Symposium November 27-30, 2001] URL: http://www.afnlp.org/archives/nlprs200l/pdf/0174-03.pdf (дата обращения: 11.03.2012).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.