Метод автоматизированной генерации правил синтаксического анализа проектной документации тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Дроздов, Вячеслав Вадимович
- Специальность ВАК РФ05.13.12
- Количество страниц 123
Оглавление диссертации кандидат технических наук Дроздов, Вячеслав Вадимович
Введение.
Глава 1. Обзор методов синтаксического анализа.
1.1. Деревья синтаксического подчинения.
1.2. Основные направления развития синтаксического анализа.
1.3. Методы синтаксического анализа, основанные на связях слов.
1.3.1. Модель п-грамм.
1.3.2. Модель грамматики связей.
1.4. Методы синтаксического анализа, основанные на грамматиках.
1.4.1. Расширенные сети переходов.
1.4.2. Модель «Смысл «-»Текст».
1.4.3. Семантическая грамматика.
1.4.4. Системно-функциональная грамматика.
1.4.5. Лексико-функциональная грамматика.
1.4.6. HPSG.
1.5. Методы обучения.
1.6. Выводы.
Глава 2. Формальная основа метода автоматизированной генерации правил.
2.1. Метод и журнал синтаксического разбора.
2.2. Модифицированные деревья синтаксического подчинения.
2.3. Выводы.
Глава 3. Алгоритмы и метод автоматизированной генерации правил.
3.1. Основные алгоритмы.
3.2. Метод автоматизированной генерации правил.
3.3. Ограничения метода.
3.4. Выводы.
Глава 4. Практическая реализация разработанного метода.
4.1. Подсистема генерации новых правил.
4.2. Примеры генерации новых правил.
4.3. Оценка эффективности метода.
4.4. Выводы.
Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик2012 год, кандидат технических наук Манушкин, Евгений Сергеевич
Особенности синтаксического анализа открытых интерфейсных контекстно-свободных языков2005 год, кандидат физико-математических наук Лапшин, Владимир Анатольевич
Метод моделирования процедур в лингвистическом процессоре автоматизированных диалоговых систем управления2003 год, кандидат технических наук Плоткин, Борис Владимирович
Математическое моделирование семантической эквивалентности Δ-грамматиками1999 год, кандидат физико-математических наук Кречетова, Татьяна Владимировна
Методы, алгоритмы и программное обеспечение комбинаторной генерации2010 год, доктор технических наук Кручинин, Владимир Викторович
Введение диссертации (часть автореферата) на тему «Метод автоматизированной генерации правил синтаксического анализа проектной документации»
В ходе своего существования крупные предприятия формируют большой архив, содержащий в себе различного рода документацию, связанную с их функционированием. К подобным документам относятся не только результаты официального документооборота (приказы, распоряжения и пр.), но и техническая документация по выполняемым и выполненным проектам: технические отчеты, проектная документация, планы и так далее. В последнее время довольно широкое распространение получили системы ILM (Information Lifecycle Management) и PDM (Product Data Management). ILM охватывает все процессы управления размещением, хранением, распределением, миграцией, архивированием и удалением данных в инфраструктуре предприятия [10,23]. Задачей ILM является хранение документов, и обеспечение оптимального времени доступа к ним со стороны пользователя и его систем [14].
PDM - это технология управления данными об изделии, которая позволяет решить две проблемы, возникающие при разработке и поддержке жизненного цикла наукоемкой промышленной продукции: управление данными об изделии и управление информационными процессами жизненного цикла изделия, создающими и использующими эти данные [16].
Построение эффективной единой информационной системы предприятия требует интеграции PDM-системы с системами Computer Aided Design / Manufacturing (CAD/CAM) и системами Enterprise Resource Planning System (ERP). CAD/CAM системы обеспечивают такие функции, как проектирование изделий, разработку технологий, расчет материальных и трудовых нормативов. ERP системы призваны выполнять такие функции, как планирование, управление продажами, снабжением, производством и запасами, управление персоналом, ведение управленческого, бухгалтерского и налогового учета. Общая схема взаимодействия этих систем представлена на рис.1. чертеж. коксгрушзраад < спецификация изделия
Инструкция Технология
Техпроцесс, нормы расхода материалов, нормы времени
Справочник материалов
Спрэзочнвд! конструкторской номенклатуры
Конструкторская Технологическ. документация документация
Нор'.'ы расхода материалов ,
Конструкторский состав изделия
Техпроцессы, маршруты
Номенклатура Спецификация Маршрут Список отступления от норм РЦ
Рис. 1. Общая схема интеграции CAD/CAM, PDM и ERP систем
В условиях жесткой конкуренции применение PDM-технологий дает предприятиям возможность получить целый ряд преимуществ, основными из которых являются: сокращение сроков разработки изделий и вывода их на рынок (сокращение так называемого цикла time-to-market); снижение себестоимости продукции при сохранении ее высокого качества; полное информационное сопровождение продукции на протяжении всего ее жизненного цикла [9].
Данные об изделии представляют собой всю информацию, созданную в течение жизненного цикла. Они включают в себя состав и структуру изделия, технические задания, геометрические параметры, чертежи, планы проектирования и производства, спецификации, нормативные документы, программы для станков с числовым программным управлением, результаты анализа, эксплуатационные данные и многое другое. Поскольку при их создании все чаще используются компьютерные средства, то поиск ответа на вопросы: «Существуют ли необходимые данные?», «Где они находятся?», «Являются ли они актуальными?» - не всегда представляется тривиальным [16].
Большая часть информации о начальном и конечном этапе проектирования и создания изделия содержится в текстовом виде, поэтому качество ответов на эти вопросы напрямую зависит от качества обработки текстов на естественном языке.
Одним из наиболее сложных при обработке текста, как с вычислительной точки зрения, так и с точки зрения разработчиков, является этап синтаксического анализа текста. Цель синтаксического анализа - установить грамматическую структуру предложения. Этап работы с синтаксисом играет важную роль в задаче моделирования и понимания естественных языков.
Можно выделить два основных направления развития технологии синтаксического анализа: традиционная технология, основанная на применении грамматик (алгоритмов), и технология, основанная на связях слов. Обе технологии имеют свои плюсы и минусы.
Основными достоинствами наиболее распространенных методов технологии, основанной на связях слов, является высокая скорость работы и возможность построения модели по обучающему корпусу достаточно большого размера. Основной недостаток - не учитывается внутренняя структура предложения (наиболее ярко выражен в самом распространенном методе этой технологии — методе п-грамм).
К основным достоинствам наиболее распространенных методов технологии, использующей грамматики, следует отнести высокое качество синтаксического анализа за счет учета внутренней структуры предложения. Основной недостаток - они требуют большего внимания при построении, и их автоматическое обучение представляется крайне затруднительным.
Несмотря на то, что методы на основе грамматик используют заведомо неполные своды правил, они показывают результаты, не уступающие в эффективности самым современным подходам, основанным на связях слов.
Если для улучшения качества работы методов на основе связей слов нужно дорабатывать их теоретическую часть и нелинейно наращивать объемы баз связей между словами, то качество работы методов на основе грамматик сдерживается, прежде всего, крайне высокой трудоемкостью создания и сопровождения правил анализа. В этих условиях задача создания системы автоматизированной генерации правил приобретает особую актуальность.
Создание подобной системы позволит снизить временные и экономические затраты на разработку грамматик естественных языков. На 5 настоящий момент такие правила создаются лингвистами вручную. При этом при достижении некоторого порогового числа правил, зависящего от сложности формата представления правил, опыта лингвистов и имеющихся средств автоматизации процесса написания правил, сложность их создания и сопровождения становится нетривиальной задачей и начинает превосходить, например, сложность программирования системы синтаксического анализа. Сложность сопровождения грамматик становится экспоненциальной, что мешает создавать грамматики с достаточно широким покрытием.
В связи с этим в данной работе ставились следующие цели и задачи. Цель работы и задачи исследования. Целью диссертационной работы является разработка метода автоматизированной генерации правил для системы, использующей синтаксический анализ на основе правил. Входными данными разрабатываемого метода являются:
1. Дерево синтаксического подчинения, которое вводит лингвист для исходного предложения, которое не удалось разобрать уже существующими правилами. Дерево синтаксического подчинения показывает синтаксические связи в предложении.
2. Журнал синтаксического разбора предложения, в котором синтаксический анализатор сохраняет информацию об использованных им правилах. Выходными данными разрабатываемого метода являются новые правила синтаксического анализа, которые позволяют провести успешный синтаксический анализ исходного предложения.
Успешное решение этой задачи ускорит процесс создания правил для синтаксического анализа проектной документации и сделает его экономически более эффективным.
В данной работе рассматриваются различные методы синтаксического анализа, их достоинства и недостатки, с целью показать актуальность создания метода автоматизированной генерации правил. Основные усилия были направлены на разработку метода, позволяющего производить генерацию правил в автоматизированном режиме и допускающего эффективную б программную реализацию на современных персональных компьютерах.
Для достижения поставленной цели необходимо решить следующие задачи.
• Проанализировать возможность использования деревьев синтаксического подчинения в качестве источника априорной информации для создания новых правил.
• Разработать формат записи деревьев синтаксического подчинения, пригодный для программной реализации метода автоматизированной генерации правил, на основе деревьев синтаксического подчинения: А.В .Гладкого.
• Проанализировать возможность использования журнала синтаксического разбора предложения, в котором синтаксический анализатор сохраняет информацию об использованных им правилах, для задачи поиска неразобранной части предложения и для поиска предложения, которое можно разобрать имеющимися в базе правилами.
• Разработать алгоритм поиска неразобранной части предложения, то есть такой минимальной части (или частей) предложения, убрав которую, можно будет разобрать предложение, имеющимися в базе правилами.
• Разработать алгоритм поиска максимального фрагмента неразобранного предложения, который удается разобрать имеющимися в базе правилами.
• Разработать алгоритм генерации новых правил синтаксического анализа проектной документации с использованием деревьев синтаксического подчинения и журнала разбора.
• Разработать метод, позволяющий в автоматизированном режиме создавать правила синтаксического анализа проектной документации.
Методы исследования. При решении поставленных задач использовались основные понятия теории компиляторов, компьютерной лингвистики, методы анализа текстов на естественных языках, основные положения дискретной математики и, в частности, теории графов, алгоритмы и методы обработки данных, методы объектно-ориентированного 7 программирования и разработки интеллектуальных систем.
Научная новизна результатов работы. Основным сдерживающим фактором для развития систем синтаксического анализа на основе правил является очень большая трудоемкость при добавлении новых правил. Необходимое количество правил, описывающих синтаксический анализ, исчисляется сотнями. Для их составления требуется долгий труд профессиональных лингвистов, сопоставимый и даже превосходящий по сложности программирование системы интерпретации подобных правил. При этом возникают те же сложности: необходимость контроля версий, отладки, поддержки. Существующих известных методов обучения систем синтаксического анализа на основе правил крайне мало. Вероятно, самый известный среди них, метод генетических алгоритмов, заслуживает серьезного рассмотрения, но и он к практическому применению не готов.
Автором разработаны метод и алгоритмы, позволившие решить поставленные в диссертационной работе задачи по созданию автоматизированной системы генерации правил для грамматического синтаксического анализа с использованием деревьев подчинения и журнала разбора. Разработанный метод позволяет создавать по введенному дереву подчинения именно те правила, которые нужны для успешного синтаксического разбора неразобранного предложения, существенно увеличивая скорость создания новых правил, так как от лингвиста требуется построение дерева синтаксического подчинения предложения вместо ручного редактирования базы правил. Деятельность лингвиста смещается в сторону контроля над правильностью формирования новых правил, их размещением в грамматике, группировкой и согласованием.
Практическая ценность результатов. Предложено новое техническое решение, позволяющее в автоматизированном режиме создавать правила для синтаксического анализа текстов на русском языке, которое ускоряет процесс генерации правил и делает его экономически более эффективным. Внедрение программного обеспечения на основе разработанного метода позволяет быстро 8 настраивать существующую систему синтаксического анализа документации под предметную область и стилистику заказчика.
Автором самостоятельно спроектирована и реализована подсистема генерации новых правил для системы машинного перевода «Кросслейтор», разрабатываемой в ИПМ им. М.В. Келдыша. Проведенные испытания показали эффективность применения предложенных решений.
Реализация и внедрение результатов. Алгоритмы и метод, описанные в данной работе, реализованы автором в компьютерной программе. Программа создавалась как с целью апробации и совершенствования разрабатываемых алгоритмов и метода, так и с целью практического использования в машинном переводчике «Кросслейтор», разрабатываемом в ИПМ им. М.В. Келдыша РАН и при выполнении гос. контракта П-261 в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., заключенного между Министерством образования и науки и МИЭМ.
Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:
1. «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 19 февраля - 29 февраля 2008 г.
2. «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 24 февраля - 05 марта 2009 г.
3. «Горизонты прикладной лингвистики и лингвистических технологий», Мегалинг 2009, Украина, Киев, 20-27 сентября 2009 г.
4. «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 17 февраля - 01 марта 2010 г.
5. «Новые информационные технологии в автоматизированных системах», МИЭМ, 25 марта 2010 г.
Основное содержание диссертационной работы и ее результатов отражено в следующих научных и научно-технических работах автора (из них 1 в журнале из перечня ВАК):
1. Дроздов В.В., Клышинский Э.С. О повышении качества синтаксического анализа текста за счет обучения с учителем // Журнал «Качество Инновации Образование», №10, 2010. С. 45-52.
2. Drozdov V.V. Automatic Generation of Rules for a System that Uses a Grammatical Approach to Syntactic Analysis // Automatic Documentation and Mathematical Linguistics, No. 3, Vol. 44, 2010, pp. 121-126.
3. Дроздов B.B. Обзор и сравнение статистических и грамматических методов синтаксического анализа // Материалы тринадцатого научно-практического семинара «Новые информационные технологии в автоматизированных системах».-М. МИЭМ, 2010. С. 75-83.
4. Дроздов В.В. Автоматическая генерация правил для системы, использующей грамматический подход к синтаксическому анализу // Журнал «Научно-техническая информация», № 5, сер. 2, 2010. С. 19-23.
5. Дроздов В.В. Обзор методов синтаксического анализа // Материалы международной научной конференции Мегалинг, Киев, 2009. С. 59.
6. Дроздов В.В., Клышинский Э.С. Метод автоматической генерации правил синтаксического анализа для грамматик в БНФ // Материалы двенадцатого научно-практического семинара «Новые информационные технологии в автоматизированных системах».— М. МИЭМ, 2009. С. 149153.
7. Дроздов В.В. Автоматическая генерация правил для грамматик естественных языков // Материалы ежегодной научно-технической конференции студентов, аспирантов и молодых специалистов МИЭМ. -М. МИЭМ, 2009. С. 63-64.
8. Дроздов В.В. Автоматизированная система генерации правил // Материалы ежегодной научно-технической конференции студентов, аспирантов и молодых специалистов МИЭМ- М. МИЭМ, 2008. С. 136137.
Структура работы. Работа состоит из введения, четырех глав с выводами, заключения и списка использованной литературы.
На защиту выносятся следующие основные положения:
• Метод, позволяющий в автоматизированном режиме генерировать правила синтаксического анализа проектной документации.
• Алгоритм поиска неразобранной части предложения, то есть такой минимальной части (или частей) предложения, убрав которую, можно будет разобрать предложение имеющимися в базе правилами.
• Алгоритм поиска максимального фрагмента неразобранного предложения, которое удается разобрать имеющимися в базе правилами.
• Алгоритм генерации новых правил с использованием деревьев синтаксического подчинения и журнала разбора.
Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК
Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов2012 год, кандидат технических наук Литвинов, Максим Игоревич
Математическое и программное обеспечение обучающих систем, основанное на генерации функционально зависимых цепочек и специализированных алгоритмах выборки2008 год, кандидат технических наук Кантор, Илья Александрович
Регуляризация контекстно-свободных грамматик на основе эквивалентных преобразований синтаксических граф-схем2009 год, кандидат технических наук Федорченко, Людмила Николаевна
Методы и алгоритмы распознавания и оценки сложноструктурированных рисков на основе иерархических продукционных систем2006 год, кандидат технических наук Прядко, Татьяна Валерьевна
Синтаксические методы описания и обработки информации, представленной функциональными зависимостями и сигналами сложной формы1999 год, кандидат технических наук Мосунов, Сергей Евгеньевич
Заключение диссертации по теме «Системы автоматизации проектирования (по отраслям)», Дроздов, Вячеслав Вадимович
4.4. Выводы
Для системы машинного перевода «Кросслейтор», где правила синтаксического анализа хранятся в модифицированных Бэкусовских нормальных формах, на основе разработанного метода автоматизированной генерации правил была создана подсистема генерации новых правил. С помощью этой подсистемы удается пополнять базу правил синтаксического анализа новыми правилами, позволяя успешно разбирать предложения, которые
105 с помощью исходной базы правил не разбирались.
Заключение
Целью проведения синтаксического анализа является установление грамматической структуры предложения. Грамматическая структура предложения может быть представлена в виде деревьев синтаксического подчинения.
Можно выделить два основных направления развития технологии синтаксического анализа: традиционная технология, основанная на применении правил (лингвистические теории, основывающиеся пусть даже частично на контекстно-свободных грамматиках), и технология синтаксического анализа, основанная на связях между словами. Модели, основанные на связях слов, имеют более полную картину о естественном языке в рамках своей теории, чем модели на основе грамматик в рамках своей. Однако результаты моделей на основе грамматик сравнимы по качеству проводимого анализа с моделями на основе связей слов. Наличие более полной информации в рамках своей теории об используемом естественном языке в моделях на основе связей слов связано с тем, что для таких моделей существуют методы автоматического получения знаний о естественном языке.
В моделях на основе грамматик наиболее известный метод обучения, основанный на генетических алгоритмах, к практическому применению на настоящий момент не готов. В итоге, для моделей на основе грамматик такие знания вводятся лингвистами вручную, что ведет к крайне высокой трудоемкости процесса создания и сопровождения грамматик. Создание подобных грамматик вручную зачастую превосходит по сложности написание самой системы, проводящей синтаксический анализ. В этих условиях задача создания системы автоматизированной генерации правил для грамматических моделей приобретает особую актуальность.
В данной работе ставилась цель разработать метод автоматизированной генерации правил для системы, использующей синтаксический анализ на основе правил. В качестве входных структур для разработанного метода были
106 использованы журнал синтаксического разбора и модифицированные деревья синтаксического подчинения. Журнал синтаксического разбора формируется системой машинного перевода «Кросслейтор» при проведении синтаксического анализа предложения. Правила синтаксического разбора в этой системе хранятся в Бэкусовских нормальных формах. Таким образом, сгенерированные правила также будут в виде Бэкусовских нормальных форм. Модифицированные Бэкусовские нормальные формы сочетают в себе удобство и ясность записи контекстно-свободных грамматик с описательной мощностью контекстно-зависимых грамматик, что позволяет использовать их для проведения синтаксического анализа текстов на естественном языке. Существует также возможность конвертации правил в этой форме в формат правил ATN.
В качестве источника априорной информации о синтаксической структуре предложения для разрабатанного метода автоматизированной генерации правил были выбраны деревья синтаксического подчинения. Их выбор обуславливается двумя основными причинами:
• Точное и единообразное описание синтаксической структуры предложения, для которого будут генерироваться новые правила;
• Быстрота построения и удобство работы лингвиста, который будет задавать через деревья синтаксического подчинения структуру предложения, для которого нужно создать новые правила.
Основные требования, предъявляемые к структуре используемого в методе дерева синтаксического подчинения:
Корнем дерева выбирается подлежащее, а не сказуемое. Сделан выбор в пользу подлежащего, поскольку это упрощает структуру дерева при наличии однородных членов и согласуется с грамматикой машинного переводчика «Кросслейтор», где корнем дерева разбора также выбрано подлежащее.
Братьями в дереве подчинения могут на данный момент быть только однородные члены предложения, а также союзы и знаки препинания,
разделяющие их.
Если к слову относится частица («не», «ни»), то она в дереве подчинения должна быть родителем этого слова.
Порядок следования потомков одной вершины соответствует порядку слов в предложении.
Были разработаны алгоритмы и метод, позволяющие в автоматизированном режиме создавать новые правила в виде модифицированных Бэкусовских нормальных форм для системы синтаксического анализа с использованием деревьев синтаксического подчинения и журнала разбора. У метода есть ряд ограничений, которые, тем не менее, позволяют решать основную задачу - генерацию правил синтаксического анализа проектной документации в автоматизированном режиме.
Для системы машинного перевода «Кросслейтор», где правила синтаксического анализа хранятся в модифицированных Бэкусовских нормальных формах, на основе разработанного метода автоматизированной генерации правил была создана подсистема генерации новых правил. С помощью этой подсистемы удается пополнять базу правил синтаксического анализа новыми правилами, позволяя успешно разбирать предложения, которые с помощью исходной базы правил не разбирались.
Список литературы диссертационного исследования кандидат технических наук Дроздов, Вячеслав Вадимович, 2010 год
1. Ализар А. Незаметная смерть распознавания речи // Компьютерные вести, №18, 2010.
2. Андреев A.M., Березкин Д.В., Брик A.B., Кантонистов Ю.А. Вероятностный синтаксический анализатор для информационно-поисковой системы // Компьютерная хроника, №1, 1999.
3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский A.B., Митюшин Л.Г., Санников В.З., Цинман Л.Л. Лингвистический процессор для сложных информационных систем. М: Наука, 1992.
4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский A.B., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП 2. М: Наука, 1989.
5. Большаков И.А., Гельбух А.Ф. Модель «Смысл<->Текст»: Тридцать лет спустя // J. International Forum on Information and Documentation, №1, 2000.
6. Бузикашвили H.E., Крылова Г.А., Самойлов Д.В. N-граммы в лингвистике. // Методы работы с документами. М., 2000.
7. Виноград Т. Программа, понимающая естественный язык; М., 1976.
8. Гладкий A.B. Синтаксические структуры естественного языка, Изд. 2 -М.: ЛКИ, 2007. С. 12-15.9.,Глинских А. Мировой рынок PDM-систем // Компьютер-Информ, №7, 2001.
9. Ю.Головченко А. ILM концепция и инструментарий // PC Week Review, №1,2008.
10. П.Дроздов B.B. Автоматизированный метод генерации правил синтаксического анализа проектной документации // Журнал «Научно-техническая информация», № 2, сер. 2, 2011.
11. Дроздов В.В., Клышинский Э.С. О повышении качества синтаксического анализа текста за счет обучения с учителем //Журнал «Качество.
12. Инновации. Образование», №10, 2010. С. 45-52.
13. Иомдин JI.JI. Автоматическая обработка текста на естественном языке: модель согласования. М.: Наука, 1990.
14. Клышинский Э.С. Перспективные методы обработки проектной документации // Сб. трудов конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Казань, 2010. С. 129-134.
15. Люгер Д.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. М. : Вильяме, 2003. 863 с.
16. Мельчук И.А. Об одной лингвистической модели типа «Смысл <->Текст» // Серия литературы и языка, №5, 1974. Т.ЗЗ.
17. Мельчук И.А. Опыт теории лингвистических моделей «Смысл«-»Текст». М.: Наука, 1974.
18. Мельчук И.А. Русский язык в модели «Смысл<-»Текст». М.: «Языки русской культуры»; Wien: Wiener Slawistischer Almanach. Sonderband 39 ,1995.
19. Ножов И.М. Реализация автоматической синтаксической сегментации русского предложения // Диссертация на соискание ученой степени кандидата технических наук, М.: РГГУ, 2003.
20. Ножов И.М. Синтаксический анализ // Компьютерра, №21, 2002.
21. Орлов С. Жизненный цикл ILM // LAN №7, 2007.
22. Протасов C.B. Преимущества грамматики связей для русского языка // Труды международного семинара Диалог'2005, М., 2005.
23. Протасов C.B. Вывод и оценка параметров дальнодействующей триграммной модели языка (Презентация) // Труды международного семинара Диалог'2008, М., 2008.
24. Протасов C.B. Вывод и оценка параметров дальнодействующей триграммной модели языка. // Труды международного семинара Диалог'2008, М., 2008.
25. Сегалович И., Маслов М. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндексе // Труды РОМИП 2004 / под ред. Некрестьянова И.С. СПб., 2004.
26. Современная американская лингвистика: фундаментальные направления; под ред. A.A. Кибрика, И.М. Кобозевой, И.А. Секериной. М.:УРСС, 2002. 477 с.
27. Сокирко A.B. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) // Диссертация на соискание ученой степени кандидата технических наук, М. 2001.
28. ТестелецЯ.Г. Введение в общий синтаксис. М.: РГГУ, 2001 г. 798 с.
29. Технологии компании ПРОМТ // Сайт компании ПРОМТ. URL: http://www.promt.ru/company/technology/promt/ дата обращения: 23.08.2010).
30. Формальные модели анализа и распознавания языковых структур // Сайт Международной конференций по компьютерной лингвистике «Диалог». URL: http://www.dialog-21.iWtrends/?id=2026&fommid=17&f=l (дата обращения: 23.08.2010).
31. Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы, 2002. Т.6. С. 384-385.
32. Хомский Н. Синтаксические структуры // Новое в лингвистике; Под ред. ЗвегинцеваВ.А. вып. II, М.: Прогресс, 1962, С. 412-527.ш
33. Шаров С.А. Средства компьютерного представления лингвистической информации // Информационные технологии и телерадиокоммуникации, 1996.
34. All Our N-gram are Belong to You // Official Google Research Blog. URL: http://googleresearch.blogspot.eom/2006/08/all-our-n-gram-are-belong-to-you.html (дата обращения: 23.08.2010).
35. Bahi L. R., Jelinek F., and Mercer R. L. A maximum likelihood approach to continuous speech recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983. pp. 179-190.
36. Bateman J.A. Enabling technology for multilingual natural language generation: the KPML development environment // Natural Language Engineering, vol 3, 1997.
37. Bobrow D.G. Natural language input for a computer problem-solving system // Semantic information processing; Ed. by Minsky M. Cambridge (Mass.): The MIT Press, 1969. pp. 146 226.
38. Bresnan, J. (ed.) The mental representation of grammatical relations. Cambridge, Mass.: The MIT Press, 1982.
39. Brown P. F., Delia Pietra V. J., P. V. de Souza, Lai J. C., and Mercer R. L. Class-based n-gram models of natural language. // In Proceedings of the IBM Natural Language ITL, Paris, France, 1990.
40. Burton. R. R. Semantic Grammar: A Technique for Constructing Natural Language Interfaces to Instructional Systems. BBN Report No. 3587, Bolt Beranek and Newman, Inc., Cambridge, MA., 1977.
41. Burton. R. R. Semantic grammar: an engineering technique for constructing natural language understanding systems. BBN Report No. 3453, Bolt Beranekand Newman, Inc., Cambridge, MA., 1976.112
42. Carbonell, J. G. Requirements for Robust Natural Language Interfaces: The XCALIBUR and LanguageCraft Experiences // Proceedings of COLING-86, Munich, Germany, 1986.
43. Chomsky N. Aspects of the Theory of Syntax. Cambridge, MA: The MIT Press, 1965.
44. Chomsky N. Lectures on government and binding. The Pisa Lectures. Dordrecht: Foris, 1981.
45. Chomsky, N. Syntactic Structures. The Hague: Moution, 1957.
46. Chomsky N. The Minimalist Program. Cambridge (Mass.): The MIT Press, 1995.
47. Chomsky, N. Three models for the description of language // IRI Transactions on Information Theory, 1956. pp. 113-124.
48. DeMori R. and Kuhn R. A cache-based natural language model for speech recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990. pp. 570—583.
49. Dorre J., Eisele A. A lexical-functional grammar system in Prolog // Proc. COLING-86, 1986. pp. 551 -553.
50. Fink G.A. Markov Models for Pattern Recognition. From Theory to Applications. Berlin: Springer-Verlag Berlin Heidelberg, 2008.
51. Gazdar G., Klein E., Pullum G., Sag I. Generalized Phrase Structure Grammar. Cambridge (Mass.): The MIT Press, 1985.
52. Goddeau D. and Zue V Integrating probabilistic lr parsing into speech understanding systems // Proceedings of the 1992 IEEE international conference on Acoustics, speech and signal processing, 1992. pp. 181-184.
53. Grinberg D., Lafferty J. and Sleator D. A robust parsing algorithm for link grammars // Proceedings of the Fourth International Workshop on Parsing Technologies. Carnegie Mellon University Computer Science technical report, 1995.
54. Halliday M.A.K. An Introduction to Functional Grammar, London: Edward Arnold, 1985.
55. Harris L.R. The ROBOT System: Natural Language Processing Applied to Data Base Query//Proceedings ACM Conf., 1976. pp. 165-172.
56. Hendrix, G.G., Sacerdoti, E.D., Sagalowicz, D., Slocum, J. Developing a natural language interface to complex data // ACM Transactions on database systems, 3(2), 1978. pp. 105-147.
57. Hopcroft J.E. and Ulman J.D. Introduction to Automata Theory, Languages and Computation. Rending. MA: Addison-Welsey, 1979.
58. Hudson R. Language Networks: The New Word Grammar. Oxford: Oxford University Press, 2007.
59. Hudson R. Word Grammar. Oxford: Oxford University Press, 1984.
60. Iyer R, Ostendorf M., and Rohlicek R. An improved language model using a mixture of Markov components // ARPA, 1994.
61. Jelinek F. Statistical Methods for Speech Recognition. Cambridge, Massachusetts: The MIT Press, 1997.
62. Jelinek F., Merialdo В., Roukos S., and Strauss M. A dynamic language model for speech recognition. IBM Research Division, Thomas J. Watson Research Center Yorktown Heights, NY, 1991. pp. 293-295.
63. Jurafsky D. and Martin J. H. Speech and Language Processing: An introduction to Natural Language Processing, Computational Linguistics, and Speech Processing. Prentice-Hall, 2000.
64. Kahn E. Frame, Semantics for motion verbs with application to metaphor // Proceedings of annual meeting of the Berkeley Linguistics Society. Berkeley, 1975. V.l.pp. 246- 256.
65. Kaplan R.M. and Bresnan J. Lexical-Functional Grammar: A Formal System for Grammatical Representation, Cambridge, Massachusetts: The MIT Press, 1982.
66. Karlsson, Fred. Constraint Grammar as a Framework for Parsing Unrestricted Text // Proceedings of the 13th International Conference of Computational Linguistics, vol. 3. Helsinki, 1990. pp. 168-173.
67. Karlsson, Fred, et al. Constraint Grammar: a Language-Independent System for Parsing Unrestricted Text. Berlin: Mouton de Gruyter, 1995.
68. Lafferty J. Sleator D. Temperley D. Grammatical Trigrams: A Probabilistic Model of Link Grammar //Proceedings of the AAAI Conference on Probabilistic Approaches to Natural Language, 1992.
69. Lau R., Rosenfeld R., and Roukos S. Trigger-based language models: A maximum entropy approach // Proceedings of the 1993 IEEE international conference on Acoustics, speech and signal processing, 1993. pp. 45-48.
70. Losee R.M. Learning Syntactic Rules and Tags with Genetic Algorithms for Information Retrieval and Filtering: An Empirical Basis for Grammatical Rules // Information Processing & Management, 1996. pp. 185-197.
71. MacGregor R. and Raymond B. The LOOM Knowledge Representation Language, Information Sciences Institute, 1987.
72. Marslen-Wilson W.D., Tyler L.K., The temporal structure of spoken language understanding. // Cognition, 1980. vol. 8. pp. 1-71.
73. Matthiessen C. & Bateman J. Text Generation and Systemic Functional Linguistics: Experiences from English and Japanese. London: Pinter Publishers, 1992
74. Mel'cuk, I.A. Dependency Syntax: theory and practice. N.Y.: State University of New York Press, 1988.
75. Mel'cuk, I.A. Studies in dependency syntax. Ann Arbor: Karoma, 1979.
76. Müller S. The babel-system: An HPSG Prolog implementation // In Proceedings of the 4th International Conference on the Practical Application of Prolog, London, 1996. pp. 263-277.115
77. Neidle C., Lexical-Functional Grammar // Encyclopedia of Language and Linguistics. New York: Pergamon Press, 1994.
78. Pietra S., Pietra D., Gillet J., Lafferty J., Prinz H., Ures L. Inference and Estimation of a Long-Range Trigram Model // Grammatical Inference and Applications, Second International Colloquium, ICGI-94, 1994.
79. Pollard C., Sag I.A. Information-based Syntax and Semantics // Volume 1: Fundamentals. Stanford: CSLI Publications, 1987.
80. Pollard C., Sag, I.A. Head-Driven Phrase Structure Grammar. Chicago: University of Chicago Press, 1994.
81. Radford A. Transformational Syntax. Cambridge: Cambridge University Press, 1981.
82. Sabah G. Knowledge Representation and Natural Language Understanding // AI Commnuications, 1993. Vol. 6. № 3-4. pp. 155-186.
83. Sag I.A., Wasow T., Bender E. Syntactic Theory: a formal introduction, Chicago: University of Chicago Press, 2003.
84. Saraswat V.A. Concurrent Constraint Programming. Cambridge, MA: The MIT Press, 1993.
85. Seljan S. Lexical-functional grammar of the Croatian language: theoretical and practical models. University of Zagreb, 2003.
86. Sleator D. Temperley D. Parsing English with a Link Grammar. Pittsburgh: Carnegie Mellon University, 1991.
87. Swartout W.R. A Comparision of PARSIVAL with Augmented Transition Networks. Cambridge: The MIT Press, 1978.
88. Thorne J.P. A computer model for the perception of syntactic structure // Proceedings of the Royal society. Edinburg: English Language Research Unit, Edinburg University, 1968. V. 171. pp. 377 386.
89. Waltz D.L. An English Language Question Answering System for a Large Relational Database // Comm. ACM, № 7,1978. pp. 526-539.
90. Weaver W. Translation. Technical Report, 1949. Reprinted in Machine Translation of languages. Cambridge, MA: The MIT Press 1955. pp. 15-23.116
91. Wilensky R., Arens Y. PHRAN: a knowledge-based natural language understander // Proceedings of the 18th annual meeting on Association for Computational Linguistics, 1980.
92. Winograd T. Language as Cognitive Process, Syntax. Addison-Wesley, Vol. 1, 1983.
93. Woods W.A. An Experimental Parsing System for Transition Network Grammars. New-York: Algorithmics Press, pp. 111-154.
94. Woods W.A. Semantics and quantification in natural language question answering // Advances in computers. N.Y. etc., 1978. V. 17. pp. 1-87.
95. Woods W.A. What's in a link: Foundations for semantic networks // Representations and understanding; Ed. by Bobrow D.G., Collins A. N.Y. etc., 1975. pp. 35 - 82.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.