Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации

Тарасенко, Антон Витальевич

Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Тарасенко, Антон Витальевич

Тарасенко, Антон Витальевич
кандидат технических наук
2009

Специальность ВАК РФ05.13.17

Количество страниц 204

Тарасенко, Антон Витальевич. Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Таганрог. 2009. 204 с.

Оглавление диссертации кандидат технических наук Тарасенко, Антон Витальевич

Содержание.

Введение.

1. Стандартизация естественных языков.

1.1. Естественные, искусственные, формальные языки.

1.2. Контролируемые языки и подмножества языка.

1.2.1. Проекты контролируемых языков.

1.2.2. Спецификации ASD-STE100.

1.3. Адаптация спецификаций ASD-STE100 к другим языкам.

1.4. Определение языковых характеристик, необходимых для автоматического контроля технической документации на русском языке.

1.4.1. Анализ психологических аспектов восприятия текстовой информации.'.

1.4.2. Сравнительный анализ спецификаций ASD-STE100 и УТР.

1.5. Постановка задачи лингвистической валидации технической документации.

1.6. Выводы.

2. Анализ автоматических методов разбора текста на естественном языке

2.1. Цели и задачи прикладной лингвистики.

2.2. Наука о языке.

2.2.1. Подходы к автоматическому анализу естественного языка.

2.2.2. Компоненты грамматики.

2.3. Автоматический анализ естественного языка.

2.4. Автоматический морфологический разбор.

2.4.1. Слова и формы слова.

2.4.2. Категоризация.

2.4.3. Анализ автоматических методов распознавания словоформ.

2.5. Анализ методов автоматического синтаксического разбора.

2.6. Анализ систем автоматического синтаксического разбора.

2.7. Определение лексико-синтаксического анализа.

2.8. Выводы.

3. Разработка обобщенной модели представления предложения на русском языке и метода лексико-синтаксического анализа.

3.1. Обобщенный лексико-синтаксический граф.

3.1.1. Начальный граф предложения.

3.1.2. Модификация ребер начального графа.

3.1.3. Модификация вершин начального графа.

3.1.4. Правила слияния.

3.2. Поддержка методов описания синтаксической структуры.

3.3. Разработка метода лексико-синтаксического анализа.

3.4. Алгоритмы лексико-синтаксического анализа.

3.5. Оценка вычислительной сложности алгоритмов JICA.

3.6. Выводы.

4. Программная реализация JICA и результаты экспериментальных исследований.

4.1. Основные требования к программной модели разрабатываемого метода.

4.2. Программная реализация JTCA.

4.2.1. Лексический анализ.

4.2.2. Правила слияния синтаксических групп.

4.2.3. Выявление и разрешение синтаксических неоднозначностей

4.3. Экспериментальная проверка теоретической оценки вычислительной сложности алгоритмов.

4.4. Применение модели ЛСГ и метода ЛСА в Системе валидации технической документации.

4.5. Выводы.

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации»

В последние годы роль технической документации в производственном процессе существенно возросла. Сложность и многофункциональность даже бытовых приборов требует внимательного изучения правил и особенностей их эксплуатации. Важность подробного документирования всех процедур в тех областях, где безопасность является ключевым понятием (например, авиастроительная промышленность), невозможно переоценить, поскольку надежность работы комплексной системы зависит не только от совершенства технических решений, но и от правильности их эксплуатации и обслуживания в течение всего жизненного цикла. На сегодняшний день детальная документация наряду с такими компонентами, как аппаратное и программное обеспечение, является обязательной и неотъемлемой частью современной продукции, систем и оборудования.

Стремительное развитие современной техники имеет оборотную сторону медали - ввиду зачаточного состояния исследований в области создания искусственного интеллекта любая техника должна управляться оператором-человеком. Обучение оператора требует значительных временных и финансовых затрат. Уже сейчас оборудование военного или гражданского назначения сопровождается огромным количеством эксплуатационной или ремонтной документации, освоение которой оператором требует наличия специализированных и долговременных учебных курсов. Для наукоемких промышленных изделий затраты на создание и поддержку эксплуатационной технической документации могут составлять значительную часть общих затрат на эксплуатацию самого изделия.

Для решения этой проблемы создаются проекты контролируемых технических языков — сводов правил, искусственно ограничивающих естественный язык с целью повышения точности и однозначности высказываний. Одним из примеров такого ограничения (для английского языка) являются спецификации ASD-STE100 [100], которые представляют собой свод правил, ограничивающих словарь и грамматику английского языка. Новый язык получил название Simplified Technical English или STE (Упрощенный Технический Английский). STE удобен в тех видах документации, где однозначность толкований имеет решающее значение, но неуместен в деловых и художественных текстах. Сторонники ASD-STE100 утверждают, что упрощенный язык позволяет: сократить время чтения текста; устранить неоднозначности; сделать перевод проще и дешевле; облегчить восприятие текста человеку, не являющемуся носителем языка; вплотную приблизиться к решению проблемы автоматического перевода.

Стандартизация технического английского языка доказала свою состоятельность большим числом авиастроительных компаний, активно использующих стандарт ASD-STE100, в число которых входят такие гиганты как Boeing, EADS, Embraer.

Специфическая задача для отечественных производителей, в условиях жесткой конкуренции поставляющих свою продукцию на экспорт или желающих выйти на внешний рынок, состоит в том, что вся экспортная продукция должна сопровождаться электронной версией документации, выполненной в соответствии с международными стандартами на подготовку электронной технической документации, в число которых входит и соответствие спецификациям ASD-STE100. Точный перевод русскоязычной документации на английский язык с дальнейшим его приведением к упрощенному виду является задачей ' трудоемкой и дорогостоящей. Целесообразнее организовать разработку документации на русском языке в уже упрощенном и стандартизованном виде. В связи с ростом экспорта российской техники за рубеж применение концепции упрощенного языка технической документации для русскоязычной документации становится приоритетной задачей. Хотя отдельные представители российской авиакосмической промышленности уже разрабатывают проекты ограничения технического русского языка, единого и общепринятого стандарта не существует. Кроме того, большие объемы документации требуют создания автоматизированных средств проверки соответствия текстов этим ограничениям. Таким образом, создание единого стандарта для упрощения технического русского языка, а так же проектирование автоматического инструмента проверки текстов на соответствие такому стандарту, является чрезвычайно актуальной задачей.

Целью настоящей диссертационной работы является исследование и разработка методов и моделей автоматического анализа текста на русском языке в контексте его применения в системе лингвистической валидации технической документации (СЛВТД), предназначенной для проверки технической документации на соответствие проекту спецификаций Упрощенного Технического Русского (УТР) языка.

В соответствии с поставленной целью в диссертации решаются следующие основные задачи:

1. Проводится анализ спецификаций ASD-STE100, проекта спецификаций УТР, в результате чего определяются языковые характеристики, существенные для контроля процесса составления технической документации.

2. Проводится анализ существующих методов анализа текстов на естественных языках, что позволяет выделить методы, оптимальные для контроля процесса составления технической документации.

3. Разрабатывается универсальная модель представления предложения на русском языке, позволяющая манипулировать различными вариантами трактовки предложения в рамках единой структуры и представлять эти трактовки с помощью различных подходов к описанию синтаксической структуры предложения.

4. Разрабатываются методы и алгоритмы автоматического анализа текста на русском языке, позволяющие определять и снимать лексические и синтаксические неоднозначности и определять синтаксические функции отдельных слов и словосочетаний.

Объекты исследования. Объектами исследования являются существующие проекты управляемых языков, техническая документация, методы, модели и алгоритмы анализа текстов на естественных языках.

Методы исследований. В процессе работы использовались методы дискретной математики, теории графов, теории компиляторов.

Основные теоретические результаты работы, выносимые на защиту и определяющие научную новизну работы, следующие:

1. разработан реестр языковых характеристик, который отличается от англоязычного аналога ASD-STE100 правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации;

2. разработана модель представления предложения на русском языке, отличающаяся от известных моделей инвариантностью формы описания синтаксической схемы и позволяющая анализировать множественные варианты трактовки предложения в рамках единой структуры;

3. предложен метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний;

4. выполнена программная реализация разработанных алгоритмов, метода и модели, представляющая решение задачи автоматического анализа текста на естественном языке, позволяющая проверять текст на соответствие спецификациям УТР и иллюстрирующая достоверность полученных результатов.

Практическая ценность исследования заключается в синтезе эффективного метода синтаксического анализа текстов на русском языке для системы лингвистической валидации технической документации, которая позволяет максимально упростить разработку технической документации в соответствии с принципами Упрощенного Технического Русского языка. Результаты исследования использованы компанией АВИАОК Интернейшенел в процессе реализации концепции Упрощенного Технического Русского языка, в ходе которой разрабатывается программный комплекс, регламентирующий процесс разработки документации. Предложенная в работе модель представления текста и результаты экспериментальной программы послужили основой для создания инструмента проверки текста на соответствие спецификациям УТР. Теоретические результаты использованы при составлении проекта спецификаций УТР.

Достоверность результатов работы

Достоверность и обоснованность научных положений, результатов и выводов, приведенных в работе, обусловлена экспериментальными исследованиями в рамках программной реализации предлагаемого метода.

Апробация результатов исследования

Некоторые положения результатов работы доложены на следующих конференциях и семинарах:

VII Международная научно-практическая конференция "Информационная безопасность", г. Таганрог, ТРТУ, 2005г;

Всероссийская научно-техническая конференция с международным участием посвященная 60-летию Победы "Компьютерные и информационные технологии в науке, инженерии и управлении" г. Таганрог, ТРТУ, 2005г; заседания кафедры Вычислительной Техники Таганрогского Технологического Института ЮФУ, г. Таганрог, 2006,2007,2008г.

Публикации

По материалам работы опубликовано 7 печатных работ, из них 3 в изданиях, рекомендованных Высшей Аттестационной Комиссией.

Структура и объем диссертации

Диссертационная работа состоит из введения, пяти разделов, заключения и двух приложений. Текст изложен на 202 страницах, содержит 30 рисунков, 7 таблиц, список литературы из 102 наименований. В приложениях приводится результаты анализа спецификаций ASD-STE1000 и УТР, правила слияния для метода JICA и примеры ошибок, идентифицируемых СЛВТД.

Заключение диссертации по теме «Теоретические основы информатики», Тарасенко, Антон Витальевич

4.5. ВЫВОДЫ

В четвертой главе были приведены результаты экспериментальных исследований программы, разработанной в соответствии с предложенными методами и алгоритмами.

На характерных примерах показаны преимущества, которые имеет предлагаемый метод JICA в силу упрощений, заложенных в него спецификой работы с Упрощенным Техническим Русским языком. Отдельно отмечаются сложности, с которыми пришлось столкнуться при разработке метода. Исследования показали согласованность практических результатов с теоретическими оценками вычислительной сложности алгоритмов. Временная оценка в размере 5 секунд на обработку предложения из 38 слов по самому худшему сценарию показывает, что алгоритм гарантированно не войдет в состояние экспоненциального взрыва для длинных предложений.

В конце главы было показано, как результаты разработанных модели и метода используются системой лингвистической валидации технической документации с целью проверки текста на соответствие правилам УТР.

ЗАКЛЮЧЕНИЕ

В заключении обобщим результаты исследования.

В первой главе проведен анализ проектов упрощенных технических языков, что позволило сформировать реестр языковых характеристик, который отличается от англоязычного аналога ASD-STE100 правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации.

На основе данного реестра сделан вывод о том, что для автоматизации большинства правил УТР необходимо реализовать лексическую и синтаксическую составляющие процесса анализа текста. Семантический анализ необходим только как возможность повысить качество синтаксического анализа, а как отдельный процесс не является существенным.

На основе анализа, проведенного вол второй главе, сделан вывод о том, что ни один из рассмотренных методов анализа русского языка не соответствует задаче контроля технической документации в силу либо незавершенности метода, либо его излишней универсальности, приводящей к появлению некорректных результатов. В качестве способа, позволяющего обойти эти проблемы, предложено отказаться от разметки синтаксических отношений. На основе этого упрощения было дано определение лексико-синтаксического анализа (JICA) как основы процесса проверки предложения соответствия спецификациям УТР.

В третьей главе была разработана модель представления многозначного предложения на русском языке. Предложенная модель обобщенного лексико-синтаксического графа (ОЛСГ) позволяет объединить в единую структуру лексически и синтаксически омонимичные значения.

Кроме того, ОЛСГ позволяет задавать множество синтаксических трактовок предложения в рамках различных подходов к описанию синтаксических структур, что отличает модель от существующих аналогов и является удобной площадкой для апробации различных методов проведения синтаксического анализа.

В рамках данной модели был разработан метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний. Была проведена оценка вычислительной сложности предложенных алгоритмов для русского языка.

В четвертой главе были приведены результаты экспериментальных исследований программы, разработанной в соответствии с предложенными методами и алгоритмами. Эффективность предложенных алгоритмов проиллюстрирована на синтаксически неоднозначных примерах предложений. Исследование показали согласованность практических результатов с теоретическими оценками вычислительной сложности алгоритмов. Временная оценка в размере 5 секунд на обработку предложения из 38 слов по самому худшему сценарию показывает, что алгоритм гарантированно не войдет в состояние экспоненциального взрыва для длинных предложений.

Отдельно показано, как результаты ЛСА могут быть использованы для поиска несоответствий предложения правилам УТР и применения в системе лингвистической валидации технической документации.

Достигнутые результаты доказывают достоверность основных теоретических результатов работы, выносимых на защиту и определяющих научную новизну исследования.

Список литературы диссертационного исследования кандидат технических наук Тарасенко, Антон Витальевич, 2009 год

1. Аванесов Р. И., Сидоров В. Н. Очерк грамматики русского литературного языка. М., 19451.

2. Автоматическая Обработка Текста. URL: www.aot.ru

3. Алексеев Е.Р. Программирование на Microsoft Visual С++ и Turbo С++ Explorer. М.: Изд-во НТ Пресс, 2007 г.

4. Апресян Ю.Д. и др. Лексическая семантика. М.: Наука, 1974. - с. 99.

5. Арнольд И.В. "The English Word", изд. Высшая Школа, 1973г.

6. Ахо А., Сети Р., Ульман Дж. Компиляторы: принципы, технологии, инструменты. Спб.: Издательский дом "Вильяме", 2001г.

7. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т. 1. Синтаксический анализ, М., 1978

8. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т. 2. Компиляция, М., 1978.

9. Бадд Тимоти. Объектно-ориентированное программирование в действии. СПб.: Изд-во ПИТЕР, 1997.

10. Баранов А.Н. "Введение в прикладную лингвистику" Серия "Новый лингвистический учебник". Изд.2. 2003. 360 с.

11. Беляева Л.Н., Откупщикова М.И. Автоматический (машинный) перевод. СПб.: Прикладное языкознание, 1996г.

12. Берштейн Л. С., Боженюк А. В. Нечеткие графы и гиперграфы. М. : Науч. мир, 2005. -255с.

13. Божич В. И, А. В. Тарасенко. Омонимические неоднозначности при анализе текстов, Сборник материалов 7 международной научнопрактической конференции "Компьютерная Безопасность" Таганрог: Изд-во ТРТУ, 2005, с. 331-333;

14. Божич В. И., Тарасенко А. В. Агентная модель предложения на естественном языке., Радиоэлектроника, электротехника и энергетика, Тринадцатая межд. науч.-технич. конференция студентов и аспирантов, Тезисы докладов.- М.: Изд-во МЭИ, 2007.

15. Божко А.Н., А.Ч. Толпаров, Структурный синтез на элементах с ограниченной сочетаемостью. Электронное научно-техническое издание Наука и Образование, май 2004г.

16. Большаков И. А., А. Ф. Гельбух. "Модель "Смысл-Текст": Тридцать лет спустя", J. International Forum on Information and Documentation, FID 519, ISSN 0304-9701, N 1,2000.

17. Бузикашвили H.E., Г.А. Крылова,. Д.В. Самойлов, N-граммы в лингвистике

18. Бузикашвили Н.Е., Стохастические грамматики с отсечением. // Методы и средства работы с документами. М., Эдиториал УРРС. 2000.

19. Виноградов В.В. Избранные труды: Исследования по русской грамматике. М., 1975

20. Вишняков Ю. М., Кизянов А. Ф. Корректировка разбивки слов на морфемы с помощью самообучающейся нейронной сети. Материалы V международной научной конференции "НАУКА И ОБРАЗОВАНИЕ" В 4 ч. / Белово: Беловский полиграфист. 2004. 4.4 . 629 с

21. Выготский JI.C., "Мышление и речь". Изд. 5, испр. М.: Лабиринт, 1999г.

22. Гинзбург С. Математическая теория контекстно-свободных языков. М. 1970.

23. Гладкий А. В. Синтаксические структуры естественного языка. М.: Наука, 1985

24. Гладкий А. В. Формальные грамматики и языки. М.: Наука, 1973.

25. Гладкий А. В., Мельчук А. В. Элементы математической лингвистики. -М.: 1969. 192 с.

26. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989г.

27. Гросс М., Лантен А. Теория формальных грамматик. М.: Мир, 1971. 294с.

28. Гузик В. Ф., Тарасенко А. В. Разработка формата словарной базы для системы валидации технической документации, Журнал "Телекоммуникации" Курск: 2008, №1, с. 53-55.

29. Гуриев В., Таран О., Мирошниченко С. Ничего никому не скажу. -Компьютерра ONLINE, 2005, окт., №36.

30. Демьянков В. 3., Доминирующие лингвистические теории в конце XX века // Язык и наука конца 20 века. М.: Институт языкознания РАН, 1995. с.239-320.

31. Евграфова С. Синтаксис и семантика в пунктуации // Русский язык (приложение к газете <Первое сентября>). 2004. - № 14.

32. Зализняк А. А., Грамматический словарь русского языка (электронная версия) URL: http://starling.rinet.ru/cgi-bin/main.cgi?flags=eygtmnl

33. Зализняк А. А., Русское именное словоизменение, М., 1967.

34. Зализняк, Андрей Анатольевич, Материал из Википедии свободной энциклопедии.

35. URL: http://ru.wikipedia.org/wiki/Зaлизняк,AндpeйAнaтoльeвич

36. Замятин А. П., Шур А. М. Языки, грамматики, распознаватели: Учебное пособие. Екатеринбург: Изд-во Урал, ун-та, 2007, - 248с.

37. Иванов А.Г., Пятницкий А.А, Филинов Ю.Е. Объектно-ориентированный подход технологии программирования. СПб.: Питер, 2003. 443 с.

38. Иомдин Л.Л., Сизов В.Г., Цинман Л.Л. "Использование эмпирических весов при синтаксическом анализе", ИППИ РАН.

39. Ионов М. Теория порождающих грамматик Н. Хомского и ее сравнение с лингвистами начала XX века. URL: http://www.philol.msu.ru/~otipl/new/archive/essays/ionov2007.pdf.

40. Касьянов В.Н. Лекции по теории формальных языков, автоматов и сложности вычислений. Новосибирск: НГУ. - 1995. - 112 с.

41. Кибрика А. Е. Аспекты теории синтаксиса. / Пер. с англ. А. Е. Кибрика, В. В. Раскина, В. И. Шовкуна. М.: Изд-во МГУ, 1972. 259 с.

42. Клобуков Е. В., "Формальные грамматические средства", Современный русский литературный язык: учебник для филологических специальностей пед. институтов/ П.А. Лекант, Н.Г. Гольцова, В.П. Жуков и др.; Под ред. П. Леканта М.: Высш. шк., 1988.

43. Кнут Д. Э. Искусство программирования, том 3, Сортировка и поиск. Второе издание., Москва 2007.

44. Койт М.Э., Роосмаа Т.А., Ыйм Х.Я. ОТ СИНТАКСИСА К СЕМАНТИКЕ О ВЫБОРЕ ФОРМАЛИЗМОВ И ЛИНГВИСТИЧЕСКИХ РЕСУРСОВ // труды Международной конференции Диалог'2007. - Москва, Наука, 2007

45. Крищенко В.А. ИСПОЛЬЗОВАНИЕ LR-ТАБЛИЦ ДЛЯ РАЗБОРА ОГРАНИЧЕННОГО ЕСТЕСТВЕННОГО ЯЗЫКА, Электронный журнал <ИССЛЕДОВАНО В РОССИИ>, 6/7 2000г,

46. Любецкий В.А., А.В. Селиверстов. Многодольные графы с двумя вершинами в каждой доле. Информационные процессы, 2004, том 4, No 2, стр. 127-132

47. Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. Прикладное программное обеспечение: системы автоматической обработки текстов. М.: МГУ, издательский отдел факультета ВМК, 2000. - 52 с.

48. Марчук Ю.Н. Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное. М.: Изд-во МПУ "Народный учитель", 2000. -226с.

49. Мелихов А. Н. Ориентированные графы и конечные автоматы. М.: Изд-во НАУКА, 1971.

50. Мелихов А. Н., Берштейн Л. С., Курейчик В. М., Применение графов для проектирования дискретных устройств. М.: Изд-во НАУКА, 1974.

51. Мельчук И.А. Логические основы лингвистической теории. Пер. с англ. И. А. Мельчука. / Логические основы лингвистической теории. Биробиджан: ИЦ "Тривиум", 2000. С. 3-114.

52. Мельчук И.А. Опыт теории лингвистических моделей "смысл<=>текст" : Семантика, синтаксис / И.А.Мельчук.-Переизд.. // Школа "Языки русской культуры". Москва, 1999.

53. Пентус А. Е., Пентус М. Р. Теория формальных языков: Учебное пособие. М.: Изд-во ЦПИ при механико-математическом ф-те МГУ, 2004. -80 с.

54. Плискин М."Эволюция языков программирования" СПб.: Изд-во ПИТЕР, 2003.

55. Попов Э. В., Фридман Г. Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. -М.: Наука, 1976.

56. Попов Э.В., общение с ЭВМ на естественном языке, УРСС, 2004.

57. Протасов С. В. Вывод и оценка параметров дальнодействующей триграммной модели языка. http://www.dialog-21 .ru/dialog2008/materials/pdf769.pdf

58. Протасов С. В. Обучение с нуля грамматики связей для. русского языка. http://slashzone.ru/parser/Protasov-CAI06-present.pdf.

59. Сокирко А., диссертация "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)"

60. Старостин А.С., М.Г. Мальковский, МОДЕЛЬ СИНТАКСИСА В СИСТЕМЕ МОРФОСИНТАКСИЧЕСКОГО АНАЛИЗА <TREETON>, Труды международной конференции <Диалог 2006>

61. Сухарев М. В. Основы Delphi. Профессиональный подход. М.: Изд-во Наука и техника, 2004 г.

62. Тарасенко А. В. Современная тенденция в разработке технической документации в авиакосмической промышленности., Сборник работ лауреатов конкурса молодых ученых им. академика И. И. Воровича. Ростов-на-Дону: Изд-во СКНЦВШ, 2006, с. 97-100.

63. Тарасенко А. В. Упрощенный язык., Журнал "ИНЖЕНЕР" Киев: Изд-во ДРУК-ИНФО, №7, 2006г, с. 205-208

64. Токарева О.В, Изучение научного наследия А.А. Ляпунова в области машинного перевода и математической лингвистики как элемент формирования информационной культуры студентов-гуманитариев.

65. Конференция, посвященная 90-летию со дня рождения Алексея Андреевича Ляпунова, Новосибирск, 2001г.

66. Фитиалов С .Я. Формальные грамматики. Л.: Изд-во Ленингр. ун-та, 1984. 99 с.

67. Харари Ф. Теория графов. М.: Едиториал УРСС, 2003

68. Хомский Н., Миллер Дж. Введение в формальный анализ естественных языков // Кибернетический сборник / Под ред. А.А.Ляпунова и О.Б.Лупанова. -М.: Мир, 1965.

69. Шаров С.А. Средства компьютерного представления лингвистической информации, URL: http://ittc.ksu.ru/vol000/002/

70. ALLEN J., BARTHE К., Introduction to Controlled Languages. Society for Technical Communication (France chapter) meeting. Paris, 2 April 2004.

71. Boguslavsky I., S. Grigorieva, N. Grigoriev, L. Kreidlin, N. Frid. Dependency Treebank for Russian: Concept, Tools, Types of Information // Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000), 2000, p. 987-991

72. Bourland D. David, Jr., TO BE OR NOT TO BE: E-Prime as a Tool for Critical Thinking, E-Prime! The Fundamentals. http://www.esgs.org/uk/art/eprl.htm.

73. Brill E., "A SIMPLE RULE-BASED PART OF SPEECH TAGGER"

74. Bruza P., D. Song "A Comparison of Various Approaches for Using Probabilistic Dependencies in Language Modeling".

75. Chandler Daniel. The Sapir Whorf Hypothesis // Web site of University of Wales, Aberystwyth.

76. Chomsky N., "Three Models for the Description of Language," IRE Transactions on Information Theory, vol. IT-2, Proceedings of the Symposium on Information Theory, 1956.

77. Chomsky, N. Aspects of the Theory of Syntax. MIT Press, 1965

78. Church K.W., "A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text"

79. EU Network of Excellence REWERSE (Reasoning on the Web with Rules and Semantics). URL: http://rewerse.net/.

80. Francis W. N., H. Kucera. Frequency Analysis of English Usage: Lexicon and Grammar., 1982.

81. Greibach S.A. A note on undecidable properties of formal languages // Math. Systems Theory, 1968. Vol. 2, №1.

82. Han, Song-Chun Zhu. Bottom-Up/Top-Down Image Parsing with Attribute Grammar. IEEE Trans Pattern Anal Mach Intell. 2009 Jan;31(l):59-73.

83. Hausser Roland, Foundations of Computational Linguistics. 2nd rev. and ext. ed., 2001, XIV, 578 p.

84. Hieronymus J., Larsson S., Gronqvist L., "Associating the Dialogue Move Engine with Speech Input"

85. John F. Sowa, Common Logic Controlled English, 24 February 2004.

86. Johnson Edward, "Talking across Frontiers: Building Communication between Emergency Services", Regional & Federal Studies, 12, 2002, 88-110. http://www.prolingua.co.uk/talking.pdf

87. Joshi A, Kosaraju S. R., Yamada H. String Adjunct Grammars. Proceedings Tenth Annual Symposium on Automata Theory, Waterloo, Canada, 1969

88. Jurafsky D, Martin J. Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall. 2000.

89. Karlsson F., "CONSTRAINT GRAMMAR AS A FRAMEWORK FOR PARSING RUNNING TEXT"

90. Katz J. J. Chomsky on meaning // Lg. 1980. V.56, №1:1-41.

91. Kittredge R. I. Sublanguages and controlled languages (The Oxford Handbook of Computational Linguistics).

92. Knuth D. E. The genesis of attribute grammars. Proceedings of the international conference on Attribute grammars and their applications (1990), 1-12. Some informal, historical information.

93. Ogden, С. K. Basic English, a general introduction with rules and grammar. -London: K. Paul, Trench, Trubner & Co., 1930.

94. Renssen van A., Gellish: an information representation language, knowledge base and ontology. Standardization and Innovation in Information Technology, 2003. Publication Date: 22-24 Oct. 2003 On page(s): 215- 228.

95. Salomaa A. Formal languages. N.Y.: Academic Press, 1973. 335 p

96. Simplified English The new language in International Business. - Tilburg: Tedopres International V. В., 2nd edition, 2004.

97. Sleator Daniel and Davy Temperley. 1991. Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report CMU-CS-91-196, October 1991.

98. Sleator Daniel and Davy Temperley. 1993. Parsing English with a Link Grammar. Third International Workshop on Parsing Technologies.

99. Sleator Daniel, John Lafferty, and Davy Temperley. 1992. Grammatical Trigrams: A Probabilistic Model of Link Grammar. Proceedings of the AAAI Conference on Probabilistic Approaches to Natural Language, October, 1992.

100. Specification ASD-STE100, A GUIDE FOR THE PREPARATION OF AIRCRAFT MAINTENANCE DOCUMENTATION IN THE INTERNATIONAL AEROSPACE MAINTENANCE LANGUAGE, ISSUE 3, JANUARY 2005.

101. Traduction Automatique a l'Universite de Montreal, URL: http ://en. wikipedia. org/wiki/T AUMsy stem

102. Winograd T. Understanding Natural Language by T. Winograd, Academic Press, 1972 winograd.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Тарасенко, Антон Витальевич

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Метод автоматизированной генерации правил синтаксического анализа проектной документации2010 год, кандидат технических наук Дроздов, Вячеслав Вадимович

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Методы извлечения бизнес-логики на основе семантических свойств программ2010 год, кандидат физико-математических наук Тарабухина, Надежда Константиновна

Модель принятия решения на основе синтаксического анализа в задачах обработки патентной информации2011 год, кандидат технических наук Буштедт, Владислав Андреевич

Язык современных деловых документов в аспекте компьютерных технологий2000 год, кандидат филологических наук Жилина, Ольга Александровна

Заключение диссертации по теме «Теоретические основы информатики», Тарасенко, Антон Витальевич

Список литературы диссертационного исследования кандидат технических наук Тарасенко, Антон Витальевич, 2009 год