Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Литвинов, Максим Игоревич

  • Литвинов, Максим Игоревич
  • кандидат технических науккандидат технических наук
  • 2012, Москва
  • Специальность ВАК РФ05.13.12
  • Количество страниц 121
Литвинов, Максим Игоревич. Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов: дис. кандидат технических наук: 05.13.12 - Системы автоматизации проектирования (по отраслям). Москва. 2012. 121 с.

Оглавление диссертации кандидат технических наук Литвинов, Максим Игоревич

Оглавление

Введение

ГЛАВА 1. Основы обработки текстов на естественном языке и прикладные системы

1.1 Перспективные задачи в области обработки текстов проектной документации на естественном языке

1.2 Методы автоматической обработки текста

1.3 Детерминированный и вероятностный подходы

1.4 Наивный классификатор Байеса

1.5 N-граммный тэггер

1.6 Способы сокращения вычислений при морфологической разметке предложений

1.8 Выбор тэггера на основе принципа максимальной энтропии (Maximum Entropy Principle) и методы оценки качества работы морфологических тэггеров

1.9 Сглаженные вероятностные N-граммные модели

1.10 Другие виды вероятностных моделей снятия морфологической неоднозначности

1.11 Деревья принятия решений и списки трансформаций

1.12 Обзор прикладных систем

1.12.1 Модель Зеленкова-Сегаловича-Титова

1.12.2 Тэггер Чешских исследователей

1.12.3 Trigram А.В. Сокирко

1.12.4 Анализатор компании «Гарант-Парк-Интернет»

Выводы к Главе 1

ГЛАВА 2. Теоретические основы методов устранения неоднозначности в тексте на естественном языке

2.1 Модель морфологического анализа программы «Кросслятор»

2.2 Методы определения синтаксических связей между словами в предложении для сбора статистики совместного употребления слов

2.3 Метод сбора статистики сочетаемости слов с использованием свойства синтаксического подчинения слов в предложении

2.4 Вероятностные правила снятия неоднозначности с использованием морфологических параметров

2.5 Декомпозиция предложения на сегменты при проведении предсинтаксического анализа

Выводы к Главе 2

ГЛАВА 3. Метод сбора статистики совместного употребления слов и комбинированный метод устранения морфологический неоднозначности в тексте проектной документации на естественном языке

3.1 Эксперимент по оценке уровня неоднозначности в текстах проектной документации и в текстах общей лексики

3.2 Метод выделения сочетаемости слов

3.3 Комбинированный метод снятия морфологической неоднозначности в тексте проектной документации на естественном языке

1

3.4 Использование статистики совместного употребления слов для снятия частеречной омонимии

3.5 Описание алгоритма устранения частеречной неоднозначности с использованием собранной статистики синтаксического подчинения слов

3.6 Алгоритм снятия морфологической неоднозначности с помощью вероятностных правил, содержащих морфологические параметры, при детерминированных соседях

3.7 Алгоритм итерационного применения вероятностных правил при недетерминированных соседях

Выводы к Главе 3

ГЛАВА 4. Состав базы синтаксического подчинения слов и техническая реализация комбинированного метода устранения морфологической неоднозначности

4.1 Состав базы синтаксического подчинения слов

4.2 Качественные оценки работы комбинированного метода устранения морфологической неоднозначности

4.3 Выводы к Главе 4

Список используемой литературы

Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов»

Введение

В процессе своей деятельности предприятия накапливают большие объемы документации, которая может быть: техническим заданием, эскизом проекта, чертежами, протоколами информационного обмена, отчетами, приказами, служебными записками и даже электронной перепиской. Без внедрения современных систем автоматического контроля документооборота предприятиям сложно: сократить время, требующееся для создания продукта и его реализации конечному потребителю; снизить все виды издержек, связанных с разработкой и сопровождением продукта; повысить качество процессов проектирования и производства; обеспечить своевременное и качественное эксплуатационное обслуживание; поддерживать должный уровень конкурентоспособности.

Эффективным и действенным средством решения обозначенных проблем выступают следующие информационные технологии: ILM (Information Lifecycle Management) и PLM (Product Lifecycle Management). Под этими технологиями понимается комплекс аппаратных и программных средств, обеспечивающих доступ к различным информационным ресурсам в процессе разработки продукта и выпуска сопутствующей документации по нему.

Технология ILM (см. Рисунок 1) представляет собой комплексный подход по управлению данными и служебной информацией от момента создания и до того момента, когда вся информация перестанет быть актуальной и будет удалена с носителей информации. ILM используют более комплексный критерий по хранению и управлением информацией, нежели чем просто время создания и частота обращения пользователей к какому-либо документу. ILM системы автоматизируют процесс доступа и обеспечивают хранение документов исходя из политики безопасности,

задаваемой пользователями. Решения на основе технологии ILM

3

обеспечивают возможность более эффективного управления, доступа к документам со стороны пользователя и других систем, своевременное удаление неактуальной информации.

Рисунок 1 Общий вид систем Information Life Cycle Management1

Жизненный цикл продукта можно описать следующими пятью основными этапами: разработка продукта; начало реализации продукта потребителям; совершенствование продукта; прекращение

совершенствования продукта, но с продолжением его реализации конечному потребителю; прекращение производства продукта. PLS-системы, контролирующие всю цепочку жизненного цикла изделия, должны обладать следующими возможностями:

- управлять созданием и обработкой документов;

- создавать и контролировать список материалов, необходимых для создания конечного продукта;

- обеспечивать электронное хранение файлов;

- управлять служебными документами;

1 Рисунок взят с сайта http://-www.provost.ku.edu/infomanagement/info.shtml

4

- обеспечивать возможность задания операций, за которые должны отвечать конкретные сотрудники или отделы;

- обеспечивать автоматизацию делопроизводства и управление информационными процессами для синхронизации вносимых в документы изменений;

обеспечивать многопользовательский доступ к различным документам с соответствующими правами доступа и политиками безопасности;

- обеспечивать выдачу разнообразной отчётности для контроля за ходом разработки и реализации изделия.

Research

Performance Engineering

Usability Engineering

Performance Engineering

Maintenance

Product Development Life-cycle

Development

Testing & OA

Documentation

Рисунок 2 Общий вид систем Product Lifecycle Management2

Таким образом, с помощью PLM - систем осуществляется отслеживание больших массивов данных и инженерно-технической информации, необходимых на этапах проектирования и производства, поддержка эксплуатации, сопровождения и утилизации технических изделий,

2 Рисунок взят с сайта http://www.dbvdx.com/services__productLifecyclemanagement.html

обеспечение возможности групповой работы над проектом, исключение «пустых мест» - операций, за которые не отвечают конкретные отделы или люди. Коротко говоря, PLM-системы позволяют объединить техническую документацию на изделие и логистику.

Среди инструментов, необходимых для разработки, как самого продукта, так и выпуска сопутствующей документации можно выделить, например, следующие: текстовые процессоры; графические программы; программные пакеты по созданию и анализу таблиц и баз данных; программы, анализирующие требования к изделию и его рыночную стоимость; программы для электронной переписки. В задачи PLM и ILM систем входит анализ содержимого документов и обеспечение доступа к ним со стороны внешних программ, не касаясь напрямую того вопроса, какими средствами эти документы были созданы. Такие технологии позволяют отказаться от бумажных хранилищ текстовых документов. Развитие информационных технологий позволяет обеспечивать качественно новый подход по обработке электронной документации. В настоящее время производится интеллектуализация обработки текстовой информации среди таких задач как: выделение требований к изделию; поиск прецедентных документов; контроль структурной и информационной целостности документации; автогенерация документации; автоматический подбор компонентов изделия. Перечисленный круг задач далеко неполный и, до недавнего времени, решался лишь с помощью человека, без какой-либо автоматизации.

Системы, обрабатывающие проектную документацию, проходят через этап морфологического анализа и предсинтаксического, на котором происходит устранение неоднозначности в тексте на естественном языке. Имеющиеся современные методы по снятию омонимии требует существенных затрат на составление эталонных корпусов, по которым происходит обучение систем. Зачастую корпуса не доступны свободно

широкому кругу разработчиков и исследователей, и не охватывают узкоспециализированных предметных областей, для которых не выгодно производить разметку эталонных дорожек.

Целью диссертационной работы является разработка методов, позволяющих снизить затраты на разработку систем автоматической предобработки проектной документации за счёт использования более доступных средств, которые обеспечат качество на уровне уже имеющихся методов.

Для достижения цели данной диссертационной работы были поставлены и решены следующие задачи:

• Анализ существующих методов устранения морфологической неоднозначности;

• Разработка метода автоматического построения базы сочетаемости слов по неразмеченным базам проектной документации;

• Разработка комплексного метода устранения морфологической неоднозначности с использованием статистики совместного употребления слов и лексических правил.

Методы исследования. При решении поставленных задач использовалась теоретическая база вычислительной лингвистики, теория вероятностей и математическая статистика, машинное обучение, методы принятия решений, алгоритмы и методы обработки данных, объектно-ориентированное программирование.

При решении задач, поставленных в диссертационной работе, получены следующие новые научные результаты:

• метод автоматического сбора статистики совместного употребления слов на неразмеченных базах проектных документов произвольной направленности;

• комплексный метод устранения морфологической неоднозначности, включающий в себя применение статистики совместного словоупотребления и вероятностных правил, содержащих морфологические параметры.

Практическая ценность результатов. Предложено новое программное решение, позволяющее в полностью автоматическом режиме обучаться на неразмеченных корпусах произвольной направленности, эффективно снимать морфологическую омонимию, даже в случае отсутствия статистики употребления слов, а также строить частичные и поверхностные синтаксические связи между словами в предложении. Данный подход позволяет свести к минимуму участие человека при наполнении лингвистических баз данных и, тем самым, значительно сократить экономические затраты на разработку интеллектуальных систем по обработке текстов проектной документации.

Реализация и внедрение результатов. Описанные в данной работе алгоритмы и методы, реализованы автором в виде компьютерной подпрограммы, что позволяет подтверждать теоретические исследования в области моделирования естественного языка, а также использовать в машинном переводчике «Кросслейтор», разрабатываемом в ИПМ им. М.В. Келдыша РАН. Проведенные вычислительные эксперименты показали практическую эффективность предложенных подходов.

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

• «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», Москва, МИЭМ, 17 февраля - 01 марта 2010.

• «Новые информационные технологии в автоматизированных

системах», МИЭМ, 25 марта 2010 года.

• Компьютерная лингвистика и интеллектуальные технологии ежегодная Международная конференция «Диалог» (2010).

• ХИ-ая Национальная конференция по искусственному интеллекту с международным участием.

• «Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», Москва, МИЭМ, 17 февраля - 01 марта 2011.

• «Автоматическая обработка естественного языка», Санкт-Петербург, СпбГУ, 26-ое марта 2011.

Основное содержание диссертационной работы и ее результатов отражено в следующих научных и научно-технических работах автора: всего автором опубликовано 6 научных работ из них 2 в журнале из перечня ВАК.

Объем и структура диссертации. Диссертационная работа содержит введение, четыре главы с выводами, заключение, список литературы и приложения, включающие в себя акты внедрения и результаты расчетов. Диссертация объемом в 121 страницы содержит 18 таблиц и 8 рисунков, состоит из введения, четырех глав, заключения, списка использованной литературы из 103-х наименований.

Основные научные результаты, выносимые на защиту:

1. Метод автоматического сбора статистики совместного употребления слов на неразмеченных базах проектных документов произвольной предметной области;

2. Комплексный метод устранения морфологической омонимии, включающий в себя применение статистики совместного употребления слов и вероятностных правил, содержащих морфологические параметры.

В первой главе делается обзор имеющихся методов по снятию морфологической неоднозначности в текстах проектной документации на естественном языке.

Во второй главе приведен теоретический аппарат разработанного автоматического метода сбора статистики совместного употребления слов и комплексного метода снятия морфологической неоднозначности.

В третьей главе представлен метод автоматического сбора статистики словоупотребления и разработка комплексного метода снятия морфологической неоднозначности в текстах проектной документации.

В четвертой главе представлены результаты практической реализации разработанных методов.

Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Заключение диссертации по теме «Системы автоматизации проектирования (по отраслям)», Литвинов, Максим Игоревич

4.3 Выводы к Главе 4.

В данной главе было проведено сравнение разработанного метода устранения морфологической неоднозначности с классической триграммной моделью. Для сравнения каждого этапа устранения неоднозначности, который входит в комбинированный метод, система запускалась с различными настройками, чтобы возможно было посмотреть какой относительный прирост даёт каждый метод. Предложенный метод и триграммы дают практически идентичные результаты по качеству разметки, как с точки зрения частеречной разметки, так и с точки зрения разметки с полным набором морфологических параметров. С учётом того факта, что участие человека сводится практически к минимуму (значительно сокращаются различного рода расходы) при наполнении лингвистической базы данных, которая позволяет эффективно устранять неоднозначность в тексте на русском языке, предлагаемый метод предпочтительнее классического триграммного метода.

Заключение

Итак, среди прочего, целью проведения предсинтаксического анализа является устранение морфологической омонимии в тексте на естественном языке вычислительно эффективными средствами. Устранение неоднозначности на низком уровне анализа текста позволит более быстро провести все последующие этапы анализа текста, начиная с синтаксического анализа.

В машинной лингвистике приходится соглашаться с тем, что предлагаемая статистическая модель по обработке текста на естественном языке зависит от исходных данных, от качества и объёма обучающей выборки, от заложенного математического аппарата. Можно выделить следующие основные математические аппараты, на которых основываются системы предсинтаксического анализа: скрытые Марковские модели; модели, основанные на связях синтаксического подчинения слов; модели на основе векторного представления пространства параметров слов. По причине наибольшей простоты реализации, наиболее популярны системы, основанные на скрытых Марковских моделях. При разработке новых методов проведения автоматического устранения морфологической неоднозначности, качество разметки Марковских моделей берётся за эталонное, с которым проводятся все сравнения. Существенным недостатком подхода НММ является потребность в размеченном корпусе. С учётом современных требований к системам автоматической обработки текста, размеченные корпуса должны содержать внушительный объём словоупотреблений. Как показывает практика, эталонные корпуса не доступны широкому кругу исследователей и разработчиков. Для построения векторного пространства параметров также требуются эталонные размеченные корпуса. Таким образом, недостатки моделей НММ относятся и к моделям типа «мешок слов». Проведенные исследования имеющихся публикаций показали, что для русского языка разработаны гибридные системы, в основе которых лежат скрытые Марковские модели, а векторное представление пространства параметров не применяется в практических системах.

В ряде зарубежных публикаций высказывается предположение о том, построение векторного пространства параметров с помощью использования синтаксиса должно привести к сокращению размерности пространства и снизить количество шумов. Модели, основанные на синтаксических связях слов более предпочтительны ввиду того, что имеют более полную картину о естественном языке в рамках своей теории, чем чисто статистические модели. Также в зарубежных публикациях высказывается предположение о том, что использование синтаксиса естественного языка позволит повысить качеств работы систем автоматической обработки текста.

В данной работе ставилась цель разработать комбинированный метод устранения морфологической неоднозначности в текстах проектной документации на естественном языке. В качестве входных данных для разработанного метода используются результаты морфологической разметки, проводимой словарём «Кросслятор». В рамках данной работы, в интересах снижения стоимости при разработке систем предсинтаксического анализа было предложено использовать обучение без учителя на неразмеченных коллекциях проектной документации с использованием правил синтаксического подчинения слов в предложении. Собранная статистика с использованием свойства синтаксического подчинения слов используется для устранения морфологической неоднозначности: в общем случае, можно определить нормальную форму, от которой образована данная словоформа; в частном же случае можно определить полный набор морфологических параметров слов. Такой метод сбора статистики употребления слов позволил получить значительно меньшее число сочетаний слов по сравнению с теоритической оценкой возможных сочетаний 1М-грамм. В случае отсутствия в базе статистики совместного употребления слов применяются вероятностные правила, содержащие морфологические параметры. Декомпозиция предложения на фрагменты позволяет применять вероятностные морфологические правила в случае наличия большого количества неоднозначных слов, идущих подряд. Предложенный комбинированный метод предсинтаксического анализа показал свою эффективность в практической реализации и, в том числе, на соревнованиях, проводимых в рамках международной конференции Диалог 2010.

Предложенный алгоритм, реализованный в виде программного решения, позволяющий в полностью автоматическом режиме обучаться на неразмеченных корпусах проектной документации любой направленности. Данный подход позволяет свести к минимуму участие человека при наполнении лингвистических баз данных и, тем самым, значительно сократить экономические затраты на разработку интеллектуальных систем по обработке текстов проектной документации. Комбинированный метод устранения морфологической неоднозначности позволяет эффективно снимать омонимию, даже в случае отсутствия статистики употребления слов.

Описанные в данной работе алгоритмы и методы, реализованы автором в виде компьютерной подпрограммы, что позволяет подтверждать теоретические исследования в области моделирования естественного языка, а также использовать в машинном переводчике «Кросслейтор», разрабатываемом в ИПМ им. М.В. Келдыша РАН. Проведенные вычислительные эксперименты показали практическую эффективность предложенных алгоритмов и программных решений.

Список литературы диссертационного исследования кандидат технических наук Литвинов, Максим Игоревич, 2012 год

Список используемой литературы

[1] Клышинский Э.С. «Перспективные методы обработки проектной документации», Труды 12й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2010, Казань, Россия, 2010.

[2] Крысин Л.П. Лингвистический процессор для сложных информационных систем // Москва «Наука», 1992.

[3] Мельчук И.А. Опыт теории лингвистических моделей «Смысл—»Текст» // Москва, 1999.

[4] Попов Э.В. Общение с ЭВМ на естественном языке // Москва, 1982.

[5] Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Интернет-математика-2005

[6] Черненьков Д.М., Клышинский Э.С. Формальный метод пополнения словарей морфологического анализа с использованием несловарной лексики // Вестник компьютерных и информационных технологий, №3, 2011 г., сс. 22-28

[7] Nancy Ide, Jean Veronis Introduction to the special issue on word sense disambiguation: the state of the art // Computational Linguistics - Special issue on word sense disambiguation Volume 24 Issue 1, March 1998

[8] Larry Hardesty L. A grand unified theory of AI // MIT News Office, March 30, 2010

[9] Кормалев Д. А. Приложения методов машинного обучения в задачах анализа текста // Программные системы: теория и приложения. Переславль -Залесский, 2004.

[10] [Национальный корпус русского] [Электронный ресурс] - Режим доступа http://www.ruscorpora.ru, свободный.

[11] [Национальный корпус Великобритании] [Электронный ресурс] - Режим доступа http://www.natcorp.ox.ac.uk/, свободный.

[12] [Национальный корпус США] [Электронный ресурс] - Режим доступа http://americannationalcorpus.org/, свободный.

[13] Brill Е. Unsupervised Learning of Disambiguation Rules for Part of Speech Tagging // In Natural Language Processing Using Very Large Corpora, 1995.

[14] Eric Brill E., Wu J. Classifier combination for improved lexical disambiguation // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1

[15] Yarowsky D., William A. Gale, Kenneth W. Church One sense per discourse // HLT '91 Proceedings of the workshop on Speech and Natural Language, 1992.

[16] Yarowsky D. One sense per collocation // HLT '93 Proceedings of the workshop on Human Language Technology, 1993.

[17] Adwait Ratnaparkhi A Maximum Entropy Model for Part-Of-Speech Tagging // University of Pennsylvania Dept. of Computer and Information Science, 1996

[18] Ляшевская O.H., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии по материалам ежегодной Международной конференции «Диалог» (2010).

[19] David D. Palmer A Trainable Rule-based Algorithm for Word Segmentation // ACL '98 Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997.

[20] Scott M. Thede, Mary P. Harper A second-order Hidden Markov Model for part-of-speech tagging // ACL '99 Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, 1999.

[21] Jelinek, F. Statistical Methods for Speech Recognition. // The MIT Press, 1997.

[22] Вентцель E.C., Овчаров Л.А. Теория вероятностей // Москва «Наука», 1969.

[23] Stanley F. Chen and Joshua Т. Goodman. An Empirical Study of Smoothing Techniques for Language Modeling // Technical Report TR-10-98, Computer Science Group, Harvard University, 1998.

[24] Adwait Ratnaparkhi A Maximum Entropy Model for Part-Of-Speech Tagging // University of Pennsylvania Dept. of Computer and Information Science, 1996

[25] Brian Roark Probabilistic top-down parsing and language modeling // Computational Linguistics Volume 27 Issue 2, June 2001

[26] Frederick Jelinek The dawn of statistical asr and mt // Computational Linguistics Volume 35 Issue 4, December 2009

[27] M. Агеев, И. Кураленок, И. Некрестьянов Официальные метрики РОМИП 2009 // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009 (Петрозаводск, 16 сентября 2009г.). Санкт-Петербург: НУ ЦСИ, 2009.

[28] Stanley F. Chen, Rosenfeld R. A Gaussian Prior for Smoothing Maximum Entropy Models // School of Computer Science Carnegie Mellon University Pittsburgh, 1999

[29] Stanley F. Chen and Joshua T. Goodman. An Empirical Study of Smoothing Techniques for Language Modeling // In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, pages 310-318, 1996.

[30] Stanley F. Chen Building Probabilistic Models for Natural Language // Harvard University Cambridge, Massachusetts, 1996

[31] Jelinek F., Mercer R. Interpolated Estimation of Markov Source Parameters from Sparse Data // In Pattern Recognition in Practice, E. Gelsema and L.Kanal, Eds. Amsterdanr.North-Holland, 1980

[32] Marcello Federico Bayesian Estimation Methods For N-Gram Language Model Adaptation // In Proceedings of International Conference on Spoken Language Processing, 1996

[33] Jan Hajic, Barbora Hladka Tagging inflective languages: prediction of morphological categories for a rich, structured tagset // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, 1998

[34] Jan Hajic, Pavel Krbec, Pavel Kveton, Karel Oliva, and Vladimr Petkevic. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. // Computational linguistics, 2001.

[35] Arlindo Oliveira, Alberto Sangiovanni-Vincentelli , Jude Shavlik Using the Minimum Description Length Principle to Infer Reduced Ordered Decision Graphs // Machine Learning , 12 , 1995

[36] Brill, E. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. // Computational Linguistics, 1995.

[37] Lucian Galescu, Eric K. Ringger Augmenting words with linguistic information for N-gram language model // International Speech Communication Association, 1999.

[38] Протасов С. В. Обучение с нуля грамматике связей русского языка //Десятая национальная конференция по искусственному интеллекту с международным участием, КИИ-2006.

[39] Pedersen Т. A simple approach to building ensembles of Naive Bayesian classifiers for word sense disambiguation //Proceedings of the 1 st North American chapter of the Association for Computational Linguistics conference, 2000.

[40] Dan Tufis It would be much easier if WENT were GOED // Proceeding EACL '89 Proceedings of the fourth conference on European chapter of the Association for Computational Linguistics, Stroudsburg, PA, USA 1989.

[41] Зеленков Ю.Г., Сегалович И.В., Титов B.A., Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов. // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2005., 2005.

[42] Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // MLMTA'03, Las Vegas, NE, 2003.

[43] Апресян Ю.Д. и др. Лингвистическое обеспечение системы Этап-2 // Москва «Наука», 1989.

[44] Jan Hajic, Pavel Krbec, Pavel Kveton, Karel Oliva, and Vladimr Petkevic. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. // Computational linguistics, 2001.

[45] Сокирко A.B., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Интернет-математика-2005

[46] Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог'2002. В двух томах. Т.2. "Прикладные проблемы". - Москва, Наука, 2002.

[47] Sylvain Neuvel, Sean A. Fulop Unsupervised learning of morphology without morphemes // MPL '02 Proceedings of the ACL-02 workshop on Morphological and phonological learning - Volume 6 Association for Computational Linguistics Stroudsburg, PA, USA ©2002

[48] Мельчук И.А. Курс общей морфологии том I // Издательская группа «Прогресс», Москва, 1997.

[49] Chomsky N. Syntactic Structures // The Hague: Mouton, 1957.

[50] Sheldon Klein, Robert F. Simmons A Computational Approach to GrammaLical Coding of English Words // Journal of the ACM (JACM) Volume 10 Issue 3, 1963, New York

[51] Jochen L. Leidner Current issues in software engineering for Natural Language Processing // University of Edinburgh, Edinburgh, Scotland, UK Published in: Proceeding SEALTS '03 Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems - Volume 8 Association for Computational Linguistics Stroudsburg, PA, USA ©2003

[52] Walter S. Stolz , Percy H., Frederick V. Carstensen Tannenbaum A Stochastic approach to the grammatical coding of English // University of Wisconsin, Madison, Wisconsin, 1965

[53] Suzan Verberne, Lou Boves, Nelleke Oostdijk, Peter-Arno Coppen What is not in the bag of words for why-qa? // Computational Linguistics Volume 36 Issue 2, June 2010

[54] Dik L. Lee, Huei Chuang, Kent Seamons Document Ranking and the Vector-Space Model // Journal IEEE Software Volume 14 Issue 2, March 1997

[55] Gerard Salton, Chris Buckley Term Weighting Approaches in Automatic Text Retrieval // Cornell University Ithaca, NY, USA ©1987

[56] Katrin Erk, Sebastian Pado A structured vector space model for word meaning in context // EMNLP '08 Proceedings of the Conference on Empirical Methods in Natural Language Processing

[57] Patrick Pantel, Peter D. Turney From frequency to meaning: vector space models of semantics // Journal of Artificial Intelligence Research archive Volume 37 Issue 1, January 2010.

[58] Thorsten Joachims A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization // ICML '97 Proceedings of the Fourteenth International Conference on Machine Learning

[59] Alfio Gliozzo, Claudio Giuliano, Carlo Strapparava Domain kernels for word sense disambiguation // ACL '05 Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA, 2005

[60] Claudio Giuliano, Alfio Massimiliano Gliozzo,Carlo Strapparava Kernel methods for minimally supervised wsd // Computational Linguistics Volume 35 Issue 4, December 2009

[61] Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features (1998) // Machine Learning ECML98

[62] Dan Roth, Dmitry Zelenko Part of speech tagging using a network of linear separators // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 2

[63] Katrin Erk, Sebastian Pado A structured vector space model for word meaning in context // EMNLP '08 Proceedings of the Conference on Empirical Methods in Natural Language Processing

[64] Gaston Burek, Christian Pietsch, Anne De Roeck SVO triple based Latent Semantic Analysis for recognising textual entailment // In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing (June 2007)

[65] Гладкий A.B. Синтаксические структуры естественного языка автоматизированных системах общения // Москва, Наука, 1985.

[66] М.Н. Christiansen, Dale R. Language evolution and change // In M.A. Arbib (Ed.), The handbook of brain theory and neural networks (2nd ed., pp. 604-606). Cambridge, MA: MIT Press.

[67] Zhang Yin, Jin Rong, Zhou Zhi-Hua Understanding bag-of-words model: a statistical framework // International Journal of Machine Learning and Cybernetics (2010) 1: 43-52, November 22, 2010

[68] Suzan Verberne, Lou Boves, Nelleke Oostdijk, Peter-Arno Coppen What is not in the bag of words for why-qa? // Computational Linguistics Volume 36 Issue 2, June 2010

[69] Zhong Wu, Qifa Ke, Jian Sun, Heung-Yeung Shum A Multi-sample, Multi-tree Approach to Bag-of-words Image Representation for Image Retrieval // Microsoft Research September, 2009

[70] Suzan Verberne, Lou Boves, Nelleke Oostdijk, Peter-Arno Coppen What is not in the bag of words for why-qa? // Computational Linguistics Volume 36 Issue 2, June 2010

[71] [Официальный сайт компании Google] [Электронный ресурс] - режим доступа http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html, свободный.

[72] Brill Е. Unsupervised Learning of Disambiguation Rules for Part of Speech Tagging // In Natural Language Processing Using Very Large Corpora, 1995.

[73] Протасов С. В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Компьютерная лингвистика и интеллектуальные технологии по материалам ежегодной Международной конференции «Диалог» (2010).

[74] Добров Б.В., Лукашевич Н.В., Сыромятников C.B. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой всероссийской научной конференции "Электронные библиотеки: Перспективные методы и технологии, электронные коллекции. - 2003, с. 201210.

[75] Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Сб. статей «Инструментарий русистики: корпусные подходы». -Хельсинки, 2008. сс. 343-357

[76] Т. Ю. Кобзарева, Р. Н. Афанасьев Универсальный модуль предсинтаксического анализа омонимии частей речи в ря на основе словаря диагностических ситуаций // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2002., 2002.

[77] Church К., Hanks, P. Word association norms, mutual information, and lexicography// Computational Linguistics, 1990, 16(1), 22-29.

[78] Collocations and semantic profiles: on the cause of the trouble with quantitative studies // Functions of Language, 2, 1: 23-55. [Reprinted in W Teubert & R Krishnamurthy eds (2007) Corpus Linguistics: Critical Concepts in Linguistics, Routledge. Vol 3: 166-93.]

[79] Добров Б.В., Лукашевич H.B., Сыромятников C.B. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой всероссийской научной конференции "Электронные библиотеки: Перспективные методы и технологии, электронные коллекции. - 2003, с. 201210.

[80] Антонов A.B., Ягунова Е.В. Лингвистический анализ информационного портрета как свертки множества текстов. Постановка эксперимента // Сб. трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-13». М.: МИЭМ, 2010. сс. 50-59.

[81] Невзорова O.A., Невзоров В.Н., Зинькина Ю.В., Пяткин Н.В. Интегральная технология разрешения омонимии в системе анализа текстовых документов «ЛоТА» // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» М.: Изд-во РГГУ, 2007, сс. 422-427

[82] Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э. Морозов С.С. Лексико-синтаксические шаблоны в задачах автоматической обработки текста // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» М.: Изд-во РГГУ, 2007, сс. 70-75

[83] Nicholas О. Andrews and Edward A. Fox Recent Developments in Document Clustering // Department of Computer Science, Virginia Tech, Blacksburg, 2007

[84] Kathleen R. McKeown Discourse Strategies for Generating Natural-Language Text // Morgan Kaufmann Publishers Inc. San Francisco, CA, USA 1986

[85] Richard Power Donia Scott Nadjet Bouayad-Agha Document structure // Computational Linguistics Volume 29 Issue 2, June 2003

[86] Frank A. Smadja, Kathleen R. McKeown Automatically extracting and representing collocations for language generation // ACL '90 Proceedings of the 28th annual meeting on Association for Computational Linguistics Association for Computational Linguistics Stroudsburg, PA, USA 1990

[87] Словарь сочетаемости слов русского языка // Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., ACT, 2002. 816 с.

[88] [Бирюк O.JL, Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка] [Электронный ресурс] -Режим доступа http://dict.ruslang.ru/abstr_noun.php, свободный

[89] И.М. Ножов Морфологическая и синтаксическая обработка текста (модели и программы) // Интернет публикация диссертации, Москва - 2003

[90] Jim Cowie, Joe Guthrie, Louise Guthrie Lexical disambiguation using simulated annealing // Association for Computational Linguistics Stroudsburg, PA, USA 1992

[91] Розенталь Д.Э. Управление в русском языке // Словарь-справочник. -Москва: Книга, 1986.

[92] Гладкий А.В. Формальные грамматики и языки. // Москва, Наука, 1973.

[93] Martin Jansche Maximum Expected F-Measure Training of Logistic Regression Models // Proceeding HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing Association for Computational Linguistics Stroudsburg, 2005

[94] Клышинский Э.С., Кочеткова H.A., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2010., 2010.

[95] Литвинов М.И. Метод повышения качества снятия омонимии с использованием статистики совместного употребления слов // журнал «Качество Инновации Образование», 2010 г., 11-й выпуск.

[96] Литвинов М.И. Комплексный метод снятия частеречной омонимии с использованием статистики совместного употребления слов в тексте на русском языке // по материалам ХП-ой Национальной конференции по искусственному интеллекту с международным участием.

[97] Литвинов М.И. Модели управления на основе сочетаний из трёх слов и глагольное управление для поверхностного синтаксического анализа // Сб. трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-13». М.: МИЭМ, 2010. сс. 107112.

[98] Литвинов М.И. М одели управления на основе сочетаний из трёх слов и глагольное управление // материалы ежегодной научно-технической конференция студентов, аспирантов и молодых специалистов МИЭМ, 2010 г.

[99] Литвинов М.И. Обзор вероятностных методов морфологической разметки // Научно-техническая информация. Серия 2, Информационные процессы и системы. - 2011. - N0. 7. - С. 26-31.

[100] Н. Вирт Алгоритмы и структуры данных // Невский Диалект, 2008 г.

[101] Д. Кнут Искусство программирования. Том 3. Сортировка и поиск // Вильяме, 2009 г.

[102] Гради Буч Объектно - ориентированный анализ и проектирование с примерами приложений на С++ //Бином, Невский Диалект, 1998 г.

[103] Б. Страуструп Язык программирования С++ // Бином, Невский Диалект, 2008 г.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.