Автоматическая рубрикация новостных сообщений средствами синтаксической семантики тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат наук Добров, Алексей Владимирович
- Специальность ВАК РФ10.02.21
- Количество страниц 418
Оглавление диссертации кандидат наук Добров, Алексей Владимирович
Оглавление
ВВЕДЕНИЕ
ГЛАВА 1. ПРОБЛЕМЫ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ЯЗЫКОВЫХ ЕДИНИЦ В ОБЛАСТИ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ
1.1 Виды автоматической обработки текстов и области ее применения
1.2 Универсальные способы моделирования знаний в областях автоматической обработки текстов и искусственного интеллекта
1.2.1 Направления исследований в области искусственного интеллекта, относящиеся к автоматической обработке текстов
1.2.2 Проблема универсальных алгоритмов в автоматической обработке текста и искусственном интеллекте
1.2.3 Способы представления знаний в системах автоматической обработки текстов и искусственного интеллекта в контексте проблемы машинного обучения
1.2.4. Проблема разграничения знаний о языке и знаний о мире в системах автоматической обработки текстов и искусственного интеллекта
1.3 Проблемы математического моделирования синтаксических структур в различных лингвистических концепциях
1.3.1 Структуры непосредственных составляющих
1.3.2 Моделирование линейного порядка слов и взаимодействия грамматических признаков в трансформационной порождающей грамматике Н. Хомского
1.3.3 Проблема линеаризации структур составляющих: идеи, альтернативные трансформациям
1.3.4 Структуры зависимостей
1.3.5 Комбинированные структуры непосредственных составляющих и зависимостей
1.4 Проблемы моделирования грамматической семантики в области автоматической обработки текста
1.4.1 Проблемы моделирования категориальных грамматических значений и учета грамматической полисемии при автоматической обработке текста
1.4.2 Свойства формальности и интенциональности грамматических значений в контексте автоматической обработки текста
1.4.3 Проблема моделирования межкатегориального взаимодействия
1.5 Проблемы онтологического моделирования лексической семантики в области автоматической обработки текста
1.6 Выводы
ГЛАВА 2. ТЕОРИИ СИНТАКСИЧЕСКОЙ СЕМАНТИКИ И ИХ ЗНАЧЕНИЕ ДЛЯ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА
2.1 Онтологоцентрический подход к моделированию семантики предложения
2.2 Концептоцентрический подход к моделированию семантики предложения
2.2.1 Пропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения
2.2.2 Падежно-ролевые подходы к моделированию семантики предложения
2.2.3 Непропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения
2.3 Синтактикоцентрический подход к моделированию семантики предложения
2.4 Антропоцентрический подход к моделированию семантики предложения
2.5 Комплексные подходы к моделированию семантики предложения
2.6 Подходы, основанные на сетевом моделировании семантики предложения
2.7 Подходы к моделированию семантики связного текста
2.7.1 Моделирование семантики анафорических отношений
2.7.2 Проблема моделирования актуального членения
2.7.3 Моделирование тематических прогрессий
2.7.4 Моделирование синтаксиса связного текста
2.8 Выводы
ГЛАВА 3. МЕТОДЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА И
СПОСОБЫ ОЦЕНКИ ИХ ЭФФЕКТИВНОСТИ
3.1. Методы автоматического морфологического анализа текста
3.1.1 Основные проблемы автоматического морфологического анализа
3.1.2 Декларативные и процедурные методы автоматического морфологического
анализа
3.1.3 Методы снятия морфологической неоднозначности
3.1.4 Способы оценки эффективности морфологического анализа
3.2. Методы автоматического синтаксического анализа текста
3.2.1 Основные проблемы автоматического синтаксического анализа
3.2.2 Одноцелевые, многоцелевые и комбинированные методы автоматического синтаксического анализа
3.2.3 Направленность методов автоматического синтаксического анализа на построение графа зависимостей и на построение структуры непосредственных составляющих
3.2.4 Формально-грамматические и вероятностно-статистические методы автоматического синтаксического анализа
3.2.5 Методы снятия синтаксической неоднозначности
3.3. Методы автоматического семантического анализа текста
3.3.1 Проблемы семантического анализа текстов
3.3.2 Опубликованные универсальные онтологии, используемые в системах автоматической обработки текстов
3.4 Тематическая классификация новостных текстов. Методы автоматической рубрикации текста
3.4.1 Методы автоматической рубрикации текста
3.4.2 Автоматическая рубрикация текстов и информационный поиск
3.5 Анализ способов измерения эффективности автоматической рубрикации текста
3.5.1 Меры точности и полноты автоматической рубрикации текста
3.5.2 Статистические меры эффективности автоматической рубрикации текста
3.6 Особенности новостных сообщений как материала для автоматической рубрикации
3.6.1 Новостные сообщения и новостные тексты
3.6.2 Использование новостных сообщений как материала для оценки эффективности систем автоматической рубрикации текстов
3.7 Выводы
ГЛАВА 4. СИСТЕМА АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ НОВОСТНЫХ СООБЩЕНИЙ СРЕДСТВАМИ СИНТАКСИЧЕСКОГО И
СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ
4.1 Возможности применения комплексного лингвистического анализа текста к его автоматической рубрикации
4.2 Возможности применения единого алгоритма на различных уровнях анализа текста
4.2.1 Морфологический анализ узуальных и окказиональных словоформ в тексте
4.2.2 Алгоритмы анализа деривационных отношений в морфологии, словообразовании и синтаксисе
4.2.3 Алгоритм семантического анализа
4.3. Структура лингвистического процессора и лингвистических модулей русского языка
4.3.1 Структура лингвистического процессора
4.3.2 Разработанная система грамматических категорий
4.3.3 Разработанный морфологический словарь русского языка
4.3.4 Грамматические модули русского синтаксиса и синтаксической семантики. Моделирование разрывных составляющих
4.3.5 Разработанная онтология
4.4 Структура системы автоматической рубрикации новостных сообщений, основанной на синтаксическом и семантическом анализе текстов
4.5 Проверка эффективности разработанной системы автоматической
рубрикации новостных сообщений
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СЛОВАРЬ ТЕРМИНОВ
СПИСОК ЗАТЕКСТОВЫХ ССЫЛОК
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА
ПРИЛОЖЕНИЕ А. ИСХОДНЫЕ КОДЫ СИСТЕМЫ АВТОМАТИЧЕСКОЙ
РУБРИКАЦИИ НОВОСТНЫХ СООБЩЕНИЙ
ПРИЛОЖЕНИЕ Б. МАТЕРИАЛЫ ЭКСПЕРИМЕНТА
ПРИЛОЖЕНИЕ В. ТАБЛИЦА ВЫЧИСЛЕНИЯ F-МЕРЫ
Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа2014 год, кандидат наук Лукашевич, Наталья Валентиновна
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Модель многоязычного интеллектуального контент-анализа (на материале англо-, франко- и русскоязычных новостных сообщений о террористической деятельности)2022 год, кандидат наук Зиновьева Анастасия Юрьевна
Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа2015 год, кандидат наук Шелманов, Артем Олегович
Введение диссертации (часть автореферата) на тему «Автоматическая рубрикация новостных сообщений средствами синтаксической семантики»
ВВЕДЕНИЕ
В диссертационном исследовании рассматривается возможность использования средств автоматического синтаксического и семантического анализа текстов новостных сообщений при решении задачи повышения эффективности их автоматической рубрикации.
В последние десятилетия возрос интерес к созданию эффективных инструментов работы с текстовой информацией, основанных на автоматической обработке текстов — систем информационного поиска, машинного перевода, автоматической рубрикации и классификации текстов, автоматического реферирования, систем фактографического анализа. Этот интерес в значительной степени обусловлен резким увеличением объема текстовой информации в электронной форме, приводящим к необходимости автоматизации различных видов деятельности, относящейся к поиску и структурированию информации, до сих пор выполнявшейся вручную.
Актуальность темы исследования определяется тем, что погрешность статистических моделей, стоящих за применявшимися до сих пор алгоритмами рубрикации, несмотря на постоянные усовершенствования этих моделей, становится все более существенной проблемой. Благодаря развитию сети Интернет, объемы текстовой информации резко возросли, и возникла необходимость в принципиально новых технологиях, обеспечивающих более качественный и точный анализ современного медиатекста, чем существующие средства автоматической рубрикации. Недостаточная разработанность инструментов работы с информационными потоками, прежде всего — с «новостными лентами», приводит к появлению новых научных исследований, направленных на поиск наиболее эффективных и точных методов автоматической обработки медиатекста и на развитие структурно-лингвистических моделей, необходимых для корректной работы этих методов. Востребованность таких методов приводит к росту интереса исследователей к развитию научных лингвистических подходов, основанных на выявлении принципов и объяснении особенностей функционирования языковой системы и позволяющих повысить эффективность автоматической обработки текстов и, в частности, их автоматической рубрикации. Тем не менее, вопрос о возможностях использования таких
дополняющих друг друга методов лингвистической обработки текста, как синтаксический и семантический анализ, с целью повышения качества автоматической рубрикации до сих пор не подвергался детальному изучению.
Степень разработанности исследуемой проблемы. Комплексный формально-лингвистический подход активно применялся и применяется в областях машинного перевода (JI.H. Беляева, М.И. Откупщикова), информационного поиска (И.П.Панков, В.П.Захаров), стилеметрии и атрибуции текстов (О.Н.Гринбаум, Г.Я. Мартыненко, М.А. Марусенко), автоматического реферирования текстов (В.В. Богданов, И.П. Севбо), но до сих пор не было попыток применить этот подход к задаче автоматической рубрикации текстов. В ряде работ группы «УИС Россия» (М.С. Агеев, Б.В. Добров, Н.В. Лукашевич и др.) и некоторых иных исследовательских групп рассматривался вопрос о применении морфологического анализа и лингвистического тезауруса к автоматической рубрикации текстов и было показано значимое повышение ее эффективности при использовании этих инструментов, однако возможности дальнейшего повышения качества автоматической рубрикации путем одновременного использования синтаксического и семантического анализа до сих пор не изучались.
Если в 50-е и 60-е годы XX века интерес к созданию комплексных моделей языка (Ю.Д. Апресян, А.К. Жолковский, И.А. Мельчук, Н. Хомский и др.) был крайне высоким, то позднее, в силу недостаточной эффективности создававшихся автоматизированных систем и высокой трудоемкости их разработки, наступил период смещения интереса в область более простых статистических (в меньшей степени лингвистических) подходов к решению прикладных задач, связанных с обработкой текстов. Эти подходы не всегда предполагали необходимость даже морфологического анализа текстов, однако именно они позволили создать действовавшие системы автоматической обработки текстов в относительно короткие сроки (например, модель Р. Шенка, системы SHRDLU, LUNAR, LIFER/LADDER и др.). Качество результатов работы этих систем было ограничено возможностями моделей, лежащих в основе их реализаций. Далеко не всегда учитывалась такая важная особенность языковых единиц, как морфологическая, синтаксическая и лексико-семантическая неоднозначность, что часто усугублялось осознанным отказом от учета высокочастотной служебной лексики, крайне важной для грамматики, но несущественной для статистических эвристик. Тем не менее, к 90-м
годам XX века подходы к автоматической обработке текста, основанные на полностью статистических моделях, стали господствующими (методы, основанные на N-граммах, методы кластерного анализа, нейронные сети, методы машинного перевода, основанные на механизме «памяти переводов» и др.). Лишь к концу 90-х годов XX века, в связи с широким распространением новых поколений вычислительной техники, появилась возможность создания высокопроизводительных систем автоматической обработки текстов, основанных на структурно-лингвистических подходах: формальных грамматиках, формально-семантических моделях и собственно лингвистических алгоритмах анализа и синтеза текстов на естественных языках. В эти годы активно развиваются компьютерные реализации моделей, созданных еще в 60-е годы XX века— система «ЭТАП», реализовавшая модель «Смысл <-> Текст» (Ю.Д.Апресян, Л.Л. Иомдин, В.3. Санников, Л.Л. Цинман и др.), различные варианты синтаксических парсеров, основанных на порождающих грамматиках непосредственных составляющих и грамматиках зависимостей (системы ФРАП, ПОЛИТЕКСТ, ДИАЛИНГ, Link Grammar Parser, пакет NLTK и др.). Модель «Смысл <-> Текст» дала толчок развитию самостоятельных моделей естественного языка (H.H. Леонтьева, В.А. Тузов, З.М. Шаляпина и др.) и компьютерных реализаций этих моделей. Кроме того, в конце 90-х — начале 2000-х годов, в условиях высокой популярности идеи «семантической паутины» (Т.Б. Ли), возникло множество новых подходов к моделированию лексической семантики, основанных на компьютерных онтологиях.
Непрерывный рост количества разработанных моделей в различных областях компьютерной лингвистики привел к особой актуальности изучения методов объективной оценки эффективности создаваемых технологий и сопоставления различных статистических, структурно-лингвистических и комбинированных подходов путем сравнения показателей эффективности результатов работы их компьютерных реализаций. Широкое распространение статистических методов оценки этих показателей позволило выявить ряд объективных проблем в некоторых областях компьютерной лингвистики, в частности, в области автоматической рубрикации (классификации) документов (М.С.Агеев, Б.В.Добров, Н.В.Лукашевич, И.С. Некрестьянов, A.B. Антонов, С.Г. Баглей и др.).
Экспериментальные исследования, направленные на сравнение эффективности возможных способов решения этих проблем, показали наибольшую перепек-
тивность с точки зрения эффективности автоматической рубрикации текстов комплексных инженерных (в терминах инженерии знаний) и лингвистических подходов к организации систем автоматической обработки текстов и, следовательно, к описанию и математическому моделированию единиц различных уровней языковой системы. Подходы, основанные только на статистических методах машинного обучения, а также комбинированные подходы, предполагающие приоритет отдельных языковых уровней или отдельных аспектов языковых единиц, на сегодняшний день характеризуются более низкими показателями качества, чем альтернативные им полностью инженерные подходы.
Одним из таких комплексных подходов, которые предполагают одновременный учет наибольшего количества аспектов языковых явлений, является подход, характерный для Петербургской лингвистической школы и ее последователей в области математической, структурной и прикладной лингвистики (В.Г. Адмони, Л.Н.Беляева, В.В.Богданов, В.Д. Буторов, А.С.Герд, Л.Р. Зиндер, Г.Я.Марты-ненко, М.И.Откупщикова, И.П. Панков, Р.Г.Пиотровский, В.Ш. Рубашкин, С.Я. Фитиалов, Г.С. Цейтин и др.). Этот подход предполагает всестороннее рассмотрение языковых единиц при их моделировании, сочетающееся с максимальной детализацией как семантических (когнитивных, концептуальных, онтологических и др.), так и формальных (синтаксических, морфологических, фонологических и др.) аспектов создаваемых лингвистических моделей. Безусловно, исследователи, придерживающиеся данного подхода, часто отмечают центральную роль семантики в языковой системе, поскольку семантика «пронизывает» практически все уровни языка. Вместе с тем, именно поэтому семантике не отводится роль отдельного языкового уровня, а при моделировании языковых единиц детализируются как их семантические свойства, так и формальные, с максимально возможной степенью достоверности. В русле такого подхода выполнено настоящее диссертационное исследование.
Объектом исследования являются методы автоматического синтаксического и семантического анализа текстов новостных сообщений, позволяющие повысить точность и полноту их автоматической рубрикации.
Предмет исследования — способы использования средств автоматического синтаксического и семантического анализа текстов новостных сообщений при повышении эффективности их автоматической рубрикации.
Гипотеза исследования состоит в том, что эффективность автоматической рубрикации текстов, основанной на анализе синтаксической семантики1, выше, чем эффективность автоматической рубрикации текстов, не учитывающей синтаксическую семантику.
Цель диссертационного исследования состоит в установлении принципов и разработке алгоритмов автоматического синтаксического и семантического анализа и рубрикации текстов новостных сообщений и в определении степени эффективности их автоматической рубрикации, основанной на комплексном лингвистическом анализе. Цель исследования предусматривает решение следующих задач:
1. Определить основные принципы математического моделирования языковых единиц в области автоматической обработки текстов, характеризующиеся высокими показателями эффективности применения создаваемых моделей к анализу текстов новостных сообщений.
2. Выявить основные положения структурно-лингвистических подходов к описанию и моделированию синтаксической семантики, применимые к автоматической обработке текстов новостных сообщений и обеспечивающие наиболее высокие показатели эффективности такой обработки.
3. Проанализировать существующие методы автоматической обработки текстов, их автоматической рубрикации, способы оценки их эффективности и основные проблемы, выявляемые при такой оценке.
4. Создать компьютерную модель синтаксиса русского языка, включающую в себя информацию о синтаксических единицах, о структурных отношениях между этими единицами, о допустимых способах их линейного развертывания и об их семантических свойствах, достаточную для повышения эффективности автоматической рубрикации новостных сообщений.
5. Разработать алгоритмы морфологического, синтаксического и семантического анализа текстов, необходимые для компьютерного анализа текстов новост-
1 Прим. автора: под термином «синтаксическая семантика», согласно определению В.Г. Адмони, в диссертационном исследовании понимается семантика синтаксических структур.
ных сообщений на уровне синтаксической семантики; реализовать указанные алгоритмы в виде единой компьютерной системы.
6. Разработать систему автоматической рубрикации новостных сообщений, основанную на комплексном лингвистическом анализе текстов на уровне синтаксической семантики, и, в частности, систему образов рубрик (правил отнесения текстов к рубрикам), соответствующих набору рубрик, используемых информационным агентством, опубликовавшим анализирующиеся в исследовании новостные сообщения.
7. Экспериментально апробировать и произвести оценку эффективности автоматической рубрикации текстов, обеспечиваемой разработанной в результате исследования системой.
Научная новизна результатов исследования заключается в следующем:
1. Впервые исследованы возможности одновременного применения компьютерного синтаксического и семантического анализа текстов новостных сообщений к их автоматической рубрикации.
2. Создана инновационная компьютерная модель иерархии синтаксических составляющих русского языка, одновременно отражающая информацию о синтаксических зависимостях, об отношениях между единицами этой иерархии и о системе значений синтаксических составляющих, обеспечивающая возможность производить эффективный автоматический синтаксический анализ текстов новостных сообщений на русском языке.
3. Разработан новый, универсальный алгоритм лингвистического анализа, применимый к языкам различных типов, предполагающий строгое разделение алгоритмического ядра, независимого от языка, и подключаемых языковых модулей.
4. Дано научное обоснование архитектуры системы автоматической обработки текстов, обеспечивающей высокопроизводительный комплексный лингвистический анализ текстов новостных сообщений.
5. Впервые создана система автоматической рубрикации новостных сообщений, основанная на комплексном анализе текстов на уровне синтаксической семантики.
6. Установлена эффективность использования компьютерного синтаксического и семантического анализа текстов новостных сообщений при их автоматической рубрикации.
Теоретическая значимость результатов исследования определяется тем, что в нем:
1. Обоснована целесообразность моделирования синтаксических структур при помощи нестрого бинарных комбинированных структур составляющих и зависимостей с точки зрения соответствия модели языковому материалу; создано математическое исчисление контактных и разрывных составляющих, отражающее возможные степени нарушения проективности и альтернативное модели трансформационной грамматики; выявлены основные принципы моделирования лексической семантики при помощи компьютерных онтологий, необходимые для корректной автоматической обработки текстов.
2. Расширены существующие представления о возможностях моделирования синтаксической семантики в части обоснования необходимости уточнения пропозициональных моделей семантики предложения путем сведения их к сетевому представлению и в части возможностей отражения семантической перспективы при сетевом представлении семантики предложения и высказывания.
3. Дано научное обоснование универсальности метода межуровневого взаимодействия при решении проблемы неоднозначности на различных языковых уровнях при анализе текста.
4. Обоснована целесообразность использования компьютерного синтаксического и семантического анализа текстов для их автоматической рубрикации; конкретизированы научные представления о рубриках, соответствующих медиатопи-кам, как о предметных областях и концептах компьютерной онтологии, и образах рубрик, используемых при автоматической рубрикации текстов.
Практическая значимость результатов исследования заключается в том, что созданная система автоматической рубрикации новостных сообщений может широко применяться в практической деятельности информационных агентств и новостных порталов и служить средством для существенного ускорения и упрощения работы экспертов, осуществляющих структурирование новостных потоков.
Применение созданной системы автоматической рубрикации новостных сообщений при поиске новостей может ускорить и упростить работу пользователя, состоящую в фильтрации результатов поиска информации по конкретной тематике. Созданная система автоматической обработки текстов может применяться в системах машинного перевода, информационного поиска и автоматического реферирования текстов. Кроме того, полученные результаты могут быть использованы в курсах по синтаксической семантике, генеративной грамматике, уровням лингвистического анализа, математическим моделям языка, информационным технологиям, информационному поиску, а также при разработке спецкурсов, посвященных автоматической обработке текстов и автоматической рубрикации текстов.
Методология исследования. Теоретико-методологической основой исследования являются, прежде всего, труды отечественных и зарубежных исследователей в области синтаксической семантики, а также работы, посвященные проблемам автоматической обработки текстов и, в частности, их автоматической рубрикации. Для диссертационного исследования наиболее значимыми являются следующие положения.
1. Наиболее перспективен комплексный подход к изучению синтаксической семантики, основывающийся на приоритете принципов концептоцентрического анализа падежно-ролевого типа при учете онтологического фактора (Н.Д. Арутюнова, В.В. Богданов, Дж. Катц, Ч. Филлмор и др.).
2. Семантика предложения складывается из значений его частей и способа их соединения в соответствии с принципом композициональности (Г. Фреге, Р. Монтегю, Б. Парти и др.).
3. Синтаксическая структура предложения может моделироваться при помощи древовидных структур непосредственных составляющих, содержащих в себе информацию о зависимостях между отдельными частями предложения (Л. Блумфилд, 3. Харрис, Н. Хомский и др.); древовидные структуры непосред-
w
ственных составляющих бинарны (Дж.Б. Иоханессен, P.C. Кейн, Н. Хомский и ДР-)-
4. Семантика представляет собой сложный целостный объект (A.B. Бон-дарко), пронизывает практически все уровни языка и тем самым не представляет собой отдельного уровня (A.C. Герд); автоматическая обработка текста должна
быть функциональной моделью человеческого понимания этого текста и включать в себя анализ текста на всех уровнях языка, а не только один из видов анализа (A.B. Гладкий, А.К. Жолковский, H.H. Леонтьева, И.А. Мельчук и др.)
5. Существующие инженерные подходы к автоматической рубрикации текстов, а также подходы, основанные на машинном обучении, приводят к неразрешимым проблемам, связанным с невозможностью учета в рамках этих подходов полисемии и омонимии лексических единиц и с в озникновением так называемых ложных корреляций, обусловленных игнорированием синтаксических связей между лексическими единицами в тексте, что требует разработки и апробации нового подхода к автоматической рубрикации текстов (М.С.Агеев, Б.В.Добров и Н.В. Лукашевич).
Методы исследования выбраны с учетом специфики объекта, языкового материала, целей и задач работы. В работе применяются методы лингвистического анализа языкового материала (метод анализа структур непосредственных составляющих и зависимостей, методы комплексного анализа синтаксической семантики), методы и приемы компьютерной лингвистики и статистические методы оценки и сравнения эффективности автоматической рубрикации текстов (в том числе — разработанный автором настоящего диссертационного исследования экспериментальный метод, основанный на сравнении машинной рубрикации с несколькими эталонами).
Основным материалом исследования являются данные эксперимента, позволяющего установить значения показателей эффективности разработанной системы: коллекция новостных сообщений агентства «РИА Новости» объемом 24327 документов, 16450 отнесений 165 испытуемыми 200 случайных текстов из указанной коллекции новостных сообщений к 10 рубрикам, 2000 отнесений текстов к рубрикам, выполненных системой автоматической рубрикации.
На защиту выносятся следующие положения.
1. Анализ синтаксической семантики в существенной мере решает проблемы морфологической, синтаксической и лексической неоднозначности и ложной корреляции, возникающие при использовании методов автоматической рубрикации новостных сообщений, основанных на ключевых словах и сочетаниях слов, при
этом эффективность автоматической рубрикации новостных сообщений повышается при использовании средств синтаксического и семантического анализа.
2. Алгоритмы синтаксического и семантического анализа и модели синтаксических структур и их семантики, используемые при автоматической рубрикации текстов, могут быть универсальными и совпадать с аналогичными алгоритмами, используемыми в системах машинного перевода и информационного поиска;
3.Те рубрики новостных сообщений, которые соответствуют конкретным предметным областям, в наибольшей мере характеризуются единообразием оценок их соответствия текстам; семантические отношения между такими рубриками и относящимися к ним значениями языковых единиц имеют детерминированную логическую интерпретацию и потому могут моделироваться при помощи компьютерных онтологий наравне с иными семантическими отношениями; при этом образом рубрики является совокупность всех концептов онтологии, привязанных к предметной области, соответствующей этой рубрике, или ее подобластям.
Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:
1. Использованием материалов как традиционных, так и новейших отечественных и зарубежных фундаментальных исследований в области компьютерной, структурной и прикладной лингвистики.
2. Выбором методов анализа языкового материала, адекватных цели и задачам исследования.
3. Применением математических методов оценки эффективности работы систем автоматической рубрикации; методов математической статистики, в частности — критерия согласия Пирсона для проверки гипотезы о нормальности выборочного распределения и ^критерия Стьюдента для сравнения выборочного среднего с заданным значением для нормально распределенных выборок.
Апробация результатов исследования
Основные положения диссертации были представлены на международных конференциях «Востоковедение и африканистика в диалоге цивилизаций» (Санкт-Петербург, СПбГУ, апрель 2009 г.), «Языки меньшинств в компьютерных техно-
и
логиях: опыт, задачи и перспективы» (Йошкар-Ола, Республика Марий-Эл, апрель
2011 г.), «VI Международная научно-практическая конференция «психолингвистика в современном мире» (Переяслав-Хмельницкий, Украина, октябрь 2011 г.), собраниях научного коллектива лаборатории информационных лингвистических технологий ИЛИ РАН (2004-2008 г.), собраниях научного коллектива лаборатории интеллектуальных систем отдела свободного программного обеспечения инновационного центра Санкт-Петербургского Государственного Университета Телекоммуникаций (2008-2011 г.). По теме диссертации опубликовано 7 работ общим объемом 4,3 п.л., в том числе 3 статьи в научных журналах и изданиях, включенных в перечень рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций, рекомендованный ВАК РФ, и одна статья в зарубежном издании. 3 работы опубликованы в материалах международных конференций.
Объем и структура диссертации. Работа состоит из введения, четырех глав, заключения, списка сокращений и условных обозначений, словаря терминов, списка затекстовых ссылок, списка использованной литературы, включающего 210 наименований, в том числе 58 на иностранных языках, и списка иллюстративного материала. К диссертации прилагаются исходные коды программ системы автоматической рубрикации новостных сообщений, основанной на синтаксическом и семантическом анализе текстов (Приложение А), материалы эксперимента (Приложение Б) и расчеты оценки эффективности разработанной системы автоматической рубрикации (Приложение В). Общий объем работы составляет 417 машинописных страниц печатного текста: основное содержание изложено на 250 страницах, 167 страниц занимают Приложения.
ГЛАВА 1. ПРОБЛЕМЫ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ЯЗЫКОВЫХ ЕДИНИЦ В ОБЛАСТИ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ
Область автоматической обработки текста (а. о. т.) относится к центральным направлениям математической лингвистики.
Согласно определению В.М. Андрющенко, автоматическая обработка текста — это «... преобразование текста на искусственном или естественном языке с помощью ЭВМ» [1, с. 14]. В данном определении не указывается, в какой именно вид преобразовывается текст при его автоматической обработке. То представление, в которое преобразуется текст при его автоматической обработке, зависит от области применения а. о. т.: «В издат. деле А. о. т. — одно из направлений автоматизации редакционно-издат. процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислит, лингвистике, предметом к-рой является автоматич. лингвистич. анализ и синтез текста, а также лингвистич. аспекты общения с ЭВМ на естеств. языке, термин «А. о. т.» понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста» [1, с. 14-15].
В данной работе термин «А. о. т.» используется в «широком» смысле: под автоматической обработкой текста подразумевается автоматическое выявление при помощи ЭВМ представленных в тексте языковых единиц, отношений между этими единицами и их значений.
Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора2013 год, кандидат наук Крайнов, Александр Юрьевич
Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах2012 год, кандидат технических наук Летовальцев, Виктор Иванович
Стилистический компонент в семантике синтаксических единиц1983 год, доктор филологических наук Ермоленко, Светлана Яковлевна
Когнитивно-фреймовый анализ англоязычных текстов новостных интернет-сообщений2019 год, кандидат наук Чабанова, Анна Алексеевна
Моделирование процессов понимания текстов на естественном языке2001 год, кандидат технических наук Алиуллов, Альфир Джаудатович
Список литературы диссертационного исследования кандидат наук Добров, Алексей Владимирович, 2014 год
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Агеев, М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов: дис. ... канд. физ-мат. наук: 05.13.11 / Московский гос. унив /М.С. Агеев — Москва, 2005 — 136 с.
2. Агеев, М.С. УИС РОССИЯ в РОМИП'2007: поиск и классификация / М.С.Агеев, Б.В. Добров, П.В. Красильников, Н.В.Лукашевич, А.М.Павлов,
A.B. Сидоров, C.B. Штернов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008: Семинар в рамках Всероссийской науч. конф. RCDL'2007. 18 окт. 2007 г., Переславль-Залесский — Санкт-Петербург: НУ ЦСИ, 2008 - С. 199-220
3.Агеев,М.С. Автоматическая рубрикация текстов: методы и проблемы / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич // Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. Т. 150, кн. 4 — Казань: Казанский государственный университет, 2008 — С. 25-40
4. Агеев, М.С. Официальные метрики РОМИП'2004 /М.С. Агеев, И.Е. Кура-ленок // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) - Пущино, 2004 - С. 142-150
5.Адамец, П. Образование предложений из пропозиций / П. Адамец — Прага, 1978 - 159 с.
6. Адмони,В.Г. Синтаксическая семантика — это семантика синтаксических структур / В.Г. Адмони // Проблемы синтаксической семантики: Материалы научн. конф. - М.: МГПИИЯ, 1976, С. 3-8
7. Научная библиотека диссертаций и авторефератов disserCat http://www.dissercat.com/content/semanticheskaya-struktura-prostykh-nerasprostranennykh-dvusostavnykh-glagolnykh-predlozhenii#ixzz2kHlVcG00
8. Андрющенко, В .M. Автоматическая обработка текста /
B.М. Андрющенко // Лингвистический энциклопедический словарь — Москва: Советская энциклопедия, 1990 — С. 14-15
9. Антонов, A.B. Галактика-Zoom на РОМИП'2009 / А.В.Антонов, С.Г. Баглей, B.C. Мешков, В.А. Стоян // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009 — Санкт-Петербург: НУ ЦСИ, 2009 - 198 с.
10. Апресян, Ю.Д. Избранные труды, том I. Лексическая семантика. Синонимические средства языка / Ю.Д. Апресян — Москва: Языки русской культуры,
1995 - 472 с. - ISBN 5-88766-043-0
11. Апресян, Ю.Д. Лингвистическое обеспечение системы ЭТАП-2 / Ю.Д.Апресян, И.М.Богуславский, Л.Л. Иомдин, A.B. Лазурский, Н.В.Перцов, В.З. Санников, Л.Л. Цинман — Москва: Наука, 1989 — 295 с.
12. Балли, Ш. Общая лингвистика и вопросы французского языка / Ш. Балли, пер. с фр. — Москва: Изд-во иностранной литературы, 1955 — 416 с.
13. Белов, A.A. Автоматическое распознавание тематики сверхкоротких текстов / A.A. Белов, М.М. Волович // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. Л.Л. Иомдина, Н.И. Лауфер, A.C. Нариньяни, В.П. Селегея — Москва: Изд-во РГГУ, 2007 — С. 35-37
14. Русская грамматика. Т. 2. Синтаксис — Москва: Наука, 1980 — 709 с.
15. Агеев, М.С. Экспериментальные алгоритмы поиска/классификации и сравнение с "basic line" / М.С.Агеев, Б.В.Добров, Н.В.Лукашевич, А.В.Сидоров // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004): Семинар в рамках Всероссийской науч. конф. RCDL'2004. 1 окт. 2004 г (Пущино, 2004) — Санкт-Петербург: изд-во НИИ химии СПбГУ, 2004 - С. 62-89
16. Агеев, М.С. УИС РОССИЯ в РОМИП 2008: поиск и классификация нормативных документов / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич, С.В. Штернов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008: Семинар в рамках Всероссийской науч. конф. RCDL'2008. 9 окт. 2008 г., Дубна - Санкт-Петербург: НУ ЦСИ, 2008 - С. 44-58
17. Азарова, И.В. Сетевое представление лингвистических данных / И.В. Азарова // Прикладное языкознание — Санкт-Петербург, 1996 — С. 243-244
18. Апресян, Ю.Д. Экспериментальное исследование семантики русского глагола / Ю.Д. Апресян — Москва: Наука, 1967 — 256 с.
19. Апресян, Ю.Д. и др. Лингвистическое обеспечение в системе автоматического перевода третьего поколения / Ю.Д. Апресян, И.М. Богуславский, Л.Л. Иомдин — Москва: Научный Совет по комплексной проблеме "Кибернетика" при Президиуме АН СССР, 1978 — 48 с.
20. Арутюнова, Н.Д. Понятие пропозиции в логике и в лингвистике / Н.Д.Арутюнова // Изв. АН СССР. Сер. лит. и яз. № 1, Т. 35 — Москва: Наука, 1976 - С. 46-54
21. Арутюнова, Н.Д. Речь / Н.Д. Арутюнова // Лингвистический энциклопедический словарь — Москва: Советская энциклопедия, 1990 — С. 414-416
22. Арутюнова, Н.Д. Истоки, проблемы и категории прагматики / Н.Д. Арутюнова, Е.В.Падучева // Новое в зарубежной лингвистике. Вып. 16 — Москва, 1985 - С. 21-38
23. Белоногов,Г.Г. Языковые средства автоматизированных информационных систем / Г.Г. Белоногов, Б.А. Кузнецов — Москва: Наука, 1983 — 288 с.
24. Беляева, Л.Н. Автоматический (машинный) перевод / Л.Н. Беляева, М.И. Откупщикова // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 - С. 360-388
25. Берзинь, А.У. Побуквенный статистический машинный перевод между родственными языками / А.У. Берзинь // Прикладна лшгвютика та лшгвютичш технологи, Megaling-2006 — Киев: Дов1ра, 2007 — С. 59-64
26. Блумфилд, Л. Язык. / Перевод с английского Е.С. Кубряковой и В.П. Мурат. Комментарий Е.С. Кубряковой. Под редакцией и с предисловием М.М. Гухман / Л. Блумфилд — Москва: Прогресс, 1968 — 608 с.
27. Богданов, В.В. Текст и текстовое общение. — СПб: Изд-во С.-Петерб. гос / В.В. Богданов — ун-та, 1993 — 67 с.
28. Богданов, В.В. Моделирование семантики предложения / В.В. Богданов // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 161-200
29. Бодуэн де Куртенэ, И.А. Избранные труды по общему языкознанию. Т. II / И.А. Бодуэн де Куртенэ — Москва, 1963 — 391 с.
30. Бондарко, A.B. Проблемы грамматической семантики и русской аспекто-логии / A.B. Бондарко — СПб.: Издательство С.-Петербургского Университета, 1996 - 219 с.
31. Бондарко, A.B. Теория значения в системе функциональной грамматики: На материале русского языка / Рос. Академия наук. Ин-т лингвистических исследований / A.B. Бондарко — Москва: Языки славянской культуры, 2002 — 736 с. — ISBN 5-94457-021-0
32. Борщев, В.Б. Клубные системы (формальный аппарат для описания сложных систем) / В.Б. Борщев, М.В.Хомяков // Научно-техническая информация. Сер. 2, №8 - Москва: ВИНИТИ, 1976 - С. 3-6
33. Браславский, П.И. Инициативный проект российского семинара по оценке методов информационного поиска (РОМИП) / П.И. Браславский, М.В.Губин, Б.В.Добров, В.Ю. Добрынин, И.Е. Кураленок, И.С. Некрестьянов, Е.Ю. Павлова, И.В. Сегалович // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог-2003. Протвино. 11-16 июня 2003г. / Под ред.И.М.Кобозевой, Н.ИЛауфер, В.П.Селегея — Москва: Наука, 2003 - С. 101-107
34. Буторов, В.Г. Моделирование синтаксиса естественного языка / В.Г. Буторов // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 142-160
35. Бюлер, К. Теория языка / К. Бюлер — Москва, 2001 — 504 с. — ISBN 501-004714-4
36. Вайз, Д.А. Google. Прорыв в духе времени / Д.А. Вайз, М. Малсид; перевод с англ. О. Мацака — Москва: Эксмо, 2007 — 368 с. — ISBN 978-5-699-222162,0-553-80457-Х, 978-0-553-80457-7
37. Ван Дейк, Т.А. Язык, познание, коммуникация / Т.А. Ван Дейк — Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 2000 — 308 с.
38. Васильев, В.Г. Комплексная технология автоматической классификации текстов / В.Г. Васильев // Компьютерная лингвистика и интеллектуальные техно-
логии: По материалам ежегодной Международной конференции «Диалог» (Бека-сово, 4—8 июня 2008 г.). Вып. 7 (14) — Москва: РГГУ, 2008 — С. 83-91
39. Васильев, В.Г. Выделение фрагментов в текстах при классификации / В.Г.Васильев // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15) - Москва: РГГУ, 2009 - С. 83-90
40. Васильев,В.Г. Обучение классификаторов на основе выделения фрагментов / В.Г. Васильев // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16) - Москва: Изд-во РГГУ, 2010 - С. 62-70
41. Васильева, А.H. Газетно-публицистический стиль речи / А.Н.Васильева
— Москва: Русский язык, 1982 — 198 с.
42. Васнев, С.А. 11.2. Виды выборки, способы отбора и ошибки выборочного наблюдения [Электронный ресурс] / С.А. Васнев // Статистика. [2002 — 2002]. Дата обновления: 16.09.2002. URL: http://www.hi-edu.ru/e-books/xbook096/01/index.html?part-011 .htm (дата обращения: 29.07.2009)
43. Виноградов, B.B. Стилистика. Теория поэтической речи. Поэтика / В.В. Виноградов — Москва: Изд-во АН СССР, 1963 — 255 с.
44. Галактионов, В.А. Ёлкин C.B., Клышинский Э.С., Максимов В.Ю., Ами-нева С.Н., МусаеваТ.Н. Система машинного перевода «Кросслятор 2.0» и анализ ее функциональности для задачи трансляции знаний / В.А.Галактионов, A.M. Мусатов, О.Ю. Мансурова — Москва, 2007 — 28 с.
45. Гельбух, А.Ф. Автоматический поиск и классификация однословных терминов в корпусе предметной области с использованием логарифмической меры сходства с неспециализированным корпусом / А.Ф. Гельбух, Г.О. Сидоров, Э. Лавин-Вийа, Л. Чанона-Эрнандес // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16) — Москва: Изд-во РГГУ, 2010
- С. 82-89
46. Герд, A.C. Предмет и основные направления прикладной лингвистики / A.C. Герд // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 514
47. Гладкий, A.B. Синтаксические структуры естественного языка в автоматизированных системах общения / A.B. Гладкий — Москва: Наука, 1985 — 144 с.
48.Головин,Б.Н. Язык и статистика / Б.Н.Головин — М.: Просвещение, 1971 - 190 с.
49. Горовая, Д.О. Проектирование онтологий для систем менеджмента знаний / Д.О. Горовая // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 — 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004 - С. 172 — 174
50. Грайс, Г.П. Логика и речевое общение / Г.П. Грайс // Новое в зарубежной лингвистике. Вып. 16. Лингвистическая прагматика. Под ред. Е.В. Падучевой — Москва: Прогресс, 1985 — С. 217-238
51. Гринбаум, О.Н. Компьютерные аспекты стилеметрии / О.Н. Гринбаум // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 451-465
52. Добров, A.B. Технологии интеллектуального поиска и способы оценки их эффективности / A.B. Добров // Структурная и прикладная лингвистика — СПб.: Издательство СПбГУ, 2010 - С. 219-232
53. Добров, A.B. К вопросу об универсальном представлении концептуальных структур в системах индексирования и автоматической рубрикации текстов / A.B. Добров // Материалы XLI международной филологической конференции— секция прикладной и математической лингвистики 26—31 марта 2012 г — СПб.: Филологический факультет, 2012 — С. 219-232
54. Добров, Б.В. Построение и использование тематического представления содержания документов / Б.В. Добров, Н.В. Лукашевич // V национальная конференция с международным участием «Искусственный интеллект-96». Т. 1 — Казань, 1996 - С. 130-134
55. Добров, Б.В. Онтологии для автоматической обработки текстов: описание понятий и лексических значений / Б.В. Добров, Н.В. Лукашевич // Компьютер-
ная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая— 4 июня 2006 г.) / Под ред. Н.И. Лау-фер, А. С. Нариньяни, В. П. Селегея — Москва: Изд-во РГГУ, 2006 — С. 138-142
56. Добросклонская,Т.Г. Вопросы изучения медиатекстов (опыт исследования современной английской медиаречи). Изд. 2-е, стереотипное / Т.Г. Добро-склонская — Москва: Едиториал УРСС, 2005 — 288 с.
57. Добросклонская, Т.Г. Медиалингвистика: системный подход к изучению языка СМИ: современная английская медиаречь: учеб. пособие / Т.Г. Добросклонская — Москва: Флинта -, 2008 — 264 с.
58. Долинина,И.Б. Системный анализ предложения (на материале английского языка). Учеб. Пособие / И.Б. Долинина — М.: Высш. школа, 1977 — 176 с.
59. Евдокимова, И.С. Естественно-языковые системы / И.С. Евдокимова — Улан-Удэ: Изд-во ВСГТУ, 2006 - 92 с.
60. Ейгер, Г.В. К построению типологии текстов// Лингвистика текста: Материалы научной конференции при МГПИИЯ им. М.Тореза. Ч. I / Г.В. Ейгер, В.Л. Юхт - Москва, 1974 - С. 10-16
61. Ермаков, А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста / А.Е. Ермаков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4—8 июня 2008 г.). Вып. 7 (14) — Москва: РГГУ, 2008 — С. 154-159
62. Загорулько, Ю.А. Подход к построению предметной онтологии для портала знаний по компьютерной лингвистике / Ю.А. Загорулько, О.И. Боровикова, И.С. Кононенко, Е.А. Сидорова // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая — 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея — Москва: Изд-во РГГУ, 2006 — С. 148-151
63. Загорулько, Ю.А. Семантический подход к анализу документов на основе онтологии предметной области / Ю.А. Загорулько, И.С. Кононенко, Е.А. Сидорова // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая— 4 июня
2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея — Москва: Изд-во РГГУ, 2006 - С. 468-483
64. Захаров, В.П. Информационно-поисковые системы: Учебно-методическое пособие / В.П. Захаров — СПб., 2005 — 48 с.
65. Захарова, И.В. Об одном подходе к реализации семантического поиска документов в электронных библиотеках / И.В.Захарова // Вестник Уфимского государственного авиационного технического университета. Т. 12, №1, — Уфа: ГОУ ВПО "Уфимский государственный авиационный технический университет", 2009- С. 133-138
66. Информационный поиск [Электронный ресурс] // Википедия. [2006 — 2013]. Дата обновления: 14.10.2013. URL: http://ru.wikipedia.org/7oldicb58897689 (дата обращения: 7.9.2009)
67. Иорданская,Л.Н. О некоторых свойствах правильной синтаксической структуры / Л.Н. Иорданская // Вопросы языкознания. № 4, — Москва, 1963— С. 102-104
68. Иорданская, Л.Н. Свойства правильной синтаксической структуры и алгоритм ее обнаружения / Л.Н. Иорданская // Проблемы кибернетики. Вып. 11 — Москва, 1964- С. 215-245
69. Касевич, В.Б. Семантика. Синтаксис. Морфология / В.Б.Касевич — Москва: Наука, 1988 - 311 с.
70. Катенина, Т.Е. Лингвистическое знание в Древней Индии / Т.Е. Катенина,
B.И. Рудой // История лингвистических учений: Древний мир — Л., 1980— С. 6792
71. Катц, Дж. Семантическая теория / Дж. Катц // Новое в зарубежной лингвистике. Вып. X: Лингвистическая семантика — Москва, 1981— С. 33-49
72. Кибрик, А.Е. Моделирование язьжовой деятельности в интеллектуальных системах / А.Е. Кибрик, A.C. Нариньяни — Москва: Наука, 1987 — 279 с.
73. Коваль, С.А. Лингвистические проблемы компьютерной морфологии /
C.А. Коваль — Санкт-Петербург: изд-во СПбГУ, 2005 — 152 с.
74. Костомаров, В.Г. Языковой вкус эпохи. Из наблюдений над языковой практикой масс-медиа / В.Г.Костомаров — Москва: Педагогика-Пресс, 1994 — 248 с.
75. Крылов, С.А. Актуальные проблемы автоматического анализа и синтеза текста в интегрированной информационной среде STARLING / С.А. Крылов, С.А. Старостин // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2003» — Москва: Наука, 2003— С. 350-364
76. Кубрякова,Е.С. Краткий словарь когнитивных терминов / Е.С. Кубря-кова, В.З. Демьянков, Ю.Г.Панкрац, Л.Г.Лузина — Москва: изд-во Филол. Ф-та МГУ, 1997 - 245 с.
77. Кузнецов, И.П. Особенности лексико-морфологического анализа при извлечении информационных объектов и связей из текстов естественного языка / И.П. Кузнецов, Н.В. Сомин // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16) — Москва: Изд-во РГГУ, 2010— С. 254265
78. Кураленок, И.Е. Автоматическая классификация документов на основе латентно-семантического анализа / И.Е. Кураленок, И.С. Некрестьянов // Труды первой всероссийской научно-методической конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" — СПб., 1999 - С. 89-96
79. Курилович, Е. Основные структуры языка: словосочетание и предложение / Е. Курилович // Курилович Е. Очерки по стилистике — Москва: Изд-во иностранной литературы, 1962— С. 16-27
80. Лакофф, Дж. О порождающей семантике / Дж. Лакофф // Новое в зарубежной лингвистике. Вып. X: Лингвистическая семантика — Москва, 1981— С. 350-368
81. Ландэ, Д.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д.В. Ландэ, A.A. Снарский, И.В. Безсуднов — М.: Либроком (Editorial URSS), 2009 - 264 с.
82. Лаптева, O.A. Живая телевизионная речь / O.A. Лаптева — Москва, 1998
83.Лапшин,В.А. Система Сус и ее библиотека онтологий / В.А.Лапшин // Искусственный интеллект и принятие решений. Вып. 3 — Москва: Ленанд, 2010 — С. 40-51
84. Левич, А.П. Информация как структура систем / А.П. Левич // Семиотика и информатика. Вып. 10 — М — ВИНИТИ, 1978— С. 116-131
85. Леонтьева,H.H. Автоматическое понимание текстов. Системы, модели, ресурсы / H.H. Леонтьева — Москва: Academia, 2006 — 303 с.
86.Лесерф,И. Применение программы и модели конкретной ситуации к автоматическому синтаксическому анализу / И. Лесерф // НТИ. № 11 — Москва: ВИНИТИ, 1963- С. 42-50
87. Лопатин, В.В. Грамматическая категория / В.В. Лопатин // Лингвистический энциклопедический словарь — Москва: Советская энциклопедия, 1990 — С. 115-116
88. Лукашевич, Н.В. Автоматическое аннотирование новостных кластеров на основе тематического представления / Н.В. Лукашевич, Б.В. Добров // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15) - Москва: РГГУ, 2009 - С. 299-305
89. Ляшевская, О.Н. Оценка методов автоматического анализа текста: морфологические парсеры русского языка / О.Н. Ляшевская, И. Астафьева, А. Бон-ч-Осмоловская, А. Гарейшина, Ю.Гришина, В. Дьячков, М. Ионов, А.Королева, М. Кудринский, А. Литягина, Е. Лучина, Е. Сидорова, С. Толдова, С. Савчук, С. Коваль // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26—30 мая 2010 г.). Вып. 9 (16) - Москва: Изд-во РГГУ, 2010 - С. 318-326
90. Макколи, Дж. О месте семантики в грамматике язьжа / Дж. Макколи // Новое в зарубежной лингвистике. Вып. X: Лингвистическая семантика — Москва, 1981 - С. 235-301
91. Мартыненко, Г .Я. Методы статистического моделирования в языкознании / Г.Я. Мартыненко // Прикладное языкознание — Санкт-Петербург, 1996 — С. 201-224
92. Мартыненко, Г.Я. Сложность синтаксических структур и стилистическая диагностика /Г.Я. Мартыненко // Прикладное языкознание — Санкт-Петербург, 1996 - С. 435-451
93. Марусенко, М.А. Атрибуция анонимных и псевдонимных текстов методами прикладной лингвистики / М.А. Марусенко // Прикладное языкознание — Санкт-Петербург, 1996 — С. 466-480
94. Матезиус, В. О так называемом актуальном членении предложения / В.Матезиус // Пражский лингвистический кружок: Сборник статей — Москва: Прогресс, 1967- С. 239-245
95. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл <-> Текст». М / И.А. Мельчук — Наука, 1974 — 314 с.
96. Минский, М. Фреймы для представления знаний: Пер. с англ / М. Минский — Москва: Энергия, 1979 — 152 с.
97. Митренина, О.В. Проблемы неоднозначности синтаксического анализа: дис. ... канд. филол. наук: 10.02.21 / О.В. Митренина — Санкт-Петербург, 2005 — 133 с.
98. Митрофанова, O.A. Автоматическая классификация лексики в русскоязычных текстах на основе латентного семантического анализа /O.A. Митрофанова, А.С.Мухин, П.В.Паничева // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бека-сово, 30 мая - 3 июня 2007 г.) / Под ред. JI.J1. Иомдина, Н.И. Лауфер, A.C. Нари-ньяни, В.П. Селегея — Москва: Изд-во РГГУ, 2007— С. 413-421
99. Окатьев, В.В. Отчет о выполнении НИОКР по теме: «разработка пилотной версии системы синтаксического анализа русского язьжа» (инвентарный номер ВНТИЦ 02200803750) / В.В. Окатьев, В.П.Гергель, В.Е.Алексеев, В.А.Таланов, К. А. Баркалов, Д.С. Скатов, Т.Н. Ерехинская, А.Е. Котов, A.C. Титова - Москва: ВНТИЦ, 2008 - 104 с.
100. Откупщикова, М.И. Моделирование языка / М.И. Откупщикова // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 100-113
101. Падучева,Е.В. О семантике синтаксиса / Е.В.Падучева — М, 1974 —
292 с.
102. Падучева, Е.В. Высказывание и его соотнесенность с действительностью (референциальные аспекты семантики местоимений) / Отв. ред. д. ф.м.н. В.А. Успенский / Е.В. Падучева — Москва: Наука, 1985 — 272 с.
103. Падучева, Е.В. Анафорическое отношение. Лингвистический энциклопедический словарь / Е.В. Падучева — Москва: Сов.энциклопедия, 1990 — 32 с.
104. Падучева, Е.В. Семантический класс глаголов полного охвата: толкование и лексико-синтаксические свойства / Е.В.Падучева, Р.И. Розина // Вопросы языкознания. 1993. № 6 — Москва: Наука, 1993 — С. 5-16
105. Панков, И.П. Искусственный интеллект / И.П. Панков // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 91-100
106. Панков, И.П. Информационно-поисковые системы / И.П. Панков, В.П. Захаров // Прикладное языкознание: Учебник — Санкт-Петербург, 1996 — С. 334-360
107. Панфилов, А.К. Лекции по стилистике русского языка / А.К. Панфилов - Москва, 1972 - С. 82-104
108. Пешковский, A.M. Русский синтаксис в научном освещении. 7-е изд / A.M. Пешковский — М, 1956— 511 с.
109. Пивоварова, Л.М. Онтологии верхнего уровня (обзор) / Л.М. Пивова-рова // Интернет и современное общество: Труды XIII Всероссийской объединенной конференции. Санкт-Петербург, 19— 22 октября 2010 г — СПб., 2010 — С. 51-61
110. Поддубный, В.В. Сравнение качества подходов к кластеризации текстов на основе гипергеометрического критерия / В.В.Поддубный, О.Г.Шевелев, Д.А. Бормашов // Вестник Томского государственного университета. N 293 — Томск, 2006 - С. 120-125
111. Попов, Э.В. Общение с ЭВМ на естественном языке / Э.В.Попов — Москва: Наука, 1982 — 360 с.
112. Поспелов, Д.А. Мышление и автоматы / Д.А. Поспелов, В.Н. Пушкин — Москва: Советское Радио, 1972— 224 с.
113. Поспелов, Д.А. Из истории искусственного интеллекта: история искусственного интеллекта до середины 80-х годов / Д.А. Поспелов // Новости искусственного интеллекта. 1994. №4 — Москва: Российская Ассоциация Искусственного Интеллекта, 1994 — С. 70-90
114. Потебня, A.A. Из записок по русской грамматике: в 2 т. / A.A. Потебня
— Москва: Учпедгиз, 1968 — 2 т.
115. Рождественский,Ю.В. Теория риторики / Ю.В.Рождественский — М.: Добросвет, 1997— 597 с.
116. Розенталь, Д.Э. Справочник по правописанию и литературной правке: Для работников печати. — 5-е изд., испр / Д.Э. Розенталь — Москва: Книга, 1989
- 320 с.
117. Рубашкин, В.Ш. Информационный анализ делового текста. Стратегии анализа и компоненты анализатора [Электронный ресурс] / В.Ш. Рубашкин // Электронные библиотеки. [2010 — 2010]. Дата обновления: 8.4.2011. URL: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2010/partl/R (дата обращения: 15.12.2012) - ISSN: 1562-5419
118. Рубашкин,В.Ш. Онторедактор как комплексный инструмент онтологической инженерии / В.Ш. Рубашкин, JI.M. Пивоварова // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4—8 июня 2008 г.). Вып. 7 (14) — Москва: РГГУ, 2008 - С. 453-459
119. Рубашкин, В.Ш. Онтологии — проблемы и решения. Точка зрения разработчика / В.Ш. Рубашкин // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог 2007" — М.: Издательский центр РГГУ, 2007 - С. 481-486
120. Русская грамматика. Т. 1. Фонетика. Фонология. Ударение. Интонация. Словообразование. Морфология — Москва: Наука, 1980— 783 с.
121. Севбо, И.П. Структура связного текста и автоматизация реферирования / И.П. Севбо — Москва, 1969 — 135 с.
122. Семенов, Ю.А. 4.5.14 Современные поисковые системы [Электронный ресурс] / Ю.А. Семенов. [2008 — 2008]. Дата обновления: 20.08.2009. URL: http://book.itep,ru/4/45/retr4514.htm (дата обращения: 10.10.2009)
123. Сметанина, С.И. Медиатекст в системе культуры / С.И. Сметанина — Санкт-Петербург, 2002— 383 с.
124. Сокирко, A.B. Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ. Дисс. ... канд. техн. наук / A.B. Сокирко
- Москва: МГУ, 2001
125. Сокирко, A.B. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) /A.B. Сокирко, С.Ю. Тол-дова // Интернет-математика 2005. Автоматическая обработка веб-данных — Москва: изд-во Яндекс, 2005
126. Солганик, Г.Я. Лексика газеты: функциональный аспект / Г.Я. Солганик
— М.: Высшая школа, 1981— 112 с.
127. Соловьев, В.Д. Онтологии и тезаурусы. Учебное пособие.— Казань / В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич — Москва, 2006— 157 с.
128. Сорокин, Ю.А. Креолизованные тексты и их коммуникативная функция / Ю.А. Сорокин, Е.Ф. Тарасов // Оптимизация речевого воздействия — Москва, 1990 - С. 180-186
129. Су сов, И.П. Семантическая структура предложения (На материале современного немецкого языка): Автореф. дисс. ... доктора филол. наук / И.П. Сусов - Л., 1973 - 142 с.
130. Сусов, И.П. История языкознания / Учебное пособие для студентов старших курсов и аспирантов /И.П. Сусов — Тверь, 1999 — 295 с.
131. Сэлтон,Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон — Москва, 1973 — 560 с.
132. Сэпир,Э. Избр. Труды по языкознанию и культурологии. Переводы с англ / Э. Сэпир — Москва, 1993 — 656 с.
133. Теньер,JI. Основы структурного синтаксиса: Пер. с франц. Редкол.: Г.В. Степанов (пред.) и др.; Вступ. ст. и общ. ред. В.Г. Гака / JI. Теньер — Москва: Прогресс, 1988 — 656 с.
134. Тестелец, Я.Г. Введение в общий синтаксис / Я.Г. Тестелец — Москва: Изд-во РГГУ, 2001 - 798 с.
135. Тузов, В.А. Компьютерная грамматика русского языка / В.А. Тузов // Вестник СПбГУ, Серия «Прикладная математика, информатика, процессы управления». Вып 1-2 2004 — Санкт-Петербург, 2004 — С. 94-100
136. Тузовский, А.Ф. Построение модели знаний организации с использованием системы онтологий / А.Ф. Тузовский, C.B. Козлов // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая — 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нари-ньяни, В. П. Селегея — Москва: Изд-во РГГУ, 2006 — С. 508-512
137. Удилова, Д.А. Функции вынесения ремы в начальную позицию высказывания в современном шведском язьже / Д.А. Удилова // Скандинавская филология. Вып. 10 — Санкт-Петербург: Издательство СПбГУ, 2009 — С. 210-217
138. Филиппов, К.А. Лингвистика текста / Курс лекций / К.А. Филиппов — Санкт-Петербург: Изд-во СПбГУ, 2003 — 336 с.
139. Филлмор, Ч. Дело о падеже открывается вновь / Ч. Филлмор // Новое в зарубежной лингвистике. Вып. X: Лингвистическая семантика — Москва, 1981 — С. 496-530
140. Филлмор, Ч. Дело о падеже / Ч. Филлмор // Новое в зарубежной лингвистике. Вып. X: Лингвистическая семантика — Москва, 1981 — С. 369-495
141. Фортунатов, Ф.Ф. Избранные труды. Т. 2 / Ф.Ф. Фортунатов — Москва, 1957 - 472 с.
142. Хант, Э. Искусственный интеллект / Э. Хант — Москва: Исздательство «Мир, 1978 - 558 с.
143. Хомский, Н. Аспекты теории синтаксиса / Н. Хомский — Москва: Изд-во МГУ, 1972 - 259 с.
144. Хорошевский, В.Ф. Обработка естественно-языковых текстов: от моделей понимания к технологиям извлечения знаний / В.Ф.Хорошевский // Новости искусственного интеллекта. 2002. №6 — Москва: Российская Ассоциация Искусственного Интеллекта, 2002 — С. 19-26
145.Чейф,У. Значение и структура языка / У. Чейф — Москва: Прогресс, 1975- 432 с.
146. Шаляпина, З.М. К проблеме построения формальной модели процесса перевода /З.М. Шаляпина // Теория перевода и научные основы подготовки переводчиков. Материалы всесоюзной научной конференции. Часть II — Москва: МГПИИЯ им. М.Тореза, 1975 - С. 165-172
147. Шенк, Р. Обработка концептуальной информации. Пер. с англ / Р. Шенк — Москва: Энергия, 1980— 360 с.
148. Шмелев, Д.Н. Русский язык в его функциональных разновидностях / Д.Н. Шмелев — Москва, 1977 — 166 с.
149. Штерн, A.C. Перцептивный аспект речевой деятельности: (Экспериментальное исследование) / A.C. Штерн — Санкт-Петербург, 1992 — 236 с.
150. Ягунова,Е.В. Тема и рема, данное и новое при восприятии текста / Е.В.Ягунова // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. JI.JI. Иомдина, Н.И. Лауфер, A.C. Нариньяни, В.П. Селегея — Москва: Изд-во РГГУ, 2007 - С. 610-617
151. Якобсон, P.O. Шифтеры, глагольные категории и русский глагол / P.O. Якобсон // Принципы типологического анализа язьжов различного строя — Москва, 1972 — С. 95—113
152. Barsalou, L.W. Frames, Concepts, and Conceptual Fields / L.W. Barsalou // Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization — Hove, London: Lawrence Erlbaum Associates, Publishers, 1992 — C. 21-74
153. Bateman, J. Upper modeling: Organizing knowledge for natural language processing / J. Bateman // Proc. of Fifth International Workshop on Natural Language Generation, Pittsburgh, PA — Pittsburgh: Association for Computational Liguistics, 1990 - C. 54-61
154. Bell, A. The Language of News Media / A. Bell — Oxford, 1991 — 277 c.
155. Bush, V. As We May Think / V. Bush // The Atlantic Monthly Vol. 176. Iss. 07 — Boston: Atlantic Monthly Press, 1945 — C. 101-108
156. Butler, F. Machine versus human: Will Google Translate Replace Professional Translators? George Mason University [Электронный ресурс] / F. Butler. [2011 - 2011]. Дата обновления: 20.02.2011. URL: http ://mason .gmu ,edu/~fbutler2/IT%20103-005%20Research%20Paper%20B utler.pdf (дата обращения: 16.08.2012)
157.Benel,A. Where do 'ontologies' come from? Seeking for the missing link [Электронный ресурс] /А. Benel //Texto! Vol. 17. Iss. 3. [2012 — 2012]. Дата обновления: 7.8.2012. URL: http://www.revue-texto.net/index.php?id=3062 (дата обращения: 15.10.2012) - ISSN: 1773-0120
158. Calero,C. Ontologies for Software Engineering and Software Technology / C. Calero, F. Ruiz, M. Piattini — Ciudad Real, Spain: Springer, 2006 — 119 c.
159. Chomsky,N. Syntactic Structures / N.Chomsky — Berlin, New York: Mouton de Gruyter, 2002 — 117 c.
160. Chomsky,N. Remarks on nominalization / N.Chomsky // Readings in English Transformational Grammar. Eds.: R. Jacobs and P. Rosenbaum — Waltham, Mass.: Ginn, 1970 - C. 184-221
161. Chomsky, N. A minimalist program for linguistic theory / N. Chomsky // MIT occasional papers in linguistics no. 1 — Cambridge, Mass: MIT Working Papers in Linguistics, 1992 — 71 c.
162. Cook, W.A. Case Grammar: Development of the Matrix Model / W.A. Cook — Washington, DC: Georgetown University Press, 1979 — 223 c.
163. Danes, F. Functional sentence perspective and the organization of the text / F. Danes // Papers on functional sentence perspective — Prague, 1974 — C. 106-128
164. Doyle, L. Information Retrieval and Processing / L. Doyle, J. Becker — Melville, 1975 - 410 c.
165. Emonds, J. A transformational approach to English syntax / J. Emonds — San Diego: Academic Press, 1976 — 266 c.
166. Fairclough, N. Media Discourse / N. Fairclough — London, 1995 — 224 c.
167. Fellbaum, Ch. WordNet: An Electronic Lexical Database / Ch. Fellbaum — Cambridge, Mass: MIT Press, 1998 — 423 c.
168. Fodor, J.A. Concepts: Where Cognitive Science Went Wrong / J.A. Fodor — Oxford, New York: Oxford University Press, 1998 — 174 c.
169. Freeman, W.J. Metastability, instability, and state transition in neocortex / WJ.Freeman, M.D.Holmes // Neural Networks, Vol. 18, Nr. 5-6 — Amsterdam, : Elsevier, 2005 - C. 497-504
170. Garfield, E. A Tribute To Calvin N. Mooers, A Pioneer Of Information Retrieval / E. Garfield // The Scientist, Vol 11, Issue 6 — New York: LabX Media Group, 1997 - C. 9-9
171. Genesereth, M.R. Knowledge Interchange Format / M.R. Genesereth // Principles of Knowledge Representation and Reasoning: Proceedings of the Second International Conference. Ed.: Morgan Kaufmann — Cambridge, Mass, 1991 — C. 238-249
172. Gruber, T.R. A Translation Approach to Portable Ontology Specifications // Knowledge Acquisition, Vol. 5 / T.R. Gruber — Stanford, California: Academic Press, 1993 - C. 199-220
173. Gruber,T.R. Ontology / T.R. Gruber // Encyclopedia of database systems. Eds.: Liu, Ling; Özsu, M. Tamer — Springer-Verlag, 2009
174. Hajic, J. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging // Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001) / J. Hajic, P. Krbec, P. Kveton, K.Oliva, V. Petkevic — Stroudsburg, PA: Association for Computational Linguistics, 2001 — C. 268-275
175. Hockett, Ch. Sound change / Ch. Hockett // Language. Vol. 41, No. 2 (Apr. — Jun., 1965) — Washington, D.C.: Linguistic Society of America, 1965 — C. 185-204
176. Hudson, R. Word grammar / R. Hudson — Oxford: Blackwell, 1984 — 267
c.
177. Jackendoff, R. What is a Concept? / R. Jackendoff // Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization — Hove, London: Lawrence Erlbaum Associates, Publishers, 1992 — C. 191-208
178. Jackendoff, R. X-bar-Syntax: A Study of Phrase Structure. Linguistic Inquiry Monograph 2 / R. Jackendoff — Cambridge, Mass: MIT Press, 1977
179. Johannessen, J.B. Coordination / J.B. Johannessen — Oxford, New York: Oxford University Press, 1998 — 292 c.
180. Kayne, R.S. The antisymmetry of syntax / R.S. Kayne — Cambridge, Mass: The MIT Press, 1994 - 195 с.
181. Kent, A. Textbook on Mechanized Information Retrieval. — Interscience / A. Kent — New York, 1962 - 268 с.
182. Kent, A. Machine literature searching VIII. Operational criteria for designing information retrieval systems / A. Kent, M.M. Berry, F.U. Luehrs, J.W Perry // American Documentation, Vol. 6, Issue 2 — Hoboken: Wiley-Blackwell, 1955 - C. 93-101
183. Knight, K. Building a large ontology for machine translation / K. Knight // HLT '93 Proceedings of the workshop on Human Language Technology — Stroudsburg: Association for Computational Linguistics, 1993 — C. 185-190 — ISBN: 1-55860-3247
184. Kobele, G.M. Eliding the Derivation: A Minimalist Formalization of Ellipsis [Электронный ресурс] / G.M. Kobele. [2012 — 2012]. Дата обновления: 19.07.2012. URL: http://linguistics.cnu.ac.kr/hpsg/skin_board/www/abstracts/hpsg2012-D2-ellipsis-p2-kobele.pdf (дата обращения: 27.09.2012)
185.Larson,R. On the double object construction / R.Larson // Linguistic Inquiry. Vol. 19 — Cambridge, Mass: MIT Press, 1988 - C. 335-391
186. Lewis, D. Reuters-21578 text categorization test collection. Distribution 1.0 [Электронный ресурс] / D.Lewis. [2004 — 2004]. Дата обновления: 14.05.2004. URL: http://www.daviddlewis.com/resources/testcollections/reuters21578/readme.txt (дата обращения: 12.05.2009)
187. Lakoff, G. Women, Fire, and Dangerous Things. / G. Lakoff — London, Chicago: The University of Chicago Press, 1987 — 614 c.
188. McCarthy, J. Circumscription — A Form of Non-Monotonic Reasoning / J. McCarthy // Artificial Intelligence, Vol. 5, Iss. 13 — Menlo Park, CA: AAAI Press, 1980 - C. 27-39
189. Miller, G.A. WordNet: A Lexical Database for English / G.A. Miller // Communications of the ACM Vol. 38, No. 11 - New York: ACM, 1995 - C. 39-41
190. Montgomery, M. An Introduction to Language and Society / M. Montgomery — Oxford, 1992 — 358 c.
191. Montgomery, M. The Media / M. Montgomery — London: British Council, 1996 - 155 c.
192. Mooers, C.N. Zatocoding applied to mechanical organization of knowledge / C.N. Mooers // American Documentation, Vol. 2, Issue 1 — Hoboken: Wiley-Blackwell, 1951 - C. 20-32
193. Mooers, C.N. Mooers' Law; or why some retrieval systems are used and others are not /C.N. Mooers // Zator Technical Bulletin, 136 — Boston, Mass: Zator Company, 1959 — 4 c.
194. Neches,R. Enabling technology for knowledge sharing / R.Neches, R.E. Fikes, T. Finin, T.R. Gruber, R. Patil, T. Senator, W.R. Swartout // AI Magazine. Vol. 12, №3 - Menlo Park, CA: AAAI Press, 1991 - C. 16-36
195. Niles, I Linking Lexicons and Ontologies: Mapping WordNet to the SUMO ontology / I Niles, A. Pease // Proceedings of the IEEE International Knowledge Engineering conference — Las Vegas, NV, USA, 2003 — C. 23-26
196. Nirenburg, S. Ontological Semantics / S.Nirenburg, V.Raskin — Cambridge, Mass: MIT Press, 2004 — 56 c.
197. Precision and recall [Электронный ресурс] // Wikipedia. [2013 — 2013]. Дата обновления: 5.10.2013. URL: http://en.wikipedia.Org/w/index.php? title=Precision_and_recall&oldid=575817564 (дата обращения: 7.9.2009)
198. Riemsdijk, H. van. Introduction to the theory of grammar / H. van Riemsdijk, E. Williams — Cambridge, Mass: The MIT Press, 1986 — 366 c.
199. Ruppenhofer, J. FrameNet II: Extended Theory and Practice, ICSI Technical Report / J. Ruppenhofer, M. Ellsworth, M. R. L. Petruck, C.R. Johnson, J. Sheffczyk — Berkeley, CA, 2010
200. Salton, G. A Theory of Indexing / G. Salton — Philadelphia: Society for Industrial Mathematics, 1975 — 56 c.
201. Scheffczyk, J. Linking FrameNet to the Suggested Upper Merged Ontology. Proceedings of the International Conference on Formal Ontology in Information Systems (FOIS 2006), / J. Scheffczyk, A. Pease, M. Ellsworth — Baltimore, Maryland, 2006 - C. 289-300
202. Segalovich, I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine / I. Segalovich // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA 03, June 23 - 26, 2003 / Ed.: H.R. Arabnia, E.B. Kozerenko — Las Vegas, Nevada: CSREA Press, 2003 - C. 273-280
203. Smith, B. Ontology: Towards a new synthesis / B.Smith, Ch. Welty // Proceedings of the International Conference on Formal Ontology in Information Systems — Amsterdam: IOS Press, 2001 — C. 3-9
204. Snasel, V. WordNet Ontology Based Model for Web Retrieval / V. Snasel, P. Moravec, J. Pokorny // WIRT — New York: IEEE Computer Society, 2005 — C. 220-225
205. Sowa, J.F. Conceptual Graphs: Draft Proposed American National Standard / J.F. Sowa // International Conference on Conceptual Structures ICCS-99, Lecture Notes in Artificial Intelligence 1640 — Berlin, New York: Springer Verlag, 1999 — C. 1-65
206. Sowa, J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations / J.F. Sowa — Pacific Grove, CA: Brooks Cole Publishing Co., 2000 - 594 c.
207. Thede, S.M. A Second-Order Hidden Markov Model for Part-of-Speech Tagging / S.M. Thede, M.P. Harper // Proceedings of the 37th Annual Meeting of the ACL - Maryland, 1999 - C. 175-182
208. Turing, A.M. Computing machinery and intelligence / A.M. Turing // Mind, Vol. 59, Issue 236 - Oxford: Oxford University Press, 1950 — C. 433-460
209. Wall, A. History of Search Engines: From 1945 to Google 2007 [Электронный ресурс] / A. Wall. [2006 — 2009]. Дата обновления: 12.8.2009. URL: http://www.searchenginehistory.com (дата обращения: 9.9.2009)
210.Zouaq,A. A SUMO-based Semantic Analysis for Knowledge Extraction [Электронный ресурс] / A.Zouaq, M. Gagnon, B.Ozell // Proceedings of the 4th Language & Technology Conference [2009-2009] — Дата обновления: 12.10.2009 URL: http://azouaq.athabascau.ca/publications/ltc-75-Zouaq.pdf (дата обращения: 17.11.2012)
СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА
Перечень рисунков
Рисунок 1 ГСС и ПСС...................................................................................................81
Рисунок 2: Гипотеза связывания префикса "раз-" и корня "-смотр-".....................153
Рисунок 3: Гипотеза связывания префикса "с-" и корня "-мот-".............................153
Рисунок 4: Гипотеза связывания основы "раз- + -смотр-" с суффиксом "-ива-". ..154 Рисунок 5: Гипотеза связывания основы "раз- + -смотр- + -ива-" с суффиксом "-
вш-"...............................................................................................................................154
Рисунок 6: Гипотеза связывания основы "раз- + -смотр- + -ива- + -вш-" с флексией
"-их"...............................................................................................................................155
Рисунок 7: Гипотеза связывания формы "раз- + -смотр- + -ива- + -вш- + -их" с
постфиксом "-ся".........................................................................................................156
Рисунок 8: Гипотеза связывания словоформ "министр" и "выразил".....................158
Рисунок 9: Гипотеза связывания словоформ "выразил" и "недоумение"...............159
Рисунок 10: Гипотеза связывания словоформы «Министр» с транзитивной группой
финитной формы глагола мужского рода «выразил недоумение»..........................159
Рисунок 11: Структура составляющих и соответствующие ей концепты..............169
Перечень таблиц
Таблица 1: Лексические функции в модели «Смысл Текст»..................................80
Таблица 2: Таблица вычисления Р-меры....................................................................376
ПРИЛОЖЕНИЕ А. ИСХОДНЫЕ КОДЫ СИСТЕМЫ АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ НОВОСТНЫХ
СООБЩЕНИЙ
В этом приложении приведены исходные коды самой системы автоматической рубрикации, модуля системы базовых грамматических категорий, синтаксического модуля и модуля синтаксической семантики. Исходные коды лингвистического процессора, опубликованные и доступные для загрузки в сети Интернет по адресу https.V/svn.aiire.org/repos/t, занимают более пятисот страниц, поэтому их включение в данное приложение видится нецелесообразным.
classifier/classifier.h — заголовочный файл с описанием API рубрикации
#ifndef CLASSIFIER_H #define CLASSIFIER_H
typedef struct „classifier classifier; typedef struct _classif_iter classifjter;
/* Значения по путей по умолчанию */ extern char
*defauJt_grammar_path, /**< Путь к файлу грамматики по умолчанию */
*defau!t_atoms_path,
*default_lemma_to_id_path,
*default_ontology_path,
*default_onto_cache_path;
/** Инициализация авторубрикатора */
int classifier_new(classifier **c); /**
* @defgroup path_settings Methods to set and get path variables */
void classifier_set_grammar_path(classifier *c, char *path); void classifier_set_atoms_path(classifier *c, char *path); void classifier_set_lemma_to_id_path(classifier *c, char *path); void classifier_set_ontology_path(classifier *c, char *path); void classifier_set_onto_cache_path(classifier *c, char *path); void classifier_set_routedb_path(classifier *c, char *path); void classifier_set_sigdb_path(classifier *c, char *path); void classifier_get_grammar_path(classifier *c, char **path); void classifier_get_atoms_path(classifier *c, char **path); void classifier_get_lemma_to_id_path(classifier *c, char **path); void classifier_get_ontology_path(classifier *c, char **path); void classifier_get_onto_cache_path(classifier *c, char **path); void classifier_get_routedb_path(classifier *c, char **path);
void classifier_get_sigdb_path(classifier *c, char **path); *@}
*/
int classifier_init(classifier *c); int classifier_classify(classifier *c, char *s); void classifier_normalize_ranks(classifier *c); classif_iter* classifier_get_iterator(classifier *c); void classifier_refresh(classifier *c); int classifier_free(classifier *c);
char* classif_iter_get_topic_name(classif_iter *ci); float classif_iter_get_topic_rank(classif_iter *ci); int classif_iter_next(classif_iter *ci);
#endif
classifier/classifier.c — основной модуль системы рубрикации
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <err.h>
#include <errno.h>
#include <wchar.h>
#include <wctype.h>
#include <locale.h>
#include <db.h>
#include <glib.h>
#include <libxml/tree.h>
#include "../concgraph/concgraph.h"
#include "../bdb/bdb.h"
#include "../ontology/ontology.h"
#include "../dfs/dfs.h"
#include "../concrouting/concrouting.h"
#include "../sigclass/sigclass.h"
#include "../signal/signal.h"
#include "../grammar/grammar.h"
#include "../agenda/signalsmem.h"
#include "../agenda/agenda.h"
#include "../agenda/cells.h"
#include "../cache/cache.h"
#include "../wcsplit/wcsplit.h"
#include ",./onto_cache/onto_cache.h"
#include "../digits/digits.h"
#include "../punctuation/punctuation.h"
#include "../tproc/t.h"
#include "classifier.h"
#ifndef LANGDIR #define LANGDIR "" #endif
char
*default_grammar_path=LANGDIR "signals.xml", *default_atoms_path=LANGDIR "atoms.db", *default_lemma_to_id_path=LANGDIR "lemma_to_id.db", *default_ontology_path=LANGDIR "ontology/ontology.db", *default_onto_cache_path=LANGDIR "ontology/onto_cache.db", *default_routedb_path=LANGDIR "ontology/routedb.db", *default_sigdb_path=LANGDIR "ontology/sigdb.db";
struct „classifier {
tproc tp; char
*grammar_path, *atoms_path, *lemma_toJd_path, *ontology_path, *onto_cache_path, *routedb_path, *sigdb_path; GHashTable *topics;
};
struct _classif_iter { classifier *c; concept **topics, **cur;
};
static
void _fake(void *x){};
int classifier_new(classifier **c)
{
classifier *_c;
if(!(_c=malloc(sizeof(classifier)))) return -1; *c=_c;
_c->grammar_path=default_grammar_path;
_c->atoms_path=default_atoms_path;
_c->lemma_to_id_path=default_lemma_to_id_path;
_c->ontology_path=defau!t_ontology_path;
_c->onto_cache_path=default_onto_cache_path;
_c->routedb_path=default_routedb_path;
_c->sigdb_path=default_sigdb_path;
_c->topics=g_hash_table_new_full(g_direct_hash,g_direct_equal,_fake,free); return 0;
void classifier_set_grammar_path(classifier *c, char *path) c->grammar_path=path;
void classifier_set_atoms_path(classifier *c, char *path) c->atoms_path=path;
void classifier_set_lemma_to_id_path(classifier *c, char *path) c->lemma_to_id_path=path;
void classifier_set_ontology_path(classifier *c, char *path) c->ontology_path=path;
void classifier_set_onto_cache_path(classifier *c, char *path)
c->onto_cache_path=path;
void classifier_set_routedb_path(classifier *c, char *path) c->routedb_path=path;
void classifier_set_sigdb_path(classifier *c, char *path) c->sigdb_path=path;
void classifier_get_grammar_path(classifier *c, char **path) *path=c->grammar_path;
void classifier_get_atoms_path(classifier *c, char **path) *path=c->atoms_path;
void classifier_get_lemma_to_id_path(classifier *c, char **path) *path=c->lemma_to_id_path;
void classifier_get_onto(ogy_path(classifier *c, char **path) *path=c->ontology_path;
void classifier_get_onto_cache_path(classifier *c, char **path) *path=c->onto_cache_path;
void classifier_get_routedb_path(classifier *c, char **path) *path=c->routedb_path;
void classifier_get_sigdb_path(classifier *c, char **path) *path=c->routedb_path;
int classifier_init(classifier *c) int e;
cg_init_mass_allocators(); i f(
(
e=tproc_init( &c->tp,
c->grammar_path, c->atoms_path,
c->lemma_to_id_path,
c->ontology_path,
c->onto_cache_path,
c->routedb_path,
c->sigdb_path,
128*1024*1024
)
)
) return e;
return 0;
}
static
void classifier_increase_topic(classifier *c, concept *t, float increment)
{
float *rate;
rate=g_hash_table_lookup(c->topics,t);
if ('rate) {
rate=malloc(sizeof(float)); *rate=0.0f;
g_hash_table_insert(c->topics,t,rate);
}
*rate+= increment;
void concept_iter_real(
concept *c, crgo_iter *crgoi
) {
GHashTable *visited,*parents /*, *objects*/; GList *order,*last,*cur,delations,*cur_r; concept *r,*o; crgo_iter o_crgoi;
order=NULL;
visited=g_hash_table_new(g_direct_hash,g_direct_equal); parents=g_hash_table_new(g_direct_hash,g_direct_equal);
order=g_list_append(order,c); last = order;
g_hash_table_insert(visited,c,c);
for(cur=order;cur;cur=cur->next){ c=cur->data;
if('(c->immediate_attrs_idx)) continue; relations=g_hash_table_get_keys(c->immediate_attrs_idx); for(cur_r=relations;cur_r;cur_r=cur_r->next){ r=cur_r->data;
if(g_hash_table_lookup(parents,c) && r '= &inheritance) continue; if(
'g_hash_table_lookup(parents,c) && "concept^nheritscc.&instance-conc) && 'concept_inherits(c,&class_conc) ) continue; for(
concept_rel_get_immed_objs(c,r,&o_crgoi); concept_rel_get_objs_next(&o_crgoi, &o);
){
if(o->is_onto) continue;
if(r==&inheritance) g_hash_tableJnsert(parents,o,o); if(g_hash_table_lookup(visited,o)) continue; if(concept_has_attr(r,&inverse_rel,&belongs_to_topic)) continue;
//printf("%S->%S(%S);\n",c->name,r->name,o->name);
last=g_list_append(last,o);
last=last->next;
g_hash_table_insert(visited,o,o);
}
}
g_list_free(relations);
}
g_hash_table_destroy(visited); g_hash_table_destroy(parents); crgoi->objects=order; crgoi->cur=crgoi->objects;
static
int tproc_pos_n_signals(tproc *tp, size_t pos) {
cells *c; dciter dci; void *dummy; int res;
c = tp->a.cells; res = 0;
for(dciter_init_by_pos(&dci,c,pos,&dummy);dummy;dciter_next(&dci,&dummy)) res ++;
return res;
}
int classifier_classify(classifier *c, char *s) {
int e;
signaLt *sig; GList *ce;
concept *conc,*topic; size_t concepts_amount; crgojter ci; GList *topics; GHashTable *pos_n_signa!s; int n_signals;
tproc_debug_processing=0; if((e=tproc_process(&c->tp,s))) return e;
pos_n_signals = g_hash_table_new(g_direct_hash,g_direct_equal); for(
sig=tproc_next_signal_full(&c->tp); sig;
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.