Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Степанова, Надежда Александровна

  • Степанова, Надежда Александровна
  • кандидат технических науккандидат технических наук
  • 2008, Великий Новгород
  • Специальность ВАК РФ05.13.18
  • Количество страниц 156
Степанова, Надежда Александровна. Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Великий Новгород. 2008. 156 с.

Оглавление диссертации кандидат технических наук Степанова, Надежда Александровна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

Глава 1 Модель автоматического извлечения знаний для вопросно-ответных компьютерных систем.

1.1 Общие положения.

1.2 Лексическое значение.

1.2.1 Компонентный анализ н постулаты значения.

1.2.2 Отношения синонимии, антонимии, гипонимии.

1.2.3 Полисемия.

1.2.4 Толкование лексического значения.

1.3 Анализ методов обработки корпуса текстов.

1.4 Метод формализация семантики генитивной конструкции.

1.4.1 Интенсиональная логика.

1.4.2 Теория сорта н сортовые сдвиги.

1.5 Теория решеток.

1.6 Анализ существующих методов классификации и разрешения многозначности.

1.7 Выводы по главе 1.

Глава 2 Модель концептно-ориентированного лексикона на основе генитивных конструкций.

2.1 Постановка задачи.

2.2 Формализация семантики генитивной конструкции.

2.3 Генитивная конструкция в решетке формальных понятий.

2.3.1 Анализ формальных понятий.

2.3.2 Формальная решетка генитивных конструкций.

2.4 Критерий полезности решетки.

2.5 Модель семантических отношений порядка в решетке.

2.6 Выводы по главе 2.

Глава 3 Метод разбиения решетки для извлечения сортов и снятия семантической многозначности.

3.1 Общие положения.

3.2 Семантическое расстояние.

3.2.1 Семантическая близость.

3.2.2 Семантическая схожесть и связность.

3.3 Мера схожести в решетке формальных понятий.

3.4 Алгоритм сегментации решетки.

3.5 Выводы по главе 3.

Глава 4 Методы поиска ответов в ВОС с помощью Концептно-ориентированного Лексикона (КОЛ).

4.1 Общие положения.

4.2 Архитектура типовой ВОС.

4.3 Классификация вопросов.

4.4 Исследование свойств концептно-ориентированного лексикона.

4.4.1 Собирательные и абстрактные существительные в решетке формальных понятий.

4.4.2 Снятие семантической многозначности в концептно-ориентнрованном лексиконе.

4.5 Методы использования концептно-ориентированного лексикона в ВОС

4.6 Выводы по главе 4.

Глава 5 Экспериментальная проверка модели приобретения знаний для вопросно-ответных систем.

5.1 Общие положения.

5.2 Описание используемого корпуса текстов и методов его обработки.

5.2.1 Оценка качества исходных данных.

5.2.2 Описание требований к корпусу текстов.

5.3 Описание программного комплекса.

5.3.1 Выбор алгоритма порождения формальных понятий.

5.3.2 Оценка сложности алгоритма сегментации решетки.

5.4 Испытания программного комплекса.

5.5 Выводы по главе 5.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах»

Вопросно-Ответная Система (ВОС) - это особый вид информационной системы, которая умеет обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ [29]. Вопросно-ответные системы являются пограничной областью знаний и имеют черты поисковых, справочных и интеллектуальных систем. Современные системы информационного поиска достигли высоких результатов в извлечении информации, соответствующей запросам пользователей. Получая запрос, они выдают набор релевантных документов, однако пользователи часто хотят получить короткий ответ вместо набора связанных с запросом текстов.

Для поиска ответа могут использоваться коллекции документов, например, из сети Интернет, или локальные хранилища информации. Узкоспециализированные ВОС работают в конкретных областях (медицина, юриспруденция и т.д.), а общие - по всем областям знаний. Построение общих ВОС является более сложной и менее проработанной задачей, хотя подобные системы имеют широкое применение и позволяют вести поиск в смежных областях знаний. Методы поиска ответа в ВОС могут использоваться в системах тестирования с открытым ответом, оценивая близость полученного и эталонного ответов. Вопросно-ответные системы в настоящее время встраиваются в состав комплексных информационных систем, например, в [122] описано взаимодействие вопросно-ответной системы NetWIQA и Rational Unified Process - методологии создания программного обеспечения, оформленной в виде размещаемой на Web базы знаний, которая снабжена поисковой системой.

Первые ВОС были разработаны в 1960-х годах и являлись естественноязыковыми оболочками для экспертных систем, ориентированных на конкретные области знаний. Современные разработки позволяют обрабатывать множество вариантов запросов: дихотомические вопросы, вопросы-факты, вопросы-списки, вопросы-определения, вопросы типа «Как», вопросы типа «Почему», гипотетические вопросы (что-если), межъязыковые вопросы, контекстные вопросы.

Последние исследования в области ВОС стимулируются специальными программами (AQUAINT1 ) и специализированными соревнованиями (TREC22, NTCIR33, CLEF44, РОМИР55). Необходимость работать с большими объемами текстовой информации заставляет крупные компании создавать собственные ВОС, например, исследовательские группы из Microsoft, IBM, NTT, Oracle [40], Sun ежегодно принимают участие в соревновании TREC. Сложность специализированных соревнований растет год от года. Так, в 1999 году на соревновании TRJEC системы участников в качестве ответа должны были выдать кусочки текста, содержащие ответ, вопросы составлялись участниками самостоятельно, а ответы гарантированно содержались в корпусе текстов. В 2004 году вопросы уже извлекались из журналов регистрации запросов к реальным поисковым системам, ответ не обязательно содержался в корпусе текстов и системы должны были выдать точный ответ на запросы фактов и списков.

Самый грубый метод поиска в документах предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто .» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ. Современные ВОС предназначаются для поиска ответов на вопросы с использованием технологий обработки естественных языков.

Типовая архитектура современных ВОС состоит из модулей (Рисунок 1). На самой ранней стадии работает модуль — анализатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа, а

1 www.ic-arda.org/InfoExploit/aquaint/index.html

2 trec.nist.gov

3 research.nii.ac.jp/ntcir/index-en.html

4 clef.iei.pi.cnr.it

5 romip.narod.ru/ также расширяет список ключевых слов вопроса за счет слов, связанных с ключевым словом. Например, вопрос «Какая страна является ведущим поставщиком газа?» должен быть классифицирован как МЕСТОПОЛОЖЕНИЕ, т.к. ожидаемый ответ связан с местоположением. При определении типа вопроса на практике система часто сталкивается с различного рода неопределенностями, вызванными помехами и дефектами процесса предикации, поэтому необходимо использовать специальную методику идентификации и кодирования вопросов [34].

Вопрос

Ответы

Рисунок 1. Типовая архитектура вопросно-ответной системы.

Выполнив анализ вопроса, система может выполнять поиск ответа по двум направлениям: локальное хранилище ответов и поиск ответа в корпусе текстов. Локальное хранилище ответов содержит ответы на наиболее вероятные вопросы, причем поиск ответов осуществляется на подготовительном этапе, еще до того, как фактические вопросы были заданы. Решение использовать корпус текстов основывается на типе вопроса и отсутствии необходимой информации в хранилище ответов. При работе с корпусом текстов используются стандартные механизмы информационного поиска, при котором ключевые слова вопроса сравниваются со словами, найденными в корпусе текстов. В ВОС возвращаются не целые документы, а отдельные параграфы, которые затем ранжируются с использованием механизмов Обработки Естественного Языка (ОЕЯ). Пример схемы поиска ответа приведен в работе [37]: вопросу сопоставляется синтаксический, а затем семантический граф, который далее сопоставляется с сетью, строится граф ответа, на основе которого строится синтаксическая структура предложения ответа. В итоге ответ извлекается из наиболее информативного параграфа.

Несмотря на многолетние исследования и значительные достижения в области ВОС, проблема построения полноценной системы в этой области, обеспечивающей высокую точность ответов и работающей с широким диапазоном вопросов, остается пока нерешенной. Большинство разработок в области ВОС ориентировано на английский язык, однако применение методов ОЕЯ требуется практически на каждом этапе работы системы, а качество этих методов является определяющим фактором для точности и полноты извлекаемых ответов. В своей обзорной статье [131] Ван дер Плас справедливо отмечает, что понимание необходимости глубокого лексико-семантического анализа вопроса и найденных фрагментов текста начинает появляться у ведущих разработчиков ВОС, но наиболее часто встречающимися являются подходы, основанные на простом поиске вхождений ключевых слов, синтаксической обработке текста и чисто статистических методах анализа корпуса текстов.

Значительный успех был достигнут вопросно-ответными системами для вопросов-фактов, таких как «Кто является основателем Санкт-Петербурга?». Точность ответов (доля правильных ответов) для таких вопросов составила 71% на испытании TREC-2005 [135]. Для остальных типов вопросов точность намного ниже. Для вопросов-списков («Какие страны входят в организацию ОПЕК?») максимальная точность уже 47%, а для вопросов-определений («Кем был Сергей Павлович Королев?») и остальных типов вопросов точность составила лишь 25%. Причем максимальную точность в каждом классе вопросов показали разные системы.

Вопросы-определения остаются наименее исследованной областью вопросно-ответных систем, такие вопросы составляют наибольшую сложность как для поиска ответа, так и для его последующей оценки [134, 88]. Данная ситуация связана с тем, что для корректной обработки вопросов-определений требуется применение всего инструментария ОЕЯ. Задача понимания естественного языка играет важную роль не только для вопросов-определений, но и для всех остальных типов вопросов [112].

Являясь одним из пионеров исследований в области компьютерной лингвистики и активным разработчиком современных систем понимания Естественно-Языковых (ЕЯ) текстов, А. С. Нариньяни критически оценивает состояние в области создания лингвистических моделей, подчеркивая смещение акцентов в сторону бесперспективного алгоритмического подхода, и утверждает [30], что «следующее поколение технологии автоматической обработки текста должно ориентироваться на принципы, в корне отличные от тех, на которых до последнего времени базировалось подавляющее большинство проектов в этой области». Оценивая результаты более трех десятилетий исследований и разработок в области автоматического понимания ЕЯ текста, Нариньяни в работе [30] отмечает, что «результатов до обидного мало, . в рамках общепринятой на сегодня методологии никакая прикладная задача, включающая понимание ЕЯ текста, не может быть решена по крайней мере в ближайшие десять (а, скорее всего, и тридцать) лет».

Нариньяни отмечает, что только семантически-ориентированный подход к обработке ЕЯ, основанный на моделях, а не на алгоритмах, может дать практические результаты [31]. Семантически-ориентированный подход к анализу ЕЯ текста определяется Нариньяни следующим образом: «пытайся восстановить смысл текста, используя всю доступную семантическую и прагматическую информацию; обращайся к синтаксическим компонентам только тогда, когда это необходимо для разрешения неоднозначности».

Эффективное использование знаний во время и после лингвистических этапов процесса анализа-понимания ЕЯ является основой семантически-ориентированного подхода. Использование различных лексических ресурсов является практически обязательной частью наиболее эффективных ВОС [73, 105, 67, 117] и позволяет приблизиться к решению следующих проблем вопросно-ответных систем:

1. Классификация вопроса. Для определения типа вопроса и ответа требуются семантические отношения. Для вопроса «Какой актер озвучивал мультипликационного персонажа Винни Пуха?» необходимо знать, что слово «актер» относится к классу «человеческое существо».

2. Предварительное извлечение ответов для наиболее часто встречающихся вопросов. Часто вопросы задаются про функции человека в какой-то организации, например, «Кто является главой компании РОСНЕФТЬ?». Предварительные ответы извлекаются из корпуса текстов на основании синтаксических шаблонов. При этом необходимо исключать слова, которые не указывают на функции человека, но встречаются в шаблонах типа «Петр являлся моим коллегой в МТС», что невозможно сделать только с помощью синтаксиса.

3. Расширение вопроса. Поиск ответа в корпусе текстов осуществляется по ключевым словам, однако ключевые слова вопроса не могут быть обнаружены, когда в релевантном вопросу предложении используются синонимы или гипонимы. Для решения этой проблемы набор ключевых слов вопроса должен быть расширен за счет слов, семантически связанных с ключевыми словами.

4. Перефразирование вопроса и ответа. Для вопроса «Кто является автором «Илиады?» следующее предложение должно быть расценено системой как релевантное: «Гомер написал «Илиаду» и «Одиссею».

5. Удаление избыточности в ответах. После составления списка ответов система должна удалить дублирующуюся информацию на основании меры близости ответов.

Таким образом, рассматриваемая задача автоматического пополнения лексических ресурсов, предназначенных для ВОС и ориентированных на решение описанных выше проблем, является актуальной на данном этапе развития ВОС.

Разработка и пополнение лексических ресурсов связаны со следующими задачами ОЕЯ:

• кластеризация слов для выделения семантических классов;

• извлечение семантических отношений (гипонимия, меронимия, синонимия);

• снятие семантической омонимии.

Пополнение лексических ресурсов осуществляется на основании корпуса текстов или машинно-читаемых словарей. При выделении семантических классов важно не только выполнить кластеризацию, но и выделить критерий схожести элементов класса.

Несмотря на впечатляющие достижения, которые были достигнуты в построении ручных тезаурусов типа WordNet, область покрытия тезаурусов, особенно для русского языка, все еще является ограничителем для развития вопросно-ответных систем. Теория Смысл-Текст (ТСТ) [27], являясь практически первой в СССР «кибернетической» теорией в области лингвистики, ставящей перед собой прикладные цели — создать двунаправленный лингвистический процессор, использовала Толково-Комбинаторный Словарь (ТКС) для задания морфологических, синтаксических, семантических характеристик и толкований заглавного слова. В [92] приведены данные о том, что первый вариант ТКС, включающий описание 750 лексем, объединенных в 250 вокабул, составлялся группой из 20 участников в течение 10 лет. Этот факт говорит о том, что средства, методика формирования базы лингвистических знаний и

11 формализация лексической информации являются важнейшими компонентами и задачами при построении систем ОЕЯ.

На сегодняшний день разработано множество методов извлечения семантических отношений и снятия омонимии, которые используются в ВОС. Данные методы подразделяются на следующие группы:

• методы, основанные на лексико-синтаксических шаблонах;

• методы дистрибутивной схожести, основанные на разделение словами одного и того же контекста.

Оба подхода дополняют друг друга: методы, основанные на шаблонах, показывают хорошую производительность для извлечения гипонимии, а дистрибутивный подход обычно используется для извлечения синонимии и меронимии. Как показано в [111], подход, основанный на шаблонах, должен быть обязательно дополнен методами автоматического извлечения шаблонов из корпуса текстов.

Для оценки схожести слов применяется сравнение векторов признаков слов на основе геометрических мер (косинус-мера, норма-мера), корреляционных коэффициентов, комбинаторных мер (коэффициент Жаккарда, коэффициент Дайса), мер замещаемости, коэффициентов взаимной зависимости.

Для кластеризации используются иерархические и неиерархические алгоритмы: снизу-вверх на основе дистрибутивной схожести [45], алгоритмы, допускающие вхождение в несколько классов и работающие с мерой принадлежности к классу (Clustering by Committee) [100], классификатор на основе графов и скрытой модели Маркова [51], метод к-средних [16], метод максимума правдоподобия (Expectation Maximization) [50]. Большинство иерархических алгоритмов имеют сложность 0(п2). Результатом кластеризации обычно является неименованная иерархия и далее, как правило, применяются алгоритмы для назначения имен кластеров [101, 137, 129]. При семантической классификации большое значение имеет выбор степени различия смысла слов, а кластеризация может помочь в нахождении и разделении различных смыслов слов [114].

В данной работе для задачи автоматического извлечения лексико-семантических знаний применяются методы Анализа Формальных Понятий (АФП) [61]. Знания — совокупность сведений о мире, включающих в себя информацию о свойствах объектов, закономерностях процессов и явлений, а также правилах использования этой информации для принятия решений. Лексико-семантические знания включают денотативный и смысловой компоненты связанной с лексемой информации. Практически все перечисленные выше методы в той или иной степени оперируют идеей концепта (понятия). Формализация понятий и их последующий анализ с помощью решетки позволяют оперировать данными на семантическом уровне без потери или недопустимого упрощения объектов и их признаков, в отличие от представления атрибутов с помощью векторов и их статистической обработки. Классификация объектов и результаты анализа данных с помощью АФП могут быть интерпретированы исследователем для предметной области.

Анализ формальных понятий — это метод анализа данных, основанный на математической теории решеток. Основой АФП является доказанная Г. Биркгофом теорема [7] о том, что для любого бинарного отношения можно построить полную решетку. Исследуемая область описывается в терминах набора объектов и атрибутов, вводится описание формального контекста, формальных понятий и решетки, отображаемой с помощью линейных диаграмм.

Теоретико-решеточная формализация концептов позволяет выполнить кластеризацию, визуализацию и исследование атрибутов понятий. В работе

107] обосновывается возможность использования АФП в компьютерной лингвистике для анализа семантических отношений в словарях типа Wordnet

108] и лексических функций [53], создания тезаурусов [124, 99], разрешения многозначности глаголов [42], пополнения онтологии [48]. В работе [123] описывается формальный язык концептуальных графов для представления знаний, а в работе [95] описывается сопоставление концептуальных графов с АФП.

Основой данной работы является установление соответствия между Генитивными Конструкциями (ГК) русского языка и анализом формальных понятий, которое базируется на семантических отношениях между опорным словом и генитивной именной группой [125]. Выбор семантического отношения, как правило, определяется опорным существительным, даже когда оно не является реляционным, что дает возможность применить методы теории решеток к формализации данного отношения. Правильность ГК (рост Пети, но высота столба) определяется в терминах сортов [9], также сорта позволяют составить формулы для записи семантики ГК на языке категориальной грамматики.

Сорта — элементы «наивной картины мира» [8], классы, к которым язык относит более конкретные реалии, сущности, вещи. Сорта можно рассматривать как онтологическую классификацию. Классификация лексики по сортам обсуждалась у Джекендофа, Пустейовского, Фомичева [75, 110, 38]. В работе будет использоваться теория сортов (постулаты значения) для классификации и извлечения семантических отношений из неструктурированного текста.

Целью работы является разработка модели автоматического извлечения знаний из текстов для повышения эффективности работы вопросно-ответных систем, ее апробация и экспериментальное подтверждение эффективности.

Для достижения сформулированной цели необходимо решить следующие задачи:

1. Разработка методов автоматического извлечения знаний из неструктурированного текста с целью пополнения лексических ресурсов для использования в ВОС, формулирование требований к лексическим ресурсам, необходимым для ВОС;

2. Построение модели лексикона и модели семантических отношений в лексиконе для ВОС;

3. Разработка алгоритма сегментации лексикона и формирования классов схожих лексем;

4. Разработка методов классификации вопросов, снятия семантической многозначности для ВОС;

5. Проверка разработанной модели автоматического извлечения знаний с помощью вычислительного эксперимента.

Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Степанова, Надежда Александровна

5.5 Выводы по главе 5

В пятой главе выполняется экспериментальная проверка описанной в предыдущих главах модели извлечения знаний на основе решетки формальных понятий. Формулируются требования по полноте и репрезентативности, предъявляемые к корпусу текстов, используемому для построения на его основе KOJI. Показано, что распределение частоты встречаемости ГК соответствует закону Ципфа для больших текстов русского языка. Согласно закону Ципфа объем корпуса текстов для построения на его основе КОЛ должен быть не менее 50 млн. слов.

Показано, что с увеличением объема используемого корпуса текстов снижение репрезентативности этого корпуса не происходит, при этом покрытие слов, используемых для построения КОЛ, примерно соответствует всему лексикону русского языка.

Описывается процесс обработки корпуса для извлечения знаний. Формулируются требования к исходным данным в виде корпуса текстов и предлагаемому способу извлечения ГК из текста для получения КОЛ, предлагаются методы оптимизации методов извлечения исходной информации.

Приводится описание разработанного программного комплекса извлечения знаний на основе решетки формальных понятий. Описывается обмен данными между модулями программного комплекса. Для генерации решетки формальных понятий используется комбинация алгоритмов Ferre и Norris, предложено условие переключения между алгоритмами для достижения максимальной скорости генерации решетки. Оценивается сложность алгоритма сегментации решетки.

Предложена методика оценки построенного лексического ресурса относительно эталонного лексического ресурса, выполнена экспериментальная оценка.

ЗАКЛЮЧЕНИЕ

В заключение приведем научные и практические результаты настоящей диссертационной работы.

Основные научные результаты состоят в следующем:

• Предложена и обоснована формализация семантики генитивной конструкции на языке интенсиональной логики. Получены выражения для записи теории лексемы и теории сорта, принадлежности лексемы к сорту, оператора метонимического сдвига. Описаны свойства, которыми обладает формализация семантики генитивной конструкции.

• Сформулированы требования к лексическим ресурсам для ВОС. Разработана модель концептно-ориентированного лексикона, представленного решеткой формальных понятий, отвечающая этим требованиям. Толкование лексического значения получено в виде содержания формальных понятий решетки, а сами лексемы представлены в объеме формальных понятий.

• Разработана модель автоматического извлечения знаний, представленных формальными понятиями в концептно-ориентированном лексиконе, из неструктурированного текста на русском языке. Концептно-ориентированный лексикон генерируется на основе формального контекста, состоящего из элементов генитивных конструкций и глаголов, в модели управления которых генитивная конструкция занимает место одного из актантов. Формальный контекст автоматически формируется из неструктурированного текста на русском языке.

• Предложен критерий полезности решетки концептно-ориентированного лексикона для извлечения лексического значения, а также разработан метод максимизации этого критерия.

• Получены модели семантических отношений порядка и меронимии для слов на основе решетки формальных понятий.

Основные практические результаты состоят в следующем: Предложена количественная оценка меры схожести между формальными понятиями решетки.

Разработан алгоритм сегментации решетки на основе количественной оценки меры схожести формальных понятий с целью получения набора классов формальных понятий. Предусмотрено два варианта работы алгоритма сегментации, которые используются в зависимости от задачи для уменьшения количества формальных понятий в решетке или для снятия многозначности слов в объеме формальных понятий решетки.

Предложена формула для оценки параграфов, извлекаемых из поисковых систем, на основе нормированной меры схожести между объектными формальными понятиями, используемая при классификации вопросов в ВОС;

Разработано программное обеспечение, реализующее модель извлечения знаний из неструктурированного текста на русском языке на основе решетки формальных понятий для ВОС. Выработаны требования, предъявляемые к полноте и репрезентативности исходного текста на русском языке.

Проведен анализ сложности алгоритмов порождения формальных понятий, для генерации концептно-ориентированного лексикона предложено использовать комбинацию алгоритмов Ferre и Norris, предложено условие переключения между алгоритмами для достижения максимальной скорости генерации решетки. Выполнен анализ сложности алгоритма сегментации решетки формальных понятий.

Предложена методика оценки концептно-ориентированного лексикона относительно эталонного лексического ресурса, получена экспериментальная оценка.

По теме диссертации опубликовано 8 печатных работ [126, 15, 55, 56, 54, 35, 125, 53]. Основные результаты апробировались на международных конференциях и опубликованы в сборниках докладов и журналах: IX-й международной конференции «Cognitive Modeling in Linguistics» (София, Болгария, 2007), 7-й международной конференции «Pattern Recognition and Image Analysis: New Information Technologies» (С.-Петербург, 2004), 6-ой международной научно-технической конференции «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2005), 2-й международной конференции IASTED «Automation, Control, and Information Technologies» (Новосибирск, 2005), VI-м международном конгрессе по математическому моделированию (Нижний Новгород, 2004), 13-й всероссийской конференции «Математические методы распознавания образов» (г. Зеленогорск, 2007), 7-ой международной научно-технической конференции «Interactive Systems And Technologies: The Problems of Human-Computer Interaction» (Ульяновск, 2007) и в публикации в журнале «Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications» (Vol. 17, No. 2, 2007).

Тем самым решены все поставленные задачи, и цель настоящей работы достигнута.

Дальнейшие исследования по тематике диссертационной работы целесообразно провести в направлении:

• совершенствования разработанного программного комплекса для автоматического извлечения знаний из текстов на русском языке путем добавления модулей интеграции с современными ВОС;

• разработки методов интеграции концептно-ориентированного лексикона, содержащего только существительные русского языка, с другими лексическими ресурсами для расширения области охвата лексиконом других частей речи; разработки дополнительных методов предварительной обработки исходного корпуса текстов, например, разрешение анафоры, для повышения эффективности концептно-ориентированного лексикона; включения в расширенный формальный контекст дополнительно к элементам генитивной конструкции и глаголам других частей речи; проверки и при необходимости адаптации модели извлечения знаний из неструктурированного текста на основе решетки формальных понятий для других языков.

Список литературы диссертационного исследования кандидат технических наук Степанова, Надежда Александровна, 2008 год

1. Абрамов Н. Словарь русских синонимов и сходных по смыслу выражений: Около 5 ООО синонимических рядов. Более 20 ООО синонимов // 7-е изд., изд.: Русские словари, Москва, 1999.

2. Азарова И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WORDNET // Труды международной конференции Диалог'2003, Протвино.

3. Азарова И.В., Секликов Ю.В., Иванов В.Л. Интерпретация текстовых документов с использованием формальной грамматики AGFL и компьютерного тезауруса RussNet // сборник: Доклады международной конференции Диалог2004.

4. Апресян Ю.Д. Избранные труды, том I. Лексическая семантика // 2-е изд., испр. и доп., Издательская фирма «Восточная литература» РАН, Москва, 1995.-с. 472.

5. Апресян Ю.Д. О регулярной многозначности // Известия АН СССР, Отделение литературы и языка, Вып. 6, Москва, 1971. — С. 509-523.

6. Биркгоф Г. Теория решеток // изд.: Наука, Москва, 1984. с. 568.

7. Борщев В.Б. Естественный язык наивная математика для описания наивной картины мира // Московский лингвистический альманах, вып. 1, 1996.-С. 203-225.

8. Борщев В.Б., Кнорина Л.В. Типы реалий и их языковое восприятие // Всб. "Вопросы кибернетики. Язык логики и логика языка" Под ред. Иванова В.В., Москва. С. 106-134.

9. Борщев В.Б., Партии Б.Х. Семантика генитивной конструкции: разные подходы к формализации // В сб. Типология и теория языка: от описания к объяснению. К 60-летию А.Е. Кибрика, Под ред. Е.В. Рахилиной и Я.Г. Тестельца, Москва, 1999. С. 159-172.

10. Герасимова И.А. Формальная грамматика и интенсиональная логика // РАН, Институт философии, Москва, 2000. с. 156.

11. Готтлоб Ф. Логика и логическая семантика: Сборник трудов // Пер. с нем. Б.В. Бирюкова под ред. З.А. Кузичевой, Учебное пособие для студентов вузов, изд: Аспект Пресс, Москва, 2000. С. 213-284.

12. Гретцер Г. Общая теория решеток // изд: Мир, Москва, 1982. с. 452.

13. Евтушенко С. А. Система анализа данных "Concept Explorer". // Труды. седьмой Международной научно-технической конференции "Искусственный интеллект. Интеллектуальные и многопроцессорные системы", Кацивели, Крым, Украина, 2006. С. 127-134.

14. Загоруйко Н.Г. Прикладные методы анализа данных и знаний // Издательство Ин-та математики, Новосибирск, 1999. — с. 270.

15. Карнап Р. Постулаты значения // Москва, 1959. С. 321-331.

16. Кибрик А. Е., Брыкина М.М., Хитров А.Н. Опыт фронтального корпусного исследования конструкций с внутренним и внешним посессором // В сб: Доклады международной конференции Диалог2004. С. 265-275.

17. Кобозева И.М. Лингвистическая семантика: Учебник // Изд. 2-е, изд: Едиториал УРСС, Москва, 2004.

18. Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка // Сборник работ стипендиатов Yandex 2005.

19. Кузнецов С.О. Теория машинного обучения в решетках формальных понятий // Всероссийский Институт Научной и Технической Информации, РАН, Москва, 2002. с. 147.

20. Лайонз Дж. Лингвистическая семантика: Введение // Пер. с англ. В.В. Морозова и И.Б. Шатуновского, под общ. ред. И.Б. Шатуновского, изд: Языки славянской культуры, Москва, 2003.

21. Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура, наполнение // Науч.-техн. информ., сер. 2, вып. 12, 1997. С. 5-20.

22. Мандельброт Б. Фракталы, случай и финансы // Пер. с англ., НИЦ «Регулярная и хаотическая динамика», Москва-Ижевск, 2003. с. 255.

23. Мельчук И. А. Опыт теории лингвистических моделей «Смысл Текст» // Наука, Москва, 1974.

24. Мозговой М. Простая вопросно-ответная система на основе семантического анализатора русского языка // Вестник Санкт-Петербургского университета, сер. 10, вып. 1, 2006. С. 116-122.

25. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям, Т.1, Аксаково, 2001. С. 184-188.

26. Нариньяни А.С. Модель или алгоритм: новая парадигма информационной технологии // Информационные Технологии, 1997. — С. 11-16

27. Постмодернизм: Энциклопедия // изд.: Интерпрессервис, Книжный Дом, Москва, 2001. с. 1040.

28. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Сборник работ стипендиатов Yandex 2005.

29. Соснин П.И. Человеко-компьютерная диалогика // Ульяновский государственный технический университет, Ульяновск, 2001. — с. 285.

30. Падучева Е.В. Коммуникативное выделение на уровне синтаксиса и семантики // Сборник "Семиотика и информатика", вып. 36, 1998.

31. Попов Э.В. Общение с ЭВМ на естественном языке // Проблемы искусственного интеллекта, изд: Наука, Москва, 1982 г. с. 360.

32. Фомичев В.А. Формализация структуры основных словарейлингвистической базы данных // Качество и ИПИ (САЬЗ)-технологии, #3,2005.-С. 30-38.

33. Языкознание: Большой энциклопедический словарь // В.Н. Ярцева (гл. ред.), изд.: Русский язык, Москва, 1998.

34. Alpha S., Dixon P., Liao С., Yang С. Oracle at TREC 10: Filtering and Question-Answering // In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), Gaithersburg, Maryland, 2001. p. 423.

35. Anquetil N., Vaucher J. Extracting Hierarchical graphs of concepts from an object set: Comparison of two methods // In Knowledge Acquisition Workshop, ICCS'94, 1994.

36. Bertagna F., Chiran L., Simi M. QA at ILC-UniPI: Description of the Prototype // In Working Notes of the CLEF 2004 Workshop, Bath, Uk, 2004. -pp. 435-444.

37. Bordat J.P. Calcul pratique du treillis de Galois d'une correspondance // Math. Sci. Hum., no. 96, 1986. pp. 31-47.

38. Brown P.F., Delia Pietra V.L., deSouza P.V., Lai J.C., Mercer R. Class-based n-gram models of natural language // Computational Linguistics 18(4), 1992. -pp. 467-479.

39. Budanitsky A., Hirst G. Evaluating WordNet-based measures of semantic distance // Computational Linguistics, 32(1), 2006.

40. Chang Y., Xu H., Bai S. Question Answering Track at CAS-ICT // In NIST Special Publication : SP 500-255, The Twelfth Text Retrieval Conference (TREC 2003), 2003. p. 147.

41. Cimiano P., Hotho A., Staab S. Learning Concept Hierarchies from Text Corpora using Formal Concept Anaylsis // Journal of Artificial Intelligence146

42. Research, Volume 24, 2005. pp. 305-339.

43. Dahlberg I. Conceptual Structures and Systematization // In Negrini G. edition, Categorie, Ogetti e Strutture della Conoscenza, Roma, 1994.

44. Dempster A., Laird N., Rubin D. Maximum likelihood from incomplete data via the EM algorithm // Journal of the Royal Statistical Society, Series B, 39(1), 1977.-pp. 1-38.

45. Dorow В., Widdows D. Discovering corpus-specific word-senses // Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary, 2003. pp. 79-82.

46. Edmundson H. P. Computational Linguistics, axiomatic characterization of synonymy and antonymy // Proceedings of the 1967 conference on Computational linguistics, Morristown, USA, 1967. pp. 1-11.

47. Emelyanov G.M., Stepanova N.A. Model of types in intensional logic // Interactive Systems And Technologies: The Problems of Human-Computer Interaction, Collection of scientific papers, Ulyanovsk: U1STU, 2005. pp. 66-71.

48. Evens M. W. Relational Models of the Lexicon // Cambridge University Press, 1988.

49. Fellbaum C. WordNet: An Electronic Lexical Database // Cambridge, 1998.

50. Ferre S. The Use of Associative Concepts for Fast Incremental Concept Formation in Sparse Contexts // In B. Ganter and A. de Moor editors, Using Conceptual Structures, Contributions to ICCS 2003, 2003.

51. Fisher D., Langley P. Approaches to Conceptual Clustering // In Proceedings of the Ninth International Joint Conference on Artificial Intelligence, IJCAI-85, volume 1, 1985. pp. 691-697.

52. Ganter В., Wille R. Formal Concept Analysis Mathematical Foundations // Berlin: Springer-Yerlag, 1999.

53. Gideon S.M. Fine-Grained Proper Noun Ontologies for Question Answering // SemaNet'02: Building and Using Semantic Networks, 2002

54. Glickman O., Dagan I. Identifying lexical paraphrases from a single corpus: A case study for verbs // In Proceedings of Recent Advantages in Natural Language Processing, 2003.

55. Godin R., Missaoui R., Alaoui H. Incremental Concept Formation Algorithms Based on Galois Lattices // Computation Intelligence, 1995.

56. Harris Z. Distributional structure // The Philosophy of Linguistics, in J.J. Katz editor, New York: Oxford University Press, USA, 1985. pp. 26-47.

57. Hearst M. Automatic acquisition of hyponyms from large text corpora // In Proceedings of the 14th International Conference on Computational Linguistics (COLING), 2002. pp. 539-545.

58. Heit E., Rubinstein J. Similarity and property effects in inductive reasoning // Journal of Experimental Psychology: Learning, Memory, and Cognition, 20, 1994.-pp. 411-422.

59. Hirst G., Budanitsky A. Correcting real-word spelling errors by restoring lexical cohesion // In Natural Language Engineering, 11(1), 2005. pp. 87111.

60. Hirst G., St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms // In C. Fellbaum editor, WordNet: An Electronic Lexical Database, the MIT Press, Cambridge, Massachusetts, 1998.-pp. 305-332.

61. Hovy E., Hermjakob U. The Use of External Knowledge of Factoid QA // In Proceedings of the Tenth Text Retrieval Conference (TREC-10), Gaithersburg, Maryland, USA, 2001. pp. 644-652.

62. Iris M., Litowitz В., Evens M. Problems of Part-Whole Relations // In Evens M. edition, Relational Models of the Lexicon, Cambridge University Press, 1988.-pp. 261-288.

63. Jackendoff R. The Architecture of the Language Faculty // Cambridge, Mass.: MIT Press, 1997.

64. James R. Curran and Marc Moens. Improvements in automatic thesaurus extraction // In Proceedings of the Workshop of the ACL Special Interest Group on the Lexicon (SIGLEX), Philadelphia, USA, 2002. pp. 59-66.

65. Jiang J.J., Conrath D.W. Semantic similarity based on corpus statistics and lexical taxonomy // In Proceedings of the International

66. Conference on Research in Computational Linguistics, Taiwan, 1997. — pp. 19-33.

67. Kilgarriff A. I Don't Believe in Word Senses // Computers and the Humanities, Volume 31, Number 2, 1997. -pp. 91-113.

68. Kilgarriff A., Yallop C. What's in a thesaurus? // In Proceedings of the Second Conference on Language Resource an Evaluation, 2000. pp. 13711379.

69. Kolliakou D. De-Phrase extractability and Individual/Property denotation // Natural Language and Linguistic Theory 17, 1999. pp. 713-781.

70. Kuznetsov S.O. A fast algorithm for computing all intersections of objects in a finite semilattice // Automatic Documentation and Mathematical Linguistics, 27 (5), 1993. pp. 11 -21.

71. Kuznetsov S.O., Obiedkov S.A. Comparing performance of algorithms for generating concept lattices // Journal of Experimental & Theoretical Artificial Intelligence, Volume 14, Issue 2 & 3, 2002. pp. 189-216.

72. Leacock C., Chodorow M. Combining local context and WordNet similarity for word sense identification // In Christiane Fellbaum editor, WordNet: An Electronic Lexical Database, The MIT Press, Cambridge, Massachusetts, 1998.-pp. 265-283.

73. Lin D. An information-theoretic definition of similarity // In Proceedings of the International Conference on Machine Learning, Madison, Wisconsin, 1998.-pp. 296-304.

74. Lin D. Automatic retrieval and clustering of similar words // In COLING-ACL, 1998.-pp. 768-774.

75. Lin D. Extracting Collocations from Text Corpora // Proceedings of the Workshop on Computational Terminology, Montreal, Canada, 1998. pp. 57-63.

76. Lin D., Pantel P. Discovery of inference rules for question answering // Natural Language Engineering 7(4):343-360, 2001.

77. Lin J., Demner-Fushman D. Automatically Evaluating Answers to Definition150

78. Questions // Technical Report: LAMP-TR-119/CS-TR-4695/UMIACS-TR-2005-04, University of Maryland, College Park, USA, 2005.

79. Luce R.D. Semiorders and a theory of utility discrimination // Econometrica, 1956.-pp. 178-191.

80. Masterman M. Semantic message detection for machine translation, using an interlingua //1961 International Conference on Machine Translation of Languages and Applied Language Analysis, London, UK, 1962. pp. 437475.

81. Matsuo Y., Sakaki Т., Uchiyama K., Ishizuka M. Graph-based Word Clustering using Web Search Engine // in processing 2006 conference on Empirical Methods in Natural Language Processing (EMNLP 2006), Sydney, Australia. pp. 542-550.

82. Melchuk LA. The Russian Language in the Meaning Text Perspective // Wiener Slawistischer Almanach, Moskau-Wien, 1995. - p. 39.

83. Miller G.A., Charles W.G. Contextual correlates of semantic similarity // Language and Cognitive Processes, no.6(1), 1991.-pp. 1-28.

84. Miller G.A. Nouns in WordNet: a lexical inheritance system // International Journal of Lexicography, volume 3. pp. 245-264.

85. Mohammad S., Hirst G. Distributional measures as proxies for semantic relatedness. Электронный ресурс. Режим доступа: http://www.cs.toronto.edu/pub/gh/Mohammad+Hirst-2005.pdf. - Загл. с экрана.

86. Nieminen J. Rough tolerance equality // Fundamenta Informaticae, 1988. -pp. 289-296.

87. Norris E. M., An algorithm for computing the maximal rectangles in a binaryrelation // Revue Roumaine de Mathermatiques Pures et Appliqueres, 23 (2), 1978.-pp. 243-250.

88. Osswald R., Petersen W. Induction of Classifications from Linguistic Data // In proceedings of the ECAI-Workshop on Advances in Formal Concept Analysis for Knowledge Discovery in Databases, 2002.

89. Pantel P., Lin D. Discovering word senses from text // In Proceedings of ACM Conference on Knowledge Discoveiy and Data Mining (KDD-02), 2002.-pp. 613-619.

90. Pantel P., Ravichandran D. Automatically labeling semantic classes // HLTNAACL 2004: Main Proceedings, in Marcu D., Dumais S., Roukos S. editors, Boston, Massachusetts, USA, 2004. pp. 321-328.

91. Partee B.H. Formal Semantics, Lectures // RGGU, 2003.

92. Polkowski L., Skowron A., Zytkow J. Tolerance based rough sets // In Soft Computing: Rough Sets, Fuzzy Logic, Neural Networks, Uncertainty Management, edited by T. Lin and A. Wildberger. pp. 55-58.

93. Prager J., Chu-Carroll J., Czuba K. Use of WordNet Hypernyms for Answering What-Is Questions // In Proceedings of the TREC 2002.

94. Prager J., Radev D., Brown E., Coden A., Samn V. The use of predictive annotation for question answering in TREC8 // Proceedings of TREC8, Gaithersburg, 2000.

95. Priss U. Linguistic Applications of Formal Concept Analysis // In Ganter; Stumme; Wille editions, Springer-Verlag, LNAI 3626, 2005. pp. 149-160.

96. Priss U. Relational Concept Analysis: Semantic Structures in Dictionaries and Lexical Databases //Verlag Shaker, 1998. pp. 67-86.

97. Priss U. The Formalization of WordNet by Methods of Relational Concept152

98. Analysis // In Fellbaum C. edition, WordNet: An Electronic Lexical Database and Some of its Applications, MIT press, 1998. pp. 179-196.

99. Pustejovsky J. The Generative Lexicon // The MIT Press.

100. Ravichandran D., Hovy E. Learning Surface Text Patterns for a Question Answering System // ACL '02: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, Pennsylvania, USA, 2001.-pp.41-47.

101. Renxu Sun, Jing Jiang, Yee Fan Tan, Hang Cui, Tat-Seng Chua, Kan M.Y. Using Syntactic and Semantic Relation Analysis in Question Answering // Proceedings of the 14th Text Retrieval Conference (TREC 2005).

102. Schiitt D. Abschatzungen fur die Anzahl der Begriffe von Kontexten // Diplomarbeit TH Darmstadt, Darmstadt, 1988.

103. Seco N. Computational models of similarity in lexical ontologies // Master's thesis, University College, Dublin, Ireland, 2005.

104. Seung-Hoon Na In-Suang, Sang-Yool Lee, Jong-Hyeok Lee Question Answering Approach Using a WordNet-based Answer Type Taxonomy // In Proceedings of the TREC 2002, 2002. p. 512.

105. Sharoff S. Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics // in proccessing of Language Resources and Evaluation Conference (LREC02), Las Palmas, Spain, 2002.

106. Smeaton A.F., van Rijsbergen C.J. The retrieval effects of query expansion on a feedback document retrieval system // The Computer Journal, 26(3), 1983.-pp. 239-46.

107. Slator B.M., Wilks Y.A. Towards semantic structures forom dictionary entries // Proceedings of the 2nd Annual Rocky Mountain Conference on

108. Artificial Intelligence, Boulder, Colorado, 1987. pp. 85-96.

109. Slowinski R., Vanderpooten D. Similarity relations as a basis for rough approximations // ICS Research Report 53/95, Warsaw University of Technology, 1995. ftp://ftp.ii.pw.edu.pl/pub/Rough.

110. Sowa J. F. Knowledge-Based Systems // Special Issue on Conceptual Graphs, vol.5, no.3, 1992.

111. Sporleder C., Lattice G. Approach to Lexical Inheritance Learning // ECAI 2002 Workshop on Machine Learning and Natural Language Processing for Ontology Engineering (OLT2002), Lyon, France, 2002.

112. Stepanova N.A., Emelyanov G.M. Concept-oriented lexicon application for Question Answering systems // Interactive Systems And Technologies: The Problems of Human-Computer Interaction, Collection of scientific papers, Ulyanovsk: U1STU, 2007. pp. 31-40.

113. Stumme G., Maedche A.: FCA-Merge: A Bottom-Up Approach for Merging Ontologies // In International Joint Conference on Artificial Intelligence, Washington, USA, 2001. pp. 225-234.

114. Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network // In Proceedings of the Second International Conference on Information and Knowledge Management, Washington, 1993. pp. 6774.

115. Treeratpituk P., Callan J. Automatically labeling hierarchical clusters // Proceedings of the 2006 international conference on Digital government research, ACM Press, San Diego, California, USA, 2006. pp. 167-176.

116. Tversky, A. Features of similarity // Psychological Review, 84, 1977. pp. 327-352.

117. Van der Plas L., Bouma G., Mur J. Automatic Acquisition of lexico-semantic knowledge for QA // Ontologies and Lexical Resources for Natural Language Processing, in C.-R. Huang edition, Cambridge University Press, University of Sinica, Cambridge, UK.

118. Van Dongen S. A cluster algorithm for graphs // Technical Report INS-R0010, National Research Institute for Mathematics and Computer Science, Amsterdam, The Netherlands.

119. Vikner C., Jensen P. A. Semantic analysis of the English genitive // Interaction of lexical and formal semantics, volume 56. — pp. 191-226.

120. Voorhees Ellen M. Evaluating answers to definition questions // In Proceedings of the TREC 2003.

121. Voorhees Ellen M. Overview of the TREC 2003 question answering track // In Proceedings of the Twelfth Text REtrieval Conference, 2004. pp. 54-68.

122. Vossen P. Euro WordNet: A Multilingual Database with Lexical Semantic Networks//Dodrecht, 1998.

123. Widdows D., Dorow B. A-graph model for unsupervised lexical acquisition // In Proceedings of the 19th International Conference on Computaional Linguistics (Coling), 2002. pp. 1093-1099.

124. Wille R. Concept Lattices and Conceptual Knowledge Systems in Semantic Networks in Artificial Intelligence // F. Lehmann editor, Pergamon Press, 1992.-pp. 493-516.

125. Winston M. E., Chan R., Herrmann D. A Taxonomy of Part-Whole Relations // Cogn. Science, vol. 11, 1987. pp. 417-444.

126. Worboys M.F. Nearness Relations in Environmental Space // International Journal of Geographical Information Science, 15 (7), 2002. pp. 633-652.155

127. Yang D., Powers D.M.W. Measuring semantic similarity in the taxonomy of WordNet I I In V. Estivill-Castro editor, Proceedings of the 28th Australasian Computer Science Conference, Newcastle, Australia, 2005. pp. 315-322.

128. Yarowsky D. One sense per collocation // In the Proceedings of ARPA Human Language Technology Workshop, Morristown, NJ, USA, 1993. pp. 266-271.

129. Yarowsky D. Unsupervised word sense disambiguation rivaling supervised methods // Proceedings of the 33rd annual meeting on Association for Computational Linguistics, Morristown, NJ, USA 1995. pp. 189-196.

130. Zipf G. K. Human Behaviour and the Principle of Least-Effort // Cambridge MA: Addison-Wesley, 1949.У156

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.