Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Летовальцев, Виктор Иванович

  • Летовальцев, Виктор Иванович
  • кандидат технических науккандидат технических наук
  • 2012, Владимир
  • Специальность ВАК РФ05.13.01
  • Количество страниц 143
Летовальцев, Виктор Иванович. Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Владимир. 2012. 143 с.

Оглавление диссертации кандидат технических наук Летовальцев, Виктор Иванович

Оглавление

Введение

1. Автоматический семантический анализ в текстовых информационных хранилищах

1.1 Подходы к поиску текстовой информации в сфере компьютерных технологий

1.2 Исследовательские системы семантического поиска информации

1.2.1 Система поиска и обработки информации Webcompass

1.2.2 Система MARRI

1.2.3 Система OntoSeek

1.3 Методы семантической обработки информации

Выводы по главе 1

2. Метод и алгоритмы интеллектуальной обработки информации на основе интенсиональной

логики

2.1. Язык интенсиональной логики

2.2 Перевод естественно-языковых выражений на язык интенсиональной логики

2.3 Метод автоматической семантической обработки информации на основе формальной семантики

2.3.1 Алгоритм формализации естественно-языковой фразы на основе формальной семантики

2.3.2 Построение функции интерпретации формулы интенсиональной логики для БЗ

2.3.3 Алгоритм заполнения БЗ на основе анализа ЕЯ текстов средствами логики Монтегю ..62 Выводы по главе 2

3. Разработка мультиагентной системы интеллектуального поиска информации на

промышленном предприятии

3.1. Фоновые знания как необходимый элемент процесса семантического поиска

3.2 Алгоритмы интеллектуального поиска текстовой информации

3.2.1 Алгоритм расширения поискового запроса пользователя на основе БЗ

3.2.2 Алгоритм поиска на основе интерпретации формулы логики Монтегю на БЗ

3.3 Концепция системы мультиагентной системы поиска информации масштаба предприятия

3.3.1 Концептуальная модель МАСПИ

3.3.2 Логическая модель МАСПИ

3.3.3 Алгоритмы функционирования МАСПИ

Выводы по главе 3

4. Реализация прототипа маспи

4.1. Реализация атомарных функций алгоритмов семантической обработки

4.2 Программная реализация поисковых систем на предприятиях ОАО «Соколстром» и ОАО «Сокольский целлюлозно-бумажный комбинат»

4.3 Результаты внедрения программных средств интеллектуального поиска

Выводы по главе 4

Список источников

Приложения

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах»

Введение

Актуальность темы. Эффективность работы современного промышленного предприятия в информационном обществе зависит от скорости и качества удовлетворения потребностей в служебной информации каждого из сотрудников. Информационные хранилища корпоративных информационных систем (КИС) могут достигать огромных размеров, что сильно затрудняет поиск. Часто необходимая информация распределена по различным информационным системам внутри предприятия. Основные причины этого: различие используемой терминологии и специфическая структура хранимой информации. Возникает парадоксальная ситуация, когда пользователь имеет доступ к информации, но не может ее получить. Стала актуальной проблема теоретического рассмотрения и практической реализации механизмов и средств автоматизации поиска информации в КИС.

Интеллектуальная обработка текстовой информации охватывает широкий круг проблем, таких как формализация текстовых данных, способы извлечения знаний из данных, методы отображения предметной области, которым посвящены работы Э. Баха, Т. А. Гавриловой, Т. Р. Груббера, Г. С. Осипова, Н. Хомского, В. Ф. Хорошевского.

Важной частью изучения семантики является изучение языковых средств передачи смысла. В области изучения синтаксиса и семантики русского языка следует выделить работы Ю. Д. Апресяна, Н. Д. Арутюновой, Г. А. Золотовой, А. А. Леонтьева, Е. В. Падучевой, Н. Ю. Шведовой.

Для моделирования и информационной поддержки распределенных процессов автор использует технологию мультиагентных систем (MAC), исследования в области которых проводились такими учеными, как М. Вулдридж, В.И. Городецкий, Н. Дженнингс, A.B. Костров, X. С. Ивана, Д.А. Поспелов, В.Б. Тарасов, А. И. Швецов.

Общие вопросы управления промышленным предприятием освещены в работах Д.В. Александрова, В.В. Кульбы, Р.И. Макарова, А.Г. Мамиконова, Б.Я. Советова, В.Д. Чертовского и др.

Целью диссертационного исследования является упрощение процессов информационного поиска для конечного пользователя и повышение эффективности удовлетворения его поисковых потребностей.

Для достижения поставленной цели в работе были поставлены и решены следующие задачи:

1. Исследование существующих принципов интеллектуальной обработки информации на промышленных предприятиях.

2. Разработка метода и алгоритмов интеллектуальной обработки информации на основе формальной семантики.

3. Разработка алгоритмов интеллектуального поиска на основе логики Р. Монтегю и расширения запроса пользователя.

4. Разработка концептуальных и логических моделей MAC поиска информации.

5. Экспериментальное исследование эффективности разработанных методов, моделей и программных средств.

Объектом исследования являются процессы информационного поиска и обработки текстовой информации в КИС промышленного предприятия.

Предметом исследования является комплекс методов и алгоритмов интеллектуальной обработки текстовой информации.

Методы исследования. Для решения поставленных задач используются методы инженерии знаний, математической логики, теории фреймов, теории графов, теории возможных миров, методы лямбда-исчислений и нечетких множеств, объектно-ориентированного и логического программирования.

Научная новизна работы заключается в следующем:

1. Метод интеллектуальной обработки информации позволяет производить формализа-цию корпоративных документов на основе онтологий предметных областей и обеспечивает автоматизированное заполнение баз знаний в корпоративных хранилищах.

2. Алгоритмы интеллектуального поиска информации в корпоративных хранилищах отличаются использованием онтологий конкретных предметных областей, что позволяет повысить релевантность поиска и обеспечить адаптацию поисковой машины под информацион-ные потребности корпоративных пользователей.

3. Модели мультиагентной системы поиска информации (МАСПИ) и алгоритмы взаи-модействия интеллектуальных агентов, отличающиеся агентно-ориентированной интерпрета-цией алгоритмов семантического поиска информации, позволяют проводить распределенный поиск в гетерогенных средах КИС.

Область исследования. Работа выполнена в соответствии с паспортом специальности ВАК РФ 05.13.01 - Системный анализ, управление и обработка информации (по отраслям), пункты 1, 2, 4.

На защиту выносятся следующие результаты:

1. метод интеллектуальной обработки информации на основе онтологий предметных областей;

2. алгоритмы интеллектуального поиска информации в корпоративных хранилищах;

3. модели мультиагентной системы поиска информации и алгоритмы взаимодействия интеллектуальных агентов.

Практическая значимость исследования определяется тем, что:

1. Метод интеллектуальной обработки информации на основе логики Р. Монтегю позволяет проводить заполнение и использование многоцелевых информационных баз на основе неструктурированной текстовой информации, представленной средствами естественного язы-ка.

2. Разработанные алгоритмы позволяют осуществлять распределенный семантический поиск информации, что дает возможность повысить пертинентность ответов системы на за-просы пользователя.

3. Полученные модели МАСПИ позволяют реализовать гибкие и адаптив^ные системы поиска информации на предприятиях различных отраслей промышленности.

Реализация результатов исследований. Результаты диссертации получены в рамках гранта РФФИ №08-01-00457-а «Исследование фундаментальных проблем построения мультиагентных интеллектуальных систем» (2008-2009 гг.), выполнения работ по государственному контракту №02.740.11.0625 Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (2009-2013 гг.), гранта Правительства Вологодской области «Агентная система профилирования сетевых ресурсов для учебных заведений на основе онтологий» (2010 г.).

Результаты работы внедрены на заводе керамических строительных материалов ОАО «Соколстром» и ОАО «Сокольский целлюлозно-бумажный комбинат» в г. Сокол Вологодской области, а также используются в учебном процессе кафедры Информационных систем и технологий Вологодского государственного технического университета.

Апробация результатов работы. Основные положения работы были представлены на международных конференциях «Региональная информатика» (Санкт-Петербург 2006), «Научный сервис в сети Интернет: многоядерный компьютерный мир» (Новороссийск -2007), «Автоматизация машиностроительного производства, технология и надежность машин, приборов и оборудования» (Вологда - 2007), «Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования» (Вологда - 2008), восьмом и девятом Международном симпозиуме «Интеллектуальные системы» (Нижний Новгород - 2008, Владимир - 2010); всероссийских конференциях «Четвертая Всероссийской конференции студентов, аспирантов и молодых ученых "Искусственный интеллект: философия, методология, инновации"» (Москва - 2010), «Вузовская наука - региону» (Вологда - 2007, 2010), Всероссийская конференция по результатам проектов, реализованных в рамках целевых

программ «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (Москва 2010); региональной конференции «II ежегодные смотры-сессии аспирантов и молодых ученых по отраслям наук» (Вологда - 2008).

Результаты исследований докладывались на семинарах Вологодского регионального отделения Научного Совета РАН по методологии искусственного интеллекта.

Публикации. По теме диссертации опубликовано 15 печатных работ: 2 статьи в реферируемых изданиях, рекомендованных ВАК, 13 работ в материалах международных и всероссийских конференций.

1. Автоматический семантический анализ в текстовых информационных хранилищах

1.1 Подходы к поиску текстовой информации в сфере компьютерных технологий

Эффективность работы современного промышленного предприятия в информационном обществе зависит от скорости и качества удовлетворения потребностей в служебной информации каждого из сотрудников. Информационные хранилища корпоративных информационных систем (КИС) могут достигать огромных размеров, что сильно затрудняет поиск. Может сложиться ситуация, когда сотрудники разных подразделений одной организации просто не в состоянии будут использовать информацию из общего хранилища. Основные причины этого: различие используемой терминологии и специфическая структура хранимой информации. Возникает парадоксальная ситуация, когда пользователь имеет доступ к информации, но не может ее получить. Поэтому всё более актуальными становятся разработки средств им методов информационного поиска информации в корпоративных информационных хранилищах.

Под понятием информационного поиска часто объединяют довольно разнородный набор действий по удовлетворению информационных потребностей. Стоит отметить, что любая информационная система должна иметь средства поиска введенной в нее информации, иначе ценность такой системы достаточно мала. При такой постановке вопроса любое взаимодействие с информационной системой предваряется процессом информационного поиска. Так прежде чем прочитать книгу в библиотеке нужно ее найти на полке, прежде чем посмотреть содержимое файла в компьютере, его нужно найти на устройстве хранения информации. Ценность информационной системы напрямую зависит от возможностей системы по информационному поиску. Обеспечение качественного информационного поиска являются необходимым (хотя и не достаточным) условием эффективности работы всей информационной системы в целом.

В сфере информационных технологий под информационным поиском (information retrieval) чаще всего понимают поиск в некоторой коллекции неструктурированных данных (чаще всего текстовых), которые удовлетворяют информационным потребностям лица, проводящего поиск [76].

Под неструктурированными данными понимают информацию, которая не имеет строгой семантической организации, подразумевающей быструю автоматическую обработку. В качестве примера структурированных данных можно привести реляционную структуру. Правильно спроектированная база данных подразумевает однозначную интерпретацию хранимых данных. Правила этой интерпретации определяются на этапе

проектирования реляционной структуры. Лишь небольшая часть данных, накопленных в КИС, хорошо структурированы. Поэтому разработка методов поиска неструктурированных текстовых данных в корпоративных хранилищах промышленных предприятий является достаточно актуальной.

Можно выделить несколько критериев классификации методов информационного поиска. Один из таких критериев масштаб применения. По масштабу применения поисковые системы можно разделить следующим образом (см. табл. 1).

Таблица 1.1

Вид поисковой системы Объем данных Распределенность / мультиформатность Пример

Персональные Минимальный -/- Поиск файлов в ОС

Проблемно-ориентированные Малый +/- Поиск статей по ИТ -тематике

Ведомственные Средний +/+ Поиск в базе патентов

Корпоративные Большой +/+ Поиск в информационных хранилищах предприятия

Системы веб-поиска Максимально возможный +/+ Любая поисковая веб-машина

Для промышленных предприятий необходимыми являются системы поиска начиная от персональных до корпоративных. Система должна иметь возможность масштабирования поисковых средств от одного компьютера конкретного пользователя до рамок всей корпоративной сети предприятия.

Другой вариант классификации - по способу поиска. Выделяют 2 вида поисковых систем - сканирующие и индексирующие. Первые производят поиск путем «перечитывания» данных. Вторые строят вспомогательную структуру - индекс, который сокращает время обработки запросов. Первые системы необходимы для поиска небольших постоянно меняющихся данных (например, файлы на компьютере). Большинство поисковых систем принадлежит к индексирующим системам. В КИС наиболее предпочтительным является индексирующий поиск в виду существенного ускорения поиска в больших массивах информации при использовании индекса.

Чаще всего поисковые системы классифицируют на основе поискового алгоритма, полученного в их основу. Основные виды поисковых систем по этому критерию следующие: 1) Двоичный поиск.

Поисковая машина определяет наличие/отсутствие слов запроса в целевом тексте. В качестве запроса используется список слов. В запросе допускается использование логических связок (AND, OR, NOT и т. д.) и уточняющих символов (например, показывающих, что данные слова должны встречаться в одном предложении или абзаце). Моделью индекса такой поисковой машины может служить матрица инцедентов (incidence matrix). Результаты поиска не сортируются или сортируются на основе внешних по отношению к поиску данных (например, по дате создания релевантных документов). Этот вид поиска появился одним из первых и до сих пор пользуется достаточно большой популярностью. Так в коммерческой поисковой машине Westlaw (http://www.westlaw.com/) по умолчанию используется именно двоичный поиск. И не смотря, на возможность использования «текстового» поиска, двоичным поиском пользуется достаточно большой процент пользователей системы. К достоинствам этого вида поиска можно отнести простоту реализации и использования, гарантированный и понятный результат обработки данных (пользователь всегда может понять, почему получит данный документ). Недостатки таких систем - это отсутствие ранжирования результатов по релевантности, необходимость точного выражения информационных потребностей, увеличение информационного шума (при использовании OR) или резкое сужение поисковых результатов (при использовании AND).

2) Частотный поиск.

Развитием идеи двоичного поиска можно считать частотный поиск. В этом случае учитывается частота встречаемости ключевых слов в целевых документах. Результаты сортируются на основе частоты встречаемости. До недавнего времени такой алгоритм использовали большинство поисковых машин. Очевидно, что этот вид поиска отличается от двоичного лишь дополнительной метрикой и принципиально не отличается.

3) Поиск по рубрикатору.

Рубрикатор может создаваться как вручную (идея социальных поисковых машин), так и автоматически. Когда речь идет об автоматическом создании рубрикаторов то говорят о кластеризации - объединении документов на основе сходства или поиск документов определенной тематики. Возможности такого поиска предоставляют, например, Yahoo и Rambler. Плюсами метода являются простота реализации, хорошая релевантность, удобство работы по средством выбора. Минусы - неполнота поиска и жесткая схема выбора.

4) Поиск по вопросу на естественном языке.

Второе название этого типа поисковых машин - вопросно-ответные системы. Пользователь вводит вопрос на естественном языке. А система находит не только релевантные документы, но и пытается ответить на поставленный вопрос. Примером таких систем могут служить Ask Jeeve, AskNet. Плюсом таких систем можно назвать то, что у пользователя создается

иллюзия общения и он формулирует тематическую и коммуникативную направленность в явном виде. Минусами можно назвать проблемы анализа косвенных или пространных вопросов (например, вопрос «почему») и большие проблемы, возникающие при организации уточняющего диалога.

5) Поиск на основе тезауруса или онтологий.

С переменным успехом был в разное время реализован на нескольких поисковых машинах (Infoseek, AltaVista, Yahoo). Как разновидность этого поиска можно рассматривать ограничение запроса по ключевым словам рубрикой классификатора (см. List, Yandex, Rambler). При этом запрос пользователя служит отправной точкой для определения информационной потребности пользователя, который расширяется дополнительными терминами. К плюсам таких систем можно отнести более полный охват информационных потребностей пользователя, чем в запросе по ключевым словам или по ЕЯ-запросу, сравнительную простоту реализации, обилие средств тематической фиксации. К минусам можно отнести дополнительные вычислительные затраты на расширение запроса и временные издержки, необходимость формирования различных тезаурусов и онтологий под определенные информационные потребности. Подобная система хорошо может себя зарекомендовать при организации поиска документов определенной тематики [48].

6) Поиск с учетом ссылочных характеристик.

Это реализация того же двоичного поиска, где в качестве весовой функции используется подсчет количества ссылок на ресурс. Это наиболее популярный на сегодняшний день вид поиска. Самая известная его реализация - алгоритм PageRank компании Google. Особенность этого метода является как его плюсом так и минусом. Известные страницы чаще содержат достоверную и интересующую пользователя информацию. Но обилие ссылок не всегда показывает, что страница может удовлетворить информационные потребности пользователя лишь на том основании, что на нее многие ссылаются. В результате часто интересующие пользователя страницы оказываются в середине или в конце списка результатов поиска.

Возможно выделение и других методов информационного поиска на основе используемого алгоритма.

Большинство описанных выше методов поиска подходят лишь для текстовой информации. К текущему моменту большие массивы информации представлены не в текстовом, а в иных форматах - графических, аудио и других форматах. Поисковых систем, работающих с данными представленными не в текстовом формате достаточно мало и развиты они слабо. Причин слабого развития поисковых систем, нацеленных на поиск данных в этих форматах (когда и запрос и результат представлены в одном формате, например в графическом) несколько. Основная причина состоит в том, что ключевая

информация, необходимая для распознавания, всегда хранится в текстовом виде. Не многие смогут узнать произвольную картину и мелодию (за исключением самых известных), если в текстовом виде не присутствует описание. Есть и другая причина - техническая. Она состоит в слабом развитии человеко-машинного интерфейса. Мы взаимодействуем с компьютером довольно ограниченными способами. Чтобы выразить информационную потребность у человека есть не много вариантов - выбрать из предлагаемого или написать, что именно он желает получить. Корни такого взаимодействия, скорее всего, кроются в повседневных способах передачи информации. Так, если требуется объяснить что-то другому человеку, то мы можем это или сказать (передать текстом) или показать (жестами, голосом, рисунком). При этом важнее всего именно текст т. к. и напев и рисунок без соответствующего пояснения текстом могут вызывать различные интерпретации. При появлении компьютера человек стал использовать самый простой и часто использующийся способ взаимодействия с ним - текстовый.

С дальнейшим развитием науки и техники возможно появление более развитых средств взаимодействия компьютера и человека, которых не было в предыдущей истории. Если появится возможность, например, передавать информацию напрямую из сознания в компьютер, то потребуются развитие видов поиска информации, работающих с информацией, представленной во многих видах, а не только в текстовом.

Стоит отметить, что большинство описанных выше методов - это то или иное расширение двоичного поиска. Все подобные методы можно назвать методами поиска по ключевым словам. Отсутствие ключевых слов в тексте приведет к тому, что документ будет отфильтрован в результате поиска. Присутствие ключевых слов приведет к неизбежному попаданию подобного документа в результирующую выборку. Подобное поведение часто оправдано, т. к. смысл текста выражается чаще всего именно определенным набором слов. Однако, практика показывает, что такая ситуация имеет место не всегда. Часто разные люди описывают одну и ту же ситуацию разными словами и стилем.

Существует множество методов оценки эффективности поиска [19]. Обычно в качестве оценки рассматривается релевантность ответов поисковой системы на запросы. Понятие релевантности было заимствовано из философских теорий и используется во многих направления науки. Под релевантностью объединяют множество различных показателей, выделяя различные виды релевантности.

Наиболее важной мерой является когнитивная релевантность (или пертинентность) -отношение, показывающее меру удовлетворения информационной потребности пользователя конкретным документом. Именно повышение пертинентности является наиболее важной задачей при разработке поисковой системы.

Количественно пертинентность П обычно рассчитывается следующим образом:

N

п = _™е. (1.1),

где А^перт - количество пертинентных документов, Кобщ - общее число документов. В виду того, что полезность документа может быть определена лишь непосредственно пользователем, то наиболее точную оценку 7Уперт получают экспертным путем [41].

1.2 Исследовательские системы семантического поиска информации

На основе п. 1.1 можно сделать вывод, что наиболее распространенные средства поиска информации в текстовых хранилищах на текущий момент не решают задачу полного удовлетворения информационных потребностей пользователя. Эта проблема наиболее актуальна для КИС, которые могут аккумулировать в себе большие объемы разнородной текстовой информации и должны обеспечивать доступ к этой информации для различных групп пользователей.

Рассмотрим перспективные системы семантического поиска информации [10]. Некоторые из них находятся в состоянии прототипов или применялись лишь для решения узкого круга задач. Однако при рассмотрении обратим внимание на принципы их функционирования для определения пригодности их применения для решения задач семантического поиска в КИС промышленного предприятия.

1.2.1 Система поиска и обработки информации \^еЬсотраз8

Основные цели функционирования системы ХУеЬсотраБЗ - это обеспечение пользователей набором средств поиска информации в сети Интернет, относящейся к сферам его интересов, а также кластеризация полученных наборов документов на основе их содержимого по определённым темам.

Система ,№еЬсотраз8 была разработана в 90-е годы, но основывается на агентно-ориентированной компонентной архитектуре. В рамках системы реализованы все основные процессы, необходимые для организации полномасштабного программного поиска и анализа информации. Система ориентирована в большей степени на опытных пользователей, которые хотят и могут сформировать формальное описание области своих интересов поиска. Основа системы - это коммуникационный центр, реализованный в рамках парадигмы многооконного интерфейса, характерной для офисных приложений, и система структурных редакторов для формализации информации о ПО (предметной области) поисковых запросов и управляющей информации.

Описание предметной области в Webcompass базируется на использовании таксономии понятий, связанных между собой отношениями типа is a, part of, has part, is a kind of и т. д. Существенным ограничением такого представления является то, что между понятиями не может быть больше одного отношения.

Запрос к системе Webcompass базируется на использовании сформированного самим пользователем описания ПО. Пользователь просто маркирует интересующие его темы, а система на основе таксономии понятий сама формирует запрос для поиска релевантной информации по выделенным темам.

Поиск в системе ведется по ключевым словам. Webcompass - метапоисковая система, поэтому сам поиск осуществляется на сторонних поисковых машинах, которые задаются списком. Возможно изменение списка поисковых машин и добавление адресов для поиска на FTP , в локальной сети, и других ресурсах. Система проверяет доступность всех найденных ссылок и генерирует на основе найденной информации краткое резюме документов, а также ранжирует найденные документы, на основе степени соответствия ресурса запросу пользователя. Среди других возможностей можно выделить формирование репозиториев результатов, наличие фонового режима поиска информацией.

Недостатком подобных систем является, как правило, слабая обучаемость агентов. Поэтому такие системы являются полезными инструментами при поиске информации в Интернете, но не могут сделать этот поиск полностью автоматическим и эффективным с точки зрения пользователя.

1.2.2 Система MARRI

Поисковая система MARRI создавалась для поиска web-страниц, относящихся к определенной предметной области. Система оперирует знаниями, представленными в виде множеств концептов и связей между ними (онтологий). Основное предположение авторов MARRI состоит в том, что относящиеся к ПО тексты состоят из значимых предложений, которые содержат фрагменты, подобные отношениям в онтологии предметной области. Система основана на агентной архитектуре. Условно агенты системы можно разделить на 2 вида: агенты сети и специализированные агенты. Агенты сети используют стандартные машины поиска для предварительного отбора текстов. Специализированные агенты проводят поверхностный анализ полученных документов, затем проверяют их на соответствие онтологическому тесту, возвращая пользователю лишь страницы, которые успешно прошедшие тест.

Онтологический тест проходит следующим образом. На первом этапе проводится морфологический и синтаксический анализ предложений текста, полученного от агентов

сети, и строится его синтаксическое дерево. На втором этапе определяется тип предложения (утвердительное, отрицательное и т. п.) и тип речевого акта, к которому относится это предложение. Дальнейший анализ проводится только с простыми утвердительными предложениями, имеющими структуру NP1 VP NP2 (здесь NP — именная группа, a VP — глагольная группа). Разработчики системы исходят из предположения, что структура знаний о ПО отражается в структуре предложений, описывающих целевые концепты. В том случае, когда предложение действительно описывает некоторый концепт, значимые для предметной области слова уже должны присутствовать в онтологии, на основе которой проводится тест. Можно сказать, что в случае успешного прохождения онтологического теста, анализируемый текст отображается на онтологию предметной области. Алгоритм осуществления теста следующий:

1) Именные группы отображаются на концепты онтологии, а глагольные группы - на роли.

2) В глагольной группе выделяется основной глагол (V). Если он отсутствует или его нельзя определить, то тест считается не пройденным.

3) В именной группе NP1 выделяется основное существительное (N). Если таковое отсутствует или не определимо, то тест считается не пройденным.

4) Проверяется наличие семантического отношения S между N и V. При этом возможны два положительных варианта. Первый - N и V связаны отношением S в онтологии. Второй отношением S связаны их подклассы. В противном случае тест считается не пройденным.

5) Аналогичная процедура осуществляется для NP2.

Система MARRI представляет собой сеть специализированных агентов следующих типов: агент обработки текста (Text Processing Agent), агент сети (Connection Agent), агент пользователя (User Agent), агент-брокер (Broker Agent). Агенты в данной системе обладают следующими свойствами:

• агент - это Java-nporpaMMa с собственным сетевым URL-адресом;

• взаимодействие агентов происходит на основе языка ACL (Agent Communication Language), функционирующего поверх протокола HTTP;

• агенты могут взаимодействовать с другими программными компонентами (броузерами, анализаторами ЕЯ, онтологическими БД и д. р.);

• агент имеет необходимые знания и может осуществлять вывод с целью определения доступности нужной страницы в Интернет, содержит ли страница информацию в виде текста и релевантен ли этот текст целевой ПО.

Интерфейсный агент (ИА) осуществляет взаимодействие с пользователем. Он помогает формулировать запросы и осуществляет отображение результатов поиска. ИА дает

пользователю возможность выбирать интересующую ПО, получает её из онтологической БД, и сообщает другим агентам сети о том, какая именно онтология будет использоваться.

Агенты сети (АС) подключаются по URL к запрашиваемой странице, осуществляют её считывание и анализ. АС умеет обрабатывать исключительные ситуации (например, недоступность страницы) и анализировать текст, извлеченный со страницы.

В системе MARRI существуют специальные агенты-брокеры: URL-брокер и HTML-брокер. URL-брокеры предназначены для «сопровождения» списков Интернет-адресов, поставляемых броузером, а HTML-брокеры запоминают полученные страницы и распределяют их между агентами обработки текста для дальнейшего анализа.

Агенты обработки текста преобразуют HTML-представление страницы в определенную структуру, с которой могут работать лингвистические компоненты системы. Результатом обработки текста является синтаксическое дерево, которое в дальнейшем должно отобразится на определенный фрагмент онтологии целевой ПО.

Особенностью системы MARRI является представление агентов автономными Java-программами с собственными сетевыми адресами, что предполагает их мобильность и/или распределенность по сети.

Прототип системы реализован на языке Java. Для тестирования его были разработаны две онтологии — одна в области электронной коммерции (около 200 элементов), а вторая — в области Интернет-безопасности клиентских приложений (около 450 элементов). В дальнейшем предполагается развитие этих онтологии и интеграция их с соответствующими онтологиями, уже существующими на других онтологических серверах.

1.2.3 Система OntoSeek

Система OntoSeek разработана для смыслового извлечения информации из доступных в Интернете «желтых» страниц и каталогов. Система использует механизмы поиска по содержанию, управляемые онтологией (ontology-driven content-matching mechanism), и мощный формализм представления.

Поисковая система OntoSeek базируется на следующих идеях:

• ресурсы на фазе кодирования описываются ограниченным числом ЕЯ-терминов;

• запросы не имеют терминологических ограничений за счет управляемого онтологией семантического отображения их на описания ресурсов;

• интерактивное взаимодействие с пользователем в процессе формулировки поискового запроса, его обобщения или конкретизации.

При создании системы разработчики старались учесть: - современные тенденции в области разработки Интернет-приложений;

- необходимость достижения высокой точности и приемлемой эффективности на больших массивах данных;

- важность хорошей масштабируемости системы и переносимости принимаемых проектных решений.

Система работает как с однородными, так и с гетерогенными каталогами продуктов. В системе О^оБеек представление запросов и описание ресурсов базируется на модификации концептуальных графов Дж. Совы, обладающих более мощными выразительными возможностями и гибкостью по сравнению с уже ставшими стандартными списками типа «атрибут-значение». При использовании концептуальных графов проблема контекстного отождествления редуцируется до управляемого онтологией поиска в графе. При этом узлы и дуги считаются сопоставимыми, если онтология «показывает», что между ними существует заданное отношение. Поскольку система базируется на использовании лингвистической онтологии, то узлы концептуального графа привязаны к соответствующим лексическим единицам, причем для этого должны выполняться определенные семантические ограничения.

На этапе планирования проекта было решено не разрабатывать собственную онтологию. Были проанализированы свободно доступные источники, и в качестве базовой онтологии выбрана онтология Зешш. Она обладает простой таксономической структурой, имеет объем около 50 ООО узлов, а главное, доступна для исследовательских целей в свободном режиме.

На этапе кодирования описание ресурсов конвертируется в концептуальный граф. При этом «поверхностные» узлы и дуги, отмеченные пользователем, с помощью лексического интерфейса отображаются в смыслы, заданные в словаре. Так «граф слов» транслируется в «граф смыслов». При этом каждому понятию «графа смыслов» сопоставляется соответствующий узел онтологии. После семантической валидации концептуального графа на основе использования онтологии он запоминается в БД.

Процесс поиска реализован следующим образом. Пользователь представляет свой запрос в виде концептуального графа, который проходит этапы устранения лексической неоднозначности и семантической валидации, а затем передается компоненте отождествления, работающей с БД. В БД происходит поиск графов, удовлетворяющих запросу и ограничениям, заданным в онтологии, после чего ответ представляется пользователю в виде НТМЬ-отчета.

Таким образом, использование онтологии для интеллектуальной работы с Интернет-ресурсами является в настоящее время темой исследований и практических применений. Задача семантического поиска не решена полностью ни в существующих поисковых

системах ни в перспективных прототипах таких систем. Поэтому необходимы разработка и рассмотрение новых подходов к проблеме информационного поиска текстовых данных в КИС.

1.3 Методы семантической обработки информации

Семантика занимается проблемой интерпретации, т. е. анализом отношений между знаками и обозначаемыми объектами, между словами и соответствующими им понятиями, а также изучает отношения между значениями простых знаков и значениями сложных знаков, составленных из простых. Например, отношения между значением слов и значением предложений, построенных из этих слов.

Изучение семантики предложения тесно связано с мышлением. Поэтому исторически первые попытки формализации методов работы с семантикой предпринимались в рамках логики. История возникновения и развития формальной логики тесно связана с такими науками как математика, лингвистика и философия. Термин "логика", введенный стоиками, обозначал словесное выражение мысли (logos). Именно в античной философии обозначился вопрос о соотношении мышления и языка. Язык рассматривается как инструмент для выражения мысли, а языковая система считается экспликацией системы мыслительной. Считалось, что имя выражает сущность обозначаемого им предмета, а структура речи отражает структуру мысли. Поэтому теория суждения основывалась на свойствах предложения, способного выражать истину. Многие ранние термины, применявшиеся греками к языку, имели единый логико-лингвистический смысл. Например, термин logos обозначал и речь, и мысль, и суждение, и предложение. [20]

В последующие столетия философы также занимались формальной логикой и сделали ряд новых открытий в этой области, но структура логики как науки, выработанная Аристотелем, по существу, не изменилась. Проблемы семантической интерпретации предложений также находились в сфере изучения логиков.

Фома Аквинский различал три вида универсалий: in re 'внутри вещи', post re 'после вещи' и ante re 'перед вещью'. Обозначаемое предложения он понимал как объединённые связкой значения субъекта и предиката. Им разграничивались первичное значение слова и его употребление в речи. Разграничению существительного и прилагательного служил логико-семантический критерий (выражение основного понятия и приписывания ему признака).

Привлекает внимание и решение лингвистических проблем в "Кратком своде основ логики" Петра Испанского (1210 или 1220—1277), понимавшего диалектику как искусство искусств и науку наук. Он относил грамматику, риторику и логику к речевым наукам. По его

мнению, логика занимается универсальными явлениями, а грамматика — особенностями отдельных языков. У знаков как терминов языка он выделяет первичные интенции (обозначение вещей) и вторичные интенции (выражение общих понятий). Значение определяется как сигнификация (представление вещи через условный голосовой звук), как суппозиция (употребление субстантивного термина вместо собственного имени в некоем контексте), как апелляция (отношение слова к реально существующему объекту); как указание на то, что сигнификация связана с понятийным содержанием, а суппозиция обнаруживает себя в индивидуальных примерах. Разграничиваются суппозиции общие, единичные, персональные, материальные[40].

Постепенно происходит выделение лингвистики в самостоятельную науку. При этом большее внимание ученых-лингвистов начинают занимать проблемы грамматики и синтаксиса, а не семантики. Проблемы соотношения понятий и смысла высказываний становятся объектом изучения логиков не с лингвистических, а с философских позиций.

Логику, порожденную античным миром, называют чаще всего "традиционной логикой". Отдельные значительные вклады в дальнейшее развитие формальной логики, сделанные, например, в конце XVII столетия Г. В. Лейбницем, практически не оказали влияния на ее традиционную форму. Лишь в середине XIX столетия началось бурное развитие этой науки. В этом отношении важнейшую роль сыграл Г. Фреге, которого считают создателем современной логики, а его труды сравнивают с трудами Аристотеля [20].

Фреге принадлежит ряд идей и понятий, вошедших в современную науку: истолкование понятий как логических функций, понятие значений истинности, введение и систематическое употребление кванторов, анализ понятия переменной и др. Фреге явился основоположником той части логической семантики, которая связана с понятиями значения и смысла языковых выражений и отношением обозначения (или именования) [43]. Широко известен так называемый «семантический треугольник» Фреге.

Историю развития логики в XX в. можно проследить по истории существующих семантик неклассических логик. Своим возникновением они обязаны пяти концепциям: семантике смысла и денотата Г. Фреге; теории объектов и пропозиций Б. Рассела; теории истины А. Тарского; семантике возможных миров С. Крипке; теории типов Б. Рассела и К. Айдукевича.

Семантика возможных миров Крипке позволила по-новому подойти к построению интенсиональной логики, что отразилось в логике Монтегю, интерпретируемой средствами окрестной семантики. Идеи Монтегю являются после логики смысла и денотата А. Черча вторым явным воплощением бикомпонентной семантики Фреге. Логика Монтегю использовала идеи логики смысла и денотата, построенной Черчем для формализации

семантики Фреге. Логическая грамматика Монтегю открыла новый этап в развитии философской логики и ее приложений. Ее инструментарий нашел свое применение за пределами логики, в частности в лингвистике и машинной обработке языков [22].

Отечественная теория модели «Смысл-текст» разрабатывалась начиная с середины 60-х годов XIX в. Специфической чертой данной системы является большая разработанность семантического компонента. Описание языка в этой модели устанавливает соответствие между смыслом и всеми текстами данного языка, выражающими этот смысл, т. е. язык рассматривается как система кодов, которая соответствует системе смыслов. Вводимый набор уровней представления имеет большее число ступеней по сравнению с ТГ: семантический, синтаксический, морфологический, фонологический и фонетический. Основу семантического уровня составляет семантическое представление (СемП); синтаксический же уровень содержит глубинно-синтаксическую структуру (ГСС) и поверхностно-семантическую (или просто синтаксическую) структуру (ПСС), описываемые в терминах дерева зависимостей. СемП содержит сеть, состоящую из минимальных единиц смысла, связанных между собой определенным набором отношений и некоторой коммуникативной информацией (например, она включает деление на тему — рему). Оригинальным является также аппарат лексических функций — метод описания лексических коррелятов слова, т. е. других слов, регулярно используемых с данным. Лексические функции описывают связь между семантическим представлением и явлениями грамматики [15].

Помимо большего внимания к механизмам семантического представления теория «смысл-текст» отличается вниманием к коммуникативной организации высказывания: такие категории, как тема и рема, эмфаза, могут быть представлены как на уровне семантического представления, так и в ГСС и ПСС фразы, на более низких уровнях они уже реализованы порядком слов, выбором лексики, специальными конструкциями (специфическая реализация зависит от языка).

Достоинства модели: полнота представления (все уровни — от семантического до фонетического); двунаправленность (анализ и синтез); развитость представления семантического уровня; оригинальный аппарат лингвистических функций; многоязычность; не порождающий характер.

Недостатки модели: высокая сложность построения семантического словаря; приоритетность синтеза (мощные средства перефразирования); высокоуровневость: отсутствие явных вычислительных формализмов.

Всё более внимание лингвистов второй половины 20 в. привлекают проблемы, связанные с исследованием семантической стороны языка. К 70-м гг. накопилась неудовлетворённость длительной ориентацией исследований в русле дескриптивной

лингвистики и генеративной лингвистики на описание языка, игнорирующее значение. Общим стало признание недостаточной адекватности традиционного подхода к языковому значению, отождествляющего его с универсальными и неизменными понятиями (при следовании принципам старой логики) или с изменчивыми представлениями (при обращении к принципам психологии). Была осознана ограниченность семантических представлений Г. Пауля и М. Бреаля, выделявших в качестве предмета анализа исторические изменения значений слов. Многие лингвисты отказывались принимать бихевиористскую трактовку значения (Л. Блумфилд) как того или иного физического предмета или действия, локализуемого во внеязыковом ряду.

Сперва лингвистическая семантика бурно развивалась как структурная лексикология (и структурная лексическая семантика) благодаря интересу структуралистов (или находящихся под влиянием их идей и методов анализа) к системным связям между лексическими единицами (и лексическими значениями), что нашло оформление в виде сложившихся независимо друг от друга теории лексических (семантических, лексико-семантических) полей и метода компонентного анализа значений группы взаимосвязанных слов, восходящего к применяемому в фонологии (а затем и морфологии) оппозиционному анализу. Вслед за тем возникла синтаксическая семантика, быстро занявшая в лингвистической семантике лидирующее положение. Её формирование обеспечили следующие стимулы: а) в первую очередь выдвижение генеративной трансформационной лингвистикой на приоритетное положение в языковой системе предложения, трактуемого в динамическом (процессуальном) аспекте; б) сильное влияние (частью опосредованное генеративной лингвистикой, но во многом и прямое) со стороны новой (формальной, реляционной) логики, особенно таких её разделов, как исчисление предикатов, семантическая логика, модальная логика и т.д.); в) успехи в области информатики, автоматического перевода, автоматической обработки текста, искусственного интеллекта; г) воздействие результатов исследований в лингвистике текста, функциональном синтаксисе, философии обыденного языка, теории речевых актов, теории деятельности, этнолингвистике, этнографии речи, конверсационном анализе, анализе дискурса, социолингвистике, психолингвистике и т.п.

В русле хомскианской порождающей трансформационной грамматики сложилась интерпретирующая семантика (Н. Хомский, Дж. Катц, Пол Постал, Джерри А. Фодор, Рей С. Джеккендофф). В их работах даются описание работы семантического компонента, который приписывает значения отдельным элементам глубинной структуры и выводит на основе специальных проекционных правил значение предложения в целом; описание значений элементарных символов в терминах семантических признаков (атомов значения); представление предложения как двухвершинной структуры (в соответствии с грамматикой

фразовых структур); движение от формальной структуры к семантической (в соответствии с принципами построения логических языков — сперва в их синтаксической части и затем в семантической части).

Трансформационная грамматика Хомского состоит следующих частей:

1. Уровень непосредственно составляющих состоит из правил вида АВ, где символ « —> » трактуется как операция подстановки. Например

S NP + VP,

NP —» Г + iV,

VP —> V + NP

T the

N -> boy, table

V -» stand,run

2. Трансформационный уровень составляют правила вида:

7¡ : Пусть Sl и S2 - грамматически верные предложения, а А и В - составляющие одного типа. Если 5, отличается от S2 только тем, что В находится в S2 в той позиции, где А находится в 5,, то S* - результат подстановки конструкции A and В в позицию А - есть грамматически верное предложение.

Т2 : Пусть S} - грамматически правильное предложение.

S1 —> NPX - Aux -V - NP2

Тогда грамматически верным будет и предложение S2 вида

S2 -> NP2 - Aux + be + en-V-by-NPX

Тъ : Правило состоит из трех подправил. i

Г, : С —» S в контексте NP. _

sin g

С —>0 в контексте NP

pi

С —> past

rt

Тг : Если Af - любой из аффиксов past, S, 0, en, ing, и v - любой неаффикс в

группе Verb (любой из элементов V , M, have, be), # - символ окончания слова, то

Af + v -» v + Af#

Тъ : Поставить символ # в начале и конце цепочек. Заменить + на # везде кроме контекста v-Af

3. На морфологическом уровне устанавливается фонемная структура морфем. Правила на этом уровне имеют вид: talk -> [tok] take + past —» [tuk] past —»[d] take —>[teyk]

Построение предложения начинается с правила S. Сначала применяются правила первого уровня, строится терминальная цепочка в виде последовательности морфем. Далее применяются правила второго уровня, которые могут изменить порядок следования морфем и добавить новые единицы. После этого применяются правила третьего уровня, превращающие последовательности символов в набор фонем.

Развитие теории трансформационной грамматики дало возможность учитывать дополнительную семантическую информацию о словах и решать задачи обнаружения семантических парадоксов, устанавливать семантическую равнозначность высказываний, записывать с помощью семантических компонентов значения генерируемых предложений.

Основной недостаток трансформационной грамматики в том, что она больше подходит для генераций текстов и предложений, а не их семантического анализа.

Изложенное направление операций в трансформационной грамматике не соответствует реальной последовательности этапов порождения высказывания говорящим, что и было учтено в ряде новых синтаксико-семантических теорий.

Оппозиционными по отношению к хомскианскому подходу явились следующие модели:

- синтаксико-семантическая модель У. Вайнрайха;

- генеративная семантика (Д. Лакофф, Д. МакКоли), объявившая глубинную структуру смысловой, трактуя её уже по существу как пропозициональную одновершинную структуру и предоставившая ей роль стартовой в порождении предложения, не разграничивая строго правила семантические и синтаксические;

- падежная грамматика (Ч. Филлмор), положившая в основу описания процесса порождения не модель НС с двумя вершинами, а модель зависимостей с одной вершиной — глаголом-предикатом и с дополнительным приписыванием каждому узлу определённой семантической роли (одного из универсальных глубинных падежей из ограниченного их инвентаря);

- семантически ориентированная теория порождения предложения У. JI. Чейфа. ознаменовались построением многочисленных иных концепций синтаксической семантики,

опирающихся как на одновершинные, так и двухвершинные модели (в нашей стране Ю.Д. Апресян, В.Г. Гак, Н.Д. Арутюнова, Е.В. Падучева, И.П. Сусов, В.Б. Касевич, Н. Ю. Шведова и др.).

Описание семантической структуры предложения может быть ориентировано:

а) на строение типовых онтологических ситуаций,

б) на субъектно-предикатную (предикационную) структуру (Н.Д. Арутюнова, Н.Б. Шведова)[1] и не всегда чётко от неё отграничиваемую структуру "тема — рема",

в) на пропозициональную (реляционную) структуру (Дж. МакКоли, Дж. Лакофф, Ч. Филлмор, У. Кук, Ф. Блейк, С. Староста, Ю.Д. Апресян, Е.В. Падучева, В.В. Богданов, В.Б. Касевич, В.Г. Гак);

г) на синтаксическую структуру предложения (Н.Ю. Шведова, A.M. Мухин).

В ряде исследований смысловая структура предложения моделируется с опорой на грамматические понятия и категории. Основным пафосом этих работ являются «поиски соотнесенности в предложении грамматических признаков с семантическими» [17]. Под типовым значением Г. А. Золотова понимает «смысловой результат предикативного сопряжения структурно-смысловых компонентов модели предложения». Изложенный подход опирается на мысль о том, что «названные типы отношений между явлениями действительности не могут существовать в языковом сознании иначе как в виде одной из данных языком синтаксических конструкций».

Основной задачей семантических разысканий в области синтаксиса предложения Н. Ю. Шведова считает определение собственного значения формально-синтаксических моделей. Согласно этой точке зрения, «грамматическая организация предложения [...] уже сама по себе является фактором, небезразличным для семантической структуры построенного по этой схеме предложения. Отвлеченные значения компонентов схемы и отношения между ними служат первоосновой семантической структуры предложения, представляя ее в максимально обобщенном виде»

В соответствии с этим общим взглядом «под семантической структурой предложения понимается его информативное содержание, представленное в абстрагированном виде как закрепленное в языковой системе соотношение типизированных элементов смысла».

Н. Ю. Шведова стремится изучать значение предложения, базируясь на собственно языковом материале, без обращения к структуре внеязыковой ситуации. Единицы каждого уровня языка, в том числе структурная схема предложения, обладают семантическим своеобразием, создаваемым, по мнению Н. Ю. Шведовой, взаимодействием в них категориального и конкретного значений.

К исследованиям семантики синтаксиса принадлежат и работы Е. В. Падучевой. Автор исходит из того, что «значение предложения складывается из значений лексем, грамматических значений словоформ и значений синтаксических конструкций». Поэтому «описание семантики синтаксиса должно быть тем компонентом описания языка, которое позволяет дополнить описание лексической и морфологической семантики до описания семантики предложения в целом». Е. В. Падучева ищет решение проблемы семантики синтаксиса посредством толкования семантически сложных конструкций, в которых связь между формой и смыслом не является очевидной, через более простые конструкции. Основное внимание автора обращено на изучение синонимических отношений между высказываниями, а также тех формальных преобразований, которые их соединяют. Синонимическому классу предложений соответствует одно предложение, записанное на языке смыслов и принимаемое за семантическое представление данного класса. В качестве «языка смыслов» автор пользуется тем естественным языком, который служит объектом описания.

Проблема выбора рационального способа представления семантической структуры предложения существенна для генеративного направления исследований, поскольку в порождающих моделях языка смысл сообщения составляет тот исходный материал, который поэтапно конвертируется в реальное высказывание конкретного языка

Сходную методику описания значения предложения можно встретить и в других концепциях. Так, И. П. Сусов, опираясь на денотативную основу предложения, описывает процесс формирования значения высказывания как постепенное «обрастание» простой абстрактной схемы «в результате «привязываемых» к ней операций новыми и новыми компонентами, пока она не становится сложным, «многоэтажным» образованием, более или менее полно удовлетворяющим коммуникативному намерению». Подобный подход к семантике предложения может быть охарактеризован как уровневый.[1]

Возможности синтаксической семантики расширяются за счёт добавления прагматического аспекта (коммуникативная, или иллокутивная, цель говорящего; прагматические аспекты пресуппозиции; построенная говорящим модель адресата; использование принципа речевого сотрудничества, или кооперации и т.п.) [40].

Толчок к развитию новых подходов дало развитие информационных технологий и ЭВМ. Существующие базы данных хранят большие массивы информации. Однако, эти знания часто не доступны «напрямую», т. к. для их извлечения часто следует просмотреть терабайты информации. Поэтому существуют средства для анализа больших объемов данных и получения из них знаний. Это направление получило название «добыча данных» (data mining). Но не все виды информации можно структурировать без потери информации.

Так текстовая информация достаточно плохо структурируется для обработки ее методами data mining. Поэтому существует специальное направление в data mining, занимающееся анализом неструктурированных текстов. Это направление получило название text mining. Под неструктурированными текстовыми данными понимается любой логически целостный текст без каких-либо ограничений на его структуру. Если для обработки data mining данные проходят специальную обработку (и чаще всего представляются в реляционном виде), то для процессов обработки текста характерно хранение текстов в двоичном виде. Основные задачи, решаемые на основе этого направления:

1. Классификация. Определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится (частным случаем задачи класиффикации является задача определения тематики документа).

2. Кластеризация. Автоматическое выявления групп семантически похожих документов среди заданного фиксированного множества. Группы формируются на основе парной схожести документов. При этом характеристики групп заранее не задаются.

3. Автоматическое аннотирование позволяет сократить текст, сохраняя его смысл. Входными параметрами кроме текста в этом случае являются количество извлекаемых предложений или процент извлекаемого текста по отношению ко всему тексту. Результатом является набор наиболее значимых предложений исходного текста.

4. Извлечение ключевых понятий - идентификация фактов и отношений в тексте. Чаще всего такими понятиями являются имена существительные и нарицательные: имена и фамилии людей, названия городов и организаций и т. д. Для решения этой задачи могут использоваться словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Чаще всего в процессе text mining выделяют ряд следующих шагов [4]:

1) Поиск информации (производится определение круга документов, которые должны подвергнуться анализу).

2) Предварительная обработка документов (удаление стоп-слов, синонимов, приведение регистра и т. д).

3) Извлечение информации (выделение ключевых понятий, над которыми будет производиться анализ).

4) Применение методов text mining (извлечение шаблонов и отношений, имеющихся в текстах).

5) Интерпретация результатов (представление результатов на естественном языке или в графическом виде).

Абстрагируясь от деталей реализации, можно сказать, что извлечение ключевых понятий представляет собой фильтрацию текста. В процессе фильтрации происходит выделение определенных термов в тексте. При таком выделении могут учитываться частотные характеристики слова или происходить применение шаблонов, которые представляют собой лингвистические варианты фактов.

Существует большое количество вариантов описанных выше задач и методов их решения. Основой методов data mining (в частности и text mining) служит кластерный анализ. Под кластерным анализом (КА) текстов будем понимать совокупность математических методов, предназначенных для формирования групп семантически «близких» документов. По смыслу КА является синонимом терминам «автоматическая классификация», «таксономия», «распознавание образов без учителя».

Часто кластеризация проводится не на полнотекстовых массивах, а на больших объемах данных представленных в текстовом виде. Большая часть информации о человеке хранится в базах данных именно в виде текста. Поэтому анализ текстовых данных представляет достаточно важную задачу в системах Интернет-торговли, социальных сетей и т. д. [35]

Как можно заметить из приведенного выше описания, существует множество довольно разных подходов к решению проблемы извлечения смысла текста. Условно все изложенные методы можно разделить на автоматические и автоматизируемые.

К автоматизированным методам можно отнести методы, в которых участие человека необходимо для достижения необходимого качества работы системы. Так, лингвистические методы обработки информации чаще всего без участия человека дают достаточно низкие результаты (к таким системам можно отнести, системы автоматизированного перевода). Компьютер в этом случае становится ассистентом специалиста-человека, облегчая его деятельность, но не выполняя ее самостоятельно.

К автоматическим методам можно отнести подходы data mining. Из всех методов семантического анализа, описанных выше, в сфере информационных технологий для анализа текстов естественного языка, шире всего применяются методы text mining. Эти методы автоматически выполняют поставленные перед ними задачи, получая от человека лишь необходимые параметры, описывающие результат (например, количество кластеров разбиения или количество предложений в результате автоматического реферирования). Причин тому несколько. Главная из них - хорошая формализация этих методов и простота реализации на языках программирования. Основа этих методов - различные методы подсчета и вычисления характеристик слов, предложений и других элементов. Очевидно, что такая технология наиболее просто реализуется на компьютере, т. к. компьютер - это прежде всего вычислитель.

Стоит отметить, что некоторую промежуточную позицию здесь занимают логические методы. С одной стороны, эти методы достаточно хорошо формализованы на уровне логического аппарата. Достаточно хорошо разработаны методы логического программирования, что дает возможности реализации систем семантической обработки информации на логической основе. С другой стороны, имеется ряд факторов, которые сильно сокращают применимость логических методов в информационных технологиях:

1. Большой объем памяти и операций, необходимый логической обработки информации.

2. Сложность реализации работы с символьными логическими данными.

3. Более высокий уровень профессионального мастерства инженера.

Первые два пункта на сегодня утратили свою актуальность. Современная персональная ЭВМ обладает достаточной мощностью для проведения логических символьных вычислений, использую для этого лишь малую часть своих вычислительных ресурсов. Второй фактор так же можно считать не актуальным, т. к. бурное развитие логики, происшедшее с момента создания первых компьютеров, позволило достаточно хорошо формализовать весь необходимый набор операций и методов работы.

Из представленных выше доводов наиболее серьезный - это третий. Нехватка квалифицированных и высококвалифицированных специалистов остро ощущается в современной сфере информационных технологий. Однако, стоит учесть, что системы семантического анализа - это «штучный» продукт, поэтому большого объема квалифицированных специалистов для реализации подобных задач не потребуется. А использовать готовые программные библиотеки и модули могут и программисты более низкой квалификации.

Существует довольно много плюсов использования логического подхода обработки текстовых знаний. Среди них следует выделить:

1. Простое распараллеливание единой задачи.

Так символьные формулы достаточно просто дробятся на подформулы. Выводимость подформул чаще всего можно проверять независимо друг от друга. Это свойство становится особенно важным в виду движения современной вычислительной техники в сторону многоядерности микропроцессоров и распределенной обработки данных.

2. Множественность решаемых задач на едином наборе знаний.

Логическое представление позволяет на едином наборе данных/знаний проводить различные операции. Так на одной базе могут функционировать поисковые системы, вопросно-ответные системы, системы распознавания образов и т. д.

3. Естественное объяснение результатов операций.

Логика формализует правила мышления, поэтому результаты набора логических операций достаточно легко интерпретируются и при достаточной дружественности пользовательского интерфейса могут пониматься пользователем. Так в логической поисковой системе можно показать с помощью каких умозаключений предлагаемый текст можно считать релевантным. Большинство существующих методов не дают такой возможности объяснения результата, т. к. наборы векторных и статистических данных, с которыми они работают, гораздо сложнее представить в виде доступном для неподготовленного пользователя. Это достаточно важное обстоятельство, т. к. опыт использования систем поддержки принятия решений показал, что пользователь чаще всего отвергает результат работы программы, если не может уяснить.

Все описанные выше направления изучения семантики вкладывали довольно разные понятия в словосочетание «смысл текста». Как показано выше, привлекательным кажется изучение смысла текста с позиций логики. Но текст не существует вне своего лингвистического выражения. Поэтому рассмотрение понятия «смысл» в лингвистике представляется также достаточно важным.

Термин "смысл" используется для обозначения довольно разнородных явлений, которые исследуются разными науками. В рамках данной работы акцент делается на смысле небольших по объему текстовых высказываний (сообщений).

Символическую логику интересует, с одной стороны, то постоянное, что сохраняется в результате синонимических преобразований как слов и словосочетаний, так и законченных предложений, с другой стороны - способы представления этого постоянного. Прежде всего, попытки семантической интерпретации информации в аспекте идей символической логики и логической семантики, связаны с созданием метаязыков, которые в той или иной мере моделирует содержательную сферу естественного языка, представляя её как различные варианты наборов имён и предикатов. Для отображения понятия смысла в логике часто используется семиотический, или семантический, треугольник (рис. 1.1).

Имя (номинация) обозначает, именует вещь (денотат) и выражает понятие о вещи (десигнат). Можно заметить, что в углах треугольников находится несколько терминов. Причина в том, что многие ученые занимались данной проблемой с разных сторон и вводили собственные понятия, отличающиеся лишь некоторыми оттенками смысла. Приближенно можно считать их синонимами..

Десигнат, сигнификат, интенсионал соответствуют смыслу, или значению знака в нашем сознании. Денотат, референт, экстенсионал обозначают тот предмет или ряд предметов "внешнего мира", который соответствует данному имени (знаку, слову, словосочетанию).

"Понятие" - не синоним "имени". "Понятие" и "имя" ("слово") принадлежат как бы двум разным "мирам". Имя как знак имеет два значения: смысл, или сигнификат, и референт, или денотат. Понятие же - это мысль, форма мышления. [20]

Знак Номинация Аналитическое

слово Слово

десигнат (Августин) означаемое (Ф. Соссюр) сигнификат (Ч. Моррис)

смысл (Г. Фреге) интенсионал (Р. Карнап) значение (У. Куайн)

денотат (Б. Рассел, А. Черч, У. Куайн) экстенсионал (Р. Карнап) референт (Ч. Огден, А. Ричарде)

содержание понятия объем понятия

Рис. 1.1 Семантический треугольник Фреге.

Лингвистику смысл интересует постольку, поскольку язык является средством его выражения. Ученые-лингвисты исследуют взаимоотношение выражаемого смысла как со значениями языковых единиц в языковой системе (соотношение понятийных категорий и языковых значений), так и с речевыми реализациями языковых единиц (соотношение выражаемого текстом смысла и формально-грамматической и семантической структур текста, образуемых чисто лингвистическими средствами). Лингвистику интересует не только смысл слов, словосочетании, предложений как языковых единиц, но и смысл конкретных речевых произведений, посредством которых осуществляются акты речевой коммуникации.

Для термина "смысл" можно выделить три области применения [45]:

1) смысл языковых единиц в языковой системе (слов, словосочетаний, клишированных оборотов), обеспечивающих разные способы представления денотата в тексте;

2) смысл конкретных высказываний;

3) "личностный смысл" - индивидуальная психологическая интерпретация как языковых единиц, так и конкретных высказываний в зависимости от личного опыта.

В данной работе рассматривается именно второй аспект понятия."смысл" - смысл конкретных речевых произведений, или текстов, - так называемая "мысль, выражаемая словами". Представленное определение смысла текста как «мысли, выраженной словами» не является ни строгим, ни вообще научным, т. к. не существует

однозначных определений ни языка, ни того, что принято называть "мыслью". Существуют различные определения смысла:

1) Смысл понимают как непрерывный невербальный конструкт, получающий воплощение в тексте.

2) Смысл текста прямо соотносят с отображаемыми в тексте экстралингвистическими процессами.

3) Смысл текста интерпретируют как психологическое.

4) Смысл текста видят в том общем, что остаётся неизменным при трансформациях.

5) Смысл текста определяют как сигнификативное отображение экстралингвистической ситуации, понимаемой как взаимодействие денотативных признаков обозначаемых в тексте объектов материального мира.

Следует отметить некоторый дуализм понятия «смысл». С одной стороны, смысл текста осознаётся как некий инвариант, остающийся неизменным при пересказе и переводе (субстанциональное понимание смысла - как некоей структурированной определённым образом субстанции, возможно, неязыкового характера, которая оформляется как текст по достаточно жёстким правилам, присущим тому или иному языку).

С другой стороны, смысл текста не имеет другого материального способа существования помимо текста и не существует вне конкретного языкового выражения. Он создаётся с помощью средств определенного языка с его национальной спецификой. Из этого можно сделать вывод, что смысл, будучи инвариантом межъязыковых, (и внутриязыковых) преобразований, существует вместе с текстом, а не как внешняя по отношению к тексту реалия.

Получается, что смысл текста одновременно и зависит и не зависит от той или иной системы языковых средств. С одной стороны, он не существует помимо текста, то есть вне языка. С другой стороны, будучи инвариантом межъязыковых и внутриязыковых преобразований, он существует как бы "сквозь" текст, именно помимо него. Т. е. основным становится вопрос - содержится смысл в тексте или нет? Нужно ли для извлечения смысла текста что-то кроме текста?

По результатам ответа на эти вопросы все существующие в настоящее время в лингвистической семантике школы сводят к двум основным направлениям. Эти два направления вслед за английским философом-логиком У. Куайном называют сильной (внешней) и слабой (внутренней) семантикой.

Сильная семантика по сути представляет собой вариант логической семантики -раздела логики, рассматривающего интерпретацию языков логических исчислений на той

или иной модели мира. Лингвистике идеи и аппарат формальной логики применяются для интерпретации выражений естественного языка. Следуя логической традиции, представители этого направления считают, что описать значение языкового выражения значит сформулировать правило, по которому можно установить, что соответствует этому выражению в действительном мире или в некоторой модели мира. Не случайно в исследовании проблем сильной семантики естественного языка наравне с лингвистами участвуют логики: У. В. О. Куайн, Д. Дэвидсон, С. Крипке, П. Стросон, 3. Вендлер. Самой влиятельной школой «сильной» семантики является формальная семантика, основанная на идеях американского логика Ричарда Монтегю. Основным объектом изучения и формальной семантике является значение предложения, отождествляемое с условиями его истинности относительно (модели) мира, а основной проблемой - проблема выводимости значения предложения из значений составляющих его слов. Хотя представители школ формальной семантики утверждают, что это учение не связано непосредственно с той или иной общетеоретической лингвистической парадигмой, но практически оно наиболее естественным образом вписывается в генеративную лингвистику Н. Хомского, обеспечивая семантическую интерпретацию синтаксическим структурам, порождаемым синтаксическим компонентом, который традиционно занимает центральное место в генеративной грамматике. Формальная семантика распространена в основном в США, Германии и Нидерландах. К этой школе принадлежат Д. Льюиз, Б. Парти, 3. Кинен, X. Камп, И. В нашей стране «сильная» семантика представлена прежде всего исследованиями Е. В. Падучевой по теории референции. Существенный вклад в разработку проблем референции внесли также Н.Д.Арутюнова, Т.В.Булыгина, А. Д. Шмелев и некоторые другие лингвисты, участвующие в работе организованного Н. Д. Арутюновой при Институте языкознания РАН постоянно действующего семинара «Логический анализ языка».

Слабая семантика считает значения языковых выражений ментальными сущностями, принадлежащими не описываемому миру, а сознанию человека. Языковые значения - это не фрагменты мира, а способ их представления, отражения в сознании. Для того, чтобы выявить этот способ представления, недоступный непосредственному наблюдению, нет необходимости обращаться к самому миру или его модели. Достаточно исследовать отношения между языковыми выражениями внутри самого языка, устанавливаемые носителями этого языка без учета соотнесенности с действительным или воображаемым миром - синонимию, включение (следование), несовместимость (противоречие), - изучать особенности сочетаемости языковых выражений, ограничения, которые они накладывают на ситуацию их употребления и т.п. Одним словом, достаточно изучать внутриязыковые отношения и ограничения и на этой основе сопоставлять языковым выражениям их

семантические репрезентации - выражения на семантическом языке, на основе которых эти отношения и ограничения получали бы естественное объяснение. Таким образом, при данном подходе языковые выражения соотносятся не с миром, а с другими выражениями на том же самом или ином языке: они переводятся на семантический язык (транслируются в выражения на этом языке) и это оправдывает объединение некоторых школ в рамках данного направления под названием «трансляционная семантика». К указанному направлению можно отнести большинство семантических школ, теорий и конкретных исследований и у нас, и за рубежом. Это и широко известная семантическая теория Дж. Катца и Дж. А. Фодора. В рамках данного семантического направления в нашей стране в 60-е гг. при Лаборатории машинного перевода МГПИИЯ сложилось объединение лингвистов, впоследствии получившее название Московской семантической школы, которая быстро приобрела мировую известность и последователей в других странах. В нее входят Ю.Д.Апресян, И.А.Мельчук, А.К.Жолковский, Н.Н.Леонтьева, Ю. С. Мартемьинов, 3. М. Шаляпина и целый ряд других лингвистов, участвовавших в разработке упоминавшейся выше интегральной модели «Смысл - Текст». Особое место в рамках направления, трактующего значение как ментальный феномен, занимает когнитивная семантика, в основе которой лежат некоторые ключевые идеи когнитивной психологии - раздела психологии, изучающего процессы, связанные с познанием мира человеком: процессы получения, хранения и обработки информации. Главным отличием этого подхода от других является стремление «согласовывать свои объяснения человеческого языка с тем, что известно об уме и мозге как из других дисциплин, так и из лингвистики. Возникнув в США, когнитивная семантика приобрела сторонников во многих других странах. Наиболее известными представителями этого течения являются американцы Дж.Лакофф, Ч.Филлмор, М.Джонсон, Р.Лангакер, Л.Талми. В России идеи когнитивной семантики в последнее время развивают в различных областях Р. М.Фрумкина, Е.С. Кубрякова, Е. В. Рахилина, А. Н. Баранов, Д.О.Добровольркий и целый ряд других исследователей [29].

Интересной представляется модель смысла, предлагаемая в [45]. Чтобы отразить дуалистичность смысла, предлагается рассматривать смысл текста как заложенный в текст автором (далее О) комплекс информации, который во всей полноте реализуется в сознании получателя (далее П) при взаимодействии текста со знанием П о мире. Смысл текста предлагается рассматривать не как некоторую упорядоченную совокупность языковых единиц, но как такую их совокупность, которая, при взаимодействия со знанием П, продуцирует в его сознании отображение некоторого сегмента реальности, которое соотносится с этим сегментом по определённым параметрам.

Если же в знании П нет тех сведений, которые отсутствуют в речевом отрезке и которые необходимы для соотнесения отображения с реальностью, этот речевой отрезок воспринимается в таком случае как языковая единица, не соотнесённая непосредственно ни с какой внеязыковой ситуацией.

Отображение реальности, продуцируемое текстом у П, является психическим переживанием П и имеет своим исходным моментом отображение, бывшее ранее психическим переживанием О. Это отображение не является зеркальной копией сегмента реальности, потому что оно создаётся человеком, который, воспринимая внеязыковую ситуацию как своё психическое переживание, во-первых, воспринимает её под своим собственным углом зрения, который может и не соответствовать истинному положению вещей; во-вторых, О может отобрать из своего собственного видения (психического отображения) ситуации только то, что именно ему представляется важным и существенным для коммуникации.

Поскольку психическое отображение реальности, продуцируемое текстом, имеет, таким образом, некоторые субъективные моменты, его нельзя рассматривать как модель этого сегмента реальности, в строгом смысле слова, ибо в отображении воспроизводятся не объективно, а субъективно существенные, с позиции О, свойства отображаемого. Это и не сама реальность, и не упорядоченный набор языковых единиц, моделирующий реальность. Это реальность, непосредственно воспринятая и субъективно оцененная О, зафиксированная в наборе языковых единиц и воспринятая П на фоне его собственного знания. Строго говоря, "ещё не высказанное" П и "уже усвоенное" О не могут быть идентичными, так как, судя по тому, что уже известно о взаимоотношении языка и мышления, язык не просто "перекодирует" готовую мысль, в текст, он некоторым образом принимает участие в её формировании.

Понимание смысла текста как продукта взаимодействия набора языковых единиц и знания включает в число смыслообразующих компонентов, помимо текста, ещё одно, и весьма существенное звено - уровень знания О, создающего текст, и уровень знания П, который принимает во внимание знание О при создании текста. Речь идёт не только о знании значений языковых единиц и правил их употребления , но и об уровне социального опыта коммуникантов, включающего, в частности, и знание языка, который должен быть относительно общим у О и П, чтобы обеспечить их взаимопонимание.

Два компонента взаимодействия - знание языка и знание о мире (то есть весь социальный опыт) обеспечивают двойственность, антиномичность смысла текста как инварианта, не зависящего от того, на каком языке он выражается, и в то же время зависящего от него, вне его не существующего.

Видим, что такое представление объединяет оба описанных выше направления в изучении семантики, т. к. с одной стороны использует ментальные представления, а с другой говорит о необходимости учитывать знания О и П. Такой подход позволяет говорить о возможности создания технической системы, производящей поиск информации на основе формализованных представлений пользователя о необходимом смысле разыскиваемого текста.

В качестве формального описания используем аппарат интенсиональной логики Р. Монтегю. Обладая всеми достоинствами подхода Хомского (строгая формализация и однозначность), используемый Монтегю подход отделяет интерпретацию в отдельный логический слой. Тем самым единый текст может по разному интерпретироваться в разных картинах мира разных пользователей [53, 54, 55].

Поисковая машина на основе логики смысла будет осуществлять обратный логический вывод определенного правила или заданного условия. Идея обратного логического вывода заключается в проверке справедливости (выводимости) гипотезы (некоторого факта или суждения), которая выдвигается пользователем в качестве запроса и проверяется компьютером в процессе вывода [6]. При этом стоит отменить, что для задачи семантического поиска мало применима двоичная логика, т. к. достаточно редко мы можем обнаружить текст, удовлетворяющий полностью поисковому запросу. Кроме того, при использовании двоичной логики становится неразрешимой дилемма сортировки результатов запроса относительно их релевантности.

Необходимо расширение двоичной логики до к-значной [13] или континуальной. У обоих этих видов логик есть свои преимущества и недостатки, к-значные логики проще реализуются, легко задаются. Кроме того, целочисленные операции менее ресурсоемки, чем операции с плавающей точкой. Однако континуальные логики более естественно отражают принадлежность текста нечетким критериям, которые может выразить пользователь в словесной форме. В качестве континуальной логики логично использовать нечеткую логику Л. Заде [16].

При таком подходе большое внимание следует уделять процессу формализации текстов (фактический, это процесс извлечения знаний из текстов) для дальнейшего вывода на этих данных. В зависимости от выбранного метода представления знаний будет подобран и конкретный алгоритм логического вывода [9].

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Летовальцев, Виктор Иванович

Выводы по главе 4

В данной главе описываются принципы и результаты практического применения алгоритмов семантического поиска и МАСПИ на их основе.

Алгоритмы семантического поиска, представленные в главе 2, требуют реализации атомарных функций обработки данных. Описание такой реализации даётся в виде представления табличных функций обработки синтаксического дерева. Функции взаимодействия с базой знаний реализуются на основе декларативного языка запросов. Приводятся примеры таких запросов для различных способов хранения и представления ключевых признаков.

Программная реализация указанных алгоритмов в виде МАСПИ требует целого комплекса дополнительных программных средств и библиотек. Описываются причины выбора библиотек и средств, а также реализуемая ими функциональность в рамках программного агента семантического поиска информации.

Представлены программные решения по реализации семантического поиска для двух промышленных предприятий Вологодской области. На ОАО «Соколстром» реализован персональный агент семантического поиска, а для ОАО «Сокольский ЦБК» предлагается более масштабное программное решение.

Производится сравнение БП поиска информации «до» и «после» внедрения агентного семантического поиска. На основе представленных результатов можно сделать вывод о том, что агент улучшает БП поиска информации как для новых, так и для опытных пользователей.

Список литературы диссертационного исследования кандидат технических наук Летовальцев, Виктор Иванович, 2012 год

Список источников

1. Арутюнова Н. Д. Предложение и его смысл. Логико-семантические проблемы. - М.: «Наука», 1976. - 383 с.

2. Артюгин M. Н. Развитие методологии сервисного подхода к управлению ИТ-подразделением предприятия на основе типовой модели деловых процессов: диссертация на соискание ученой степени канд. техн. наук :05.13.06 /М.Н. Артюгин. - Вологда, 2007. - 210 с

3. Ахо, А., Компиляторы: принципы, технологии и инструменты / А. Ахо, Р. Сети, Дж. Ульман. - М. : Издательский дом «Вильяме», 2001.

4. Барсегян А. А. Технологии анализа данных: Data Mining, Visual Mining, Text mining, OLAP /А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб. и доп. - СПБ.: БХВ-Петербург 2008. - 384 с.

5. Бах Э. Неформальные лекции по формальной семантике: Пер. с англ. / Под. ред. О. А. Митрофановой, О. В. Митрениной; Предисл. Б. Парти. -М.: Книжный дом «ЛИБРОКОМ», 2010.-224 с.

6. Боженюк А. В. Интеллектуальные Интернет-технологии / А. В. Боженюк, Э. М. Котов, А. А. Целых. - Ностов н/Д: Феникс, 2009 - 381 с.

7. Борщев В.. Лекции В. Partee. Интеграция логической и формальной (композиционной) семантики. [Электронный ресурс] Режим доступа: http://www.ksu.ru/ss/cogsci04/education/partee.php3

8. Буч. Г. Язык UML. Руководство пользователя. 2-е изд. / Г. Буч, Д. Рамбо, И. Якобсон, пер. с англ. Мухин H. - М.: ДМК Пресс, 2007. - 496 с.

9. Вагин В. Н., Головина Е. Ю., Загорянская А. А., Фомина М. В. Достоверный и правдоподобный вывод в интеллектуальных системах / Под ред. В.Н. Вагина, Д.А. Поспелова. — М.: ФИЗМАТЛИТ, 2004. — 704 с.

10. Гаврилова Т. А. Базы знаний интеллектуальных систем /Т. А. Гаврилова, В. Ф. Хорошевский - СПб.: Питер, 2000 - 384 с.

11. Гаскаров Д.В. Интеллектуальные информационные системы. Учеб. для вузов. - М.: Высш. шк., 2003.-431 с: ил.

12. Герасимова И.А. Формальная грамматика и интенсиональная логика / И. А. Герасимова - М.: РАН. Ин-т философии., 2000. - 156 с.

13. Горбатов А. В. Характеризационная теория синтеза функциональных декомпозиций в k-значных логиках. -М.: Издательство физико-математической литературы, ООО «Издательство ACT», 2000. - 336 с.

14. Добров Б.В. Онтологии для автоматической обработки текстов: описание понятий и лексических значений/ Б.В. Добров Н.В. Лукашевич //Компьютерная лингвистика и

интеллектуальные технологии: Труды международной конференции «Диалог 2006» М.: РГГУ, 2006. - 648 с.

15. Заболеева-Зотова. А. В. Лингвистическое обеспечение автоматизированных систем : учеб. пособие для студ. вузов, обучающихся по направлению "Информатика и вычисл. техника", спец. "Программное обеспечение вычисл. техники и автоматизированных систем" / А. В. Заболеева-Зотова, В. А. Камаев. - М.: Высшая школа, 2008. - 244 с.

16. Заде Л. Лингвистическая переменная М.: Физматлит, 1972

17. Золотова Г. А. Очерки функционального синтаксиса русского языка. - М: Наука, 1973.- 351 с

18. Костров А. В., Александров Д. В. Уроки информационного менеджмента. Практикум: Учеб. пособие. - М.: Финансы и статистика, 2005. - 304 е.: ил.

19. Кураленок И. Е. Оценка систем текстового поиска : диссертация на соискание ученой степени канд. физ.-мат. наук : 05.13.01 / И. Е. Кураленок - Санкт-Петербург, 2004. - 112 с.

20. Лагута О. Н. Логика и лингвистика / Новосиб. гос. ун-т. Новосибирск, 2000. 111 с.

21. Летовальцев В. И. Сервер предоставления лингвистических услуг // Молодежь и высокие технологии: материалы всероссийской студенческой олимпиады (конкурс компьютерных программ). - Вологда: ВоГТУ, 2007 С. 71-73

22. Микиртумов И. Б. Теория смысла и интенсиональная логика. - Спб.: Изд-во С.-Петерб. ун-та, 2006. - 351 с.

23. Набор элементов метаданных Dublin Core (Дублинского ядра) Версия 1.1 [Электронный ресурс] / Режим доступа: http://www.rba.ru/rusmarc/soft/dc.html

24. Новиков Ф. А. Дискретная математика для программистов /Ф. А. Новиков. - СПб.: Питер 2002 - 304 е.: ил.

25. Ножов, И. М.. Реализация автоматической синтаксической сегментации русского предложения : дис. канд. техн. наук : 148 с.

26. Огрызков С. А. Построение орграфа по иерархической IDEFO-модели с целью последующего структурного анализа / С. А. Огрызков // Автоматизация машиностроительного производства, технология и надёжность машин, приборов и оборудования: материалы 2-й международной научно-технической конференции, в 2 т. Том 2. - Вологда: ВоГТУ, 2006. - 259 е.: ил. - С. 136-139.

27. Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект. [Электронный ресурс] / В.Н. Поляков. - М.: МГЛу, 2000. - Режим доступа: http://themis.geocities.yahoo.com/themis

28. Сайт для просмотра предыдущих версий веб-страниц WayBackMachine [Электронный ресурс]//Режим доступа: http://waybackmachine.org/.

29. Сайт «Лингвистическая семантика». Электронный ресурс [Режим доступа]: http://semiot.ru/

30. Сайт компании Autonomy [Электронный ресурс] / Режим доступа: http://www.autonomy.com

31. Сайт компании Russian Context Optimizer Электронный ресурс] / Режим доступа: http://www.rco.ru/

32. Сайт предприятия ОАО «Соколстром» [Электронный ресурс] / Режим доступа: http://www.sokolstrom.com/

33. Сайт предприятия ОАО «Сокольский ЦБК» [Электронный ресурс] / Режим доступа: http://www.sokolmill.ru/

34. Сайт разработчиков библиотеки iText [Электронный ресурс] / Режим доступа: http ://itextpdf. com/

35. Сегаран Т. Программируем коллективный разум.- СПб.:Символ-Плюс, 2008. - 368 с.

36. Семенов М. И. Автоматизированные информационные технологии в экономике /М. И. Семенов, И. Т. Трубилин, В. И. Лойко, Т. П. Барановская; под общ. Ред. И. Т. Трубилина. - М.: Финансы и статистика, 2000 - 416 с.

37. Сокирко A.B. Морфологические модули на сайте www.aot.ru // Диалог'2004: тр. Междунар. конф. М.: Наука, 2004.

38. Сокирко A.B. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ): диссертация. - Режим доступа : http://www.aot.ru/docs/sokirko/sokirko-candid-l.html

39. Суконщиков А. А. Информационные сети и телекоммуникации. Часть 1: Учебное пособие / А. А Суконщиков, Ю. А. Головин - Вологда: ВоГТУ, 2003. - 151 с.

40. Сусов И.. П. История языкознания. - Тверь: М.: Восток - Запад, 2006 - 295 с.

41. Терехов А. А. Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах: диссертация на соискание ученой степени канд. техн. наук :05.13.17 / А. А. Терехов - Москва, 2010. - 165 с.

42. Флэнаган Д. Java в примерах. Справочник / Д. Фленаган - СПб.: Символ-плюс, 2003 -664 с.

43. Философский словарь /Под ред. И.Т. Фролова. - 4-е изд.-М.: Политиздат, 1981. - 445 с.

44. Холзнер С. XML. Энциклопедия. /С. Холзнер - СПб.:Питер, 2004. - 1101 с.

45. Черняховская Л. А. Информационный инвариант смысла текста и вариативность его языкового выражения: дис. докт. фил. наук. - М, 1983.

46. Швецов А. Н. Агент информационного поиска документов на основе отологий/ А. Н. Швецов, В. И. Летовальцев, И. О. Кошелев // X Санкт-Петербургская международная конференция «Региональная информатика 2006». - СПб СПОИСУ, 2006. - 318 с.

47. Швецов А. Н., Летовальцев В. И. Агентный семантический поиск в корпоративных информационных хранилищах / Автоматизация и энергосбережение машиностроительного производства, технология и надежность машин, приборов и оборудования. Материалы третьей международной научной-технической конференции В 2-х т. - Вологда: ВоГТУ, 2007.-Т. 2. С. 147-150.

48. Швецов А. Н., Летовальцев В. И., Агент семантического поиска информации на основе онтологий. //Научный сервис в сети Интернет: многоядерный компьютерный мир. 15 лет РФФИ: Труды Всероссийской научной конференции. - М.: Изд-во МГУ, 2007. - С. 295-299

49. Швецов А. Н., Летовальцев В. И. Агентная система учета трафика при организации доступа сотрудников в Интернет //Труды Восьмого международного симпозиума - М.: РУСАКИ, 2008. - С. 273-277.

50. Швецов А. Н., Летовальцев В. И. Объектно-реляционный маппинг как средство взаимодействия агентов с базами данных / Вузовская наука - региону: Материалы шестой всероссийской научно-технической конференции. В 2-х т. - Вологда: ВоГТУ, 2008. - Т. 1. С. 160-162.

51. Швецов А. В. Летовальцев В. И. Программная формализация естественного языка средствами формальной семантики // Программные продукты и системы №3, 2010 г.

52. Швецов А. Н., Летовальцев В. И. Сравнение агентного и сервис-ориентированного подходов к созданию распределенных приложений. //Информационные технологии в проектировании и производстве. - 2009. - №2. - С. 66-71.

53. Швецов А. Н., Летовальцев В. И. Смысловой поиск информации на основе формальной семантики. / Сборник тезисов Всероссийской конференции по результатам проектов, реализованных в рамках целевых программ «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 20072012 годы» в области информационно-телекоммуникационных технологий. - М: 2010, С. 87-89

54. Летовальцев В. И. Средства интенсиональной логики для проведения информационного поиска / Искусственный интеллект: философия, методология, инновации. Материалы Четвертой всероссийской конференции студентов, аспирантов и молодых

ученых. Часть 1, г. Москва, МИРЭА, 10-12 ноября 2010 г. Под ред. Д. И. Дубровского и Е. А. Никитиной - М.: «Радио и Связь», 2010 С 96 - 99

55. Швецов А. Н. Летовальцев В. И. Семантическая обработка текста на основе интенсиональной логики для проведения информационного поиска. / Интеллектуальные системы: Труды Девятого международного симпозиума / Под ред. К. А. Пупкова. - М.: РУСАКИ, 2010. С. 146-150

56. Швецов А. Н. Распределенные интеллектуальные информационные системы / А. Н. Швецов, С. А. Яковлев - СПб.: СПбГТУ «ЛЭТИ», 2003 - 318 с.

57. Швецов А. Н. Метаметодология построения мультиагентных интеллектуальных систем // Информационные технологии в проектировании и производстве / ФГУП «ВИМИ», 2010.-№>1.-С. 28-33

58. Янович. И. Логика устройства формально-семантических теорий. Лекции по устройству формальных языков. [Электронный ресурс]//Режим доступа: http://semanticsfall07.narod.ru/

59. Andrews W. MarketScope for Enterprise Search. 22 November 2010 [Электронный ресурс] / Режим доступа: http://www.gartner.com/technology/media-products/reprints/microsoft/vol 14/article9/article9 .html

60. Antoniou G. Semantic web primer 2nd ed./ G. Antoniou, F. van Harmelen, The MIT Press, 2008, 265 p.

61. Apache POI - the Java API for Microsoft Documents [Электронный ресурс] / Режим доступа: http://poi.apache.org/

62. Bellifemine F. Developing Multi-Agent Systems with JADE / F. Bellifemine, G. Caire, D. Greenwood, John Wiley & Sons Ltd, 2007, 287 p.

63. Church A. The Calculi of Lambda-conversion // Annales of Mathematics Studies 1941 Bd. 6. (второе издание 1951 г.)

64. Cormen Т. H. Introduction to algorithms. 3-rd edition / Т. H. Cormen, С. E. Leiserson, R. L. Rivest, C. Stein The MIT Press, 2009 r. 1312 p.

65. Foundation for Intelligent Physical Agents (FIPA) [Электронный ресурс] / Режим доступа: http://www.fipa.org/

66. Google Search Solutions for business [Электронный ресурс] / Режим доступа: http://www.google.com/enterprise/search/gsa.html

67. Gruber, Т. R., A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition, 5(2): 199-220, 1993.

68. Hebeler J. Semantic Web Programming / J. Hebele, M. Fisher, R. Blace, A. Perez-Lopez -Indianapolis: Wiley Publishing, Inc., 2009 - 650 p.

69. Hibernate. JBoss Community [Электронный ресурс] / Режим доступа: http://www.hibernate.org/

70. HyperSQL DB [Электронный ресурс] / Режим доступа: http://hsqldb.org/

71. ISO 639. Code for the representation of the names of languages. [Электронный ресурс] / Режим доступа: http://xml.coverpages.org/iso639a.html

72. JADE (Java Agent DEvelopment Framework) [Электронный ресурс] / Режим доступа: http://jade.tilab.com/

73. Jena - A Semantic Web Framework for Java [Электронный ресурс] / Режим доступа: http ://j ena.sourceforge.net/

74. Joseki - A SPARQL Server for Jena [Электронный ресурс] / Режим доступа: http ://www.j oseki.org/

75. Malik I., Majid I. Multi Paradigm Modelling and Simulation for Engineering Change Management using IDEFO, IDEF3, State Transition Petri Nets and Colored Petrin Nets- McGill University, 2005 - 45 p.

76. Manning C. D., Raghavan P., Schütze H., Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2008, 482 p

77. Microsoft Search Server Express [Электронный ресурс] / Режим доступа: http://www.microsoft.com/enterprisesearch/searchserverexpress/en/us/default.aspx

78. Montague R. English as a Formal Language. In Visentini, Bruno et al. (eds.) Linguaggi nella societä e nella técnica. Milan: Edizioni di Comunitá. 189-224. Reprinted in Montague (1974).

79. Montague, R.. The proper treatment of quantification in ordinary English. In Hintikka, K.J.J., Moravcsik, J.M.E., Suppes, P. (eds.) Approaches to Natural Language. Dordrecht: Reidel. 1973,221—242 p.

80. Notation3 (N3): A readable RDF syntax W3C Team Submission 28 March 2011 [Электронный ресурс] / Режим доступа: http://www.w3.org/TeamSubmission/n3/

81. Ovum report. Decision Matrix: Selecting an Enterprise Search Vendor (Decision Matrix) [Электронный ресурс] / Режим доступа: http://publications.autonomy.com/pdfs/Power/Analyst%20Reports/DMTC2395.pdf

82. Owens L. Market Overview: Enterprise Search September 2, 2011. Forrester Research, Inc [Электронный ресурс] / Режим доступа: http://vivisimo.com/docs/forrester_201 lreport.pdf

83. Passino К. М. Fuzzy Control /К. М. Passino S. Yurkovich. - Addison Wesley Longman, 1997 504 р.

84. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation [Электронный ресурс] / Режим доступа: http://www.w3.org/TR/rdf-schema/

85. Resource Description Framework (RDF) [Электронный ресурс] / Режим доступа: http://www.w3.org/RDF/

86. SPARQL Query Language for RDF. W3C Recommendation [Электронный ресурс] / Режим доступа: http://www.w3.org/TR/rdf-sparql-query/

87. SPARQL Update. A language for updating RDF graphs. W3C Member Submission 15 July 2008 [Электронный ресурс] / Режим доступа: http://www.w3.org/Submission/SPARQL-Update/

88. SWT: The Standard Widget Toolkit [Электронный ресурс] / Режим доступа: http://www.eclipse.org/swt/

89. The Dublin Core Metadata Initiative [Электронный ресурс] / Режим доступа: http://dublincore.org/

90. Turtle - Terse RDF Triple Language. W3C Team Submission 28 March 2011 [Электронный ресурс] / Режим доступа: http://www.w3.org/TeamSubmission/turtle/

91. XML Schema [Электронный ресурс]//Режим доступа: http://www.w3.org/XML/Schema

92. Web Ontology Language (OWL) Java [Электронный ресурс] / Режим доступа: http://www.w3 .org/2004/0WL/

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.