Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Арутюнян, Роман Эрнстович
- Специальность ВАК РФ05.13.11
- Количество страниц 170
Оглавление диссертации кандидат технических наук Арутюнян, Роман Эрнстович
Принятые обозначения и сокращения.
Введение.
Глава 1 Исследование и анализ методов и систем обработки текстовой информации и информационного поиска.
1.1 Исследование математических методов статистической обработки текстов
1.1.1 Признаки в задачах статистической обработки текстов.
1.1.2 Методы классификации текстов.
1.1.3 Методы информационного поиска текстовых документов.
1.1.4 Методы автоматической генерации запросов к ИПС.
1.2 Анализ программных средств информационного поиска и сбора информации в сети Интернет.
1.2.1 ИПС Интернет.
1.2.2 Интернет-каталоги.
1.2.3 Метапоисковые системы.
1.2.4 Индивидуальные поисковые агенты.
1.2.5 Системы Интернет-мониторинга.
Постановка задачи исследования.
Выводы.
Глава 2 Разработка моделей и методов получения и обработки документов.
2.1 Разработка модели информационной потребности при решении задачи информационного поиска.
2.1.1 Использование разделяющих гиперплоскостей при моделировании информационной потребности.
2.1.2 Пополнение знаний при помощи инкрементной модификации алгоритма SVM.
2.1.3 Представление категорий в виде иерархии.
2.2 Разработка модели контекстного представления документов.
2.3 Разработка метода формирования множества понятий предметной области.
2.4 Разработка метода классификации контекстных групп.
2.5 Разработка метода контекстного поиска документов.
2.6 Разработка метода автоматического формирования тематических запросов к ИПС.
Выводы.
Глава 3 Разработка архитектуры системы автоматизированного сбора информации.
3.1 Разработка программных компонентов системы и интерфейсов их взаимодействия.
3.2 Модуль управления.
3.3 Формирование потока документов.
3.4 Модули сбора информации.
3.4.1 Асинхронное взаимодействие модулей сбора информации.
3.4.2 Модуль формирования поисковых задач.
3.4.3 Модули формирования запросов.
3.4.4 Модули поиска.
3.4.5 Модули получения документов.
3.4.6 Модуль обработки документов.
3.4.7 Модули сохранения документов.
3.5 Модули вычислений.
3.5.1 Модуль уточнения параметров SVM.
3.5.2 Модуль обновления понятий предметной области.
3.6 Модули пользовательских интерфейсов.
3.6.1 Интерфейс администратора.
3.6.2 Главный интерфейс системы.
3.7 Организация хранения данных.
3.7.1 Главная база данных.
3.7.2 Подчиненные базы данных.
Выводы.
Глава 4 Практические аспекты реализации системы автоматизированного сбора тематической информации.
4.1 Использование архитектуры DCOM для реализации программных компонентов системы.
4.2 Реализация очередей и механизмов передачи данных.
4.3 Разработка хранимых процедур для работы с данными.
4.3.1 Хранимая процедура индексации.
4.3.2 Хранимая процедура информационного поиска.
4.4 Реализация алгоритмов обучения.
4.5 Реализация обработки документов.
4.6 Реализация пользовательских интерфейсов.
4.7 Экспериментальная оценка аспектов функционирования системы сбора информации.
Выводы.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле2006 год, кандидат технических наук Рябинков, Артем Иванович
Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации2009 год, кандидат технических наук Макаров, Сергей Львович
Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет2002 год, кандидат технических наук Амамра Рушди Ахмад
Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности2006 год, кандидат физико-математических наук Беляев, Дмитрий Владимирович
Введение диссертации (часть автореферата) на тему «Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет»
Актуальность темы. В последнее время в связи с бурным развитием компьютерной техники и телекоммуникационных технологий стала острой задача поиска информации. На сегодняшний день в электронном виде хранится огромное количество документов, руководств, описаний, инструкций, учебников, научных статей и много другой неструктурированной информации. Проблема нахождения среди такого объема информации нужной становится крайне важной и зачастую трудно решаемой без использования специальных средств, даже если область поиска ограничивается одним компьютером. Развитие сети Интернет еще более усугубило данную проблему, поскольку число документов, доступных посредством этой сети, огромно и продолжает постоянно расти.
В связи с этим в сети Интернет огромную популярность завоевали информационные системы, позволяющие различными способами обеспечивать нахождение требуемой информации и предоставление ее пользователю. Без них уже не представляется возможной работа во всемирной паутине. Такие средства поиска, как информационно-поисковые и метапоисковые системы Интернет, каталоги Интернет и индивидуальные поисковые агенты, а также системы Интернет-мониторинга, позволяют упростить различные аспекты решения этой проблемы. Однако, будучи применимыми для решения частных поисковых задач, существующие средства не обеспечивают решения комплексных задач.
Современные компании и корпорации испытывают сильную информационную зависимость. Расширение сферы услуг, разработка и внедрение новых технологий, а также выполнение текущих бизнес-задач тесно связано со сбором и обработкой различной информации. При этом важны такие аспекты данной проблемы, как максимальная полнота информационного массива, автоматизация процесса сбора информации, а также обеспечение средств навигации в ней. Архитектуры существующих программных средств нацелены на решение частных поисковых задач и позволяют осуществлять узкий поиск при непосредственном участии пользователя.
Таким образом, на сегодняшний день существует потребность в проработке целого ряда аспектов, касающихся функционирования систем информационного поиска, среди которых:
- автоматизация процесса информационного поиска;
- реализация комплексного подхода к решению задачи информационного поиска в сети Интернет, позволяющего задать всю область поиска и обеспечить ее уточнение в процессе работы;
- разработка средств информационного поиска, позволяющих находить документы в соответствии со смысловыми единицами, а не ключевыми словами;
- совмещение информационного поиска, оценки релевантности документов, а также полнотекстовой индексации и классификации найденных документов.
Областью исследования является организация распределенных систем, организация баз данных и знаний, разработка программных средств классификации данных, разработка методов анализа текста и средств поиска.
Предметом исследования являются архитектуры программных систем, базы данных, методы и программные средства классификации текстовых данных и поиска.
Цель исследования состоит в разработке архитектуры программной системы сбора информации в сети Интернет, позволяющей автоматизировать процесс информационного поиска в этой сети, обеспечивая возможность задания всей области поиска и нахождения документов в соответствии с ней, осуществляющей индексацию и классификацию найденных релевантных документов, а также содержащей средства навигации в сформированной базе данных с использованием методов поиска, позволяющих находить релевантные запросу документы, не содержащие его слов.
Задачи исследования. Для решения поставленной цели в диссертационной работе определены следующие задачи исследования:
- разработать масштабируемую распределенную архитектуру программной системы автоматизированного сбора информации в сети Интернет;
- разработать программные компоненты, осуществляющие получение документов из сети Интернет на основе информационной потребности пользователя и их обработку;
- разработать модель контекстного представления содержания текстовых документов, основанную на рассмотрении понятий предметной области и позволяющую решать задачи автоматического формирования поисковых запросов и информационного поиска;
- разработать архитектуру базы данных документов, позволяющую хранить всю необходимую для работы системы информацию, включая контекстный индекс документов и осуществлять поиск релевантных документов, не содержащих слов запроса;
- разработать метод автоматического формирования запросов к поисковым системам сети Интернет, позволяющий в соответствии с информационной потребностью пользователя создавать поток документов при помощи этих систем для дальнейшей обработки.
Методы исследования основаны на использовании теории распределенных систем, теории реляционных баз данных, теории информационно-поисковых систем и теории распознавания образов.
Научная новизна заключается в разработке нового подхода к вопросам организации систем информационного поиска в сети Интернет, позволяющего автоматизировать процесс поиска, задав информационную потребность иерархическим множеством категорий и обучив соответствующую модель на имеющихся документах. При этом распределенная архитектура разрабатываемой системы является масштабируемой и позволяет обеспечить высокую скорость обработки.
Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем автоматизированного сбора информации в сети Интернет.
Основные результаты исследований использованы при выполнении научно-исследовательских работ
- «Штиль-РИ» в ФГУП «Центр космических наблюдений» (г.
Москва);
- «Тракторист» в МТУ СИ (г. Москва);
Эстамп-С1» в ГНУ НИИ «Спецвузавтоматика» (г. Ростов-на-Дону).
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на IV Всероссийском Симпозиуме по прикладной и промышленной математике (Петрозаводск, 2003), X Всероссийской научно-методической конференции «Телематика-2003» (Санкт-Петербург, 2003), Научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ» (Ростов-на-Дону, 2003), III Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, 2003), Международной конференции «Распознавание-2003» (Курск, 2003), Всероссийской научно-практической конференции «Современные проблемы борьбы с преступностью» (Воронеж, 2004), Международной конференции «Интеллектуальные и многопроцессорные системы-2004» (Таганрог, 2004).
Авторство, новизна и полезность принципиальных технических решений защищены тремя свидетельствами об официальной регистрации программных продуктов.
Публикации. По теме диссертации опубликовано 24 печатные работы. Из них 8 научных статей, 13 тезисов докладов и три свидетельства об официальной регистрации программы для ЭВМ.
На защиту выносятся следующие основные положения:
1. Разработана масштабируемая распределенная архитектура программной системы автоматизированного сбора информации, совмещающая решение таких задач, как задание информационной потребности, нахождение по ней документов, их классификацию, индексацию, а также поиск в сформированной базе данных.
2. Разработаны программные компоненты, последовательно выполняющие задачу получения документов из сети Интернет в соответствии с предложенными этапами, такими, как формирование поисковых задач, формирование запросов, поиск документов, их загрузка, обработка и сохранение.
3. Разработана модель контекстного представления содержания текстовых документов, основанная на построении статистических моделей понятий предметной области, и позволяющая решать задачи автоматического формирования поисковых запросов и поиска.
4. Разработана архитектура базы данных документов, позволяющая хранить параметры моделей обработки, а также контекстный индекс, и осуществлять поиск релевантных документов, не содержащих слов запроса, на основе модели контекстного представления.
5. Разработан метод автоматического формирования запросов к поисковым системам Интернет, позволяющий создавать поток документов при помощи этих систем для последующей обработки в соответствии с заданной информационной потребностью.
Краткое описание работы. Диссертационная работа состоит из введения, четырех глав и заключения.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Информационно-поисковая система для разработки программного обеспечения систем автоматизации на основе паттернов проектирования2009 год, кандидат технических наук Бевзов, Алексей Николаевич
Моделирование и разработка средств и технологий поиска документальной информации2004 год, кандидат технических наук Голицына, Ольга Леонидовна
Алгоритмическое и программное обеспечение региональной системы контекстной рекламы в среде Интернет2008 год, кандидат технических наук Силич, Василий Викторович
Многоагентная система для поиска и обработки тематико-ориентированной информации2007 год, кандидат технических наук Карцан, Игорь Николаевич
Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах2010 год, кандидат технических наук Терехов, Алексей Андреевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Арутюнян, Роман Эрнстович
Выводы
1. В данной главе рассмотрены вопросы практической реализации разработанной архитектуры системы автоматизированного сбора тематической информации в сети Интернет с учетом разработанных математических методов и моделей получения, обработки и информационного поиска информации в сети Интернет. На основе разработанных архитектуры программного обеспечения и математических методов и моделей для демонстрации возможности реализации предлагаемых принципов была разработана программная системы сбора информации.
2. Рассмотрены вопросы реализации распределенной архитектуры с использованием библиотеки БСОМ, а также вопросы организации очередей и передачи информации между программными компонентами. Кроме того, описаны спецификации ХМЬ-строк, используемых для инкапсуляции и передачи данных.
3. Рассмотрены особенности реализации и алгоритмы работы хранимых процедур, предназначенных для выполнения задач индексации и информационного поиска. Эти хранимые процедуры размещаются на сервере баз данных и позволяют максимально эффективно осуществлять решение данных задач. Кроме того, приведены спецификации ХМЬ-параметров, передаваемых хранимым процедурам.
4. Рассмотрены вопросы реализации алгоритмов обучения системы, включающие разбивку задачи обучения на этапы, разработку множества классов, предназначенных для решения этой задачи. Кроме того, приведены алгоритмы создания множества понятий предметной области и обучения модели информационной потребности.
5. Представлены разработанные интерфейсные модули, предназначенные для взаимодействия различных групп пользователей с системой. Два интерфейсных модуля - модуль работы с документами и модуль администрирования - предоставляют функции по обучению системы, обеспечению возможности информационного поиска и настройки программных компонентов.
6. Приведены результаты проведенных экспериментов по формированию понятий предметной области, оценке скоростных характеристик системы, поиску информации и получению документов из сети Интернет, показывающие высокую точность разработанных методов и подтверждающие работоспособность представленной архитектуры.
Заключение
Диссертация посвящена разработке архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет, а также разработке математических методов и моделей нахождения этой информации и обеспечению расширенных механизмов доступа к ней. В процессе проведения диссертационного исследования были решены все поставленные задачи.
Для этого были проанализированы статистические методы обработки текстовых документов, включающие методы построения векторов признаков, методы классификации, информационного поиска, а также автоматического формирования запросов к ИПС. Были исследованы существующие программные средства информационного поиска в сети Интернет, такие как поисковые и метапоисковые системы, а также индивидуальные поисковые агенты и системы Интернет-мониторинга и выявлены присущие им недостатки, среди которых сложность формулировки правильного с точки зрения ИПС поискового запроса, возможность нахождения помощью ИПС лишь документов, содержащих слова запроса, необходимость активного участия пользователя в процессе поиска с помощью ИПС и индивидуальных поисковых агентов, включающего выполнение однообразных действий, применение несовершенных методов навигации в найденном множестве документов, отсутствие у существующих систем сбора информации возможности автоматического нахождения новых источников данных.
С учетом выявленных недостатков и актуальности выбранной темы исследования была поставлена цель диссертационного работы, которая заключается в разработке архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет, решающей указанные проблемы.
В соответствии с поставленной целью были поставлены и научные задачи исследования: разработать масштабируемую распределенную архитектуру программной системы автоматизированного сбора информации, разработать программные компоненты автоматической классификации документов на основе информационной потребности пользователя, разработать модель контекстного представления содержания текстовых документов, разработать архитектуру базы данных документов, позволяющую осуществлять поиск релевантных документов, не содержащих слов запроса, разработать метод формирования запросов к поисковым системам Интернет для получения новых документов.
Для решения поставленных задач был разработан ряд методов и моделей, среди которых модель информационной потребности пользователя, модель контекстного представления документов, метод классификации контекстных групп, метод формирования множества понятий предметной области, метод автоматического формирования запросов, а также метод контекстного поиска документов. Модель информационной потребности состоит в задании этой потребности иерархии категорий, каждой из которых ставится в соответствие разделяющая гиперплоскость в соответствии с моделью БУМ. Параметры этих гиперплоскостей уточняются в процессе обработки документов. Модель контекстного представления документов состоит в статистическом задании понятий предметной области при помощи вероятностных распределений на множестве словоформ. В соответствии с этой моделью текст документа разбивается на контекстные группы слов по принципу соседства в тексте. На этапе обучения происходит построение распределений, соответствующих понятиям предметной области, в соответствии с моделью формирования понятий. Она основана на кластеризации контекстных групп. Для определения меры содержания понятий предметной области в документах используется разработанный метод классификации контекстных групп, на которые документ предварительно разбивается. Для получения новых документов из сети Интернет был разработан метод автоматического формирования запросов к поисковым системам Интернет, использующий контекстные зависимости между словами запроса в соответствии с моделью контекстного представления. Информационный поиск в сформированной базе данных обеспечивается как при помощи механизмов поиска по ключевым словам, так и с использованием механизмов контекстного поиска.
Разработанная архитектура системы автоматизированного сбора тематической информации в сети Интернет основана на распределении программных компонентов, выполняющих получение и обработку информации по компьютерам локальной или глобальной сети, обеспечивая тем самым максимальную производительность. Задача обработки данных была разбита на этапы, выполнение которых осуществляется в различных программных компонентах. Взаимодействие между ними осуществляется при помощи объектов-очередей, выполняющих буферизацию промежуточной информации и обеспечение ее передачи. Разработанная распределенная архитектура включает модуль управления, модули сбора информации, модули вычислений, модули пользовательских интерфейсов, а также хранилища данных. Модуль управления предназначен для координации работы остальных компонентов системы, создания и удаления их, а также хранения объектных ссылок на них. Кроме того, модуль управления обеспечивает возможность подключения пользовательских интерфейсов. Модули сбора информации осуществляют получение документов из сети, их обработку, классификацию, фильтрацию и сохранение. Архитектура системы предусматривает следующие модули сбора информации: модуль формирования поисковых задач, модули формирования запросов к поисковым системам, модули поиска, модули получения документов, модули обработки документов и модули сохранения документов. Модули вычислений предназначены для выполнения трудоемких задач, таких как обновление параметров моделей классификации и контекстного представления. Разработанная архитектура предусматривает два таких модуля: модуль уточнения параметров SVM и модуль обновления понятий предметной области. Модули пользовательских интерфейсов предназначены для обеспечения взаимодействия конечных пользователей с системой. Предусмотрено два интерфейсных модуля: модуль работы с документами и модуль администрирования. Для хранения данных было разработано распределенное хранилище. Оно предусматривает два типа баз данных. Главная база данных, хранит общие настройки системы и параметры моделей, а также ссылки на подчиненные базы данных, хранящие документы и их индекс.
В работе также описаны вопросы практической реализации разработанной архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет. Система реализована на платформе Windows 2000/ХР с использованием архитектуры DCOM для создания распределенных объектов и MS SQL Server 2000 для хранения данных. Передача данных между компонентами осуществлялась с помощью системы MSMQ. Также были разработаны спецификации XML-документов, позволяющие осуществлять инкапсуляцию промежуточных данных в строки. Для осуществления взаимодействия с базой данных были разработаны и реализованы хранимые процедуры индексации и информационного поиска.
Был проведен ряд экспериментов, среди которых эксперимент по формированию множества понятий предметной области, эксперимент по оценке скоростных характеристик системы, поисковый эксперимент, а также эксперимент по сбору информации. В первых трех в качестве тестовых данных использовалась база текстов Reuters, содержащая новостные сообщения этой компании за 1996 год. Результаты проведенных экспериментов доказали работоспособность и высокую точность работы разработанной архитектуры, а также предложенных методов и моделей.
Список литературы диссертационного исследования кандидат технических наук Арутюнян, Роман Эрнстович, 2004 год
1. Аграновский A.B., Арутюнян Р.Э. Индексация массивов документов // Мир ПК, №6, 2003, стр. 49.
2. Аграновский A.B., Арутюнян Р.Э. Алгоритмы поиска и рубрикации текстовых документов // Телекоммуникации, №9, 2003 г., стр. 2-7.
3. Аграновский A.B., Арутюнян Р.Э. Способы индексации и поиска документов в интернет-порталах // Труды X Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2003, т.1, стр. 204-206.
4. Аграновский A.B., Арутюнян Р.Э. Метод ранжирования документов при поиске // IV Всероссийский Симпозиум по прикладной и промышленной математике, Петрозаводск, 2003, стр. 83-84.
5. Аграновский A.B., Арутюнян Р.Э. Навигация в архивах образовательных материалов // Тезисы докладов научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ», Ростов-на-Дону, 2003, стр. 20-23.
6. Аграновский A.B., Арутюнян Р.Э. Классификация текстов на дереве категорий // Информационные и телекоммуникационные системы: сетевые технологии. Дагинформ-2003: Материалы III Республиканской научно-практической конференции: Махачкала, 2004, стр. 51-53.
7. Аграновский A.B., Арутюнян Р.Э. Рубрикация текстов с помощью цепей Маркова // IV Всероссийский Симпозиум по прикладной и промышленной математике, Сочи, 2003, т. 10, вып. 3, стр. 591-592.
8. Аграновский A.B., Арутюнян Р.Э., Булаев В.В., Хади P.A. Рубрика: Система навигации по массивам документов. Версия 1.0 // Свидетельство обофициальной регистрации программы для ЭВМ № 2003611314/РОСПАТЕНТ- М., 29.05.2003.
9. Аграновский A.B., Арутюнян Р.Э., Булаев В.В., Хади P.A. DocMediaSearcher: хранение и поиск мультимедийных файлов. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2003611309/РОСПАТЕНТ М., 29.05.2003.
10. Аграновский A.B., Арутюнян Р.Э., Куликов JI.C. Метод контекстного представления при обработке текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 118-125.
11. Аграновский A.B., Арутюнян Р.Э., Куликов J1.C., Леднов Д.А.Система потоковой обработки текстовых сообщений. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2004611737/РОСПАТЕНТ М., 23.07.2004.
12. Аграновский A.B., Арутюнян Р.Э., Телеснин Б.А.Использование SQL для индексации и обработки текстовых документов // Информационные технологии, №5, 2004, стр. 14-19.
13. Аграновский A.B., Арутюнян Р.Э., Хади P.A. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации, №3, 2003 г., стр. 25-30.
14. Арутюнян Р.Э. Бинарная классификация документов // Интеллектуальные и многопроцессорные системы-2003. Материалы Международной конференции. Т.2. Таганрог: Изд-во ТРТУ, 2003, стр. 262-264.
15. Арутюнян Р.Э. Индексация текстов с помощью хранимых процедур // Научная мысль Кавказа, Приложение, №6 (60) 2004., стр. 127-130.
16. Арутюнян Р.Э., Куликов J1.C., Телеснин Б.А. Модульный принцип при разработке систем обработки текстовых документов // М: Машиностроение, Телекоммуникации, №6, 2004 г., стр. 6-11.
17. Арутюнян Р.Э., Пилиди B.C. Модель отложенной обработки текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 114-118.
18. Арутюнян Р.Э., Телеснин Б.А., Лазуренко И.П. Моделирование полноты обработки текстовых сообщений в режиме реального времени // Труды XI Всероссийской научно-методической конференции Телематика-2004, Санкт-Петербург, 2004, т. 1, стр. 147-148.
19. Арутюнян Р.Э., Хади P.A. Комплексный подход к поиску тематической информации в сети Интернет // Всероссийская научно-практическая конференция «Современные проблемы борьбы с преступностью»: Сборник материалов. Воронеж: ВИ МВД РФ, 2004, стр. 9-15.
20. Астанин С.В., Андриенко Е.В. Особенности архитектуры полнотекстового интеллектуального поиска // Труды XI Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2004., т.1, стр. 198-200.
21. Вентцель Е.С. Теория вероятностей // М.: Высшая школа, 2001. 576с.
22. Гарольд Э., Мине Е. XML. Справочник // Пер. с англ. СПб: Символ-плюс, 2002. - 576 с.
23. Гмурман В.Е. Теория вероятностей и математическая статистика // М.: Высшая школа, 2003. 479 с.
24. Дуда Р., Харт П. Распознавание образов и анализ сцен // Пер. с англ. -М.Мир, 1976.-511 с.
25. Заикин М.Ю., Адамович И.М., Земсков Д.В., Пешков А.Н. Поиск информации в Web. Язык описания поисковых машин // Системы и средства информатики, №13, Москва, «Наука», 2003 г., стр. 136-169.
26. Захаров В.П. Информационные системы (документальный поиск) // СПб.: Изд-во СПбГУ, 2002. 188с.
27. Захарченко А.Н. Обработка информации в комплексных системах мониторинга // Москва, 2001. 147 с.
28. Зацман И.М. Типология знаков и семиотика поиска // Системы и средства информатики, №11, Москва, «Наука», 2001 г., стр. 113-131.
29. Зацман И.М. Семиотическая аппроксимация и вербально-образное представление знаний в электронных библиотеках // Системы и средства информатики, №11, Москва, «Наука», 2001 г., стр. 149-167.
30. Кениг Э., My Б. Эффективное программирование на С++. Серия С++ In-Depth, т. 2 // Пер. с англ. М.: Издательский дом «Вильяме», 2002. - 384 с.
31. Козеренко Е.Б. Исследование семантическо-синтаксической структуры вербальных и вербально-графических компонентов полнотекстовых научных документов // Системы и средства информатики, №11, Москва, «Наука», 2001 г, стр. 202-212.
32. Конструирование распределенных объектов. Методы и средства программирования интероперабельных объектов в архитектурах OMG/CORBA, Microsoft/COM и Java/RMI. // Пер. с англ. М.: Мир, 2002. - 510 с.
33. Мейерс С. Эффективное использование STL. Библиотека программиста // СПб.: Питер, 2002. 224 с.
34. Москвин П.В. Азбука STL. // М.: Горячая линия-Телеком, 2003. 262с.
35. Мюллер Дж. Технология СОМ+: библиотека программиста // СПб.: Питер, 2002. 464 с.
36. Остерн М.Г. Обобщенное программирование и STL: Использование и наращивание стандартной библиотеки шаблонов С++ // Пер. с англ. СПб.: Невский Диалект, 2004 544 с.
37. Питц-Моултис Н., Кирк Ч. XML // Пер с англ. СПб.: BHV - Санкт-Петербург, 2000. - 736 с.
38. Саттер Г. Решение сложных задач на С++. Серия С++ In-Depth, т. 4 // Пер с англ. М.: Издательский дом «Вильяме», 2003. - 400с.
39. Таненбаум Э., ван Стен М. Распределенные системы. Принципы и парадигмы // СПб.: Питер, 2003. 877 с.
40. Фаулер М., Скотт К. UML. Основы // СПб.: Символ-Плюс, 2002. 192с.
41. Ahmed N., Liu Н., Sung К. Incremental Learning with Support Vector Machines // Proceedings of the fifth International Conference on Knowledge Discovery and Data Mining, ACM Press (1999), pp. 317-321.
42. Arutyunyan R.E. Common techniques and challenges of text categorization // РГУ, физфак, 2003, Федеральная целевая программа "Интеграция", 55-я студенческая научная конференция физического факультета, 22-29.04.2003, стр. 42.
43. Attardi G., Gulf A., Sebastiani F. Automatic web page с ategorization by link and context analysis // Proceedings of THAI-99, 1-st European Symposium on Telematics, Hypermedia and Artificial Intelligence, 1999, pp. 105-119.
44. Balabanovic M. An adaptive Web page recommendation service // Proceedings of the first international conference on Autonomous agents, California, United States, pp. 378-385.
45. Bauer Т., Leake D. Calvin: A multi-agent personal information retrieval system // Agent Oriented Information Systems 2002: Proceedings of the Fourth International Bi-Conference Workshop, 2002, pp. 67-74.
46. Bauer Т., Leake D. A research agent architecture for real time data collection and analysis // Proceedings of the Workshop on Infrastructure for Agents, MAS and Scalable MAS, 2001, pp. 171-178.
47. Berendt В., Hotho A., Stumme G. Towards Semantic Web Mining // ISWC 2002, LNCS 2342, Springer-Verlag Berlin Heidelberg, 2002, pp. 264-278.
48. Boley D., Gini M., Gross R., Han E. et al. Document Categorization and Query Generation on the World Wide Web Using WebACE // Artificial Intelligence Review, Volume 13, Issue 5-6, 1999, pp. 365-391.
49. Breunig M., Kriegel H., Kroger P., Sander J. Data bubbles: quality preserving performance boosting for hierarchical clustering // Proceedings of ACM SIGMOD International Conference, Santa Barbara, CA, 2001, pp. 91-102.
50. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine / / Computer Networks 30(1-7), 1998, pp. 107-117.
51. Burges C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery, vol. 2, 1998, pp. 121-167.
52. Chen L., Sycara K. WebMate: A personal agent for browsing and searching // Proceedings of the Second International Conference on Autonomous Agents, Minneapolis, United States, 1998, pp. 132-139.
53. Cortes C., Vapnik V. Support-Vector Networks // Machine Learning, v.20 n.3, Sept. 1995, pp. 273-297.
54. Craven M., DiPasquo D., Freitag D. et al. Learning to construct knowledge bases from the World Wide Web // Artificial Intelligence 118(1-2), pp. 69-113.
55. Cutting D., Pedersen J.O., Karger D., Tukey J. Scatter /Gather: A cluster-based approach to browsing large document collections. // Proceedings of SIGIR'92, Copenhagen, Denmark, June 21-24 1992, pp. 318-329.
56. Dhillon I.S., Fan J., Guan Y. Efficient clustering of very large document collections // Data Mining for Scientific and Engineering Applications, Kluwer Academic Publishing, 2001, pp. 12-31.
57. Dumais S.T., Chen H. Hierarchical classification of web content // Proceedings of the 23rd Int'l ACM Conf. on Research and Development in Information Retrieval (SIGIR), Athens, Greece, 2000, pp. 256-263.
58. Dumais S.T., Letsche A., Littman M.L., Landauer T.K. Automatic cross-language retrieval using latent semantic indexing // Proceedings of AAAI Spring Symposium on Cross-Language Text and Speech Retrieval, March 1997, pp. 124-133.
59. Furey T.S., Cristianini N., Duffy N., Bednarski D.W et al. Support vector machine classification and validation of cancer tissue samples using microarray expression data // Bioinformatics, vol. 16, 2000, pp. 906—914.
60. Goldszmidt M., Sahami M. A probabilistic approach to full-text document clustering // SRI Technical Report ITAD-433-MS-98-044, 1997.
61. Hofman T. Probabilistic latent semantic indexing // Proceedings of the 22-th International Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp. 50-57.
62. Hofman T. Learning the similarity of documents: an information-geometric approach to document retrieval and categorization // Advances in Neural Information Processing Systems 12, MIT Press, 2000, pp. 914-920.
63. Hofman T. Unsupervised Learning of Topic Hierarchies from Text Data // Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1999, pp. 682 687.
64. Hotho A., Maedche A., Staab S. Ontology-based text clustering // Proceedings of the IJCAI-2001 Workshop "Text Learning: Beyond Supervision", Seattle, USA, 2001, pp. 84-92.
65. Iwayama M., Tokunaga T. A probabilistic model for text categorization: Based on a single random variable with multiple values // Proceedings of the 4-th Conference Applied Natural Language Processing, 1995, pp. 37-56.
66. Joachimes T. Text Categorization with support vector machines: Learning with many relevant features // Technical Report 23, University of Dortmund, LS VIII, 1997.
67. Joachimes T. A probabilistic analysis of Roccio algorithm with td-idf for text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 79-86.
68. Joachims T., Freitag D., Mitchell T. Web Watcher: A Tour Guide for the World Wide Web // Proceedings of the 1997 IJCAI, August 1997, pp. 131-140.
69. Lewis D. Representation and learning in information retrieval // Phd Thesis, Department of Computer and Information Science, University of Massachusetts at Amherst, 1992.
70. Lewis, D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, 1992, pp. 37-50.
71. Lewis D., Knowles K. Threading electronic mail: A preliminary study // Information Processing and Management, 33(2):209217, 1997, pp. 45-54.
72. Lewis D., Ringuette M. A comparison of two learning algorithms for text categorization // Third Annual Symposium on Document Analysis and Information Retrieval, 1994, pp. 81-92.
73. Lewis D., Schapire R., Callan J., Papka R. Training algorithms for linear text classifiers // SIGIR '96: Proc. 19th Ann. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval. Konstanz, 1996. Hartung-Gorre Verlag, pp. 298306.
74. Li Y. H., Jain, A. K. Classification of text documents // The Computer Journal 41, 8, 1998, pp. 537-546.
75. Lieberman H. Autonomous interface agents // Proceedings of the SIGCHI conference on Human factors in computing systems, Atlanta, Georgia, United States, 1997, pp. 67-74.
76. Lieberman H., Fry C., Weitzman L. Exploring the Web with reconnaissance agents // Communications of the ACM, August 2001, pp. 69-75.
77. Marx Z., Dagan I., Shamir E. Detecting Sub-Topic Correspondence through Bipartite Term Clustering // Proc. of the Workshop on Unsupervised Learning in Natural Language Processing, 1999, pp. 45-51.
78. Nagy I., Nedoma P., Kârny M.: Factorized EM algorithm for mixture estimation // Artificial Neural Nets and Genetic Algorithms, New York, 2001, pp. 402405.
79. Pazzani M., D. Billsus D. Learning and Revising User Profiles: The identification of interesting web sites // Machine Learning, vol. 27, pp. 313-331.
80. Porter M.F. An algorithm for suffix stripping // Program, 14, no. 3, 1980, pp. 130-137.
81. Roussinov D., Chen H. Document clustering for electronic meetings: an experimental comparison of two techniques // Decision Support Systems, vol. 27, 1999, pp. 67-79.
82. Salton G. Mathematics and information retrieval // Cornell University,1978.
83. Salton G., Buckley C. Term weightening approaches in automatic text retrieval // Information Processing and Management, 24(5), pp. 513-523.
84. Salton G., Fox E., Wu H. Extended Boolean information retrieval // Cornell University, 1982.
85. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Cornell University, 1974.
86. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys (CSUR), Volume 34, Issue 1, 2002, pp. 1-47.
87. Somlo G., Howe A. Using web helper agent profiles in query generation // Proceedings of the second international joint conference on Autonomous agents and multiagent systems, Melbourne, Australia, 2003, pp. 812-818.
88. Sun A., Lim E. Hierarchical text classification and evaluation // Proceedings of the 2001 IEEE International Conference on Data Mining (IDCM 2001), California, USA, 2001, pp. 521-528.
89. Sunderic D. SQL Server 2000 Stored Procedure & XML Programming, Second Edition // McGraw-Hill, USA, 2003.
90. Sycara K., Pannu A, Williamson M., Zeng D et al. Distributed intelligent agents // IEEE Expert: Intelligent Systems and Their Applications, Volume 11 , Issue 6, 1996, pp. 36-46.
91. Taneja I., Pardo L., Morales D., Mendez M. On generalized information and divergence measures and their applications: A brief review // Questiio, 13, pp. 47-73.
92. Theodoridis S., Koutroumbas K. Pattern Recognition //. Elsevier Science (USA), 2003.
93. Tzeras K., Hartmann S. Automatic indexing based on Bayesian inferencetlinetworks // Proceedings of SIGIR-93, 16 ACM International Conference on Research and Development in Information Retrieval (Pittsburgh, US, 1993), 1993, pp. 22-34.
94. Witten I.H., Bell T.C. The zero-frequency problem: estimating the probabilities of novel events in adaptive text compression // IEEE Transactions on information theory, Vol. 37, No. 4, 1991, pp. 80-88.
95. Wu C.F. On the convergence properties of the EM algorithm. // The Annals of Statistics, vol. 11, 1983, pp. 95-103.
96. Yang Y. An evaluation of statistical approaches to text categorization // Technical Report CMU-CS-97-127, Carnegie Mellon University, 1997.
97. Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of the 22-nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 42-29.
98. Yang Y. Pedersen J. A comparative study on feature selection in text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 113-121.
99. Yang Y., Wilbur J. Using corpus statistics to remove redundant words in text categorization // Journal of the American Society for Information Science, 47(5), 1996, pp. 357-369.
100. Zelikovitz S., Hirsh H. Using LSI for Text Classification in the Presence of Background Text // Proceedings of CIKM-01, 10 ACM International Conference on Information and Knowledge Management, ACM Press, New York, US, 2001, pp. 113118.
101. Использование полученных результатов позволило обеспечить поиск и получение документов в сети Интернет в автоматическом режиме.1. Председатель комиссии1. Члены комиссии2004 г.1. Аджемов С.С.1. Негрозов Е.А.1. Селиванов В.А.1. УТВЕРЖДАЮ»
102. Заместитель Главного конструктора ФГУП "Цент!м1. Начальник отдела1. УТВЕРЖДАЮ»1 ¥ .•ог-и»*/№об использовании результатов диссертационной работы Арутюняна Р.Э.
103. Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет» при выполнении НИР «Эстам п-С 1»
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.