Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях тема диссертации и автореферата по ВАК РФ 05.13.13, кандидат технических наук Свечников, Сергей Владимирович

  • Свечников, Сергей Владимирович
  • кандидат технических науккандидат технических наук
  • 2008, Москва
  • Специальность ВАК РФ05.13.13
  • Количество страниц 157
Свечников, Сергей Владимирович. Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях: дис. кандидат технических наук: 05.13.13 - Телекоммуникационные системы и компьютерные сети. Москва. 2008. 157 с.

Оглавление диссертации кандидат технических наук Свечников, Сергей Владимирович

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СРЕДСТВ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ РЕСУРСОВ ИНТЕРНЕТА.

1.1 Необходимость создания систем тематического анализа.

1.2 Технологии, используемые для автоматического анализа интернетресурсов и управления доступом к ним.

1.2.1 Системы контентной фильтрации.

1.2.2 Программные средства анализа и категоризации текстов.

1.3 Модели поиска и методы тематического анализа текстовой информации

1.3.1 Модели поиска.

1.3.2 Методы тематического анализа.

1.4 Выводы и постановка задачи исследования.

ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМИЧЕСКИХ РЕШЕНИЙ ДЛЯ АНАЛИЗА И КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.

2.1 Модификация векторной модели представления интернет-ресурсов.

2.1.1 Индексация интернет-ресурсов.

2.1.2 Автоматическая категоризация интернет-ресурсов.

2.1.3 Оценка качества категоризации.

2.2 Методика составления тематических профилей.

2.3 Сбор и обработка контента интернет-ресурсов.

2.4 Выводы по главе 2.

ГЛАВА 3. ПРОЕКТИРОВАНИЕ СИСТЕМЫ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ ИНТЕРНЕТ-РЕСУРСОВ.

3.1 Особенности архитектуры системы.

3.1.1 Требования для работы системы.

3.1.2 Структура системы.

3.2 Подсистема «Поиск новых сайтов».

3.2.1 Общее описание функционирования подсистемы.

3.2.2 Описание функций задач и связей между ними.

3.3 Подсистема «Ведение информационных ресурсов».

3.3.1 Общее описание функционирования подсистемы.

3.3.2 Описание функций задач и связей меэюду ними.

3.4 Подсистема «Обход сайтов».

3.4.1 Общее описание функционирования подсистемы.

3.4.2 Описание функций задач и связей между ними.

3.5 Подсистема «Категоризация сайтов».

3.5.1 Общее описание функционирования подсистемы.

3.5.2 Описание функций задач и связей между ними.

3.6 Подсистема «Контроль и настройка процедуры классификации».

3.6.1 Общее описание функционирования подсистемы.

3.6.2 Описание функций задач и связей между ними.

3.7 Подсистема «Обмен информацией с СКФ».

3.7.1 Общее описание функционирования подсистемы.

3.7.2 Описание функций задач и связей между ними.

3.8 Веб-интерфейс системы.

3.9 Выводы по главе 3.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ И СОПОСТАВЛЕНИЕ РЕЗУЛЬТАТОВ.

4.1 Оценка качества категоризации.

4.2 Оценка использования трафика сети.

4.3 Практическое применение результатов исследования.

4.4 Тенденции и перспективы развития разработанных решений.

4.5 Выводы по главе 4.

Рекомендованный список диссертаций по специальности «Телекоммуникационные системы и компьютерные сети», 05.13.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации Интернет-ресурсов в телекоммуникационных сетях»

Актуальность исследования

Стремительно возрастающий объем данных в Интернете и необходимость их быстрой обработки, вызывают потребность в создании специализированных систем тематической категоризации ресурсов Интернета. В настоящее время необходимость в СТК, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений. Именно с этим направлением в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 миллионов человек, из них 2 миллиона детей [51]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к информации несет в себе серьезную угрозу, в первую очередь, психическому и психологическому здоровью несовершеннолетних пользователей. С другой стороны, Интернет зачастую используется не только для рабочих вопросов сотрудниками, имеющими доступ к глобальной сети, что отрицательно влияет на эффективность их работы и снижает производительность корпоративной сети [1].

В то же время на сегодняшний день в России отсутствуют как таковые методы прямого регулирования (цензуры) содержимого телекоммуникационных сетей. Возможность введения цензуры интернет-контента и ее правовая регламентация встречает протест со стороны пользователей, не без основания полагающих, что это может привести к ограничению прав и свобод, предоставляемых современным демократическим государством.

В связи с этим решение проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты сетей от нежелательного и (или) опасного контента, и его несанкционированного использования, в том числе по воле и усмотрению пользователя [30]. Реализация такого инструмента тесно связана с категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений, среди которых наибольший интерес для настоящего исследования представляет механизм фильтрации полезной информации от агрессивной и опасной.

Поскольку на текущий момент большая часть научных учреждений, публичных библиотек и учебных заведений России- выходит в глобальную сеть посредством крупнейшей федеральной университетской сети RUNNet (Russian UNiversity Network), - пусть в некоторых случаях и через более мелких интернет-провайдеров, - наиболее актуальной была признана ориентация проводимых исследований на алгоритмические, программные и архитектурные решения российской телекоммуникационной инфраструктуры единой образовательной информационной среды.

Тенденция стремительного роста информации сделала системы тематической категоризации не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей.

Ряд авторитетных исследователей, таких как А.Н. Тихонов,

A.Д. Иванников, А.К. Скуратов, И.Е. Поляков, В.А. Мордвинов, И.С. Некрестьянов, А.Е. Ермаков, B.C. Чернявский, М.С. Агеев,

B.В. Плешко, B.KD. Добрынин, М.Р. Когаловский, И.В. Сегалович, G. Saltón, R. Baezo-Yates, J. Cho, A. Singhai, F. Sebastian!, S. Lawrence, P. Foltz, L. Gravano своими работами внесли значительный вклад в развитие информационно-поисковых систем и систем тематической категоризации, функционирующих в сфере компьютерных сетей.

Активно ведут работы в этом направлении такие организации, как V

Гарант Парк Интернет, ООО «Мегаверсия», Центр Анализа Интернет Ресурсов, ФГУ ГНИИ ИТТ «Информика», Институт программных систем РАН, корпорация «Галактика», Научно-производственный инновационный центр «Микросистемы», компания «MediaLingua», Яндекс, Рамблер, Апорт, Google, Secure computing, SurfControl, Websense, Cobion и другие.

Таким образом, актуальность темы настоящей диссертации диктуется необходимостью создания алгоритмических, программных и архитектурных решений, упорядочивающих информацию, представленную в сети Интернет для управления доступом к ней в телекоммуникационной инфраструктуре единой информационной научно-образовательной среды.

Цели и задачи исследования

Целью работы является разработка и исследование алгоритмических, программных и архитектурных решений для повышения эффективности использования телекоммуникационных сетей путем категоризации русскоязычных интернет-ресурсов.

В соответствии с вышесформулированной целью в диссертационной работе ставятся следующие основные задачи:

• проведение анализа существующих средств, моделей и методов поиска и тематического анализа для определения перспектив развития систем тематической категоризации интернет-ресурсов на примере использования в российских телекоммуникационных сетях;

• выбор и модификация модели для категоризации интернет-ресурсов в телекоммуникационных сетях на основе результатов проведенного анализа;

• разработка методики составления тематических профилей для контроля и управления исходящим и входящим трафиком сети;

• разработка оригинальной архитектуры системы тематической категоризации с использованием компонент для ограничения доступа к компьютерным сетям;

• разработка программных решений, позволяющих обеспечивать контроль и управление сетевыми ресурсами за счет формирования и поддержки в актуальном состоянии базы категоризированных ресурсов сети Интернет;

• проведение экспериментальных исследований функционирования телекоммуникационных систем и компьютерных сетей с помощью разработанных технических решений.

Объект исследования

В настоящей работе объектом исследования являются алгоритмические и программные средства, модели поиска и тематического анализа, способствующие созданию систем тематической категоризации, определяющие принадлежность интернет-ресурсов к предопределенным тематическим категориям и обеспечивающие контроль сетевых ресурсов.

Методы исследования

Для решения задач разработки алгоритмических, программных и архитектурных решений проектирования систем тематической категоризации с целью обеспечения доступа к сетевым ресурсам, управления исходящим и входящим трафиком, а также контроля сетевых ресурсов применялись теория информационного поиска, методы машинного обучения и методы объектно-ориентированного прогр аммиров ания.

Научная новизна исследования

В диссертационной работе разработаны алгоритмические, программные и архитектурные решения для повышения эффективности функционирования телекоммуникационных сетей, а именно:

• модифицирована векторная модель представления текстовых документов для обработки информации в телекоммуникационных сетях с целью улучшения ее характеристик категоризации интернет-ресурсов;

• разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая компоненты для ограничения доступа к компьютерным сетям;

• предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации;

• разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети;

• разработаны алгоритмы и решения для тематической категоризации интернет-ресурсов, обеспечивающие контроль сетевых ресурсов.

Новизна подтверждена свидетельством об отраслевой регистрации разработки № 9072 в отраслевом фонде алгоритмов и программ от 24 сентября 2007 г. «Разработка алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях» [37, 38].

Научные результаты диссертации используются в учебно-исследовательской работе на кафедре «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)».

На защиту выносятся результаты, сведенные в заключении работы:

1. Модифицированная векторная модель представления интернет-ресурсов, позволяющая- проводить индексацию интернет-ресурсов и автоматическую категоризацию на основе обучающего множества текстовых примеров, применяемая для управления сетевыми ресурсами и предоставляющая доступ к ним.

2. Методика составления тематических профилей, применяемая для контроля и управления исходящим и входящим трафиком сети, и использующая образ интернет-ресурса для описания категорий.

3. Оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации.

4. Оригинальная архитектура системы тематической категоризации интернет-ресурсов, использующая контентные фильтры для ограничения доступа к компьютерным сетям.

5. Реализация системы тематической категоризации интернет-ресурсов в части создания компонент, обеспечивающих контроль сетевых ресурсов.

Практическая значимость работы

Результаты исследований были использованы при разработке системы тематической категоризации для повышения эффективности использования телекоммуникационных сетей, контроля и управления исходящим и входящим сетевым трафиком и ограничения доступа к компьютерным сетям путем контентной фильтрации опасных ресурсов Интернета. Разработанные решения обеспечивают точность категоризации интернет-ресурсов за счет применения модифицированной векторной модели представления интернет-ресурсов и использования разработанной методики составления тематических профилей.

Результаты, полученные в работе, использовались в рамках выполнения следующих проектов:

• государственный контракт №02.461.11.7003 от 01 июля 2005 года «Научно-методическое обеспечение создания национального информационно-аналитического центра по мониторингу приоритетных направлений развития науки, технологий и техники в области информационно-телекоммуникационных систем»;

• государственный контракт №02.447.11.1008 от 01 августа 2005 года «Разработка и реализация алгоритмических и программных средств тематической категоризации интернет-ресурсов- с использованием семантического анализа текстового содержимого web-страниц»;

• государственный контракт №1211 от 29 ноября 2005 года «Создание автоматизированной системы поиска, семантического анализа и рубрикации1 электронных информационно-образовательных ресурсов»;

• государственный контракт №П85 от 17 июля 2006 года «Разработка автоматизированной системы обеспечения эффективного и безопасного использования сети Интернет в образовательных учреждениях различного уровня».

А также в учебном процессе на кафедре «Технических и информационных средств систем управления» государственного образовательного учреждения высшего профессионального образования «Московский государственный- институт радиотехники, электроники и автоматики^(технический университет)».

Апробация результатов исследования

Основные положения диссертационной работы докладывались и обсуждались на научно-практических конференциях и семинарах, в том числе: семинарах аспирантов и научных сотрудников ФГУ ГНИИ ИТТ «Информика» (Москва 2005 г., Москва 2006 г.), XII Всероссийской научно-методической конференции «Телематика'2005» (Санкт-Петербург, 6-9 июня 2005 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Анталия, 19-26 мая 2006 г.), XIII Всероссийской научно-методической конференции «Телематика'2006» (Санкт-Петербург, 5-8 июня 2006 г.), Международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 26-28 февраля 2007 г.), 56-й Научно-технической конференции МИРЭА (Москва, 14-24 мая 2007 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Фетхие, 18-25 мая 2007 г.), XIV Всероссийской научно-методической конференции «Телематика'2007» (Санкт-Петербург, 18-21 июня 2007 г.).

Публикации

Основное содержание диссертационной работы было отражено автором в 14 печатных работах (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 1 публикация в сборнике научных статей, 7 публикаций в трудах научных конференций, 3 публикации в учебно-методических пособиях).

Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы из 84 наименований и 2 приложений. Работа изложена на 157 страницах, содержит 56 рисунков и 16 таблиц.

Похожие диссертационные работы по специальности «Телекоммуникационные системы и компьютерные сети», 05.13.13 шифр ВАК

Заключение диссертации по теме «Телекоммуникационные системы и компьютерные сети», Свечников, Сергей Владимирович

Результаты работы опубликованы в Вестнике Тамбовского государственного технического университета, Научно-практическом журнале по информационным технологиям в образовании «Открытое образование», Вестнике Рязанского государственного радиотехнического университета и в 11 печатных работах, приведенных в списке литературы.

Автор выражает искреннюю благодарность своему научному руководителю доценту Скуратову Алексею Константиновичу за постоянное внимание и полезные консультации, профессорам кафедры «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)» Раеву Вячеславу Константиновичу и Мордвинову Владимиру Александровичу за внимание и конструктивные замечания к работе, директору Центра Анализа Интернет Ресурсов Полякову Игорю Евгеньевичу за помощь в работе.

ЗАКЛЮЧЕНИЕ

Диссертация посвящена актуальной теме - разработке и исследованию алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях. Задачи исследования, обусловленные поставленной целью работы и перечисленные во введении, были успешно решены. Диссертантом получены следующие результаты:

1. Проведен анализ моделей поиска и тематического анализа информации, на основе результатов которого была выбрана векторная модель представления текстовых документов, учитывающая веса терминов и использующая положительные и отрицательные примеры для обучения.

2. Модифицирована векторная модель для категоризации интернет-ресурсов, которая заключается во введении степени соответствия между категорией и интернет-ресурсом и сравнении ее с величиной порогового значения категории. Предложенная модифицированная векторная модель может использоваться для контроля и управления сетевыми ресурсами, а также для ограничения доступа к компьютерным сетям.

3. Разработана методика составления тематических профилей для контроля и управления исходящим и входящим трафиком сети. Методика использует подборки положительных и отрицательных примеров текстов для описания тематического портрета категорий.

4. Предложена оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации. Для оценки качества использованы метрики точности, полноты и Р-меры, для получения обобщенных данных использованы методы макро-усреднения и микро-усреднения.

5. Разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов для ограничения доступа к компьютерным сетям, использующая клиентов - системы контентной фильтрации для получения от них новых адресов сайтов для категоризации и обновления данных в базах контентных фильтров.

6. Реализована система тематической категоризации интернет-ресурсов, обеспечивающая управление сетевыми ресурсами и предоставляющая доступ к ним. Созданы компоненты, обеспечивающие управление трафиком сети и реализующие задачи поступления новых ресурсов для анализа, поиска новых доменных имен сайтов, ведения информации о категориях и сайтах, получения информации от интернет-ресурсов, анализа страниц и категоризации сайтов.

7. Проведены экспериментальные исследования оценки качества категоризации и оценки использования сетевого трафика. Эксперименты оценки качества показали увеличение точности категоризации на 27% при незначительном уменьшении полноты. Эксперименты оценки использования трафика показали уменьшение трафика сети в среднем на 30%.

Список литературы диссертационного исследования кандидат технических наук Свечников, Сергей Владимирович, 2008 год

1. Абсалямов А. Борьба с киберслэкингом. Windows 2000 Magazine, №3 2000.

2. Агеев М.С. Методы автоматической рубрикации текстов, основанных на машинном обучении и знаниях экспертов: Диссертация на соискание ученой степени к.ф.-м.н. М.: МГУ, 2004.

3. Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП'2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004.

4. Аграновский A.B., Арутюнян Р.Э. Индексация массивов документов. Мир ПК, июнь 2003.

5. Аграновский A.B., Скуратов А.К., Тихонов А.Н., Хади P.A. Информационная безопасность в RUNNet. Труды XI Всероссийской научно-методической конференции «Телематика 2004», 7-10 июня 2004 г., СПб., том 1, С.66-68.

6. Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. 1979, 256 с.

7. Ю.Гайдамакин H.A. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368 с.

8. Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы // Русский язык: исторические судьбы и современность. 1Г Международный конгресс исследователей русского языка. Труды и материалы. Москва: МГУ - 2004.

9. Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог 2003. Москва, Наука, 2003,

10. М.Ефремов C.B., Скуратов А.К. Ограничение доступа школьников к ресурсам Интернет. AI NEWS, № 2, 2002.

11. Интернетско-русский разговорник, http://slovari.yandex.ru/dict/internet/.16;Информационно-аналитический ресурс «Ваш личный Интернет», http ://www.content-filtering.ru/.

12. Корнеев В.В., Гарев А.Ф., Васютин C.B., Райх В.В. Базы данных. Интеллектуальная обработка информации. — Москва: «Нолидж», 2000. -352 с.

13. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска. / Программирование. 28(4), 2002 - С. 226-242.

14. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002, №4.

15. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. — 80 с.

16. Некрестьянов И.С., Павлова Е.Ю. Обнаружение структурного подобия HTML-документов. // Труды четвертой всероссийской конференции RCDL'2002, 38-54, Дубна, Россия, 2002.

17. Общедоступная, свободно распространяемая энциклопедия Википедия, http://ru.wikipedia.org/.

18. Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) Пущино, 2004. - С. 43-61.

19. Поисковый портал Yahoo, http://www.yahoo.com/.

20. Поляков И.Е. Опыт создания системы фильтрации агрессивного web-контента Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005г., Издательство в СПб, том 1, с.66-67.

21. Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006 // Труды четвертого российского семинара по оценке методов информационного поиска. Санкт-Петербург: НИИ Химии СпбГУ 2003 - С. 72-79.

22. Российско-американская группа высокотехнологичных компаний «НейрОК», http://www.neurok.ru/.

23. Свечников C.B. Использование алгоритмов поиска и анализа информации для категоризации веб-сайтов. // Вестник ТГТУ, 2007. Т. 13, №3. - С. 703-712.

24. Свечников C.B. Категоризация интернет-ресурсов для управления доступом к телекоммуникационным сетям. // Научный вестник МИРЭА, М.:МИРЭА 2007.

25. Свечников C.B. Разработка системы тематической категоризации интернет-ресурсов. Труды XIV Всероссийской научно-методической конференции «Телематика'2007», 18-21 июня 2007г., Издательство в СПб, том 2, С. 326-327.

26. Свечников C.B. Решение задач тематической категоризации интернет-ресурсов. // Научно-практический журнал по информационным технологиям в образовании «Открытое образование», Москва, 2007 г., № 5, С 24-30.

27. Свечников C.B. Тематическая категоризация интернет-ресурсов в сети Интернет. // ISSN 1995-4565. Вестник РГРТУ №1 (Выпуск 23) Рязань, 2008, С. 96-101.

28. Сегалович И.В. Как работают поисковые системы. // Мир Internet. 2002. -№ 10, http://www.dialog-21 .ru/trends/?id= 15539.

29. Сервис Яндекс.ХМЬ, http://xml.yandex.ru/.

30. Системный анализ и принятие решений: Словарь-справочник: Учеб. пособие для вузов/Под ред. В.Н. Волковой, В.Н. Козлова. М.: Высш. шк., 2004-616 е.: ил.

31. Скуратов А.К. Анализ и мониторинг телекоммуникационных сетей на основе статистической системы исследования информационных потоков. Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005г., Из-во СПб, том 1, С. 59-60.

32. Слепов О., Отт А. Контроль использования интернет-ресурсов. Информационные биллютень Jet Info, №2 2005.

33. Справочно-информационный портал русского языка ГрамотаРу, http://www.gramota.ru/.

34. Фонд «Общественное мнение», http://www.fom.ru/.

35. Цветков В Л. Информация и теория информации. М.: МИИГАиК, 2006. -124 с.

36. Цветков В.Я. Модели и моделирование. М.: Государственный научно-исследовательский институт информационных образовательных технологий. «Госинформобр», 2006. - 94 с.

37. Цветков В.Я. Современные проблемы информатики и вычислительной техники. Учебное пособие. М.: Московский государственный университет путей сообщения, 2007. - 102 с.

38. Baezo-Yates R. and Ribeiro-Neto В. Modern Information Retrieval. ACM Press Addison Wesley, 1999.

39. Cullum J., Willougby R. Real rectangular matrix. In Lanczos algorithms for large symmetric eigenvalue computations. Brikhauser, Boston, 1985.

40. Dumais S. Improving the retrieval of information from external sources, 1991.

41. Dumais S. Latent semantic indexing: Trec-3 report.In Proc. of the Third Text Retrieval Conference, 1995.

42. Foltz P. W. Using latent semantic indexing for information filtering. In Proc. of the ACM Conference on Office Information Systems (COIS), p. 40-47, 1990.

43. Frakes W.B., Baeza-Yates R Information Retrieval: Data Structures and Algorithms, Englewood Cliffs, NJ, Prentice Hall, 1992.

44. Gupta S., Kaiser G., Grimm P., Chiang M., Starren J. Automating Content Extraction of HTML Documents // World Wide Web Journal, January 2005, pages: 179-224.

45. Harman D. Latent semantic indexing and trec-2. In Proc. of the Second Text Retrieval Conference, 1994.

46. Hofmann T. Probabilistic Latent Semantic Analysis. Uncertainity in Artificial Intelligence. UAI'99, Stockholm. 1999.64.1nternet Watch Foundation Half Yearly Report 2006, http://www.iwf.org.uk/.

47. Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, 1972.

48. Kleinberg J.M. «Authoritative sources in a hyperlinked environment. Journal of the АСМ» 46(5):604-632, 1999.

49. Landauer Т., Foltz P., Laham D. An introduction to latent semantic analysys. In Discourse Processes, volume 25.

50. Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 1960.

51. Papka R. Allan J. Document classification using multiword features. In Proceeding of the CIKM'98, New-York, 1998.

52. Ramaswamy Lakshmish, Iyengar Arun, Liu Ling, Douglis Fred. Automatic Detection of Fragments in Dynamically Generated Web Pages // In Proceedings of the 13th International World Wide Web Conference (WWW2004), New York City, May 2004.

53. Rijsbergen C.J. Information Retrieval. Butterworth's and Co. - London, 1979 -2nd edition.

54. Robertson S.E., Jones K.S. Relevance Weighting of Search Terms. JASIS, 1976.

55. Russian Context Optimizer. Технологии анализа и поиска текстовой информации, http://www.rco.ru/.

56. Salton G. Automatic Text Processing The Analysis Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA. 1989.

57. Salton G., McGill M.J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

58. Salton G., Allan J., Buckley C. Automatic structuring and retrieval of large text files. Communications of the ACM, 37(2), February 1994.

59. Sebastiani F. Machine Learning in Automated Text Categorization, http://nmis.isti.cnr.it/sebastiani/.

60. Singhal A., Mitra M., Buckley C. Learning routing queries in a query zone. In Proc. of SIGIR '97, pages 25-32, 1997.

61. Stata R., Bharat K., Maghoul. F. The Term Vector Database: fast access to indexing terms for Web pages. 33(l-6):247-255, June 2000.

62. TIPSTER Text Program archive, http://www.nist.gov/itl/div894/ 894.02/relatedproj ects/tipster/.

63. Yang Y. An Evaluation of Statistical Approaches to Text Categorization/ Journal of Information Retrieval, 1999.

64. Ziv Bar-Yossef, Sridhar Rajagopalan Template Detection via Data Mining and its Applications // In Proceedings of WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA, pages: 580-591.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.