Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Козлов, Артем Владимирович

  • Козлов, Артем Владимирович
  • кандидат технических науккандидат технических наук
  • 2005, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 138
Козлов, Артем Владимирович. Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2005. 138 с.

Оглавление диссертации кандидат технических наук Козлов, Артем Владимирович

Введение.

Глава 1. Проблемы автоматизации документального поиска в гипертекстовых ресурсах Интернет.

1.1 Структура гипертекстовых ресурсов Интернет.

1.2 Анализ современных средств поиска в гипертекстовых ресурсах Интернет.

1.3 Методы оценки эффективности автоматизированного документального поиска.

1.4 Выводы и постановка задачи.

Глава 2.Повышение эффективности поиска информации в ресурсах Интернет на основе методов автоматического индексирования.

2.1 Задача автоматического индексирования гипертекстовых документов

2.2 Анализ моделей документального поиска.

2.3 Разработка метода определения весов терминов в документах.

2.4 Методика автоматического индексирования.

2.5 Исследование эффективности предложенного метода определения весов терминов.

Выводы.

Глава 3.Разработка методики автоматизированного формирования запроса.

3.1 Поиск информации с уточнением запроса.

3.2 Разбиение документов на группы.

3.3 Выделение ключевых терминов в кластерах документов.

3.4 Методика автоматизированного формирования запроса.

3.5 Исследование эффективности методики автоматизированного формирования запроса.

Выводы.

Глава 4.Применение разработанных методов автоматизированного документального поиска в задачах информационно-аналитического обеспечения.

4.1 Автоматизация поиска и отбора Интернет-ресурсов в системе анализа инновационных проектов.

4.2 Применение разработанных методов при создании агентов Интернет!20 Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет»

Актуальность проблемы. Одним из основных источников информации сегодня являются ресурсы глобальной информационной сети Интернет, и обеспечение доступа к информации обычно связывается с обеспечением доступа именно к ресурсам Интернет. Развитие сети Интернет в наши дни связано в первую очередь с ростом объема информационных ресурсов и повышением качества инфраструктуры физических сетей. В течение следующих нескольких лет основными тенденциями дальнейшего развития будут дальнейший рост объемов ресурсов, накопление информации и увеличение числа пользователей имеющих доступ к глобальной информационной сети.

Проблемы поиска и извлечения полезной информации в условиях информационного переполнения Интернет и хаотичности организации данных становятся все более актуальными. Ресурсы Интернет, основой которых является распределенная гипертекстовая база данных, все больше используются в исследованиях, коммерции, информационном обслуживании и многих других областях. Без эффективных механизмов поиска и обработки информации огромные ресурсы глобальной сети оказываются бесполезными.

Основной технологией, обеспечивающей использование ресурсов Интернет в практической деятельности, является автоматизированный поиск информации. Этой проблеме посвящены многие коммерческие и исследовательские проекты, особое внимание уделяется расширению интеллектуальных возможностей средств поиска. Это связано с тем, что поиск нужной информации в Интернет крайне затруднен и рациональное использование его ресурсов все больше осложняется. Автоматизированные системы поиска информации в Интернет необходимы уже сейчас и будут еще более востребованы в ближайшем будущем.

Существующим автоматизированным поисковым системам, занимающимся глобальным индексированием и поиском информации в Интернет становится все трудней поддерживать свой индекс в актуальном состоянии. Объем найденной по запросу информации зачастую таков, что для его анализа требуется довольно много времени и труда специалистов. Кроме этого существующие глобальные поисковые средства почти не предоставляют услуг по анализу найденной информации.

Таким образом, совершенствование автоматизированных средств поиска информации в Интернет является важной и актуальной задачей для эффективного использования гипертекстовых ресурсов Интернет и дальнейшего развития глобальной информационной сети.

Поиск в гипертекстовых ресурсах Интернет основывается на методах документального поиска возникших еще до появления глобальной информационной сети. Этой проблеме посвящено большое количество работ. Еще в 1949 году Г. Зипф опубликовал работу, в которой описал законы, характеризующие внутреннюю структуру текста. X. Лун использовал законы Зипфа и сформулировал правила для определения значимых слов в тексте документа. Идеи, предложенные X. Луном, легли в основу многих работ его последователей. В нашей стране под руководством B.C. Чернявского и Д.Г. Лахути в шестидесятые годы прошлого века была создана первая в мире информационно-поисковая система с автоматическим индексированием документов.

В основе автоматизированного документального поиска лежит понятие модели поиска. В настоящее время разработано много различных моделей. Дж. Сэлтона, одного из основоположников документального поиска, можно отнести к авторам векторной модели документального поиска, кроме этого он также проделал большую работу в области автоматического индексирования документов. С.Джонс С.И. Робертсон описали вероятностную модель документального поиска. Разработке латентно-семантической модели посвящены работы С.Дамайса, Г.Фурнаса, С.Дирвестера. В работах Д.О. Аветисяна и Р.Д. Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документального поиска, кроме этого предлагаются подходы к совмещению различных моделей таких как матричная и корреляционная.

Цели и задачи. Целью работы является создание программных средств для повышения эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Реализация поставленной цели предполагает решение следующих задач:

- Обзор и сравнительный анализ моделей информационного документального поиска в распределенных гипертекстовых базах данных;

- Исследование и анализ методов автоматического индексирования гипертекстовых документов;

- Разработка метода определения весов терминов в документах при автоматическом индексировании;

- Разработка методики автоматизированного формирования запроса;

- Создание программного средства реализующего разработанные методы. Объект исследования. Объектом исследования являются программные средства, модели и методы автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Методы исследования. При проведении исследований в работе использованы алгебраические методы, эвристические приемы и методы кластерного анализа.

Научная новизна. Научная новизна работы заключается в следующем:

1) разработан метод определения весов терминов в документах при автоматическом индексировании набора документов;

2) разработан метод определения весов терминов в кластерах при автоматическом индексировании кластеров документов;

3) разработана методика автоматизированного формирования запроса на основе кластеризации результатов информационного документального поиска;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска.

Практическая значимость. Результаты проведенных исследований были использованы при создании программных средств. Разработанный метод определения весов терминов при автоматическом индексировании документов обеспечивает более точное дифференцирование терминов индекса документа, что позволяет использовать его для повышения эффективности различных поисковых процессов. Разработанные программные средства позволили использовать предложенные в работе новые методы при создании информационно-аналитической системы использующей информацию Интернет-ресурсов.

Реализация результатов. Разработанные в данной работе программные средства входят в состав информационного и программного обеспечения информационно-аналитической системы сопровождения инвестиционных проектов при исследовании инвестиционных возможностей и технико-экономическом обосновании проектов в Инженерно-техническом центре «ТехИнвестФинанс».

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ, Москва 2001 г., 2002 г., 2003 г., 2004 г.; VII Международной научно-практической конференции МГУ Сервиса «Наука -индустрии сервиса» «Информационные технологии в сфере сервиса», Москва МГУС 2002 г.; X Международной научно-технической конференции «Математические методы и информационные технологии в экономике, социологии и образовании», Пенза 2002 г.; IV Международной ежегодной научно-практической конференции «Информационные технологии XXI века» Москва МГУС 2003 г.

Публикации. По материалам диссертационной работы опубликовано 10 печатных работ.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложения.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Козлов, Артем Владимирович

Основные результаты четвертой главы следующие:

1) предложенные в работе методы и алгоритмы были использованы при создании программного компонента входящего в состав модуля анализа текстов гипертекстов информационно-аналитической системы для анализа инновационных проектов, позволившей сократить время отбор ресурсов Интернет в среднем в 1,4 раза;

2) разработанная методика автоматизированного формирования запроса при использовании ее в агентах Интернет позволяет повысить мобильность агента за счет отсутствия жесткой привязки к тезаурусу.

Заключение

Работа посвящена методам повышения эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет. Основные результаты работы следующие:

1) на основе проведенного анализа моделей документального поиска и анализа существующих методов определения весов терминов разработан усовершенствованный метод оценки весов терминов в документах набора, позволяющий учесть такой фактор как распределение термина во всех документах набора, на основе использования величины обратной средней частоте термина в документах;

2) разработана методика автоматизированного формирования запроса на основе кластеризации набора документов полученных в результате поиска и разработанного метода определения весов терминов в кластерах документов;

3) разработан метод оценки весов терминов в наборе кластеров документов при автоматическом индексировании, позволяющий учесть распределение термина во всех кластерах набора, на основе использования величины обратной средней частоте термина в кластерах документов;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска;

5) разработано программное средство, реализующее разработанные методы документального поиска, с использованием технологии разработки приложений на основе компонентной объектной модели;

6) проведены эксперименты, исследующие эффективность разработанных методов определения весов терминов в документах, определения весов терминов в кластерах документов, использование методов автоматического индексирования кластеров документов и подтверждающие их преимущества.

Список литературы диссертационного исследования кандидат технических наук Козлов, Артем Владимирович, 2005 год

1. Аветисян Д.О., Аветисян Р. Д. Автоматизированная информационно-поисковая система «Бумеранг» // Информационные ресурсы России. - 1995.-№2.

2. Аветисян Р. Д. О некоторых моделях информационного поиска// Информационные процессы и системы // НТИ. 1996. - Серия 2, №4. - с. 1220.

3. Аветисян Р.Д. Разработка и исследование механизмов динамического взаимодействия различных стратегий поиска информации: Дис. канд. тех. наук: Спец.: 05.13.06 / Р.Д. Аветисян. М., 1996. - 122 с.

4. Айзенменгер Р. Справочник HTML 3.2/4.0 / Перевод с немецкого. М.: ЗАО «Издательство Бином», 1998. - 368 с.

5. Ашманов И., Русанова Н. Поисковые системы русскоязычных документов // Электронный офис, 1997. май/июнь.

6. Белоногов Г.Г., Богатырев В.И., Автоматизированные информационные системы. М.: Советское Радио, 1973.

7. Бокарев Т. Поисковые каталоги и системы как средство Интернет-рекламы // Профессиональный журнал о рекламе и маркетинге "Yes", 1999. № 5.

8. Бочаров П.П., Печинкин А.В. Теория вероятностей. Математическая статистика. М.: Гардарика, 1998. - 328 с.

9. Браславский П.И. Методы повышения эффективности поиска научной информации на материале Интернет: Дис. канд. тех. наук: Спец.: 05.13.16/ П.И. Браславский. М., 2000. - 159 с.

10. Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов.

11. Диалог'2002, Протвино, 2002. М., "Наука" 2002. - Режим доступа: http://company.yandex.ru/articles/index.html.

12. Васильев П.П. Встроенные функции языка программирования VISUAL BASIC 6.0. М.: ДИАЛОГ-МИФИ, 2000. - 160 с.

13. Волков А.И. Оформление диссертационных работ и подготовка к защите: Методическое пособие в 2-х чатях. М.: МИЭМ, 2004. - 72 с.

14. Выгодский М.Я. Справочник по высшей математике. М., «Джангар», 2000. - 864 с.

15. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368 с.

16. Гринберг И., Гарбер Л. Разработка новых технологий информационного поиска // Открытые Системы, 1999. №10.

17. ГОСТ 34.003-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Термины и определения.

18. ГОСТ 7.73-96. Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения.

19. ГОСТ 7.74-96 Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения.

20. Дьяконов В.П. MATLAB 6/6.1/6.5 + Simulink 4/5. Основы применения. Полное руководство пользователя. М.: СОЛОН-Пресс, 2002. - 768 с.

21. Закон РФ «Об информации, информатизации и защите информации» от 02.02.1995г.-№24-ФЗ.

22. Исследование и решение проблем применения технологий извлечения данных из Интернет-ресурсов в информационном обеспечении принятиярешений в области инновационно-инвестиционной деятельности: Отчет о НИР/ РГУ ИТП; Рук. С.А. Митрофанов. М., 2003. - 105 с.

23. Капустин В. Поиск информации в Интернете // Мир Internet, 1998. №9.

24. Карташева Е. Интеллектуальные поисковые системы Excalibur// Сети, 1997. №6.

25. Кешелава В. Поисковые системы для Интернет // PC Week/RE, 1997. №10.

26. Козлов А.В. Система поиска информации в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. М.: МИЭМ, 2001.

27. Козлов А.В. Методы повышения эффективности автоматического индексирования // Научно-техническая конференция студентов, аспирантов и молодых специалистов института, посвященная 40-летию МИЭМ. Тезисы докладов. М.: МИЭМ, 2002. - с. 152-153.

28. Козлов А.В. Методы автоматизированного информационного поиска в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. М.: МИЭМ, 2003, с. 497498.

29. Козлов А.В. Автоматизация документального поиска в гипертекстовых ресурсах Интернет // Информационные технологии XXI века. Материалы V межвузовской научно-практической конференции. М.: Институт информационных технологий МГУ С, 2003.

30. Козлов А.В. Методы повышения эффективности документального поиска в гипертекстовых ресурсах Интернет // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. -М.: МИЭМ, 2004. с. 581-582.

31. Козлов А.В., Мальцева С.В. Архитектура поисковых машин для web-ресурсов Интернет. // Автоматизация и информационные технологии. -2001.-№8.

32. Козлов А.В., Мальцева С.В. Методы повышения эффективности автоматического индексирования документов // Автоматизация и информационные технологии. 2004. - №6.

33. Корнеев В.В., Гарев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. Москва: «Нолидж», 2000. - 352 с.

34. Кудинов Г. Обзор основных способов классификации. 2001. - Режим доступа: http:\\www.dataquality.ru\classification.htm.

35. Кузин Ф.А. Диссертация: методика написания. Правила оформления. Порядок защиты. Практическое пособие для докторантов, аспирантов и магистрантов. 2-е издание, дополненное. - М.: Ось-89, 2001. - 320 с.

36. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов с использованием семантического анализа // Программирование, 2000. №4.

37. Курс лекций по предмету "Основы проектирования систем с искусственным интеллектом". Режим доступа: http://www.aanet.ru/%7ewwwkll/Books/intell/Index.htm.

38. Ланкастер Ф. Информационно-поисковые системы. М.: Мир, 1972.

39. Майкевич Н.В. Ислледование методов анализа Интернет ресурсов и реализация на этой основе мультиагентной системы поиска информации: Дис. канд. тех. наук: Спец.: 05.13.11/ Н.В. Майкевич; ИПС РАН. -Переславль-Залесский, 1999. 140 с.

40. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Дис. канд. тех. наук: Спец.: 05.13.11/И.С. Некрестьянов; СПбГУ. -СПб., 2000. 88 с.

41. Пархоменко В.Ф. Работа с русскоязычными полнотекстовыми базами данных в ИПС АРТЕФАКТ // НТИ. Информационные процессы и системы. -1998. Сер. 2, Вып. 1.-е. 25-29.

42. Пархоменко В.Ф. Система автоматического индексирования документов СКОБКИ ОС ЕС. М.: МЦНТИ, 1983.-79 с.

43. Плеханов А.С., Плеханов С.П. Технология написания выводов и заключения по работе. М.: МИЭМ, 1997. - 20 с.

44. Рофэйл Э., Шохауд Я. СОМ и СОМ+. Полное руководство: Перевод с английского. К.: ВЕК +, К.: НТИ, М.: Энтроп, 2000. - 560 с.

45. Сегалович И. Индексирование русских текстов с использованием словаря, представленного на основе разреженной хэш-таблицы // Диалог'95. Казань, 1995. - июнь. - Режим доступа: http://company.yandex.ru/articles/index.html.

46. Сегалович И. Как работают поисковые системы// "Мир Internet", 2002.-№10.

47. Сегалович И. Яндекс как универсальное поисковое средство для русских текстов. Семинар РОЦИТ "Русскоязычные поисковые системы в Интернет". 1998. - Режим доступа: http://company.yandex.ru/articles/index.html.

48. Степанов В. К. Русскоязычные поисковые механизмы в Интернет // Computer World Россия, 1997. №11.

49. Федоров А.Ф., Ананьев А.И. Самоучитель Visual Basic 6.0. СПб.: БХВ -Санкт-Петербург, 2000. - 624 с.

50. Флореску Д., Леви А., Мендельсон А. Технологии баз данных для WorldWide Web: Обзор // Системы управления базами данных, 1998.- №4.

51. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996.-№3(17).

52. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые Системы, 1996.- №6.

53. Шимко П.Д., Власов М.П. Статистика / Серия «Учебники, учебные пособия». Ростов н/Д: Феникс, 2003. - 448 с.

54. Эпштейн В Л. Введение в гипертекст и гипертекстовые системы. Режим доступа: http://www.ipu.rssi.ru/publ/epstn.htm.

55. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), 1996.

56. Allen R. В., Obry P. and Littman M. An interface for navigating clustered document sets returned by queries. In Proceedings of the ACM Conference on Organizational Computing Systems, pages 166-71, 1993.

57. Baezo-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. ACM Press Addison Wesley, 1999.

58. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, WWW7, 1998. http://www7.scu.edu.aU/programme/flillpapers/l 921/com 1921 .htm

59. Buckley C., Salton G., Allan J. Automatic Retrieval With Locality Information Using SMART. NIST Special Publication 500-207: The First Text REtrieval Conference (TREC-1). http://trec.nist.gov/pubs/trecl/tlproceedings.html

60. Buckley C., Walz J. SMART in TREC 8. NIST Special Publication 500-246: The Eighth Text REtrieval Conference (TREC 8), 1999. http://trec.nist.gov/pubs/trec8/t8proceedings.html

61. Carpineto C., Romano G., De Mori R. Information term selection for automatic query expansion. NIST Special Publication 500-242: The Seventh Text REtrieval Conference (TREC 7).http://trec.nist.gov/pubs/trec7/t7proceedings.html

62. Cheong F. Internet agents: Spiders, wanders, brokers, and bots. New Riders, 1996.

63. Chun T. Y. World Wide Web Robots: An Overveiw. Online & CD-ROM Review, 1999, Vol. 23, No.3.

64. Croft W. B. Organizing and searching large files of documents. Ph.D. Thesis. University of Cambridge, October 1978.

65. Croft W. В., Xu J. Query expansion using local and global document analysis. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), 1996.

66. Deerwester S., Dumais S.T., Furnas G.W., Landauer Т.К., Harshman R. Indexing by Latent Semantic Analysis. JASIS, 1990. http://citeseer.nj.nec.com/deerwester90indexing.html

67. Daphen К , Mehran S. Hierarchically classifying documents using very few words. In Proceedings of the International Conference on Machine Learning (ICML), 1997.

68. Dumais S. Latent semantic indexing: TREC-3 report. NIST Special Publication 500-226: Overview of the Third Text REtrieval Conference (TREC-3), 1995. http://trec.nist.gov/pubs/trec3/t3proceedings.html

69. Furnas G.W., Deerwester S., Dumais S.T., Landauer Т.К., Harshman R. A., Streeter L.A., Lochbaum K.E. Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure. ACM SIGIR, 1988.

70. Harman D. What we have learned, and not learned, from TREC. 2000. http://irsg.eu.org/irsg2000online/papers/harman.htm

71. Hert C.A. Understanding information retrieval interactions: theoretical and practical implementations. London: Ablex Publishing Corp., 1997.

72. HTML 4.01 Specification, W3C Recommendation 24 December 1999, http://www.w3 .org/TR/html.

73. Koch Т., Ardo A., Bremmer A., Lundberg S. The building and maintenance of robot based internet search services: A review of current indexing and data collection methods. Technical report, Lund University Library, Sweden, 1996.

74. Koster M. Robots in the Web: threat or treat? Connexions, 1995, №4(9).

75. Leouski A. V., Croft W. B. An evaluation of techniques for clustering search results. Technical Report IR-76, Department of Computer Science, University of Massachusetts, Amherst, 1996.

76. Lewis D. D. Reuters-21578 text categorization test collection. Distribution 1.0. http://www.research.att.com/~lewis

77. Loupy C., Bellot P., EI-Beze M., Martea P.-F. Query Expansion and Classification of Retrieved Documents. NIST Special Publication 500-242: The Seventh Text REtrieval Conference (TREC 7). http://trec.nist.gov/pubs/trec7/t7proceedings.html

78. Microsoft Corporation. Разработка распределенных приложений на Microsoft Visual Basic 6.0. Учебный курс/Перевод с английского. М.: Торгово-издательский дом «Русская редакция», 2000. 400 с.

79. Nelson, T.N. A file structure for the complex, the changing, and the indeterminate // in: ACM 20th National Conference Proceedings, Clevelend, Ohio, 1965.

80. Papka R, Allan J. Document classification using multiword features. In Proceedings of the CIKM'98, New-York, 1998.

81. Qui Y. , Frei. H. P. Concept based query expansion. In Proceedings of the 16th International Conference on Research and Development in Information Retrieval (SIGIR ), 1996.

82. Rijsbergen C. J. Information retrieval. London: Butterworths, 1979.

83. Robertson S.E., Jones K. S. Relevance Weighting of Search Terms. JASIS, 1976.

84. Salton G. Automatic Text Processing The Analysis, Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA, 1989.

85. Salton G., Allan J., Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2), 1996, p. 127-138.

86. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24, 1988, p. 513-523.

87. Salton G., Singhal A., Mitra M., Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2), 1997, p. 193-208.

88. Schwarz C. Web Search Engines. Journal of the American Society for Information Science, 1998, №49.

89. Stanley L. Sclove. Notes on Cluster Analysis. IDS 472 Statistics for Information Systems and Data Mining. University of Illinois at Chicago. http://www.uic.edu/classes/idsc/ids472/clustering.htm

90. Stata R, Bharat K, Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proceedings of the WWW-9, 2000.

91. Zamir O. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. University of Washington, 1999. http://www.cs.washington.edu/research/projects/WebWarel/www/metacrawler/th esis.zip

92. Zamir O., Etzioni O. Web Document Clustering: A Feasibility Demonstration. Department of Computer Science and Engineering University of Washington, 2000,http://www.cs.washington.edU/research/projects/WebWarel/etzioni/www/papers/s igir98.pdf

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.