Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат технических наук Галиев, Тимур Эргунович

  • Галиев, Тимур Эргунович
  • кандидат технических науккандидат технических наук
  • 2012, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 133
Галиев, Тимур Эргунович. Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах: дис. кандидат технических наук: 05.13.15 - Вычислительные машины и системы. Москва. 2012. 133 с.

Оглавление диссертации кандидат технических наук Галиев, Тимур Эргунович

Оглавление

ВВЕДЕНИЕ

1. ОРГАНИЗАЦИЯ ДОСТУПА К ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ СИСТЕМАХ

1.1. Проблема поиска информации в распределенной системе

1.2. Организация данных в интегрированных распределенных системах

1.2.1. Консолидация данных

1.2.2. Федерализация данных

1.2.3. Распространение данных

1.3. Архитектурные подходы к построению интегрированной системы

1.3.1. Интегрирующие модели данных

1.3.2. Средства семантической интеграции данных

1.4. Использование метаданных

1.4.1. Интеграция текстовых ресурсов

1.5. Сети дистрибуции данных

1.5.1. Преимущества СБЫ

1.5.2. Технология

1.5.3. Маршрутизация контента

Выводы

2. ОРГАНИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ИНТЕГРИРОВАННОЙ СИСТЕМЕ

2.1. Общие принципы организации поиска информации

2.1.1. Средства поиска

2.1.2. Информационные ресурсы поисковых систем

2.1.3. Проблемы организации поиска

2.2. Организация поиска в Интернет

2.3. Процедуры поиска

2.4. Использование метаданных

2.5. Алгоритмы поиска

2.5.1. Базовые алгоритмы поиска

2.5.2. Характеристики алгоритмов поиска информации в распределенных системах

Выводы

3. МАТЕМАТИЧЕСКИЕ МОДЕЛИ АЛГОРИТМОВ ПОИСКА

3.1. Описание алгоритмов

3.2. Модель алгоритма случайного поиска

3.2.1. Общее описание

3.2.2. Модель алгоритма

3.2.3. Вычисление характеристик алгоритма

3.2.4. Оценка размера передаваемых данных при случайном поиске

3.3. Модель поиска методом последовательного перебора

3.3.1. Общее описание

3.3.2. Математическая модель

3.4. Расчет временных характеристик алгоритмов

3.4.1. Общие результаты

3.4.2. Оптимизация поиска

3.4.3. Оценка размера передаваемых данных при поиске в заданном

порядке

3.5. Модель поиска последовательным перебором

3.5.2. Оценка размера передаваемых данных при направленном поиске с использованием метаданных

Выводы

4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ АНАЛИЗА АЛГОРИТМОВ ПОИСКА

4.1. Имитационные модели поиска информации в распределенных системах

4.2. Имитационная модель процедуры случайного поиска

4.3. Имитационная модель процедуры поиска в заданном порядке

4.4. Имитационная модель процедуры направленного поиска

4.3. Скрин-шоты программы

Выводы

ЗАКЛЮЧЕНИЕ. ОБЩИЕ ВЫВОДЫ

ЛИТЕРАТУРА

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах»

ВВЕДЕНИЕ

Расширение состава распределенных интегрированных информационных систем и увеличение числа задач, решаемых такими системами, неразрывно связаны с ростом активности пользователей, что в свою очередь вызывает резкое повышение нагрузки на компьютерные сети систем и может привести к ухудшению показателей качества обслуживания пользователей.

Одним из наиболее значимых источников нагрузки на компьютерную сеть распределенной информационной системы являются запросы пользователей, связанные с поиском информации, которые требуют передачи и обработки больших объемов данных.

Для поиска требуемой информации пользователь, как правило, неоднократно обращается к ресурсам сети (каналы связи, серверы) с различными запросами. Поиск, обычно, имеет итерационный характер, и число итераций (продолжительность поиска) равное числу запросов к системе для получения требуемых данных, может использоваться как мера эффективности поисковых процедур. Продолжительность поиска зависит от наличия в распоряжении пользователя априорных данных о возможном месте размещения искомой информации и алгоритмов обработки поисковых запросов.

Запросы пользователей (первичные) могут адресоваться либо к одному или нескольким специализированным узлам (поисковым серверам), где находятся данные для обработки запросов и формирования новых (вторичных) запросов, либо непосредственно к узлам хранения информации.

Применение специализированных поисковых серверов позволяет проводить целенаправленный поиск за счет предварительного сбора и

классификации данных для обработки запросов пользователей и сократить продолжительность поиска, но подготовительные операции также загружают сеть, а качество дополнительных (вторичных) запросов и их количество зависят от предварительной классификации получаемой серверами информации.

Непосредственный поиск, в зависимости от информированности пользователя, может либо сократить продолжительность поиска, либо наоборот, значительно увеличить число итераций в зависимости от размерности сети, числа узлов хранения данных.

Кроме того, как в первом, так и во втором случаях возможны различные алгоритмы (процедуры) поиска, связанные с возможностью применения специализированных поисковых серверов и имеющейся у пользователя априорной информацией о возможных местах хранения требуемых данных.

Поскольку количество информационных систем и размещаемых там данных постоянно возрастает, нагрузка на их сети увеличивается, представляется актуальной задача разработки методов анализа и повышения эффективности поисковых процедур в зависимости от применяемых алгоритмов поиска, методов сбора и представления информации для обработки поисковых запросов. Это позволит формировать корпоративные поисковые системы с учетом особенностей хранимой информации и возможностей средств формирования и обработки поисковых запросов.

Цель работы. Целью диссертационной работы является разработка методов оценки нагрузки на компьютерную сеть при поиске информации в корпоративной интегрированной системе, позволяющих обоснованно выбирать алгоритмы поиска и повышать эффективность процедур поиска информации в распределенных системах.

Задачи исследований. Для достижения поставленной цели в работе

сформулированы и решены следующие задачи:

1. Анализ процедур поиска, применяемых в современных корпоративных интегрированных информационных системах.

2. Разработка комплекса математических моделей для анализа и расчета характеристик алгоритмов поиска и нагрузки на компьютерную сеть в зависимости от алгоритма поиска.

3. Разработка имитационных моделей для расчета продолжительности поиска и нагрузки на компьютерную сеть, расширяющих возможности математических моделей.

4. Разработка программного обеспечения для реализации расчетов по математическим и имитационным моделям, визуализации результатов моделирования

Методы исследований. При решении поставленных в диссертации задач использованы методы теории вероятностей, математического программирования, теории очередей, методы объектно-ориентированного программирования, а также современные методы создания распределенных интегрированных информационных систем.

На защиту выносятся:

результаты анализа поисковых процедур, применяемых в современных корпоративных интегрированных системах хранения данных, позволившие выделить базовые алгоритмы поиска;

- комплекс математических моделей для расчета характеристик базовых алгоритмов поиска, позволяющий оптимизировать характеристики алгоритмов, обоснованно выбирать алгоритм для конкретной системы;

комплекс программного обеспечения для имитационного моделирования алгоритмов поиска, дающий возможность расширить сферу применения моделей, путем снятия ряда ограничений на параметры алгоритмов.

Научная новизна результатов диссертации заключается:

- в определении базовых алгоритмов поиска информации в распределенных системах;

- в установлении зависимостей между параметрами алгоритмов, априорной информацией о нахождении искомых данных, имеющейся у пользователя, и их характеристиками;

- в разработке на этой основе математических и имитационных моделей для оценки и оптимизации характеристик алгоритмов поиска.

Практическая значимость и реализация результатов работы состоит в разработке моделей поисковых процедур, позволяющих:

- прогнозировать продолжительность поиска требуемых данных и нагрузку на компьютерную сеть в распределенной интегрированной системе, в зависимости от имеющейся априорной информации о размещении искомых данных, алгоритма поиска;

- обоснованно выбирать параметры алгоритмов поиска и методы представления дополнительной информации для обработки поисковых запросов для конкретных информационных систем.

Достоверность и обоснованность результатов диссертации основаны:

- на соответствии построенных математических и имитационных моделей реальным процессам, происходящим в распределенных системах при поиске информации;

- на строгом математическом обосновании построенных моделей; согласованностью с имеющимися результатами других авторов;

- на соответствии результатов расчетов по математическим и имитационным моделям и, наконец, данными об их практическом применении при анализе поисковых процедур в реальных системах.

Апробация работы. Основные положения и результаты диссертации

докладывались на научно-техничесих конференциях студентов, аспирантов и молодых специалистов МИЭМ (Москва, 2007, 2008 г.г.), Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций, (Рязань 2008 г.), обсуждались на научно-технических семинарах кафедры ВСиС МИЭМ.

Публикации. Основные результаты диссертационной работы отражены в 10 опубликованных печатных работах, в том числе в двух рецензируемых изданиях, рекомендованных ВАК.

1. ОРГАНИЗАЦИЯ ДОСТУПА К ИНФОРМАЦИИ В РАСПРЕДЕЛЕННЫХ СИСТЕМАХ

В данной главе описывается организация и проблемы доступа к информации в интегрированных распределенных информационных системах, описываются подходы к интеграции данных. Приводятся способы решения задачи поиска информации. Описываются характеристики процесса поиска информации в интегрированных распределенных системах.

Основные результаты данной главы опубликованы в следующих работах автора [17, 19, 20, 21, 22, 23]. 1.1. Проблема поиска информации в распределенной системе

Поиск информации в распределенной системе неразрывно связан с привлечением дополнительных ресурсов, как информационных, так и телекоммуникационных. Это обусловлено большим количеством информации, разнородностью ее представления в системе, отсутствием точных данных о размещении искомых ресурсов у пользователей.

Особенно это заметно при анализе организации поиска в среде Интернет.

Сегодня в сети Интернет накоплен внушительный объем информации. С каждым годом количество информации увеличивается. В начале 2009 года объем данных, хранящийся, на серверах, подключенных ко Всемирной сети вплотную приблизился к отметке в 500 млрд Гб (по данным аналитической компании ЮС (www.idc.com), проводившей исследование по заказу ЕМС Corporation (www.emc.com)). По прогнозам аналитиков, через полтора года количество данных вырастет еще в 2 раза. Так же с каждым годом растет и количество пользователей сети Интернет. По данным аналитиков компании ComScore (www.comscore.com) к началу 2009 количество пользователей

интернет составило 1 млрд. человек и продолжает расти. На рисунке 1.1 приведена динамика роста количества пользователей поисковой системы Яндекс [95].

Средняя дневная аудитория (будни)

Количество человек, посетивших сервис хотя бы 1 раз за день (среднее за все будние дни месяца)

12 000 000-, 10 000 000 -8 000 000 -

6 000 000- ...............

4 000 000 -2 000 000 -

I I I I I-1-1-1-1-1-1-

июлОЭ авгОЭ сен 09 окт 09 ноя 09 дек 09 дне 10 февЮ иарЮ апрЮ май 10

Рис. 1.1. Количество пользователей поисковой системы Яндекс

Задачу поиска информации в Интернете решают поисковые системы.

Существует большое количество систем, осуществляющих поиск как в русскоязычной части Интернет - Rambler, Aport, Yandex, так и во всем Интернет пространстве - Yahoo, Google, Bing. Каждая поисковая система реализует свой уникальный поисковый алгоритм. Современные поисковые системы позволяют осуществлять поиск с учетом особенностей морфологии языка, находить ошибки в запросах пользователей и предлагать варианты исправления.

В современной Интернет среде одной из наиболее важных проблем является загрузка каналов связи, которая во многом обусловлена неэффективными процедурами поиска информации.

Помимо запросов пользователя и ответов поисковых систем, на загрузку каналов связи также влияют и подготовительные процедуры по сбору и обработке информации, проводимые программным обеспечением поисковых

систем. Объем передаваемого при этом трафика зависит от алгоритмов работы поисковых систем.

По данным аналитической компании СотБсоге в декабре 2007 года поисковые сайты обработали 66 млрд. 221 млн. поисковых запросов [93, 94]. Эта цифра продолжает расти.

В таблице 1.1 представлены данные о количестве поисковых запросов в 2008 и 2009 году по данным компании СотЭсоге [96, 97].

Таблица 1.1. Количество поисковых запросов в 2008 и 2009 году по данным компании СотБсоге [96]

Название поисковой Количество Количество Изменение %

системы поисковых поисковых

запросов запросов (млн)

(млн) в июле в июле 2009

2008 года года

Всего 80 554 113 685 41%

Google Sites 48 666 76 684 58%

Yahoo! Sites 8 689 8 898 2%

Baidu.com Inc. 7413 7 976 8%

Microsoft Sites 2 349 3 317 41%

eBay 1 223 1 723 41%

NHN Corporation 1 243 1 526 23%

Ask Network 929 1 291 39%

Yandex 663 1 290 94%

AOL LLC 1 148 1 023 -11%

Facebook.com 743 879 18%

Ниже, в таблице 1.2, приведены данные об объеме поисковых запросов. При

расчете величина одного поискового запроса взята равной 0.1 Мб. Таблица 1.2. Объем поисковых запросов

Период времени Количество запросов (млн) Объем данных (Мб)

Декабрь 2007 год 66 221 66 221 * 105

Июль 2008 год 80 554 80 554 * 103

Июль 2009 год 113 685 113 685 * 105

Легко заметить, что объемы хранимой на серверах сети Интернет информации, количество пользователей и количество поисковых запросов постоянно растут. Количество обрабатываемых запросов, только, русскоязычной поисковой системой Яндекс с июля 2008 по июль 2009 года увеличилось вдвое и продолжает расти. Как следствие, растет и загрузка каналов связи.

Проведенный анализ показал, что повышение эффективности поиска, путем сокращения загрузки каналов связи, на сегодняшней день и обозримую перспективу, является актуальной задачей.

Кроме того, эффективность поиска зависит от организации данных и от семантической ориентации данных в распределенной системе. Это значит, что для построения эффективной системы поиска необходимо обеспечить семантическое единство информации, что наиболее просто достигается в интегрированных распределенных системах, объединяющих корпоративные данные.

1.2. Организация данных в интегрированных распределенных

системах

Разработка методов интеграции информационных ресурсов - одна из наиболее актуальных проблем в области информационных систем. Особенно большое внимание она стала привлекать в последние годы. Однако проблема

интеграции данных отнюдь не является новой. Первые шаги в этой области относятся еще к середине 70-х годов, когда начались разработки распределенных систем баз данных и когда во многом благодаря отчету ANSI/X3/SPARC [61] сформировались более четкие представления о многоуровневой архитектуре систем баз данных, о моделях данных как инструменте моделирования реальности и об отображении моделей данных. Речь при этом шла главным образом о поддержке глобальной схемы для совокупности локальных баз данных, функционирующих в разных узлах сети под управлением СУБД, которые поддерживают одну и ту же или, в общем случае, разные модели данных. Позднее несколько более общая форма этой задачи была связана с созданием мультибаз и федеративных баз данных, хранилищ данных, различных репозитариев информационных ресурсов, а также приложений Web. В последние годы, в широко развернувшихся во многих странах разработках электронных библиотек, возникли проблемы интеграции текстовых информационных ресурсов из различных независимых источников [4, 17].

Системы интеграции данных могут обеспечивать интеграцию данных на физическом, логическом и семантическом уровне. Задача интеграции данных на физическом уровне с теоретической точки зрения является наиболее простой и сводится к конверсии данных из различных источников в единый формат физического представления.

Источники данных могут обладать различными свойствами, существенными для выбора методов интеграции данных, - поддерживать представление данных в терминах той или иной модели данных, могут быть статическими или динамическими и т. п. Множество источников интегрируемых данных может быть однородным или неоднородным относительно характеристик, определяемых уровнем интеграции. Так, на логическом уровне интеграции может иметь место неоднородность

используемых моделей данных или неоднородность схем данных. [87] Возможны несколько подходов для интеграции данных: 1.2.1. Консолидация данных

Данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа.

Достоинства. Позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения.

Недостатки. Существует задержка между моментом обновления информации в первичных системах и временем, когда данные изменения появляются в конечном месте хранения. Требуются значительные вычислительные ресурсы, для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения данных [5].

Централизованные данные

Извлечение, преобразование и загрузка (extract, transform, and load, сокр. ETL) Управление содержанием корпорации (enterprise content management, сокр. EC M)

k.

2

N

Рис. 1.2.1. Консолидация данных

1.2.2. Федерализация данных

Обеспечивает единую виртуальную картину одного или нескольких

первичных источников данных. Бизнес-приложение генерирует запрос к этой виртуальной картине, процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов [86].

Достоинства. Обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных.

Недостатки. Низкая производительность и дополнительные затраты на доступ к многочисленным источникам данных во время выполнения программы.

Виртуальная картина бизнеса

Интег рация корпоративной информации (Enterprise information integration, сокр. EU)

■щ

-LL

1 2 .............N

Рис. 1.2.2. Федерализация данных

1.2.3. Распространение данных

Приложения осуществляют копирование данных из одного места в

другое. Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий.

Достоинства. Данный подход может быть использован для перемещения данных в режиме реального времени или близком к нему. Гарантированна доставка данных и двустороннее распространение данных. Недостатки. Сложность реализации.

Рис 1.2.3. Распространение данных

Задачи интеграции

При создании систем интеграции возникает ряд задач, зависящих от

требований к ней и используемого подхода. Наиболее важными из них

являются следующие:

• разработка архитектуры системы интеграции данных;

• создание интегрирующей модели данных, являющейся основой единого пользовательского интерфейса в системе интеграции;

• разработка методов отображения моделей данных и построение отображений в интегрирующую модель для конкретных моделей, поддерживаемых для отдельных источников данных;

• интеграция метаданных, используемых в системе источников данных;

• преодоление неоднородности источников данных;

• разработка механизмов семантической интеграции источников данных.

Основной инструментарий интеграции

К числу основных средств, используемых для обеспечения интеграции

информационных ресурсов, относятся конвертеры данных, интегрирующие модели данных, механизмы отображения моделей данных, объектные адаптеры (Wrappers), посредники (Mediators), а также архитектура, обеспечивающая взаимодействие средств, используемых в конкретной системе интеграции ресурсов.

1.3. Архитектурные подходы к построению интегрированной

системы

При разработке архитектуры системы интеграции используются два подхода, которые принято называть Global as View и Local as View. Первый из этих подходов (Global as View) предусматривает поддержку некоторого глобального представления интегрированных данных, определенного над заданными представлениями локальных источников. Такой подход более эффективен в случае, когда множество всех используемых источников предопределено. Пользовательский запрос, сформулированный в терминах единого интерфейса, отображается во

множество подзапросов, адресованных к нужным локальным источникам данных. На основе результатов их обработки синтезируется полный ответ на запрос. Если система интеграции предназначена для поддержки полного материализованного представления интегрируемых данных, процессы конверсии данных из источников в их единое глобальное представление осуществляются единовременно.

При втором архитектурном подходе (Local as View) предполагается, что интегрирующее глобальное представление данных задано и является первичным. На его основе определяются представления для всех локальных источников данных. Хотя в этом случае усложняется отображение пользовательских запросов в среду локальных источников данных, такой подход допускает динамичность состава множества источников данных. Каждый такой новый источник может подключаться к системе как на стадии разработки, так и на стадии функционирования.

1.3.1. Интегрирующие модели данных

В качестве интегрирующих моделей данных для поддержки единого

пользовательского интерфейса в системах интеграции на практике чаще всего используются обычные широко используемые модели данных, например реляционная или объектная. В связи с расширением разработок Web-приложений в качестве интегрирующей модели данных часто используется модель, основанная на стандартах XML (англ. extensible Markup Language — расширяемый язык разметки).

При использовании в разных источниках данных неоднородных моделей данных часто разрабатывается специальная, более мощная интегрирующая модель данных.

1.3.2. Средства семантической интеграции данных

Наиболее распространенный подход к семантической интеграции

данных основан на использовании посредников (Mediator). Средствами

медиатора поддерживается унифицированное метаописание интегрируемых источников данных. Как правило, посредники разрабатываются для конкретной узкой предметной области. Механизмы посредников опираются на онтологические спецификации источников.

1.4. Использование метаданных

Интеграция данных в информационной системе естественным образом предполагает и интеграцию в той или иной форме метаданных, определяющих их источники.

Одной из традиционных задач интеграции метаданных в системах интеграции данных является задача интеграции схем. Трудности ее решения в конкретных ситуациях могут быть связаны с наличием конфликтов, например:

• конфликтов неоднородности (используются различные модели данных для различных источников);

• конфликтов именования (в различных схемах используется различная терминология, что приводит к омонимии и синонимии в именовании);

• семантических конфликтов (выбраны различные уровни абстракции для моделирования подобных сущностей реального мира);

• структурных конфликтов (одни и те же сущности представляются в разных источниках разными структурами данных).

Другая типичная задача - интеграция онтологических спецификаций информационных ресурсов.

1.4.1. Интеграция текстовых ресурсов

Проблема интеграции коллекций текстовых информационных ресурсов

сводится главным образом к интеграции метаданных их источников,

каталогов, классификаторов, тезаурусов, антологий и т. д.

Как уже указывалось выше, метаданные - это информация, сведения о

данных. Сведения эти могут быть отражением внутреннего содержания и структуры данных, то есть быть получены на основании самих данных, и быть предназначены для некоторых программных средств. Сведения могут характеризовать отношение других данных или программных средств к этим данным - среду нахождения, употребления данных.

Метаданные можно рассматривать как набор утверждений о свойствах характеризуемого ресурса вида: "ресурс имеет свойство, описываемое значениями". В программных системах метаданные принимают форму: имя утверждения и набор параметров утверждения. Утверждения называют атрибутами ресурса и говорят, что метаданные характеризуют ресурс посредством набора пар {атрибут, значение), где атрибут именует свойство ресурса, а значение описывает это свойство.

Метаданные могут иметь разнообразное назначение. Они могут определять диапазон возможностей поиска ресурса, определять возможности навигации, характеризовать правила работы с ресурсами данного типа, предоставлять разнообразную административную информацию о ресурсе и т.п. В соответствии с использованием метаданных принято выделять три основных типа метаданных:

Описательные - «интеллектуальное» описание ресурса, используемое как основа для его нахождения с помощью поисковых запросов или навигации по информационному пространству.

Структурные - описывают внутреннее устройство ресурса, используемое при визуализации его содержания, навигации по нему. Например, к ним относятся SGML, XML и RTF.

Административные - управляющая информация, например, время создания, последней модификации, права доступа, стратегии индексирования и репликации. В частности, это информация, обеспечивающая контроль доступа к ресурсам, выполнение требований интеллектуальной

собственности, контроль поступления оплаты, контроль условий, на которых были предоставлены материалы и т.д. [87]

Характер и состав метаданных, используемых для поиска информационных объектов, определяются теми критериями, представлениями и знаниями, которые пользователи соотносят с требуемым предметом поиска. Чаще всего, особенно при поиске научных документов и их собраний, пользователь предъявляет требования к содержанию, предметной области искомых информационных ресурсов. Метаданными в этом случае следует считать любые элементы, используемые применяемой информационной системой для определения тематики просматриваемых документов (ресурсов, фрагментов и т.п.). Такие элементы обычно представлены различными классификационными индексами предметно-тематических классификаций, ключевыми словами, дескрипторами, стандартизованными элементами изображений и так далее. Поисковые элементы могут быть или заранее приписаны искомым объектам (в том числе составлять их специально выделенную часть) или вычленяться из текста (изображения) в ходе самого поиска средствами поисковой системы. [1]

Принципиальным решением этих задач является создание хранилища метаинформации, то есть специальной подсистемы, в которой собраны описания всех ИС компании, хранящейся в них информации и способов доступа к ней. Наличие такого хранилища делает процесс информационной интеграции, сколь бы сложен он ни был, наглядным и структурно прозрачным и создает предпосылки для унификации.

Отметим основные достоинства такого метаописания.

1. Формируется целостная картина интеграционной архитектуры. Руководитель или архитектор проекта может увидеть полную информационную модель, схему ее "сборки" из различных источников, правила использования и преобразования в бизнес-процессах, состав

классифицируемой информации, конфигурацию самой ИС и предоставляемые ею сервисы для внешних потребителей. Имея перед глазами такую картину, можно оптимизировать всю инфраструктуру и существенно повысить эффективность работы системы.

2. Создаются предпосылки для автоматической генерации компонентов ИС на основании их метаописания. Например, по описаниям каталога внешних услуг могут быть автоматически сгенерированы Л\^еЬ-сервисы, предоставляющие эти услуги.

3. Становится "прозрачным" один из важнейших результатов интеграции - структура интегрированного банка метаданных (ИБМ). Причем этот ИБМ может и не быть единым в физическом смысле, более того, данные могут по-прежнему размещаться в исходных источниках. Однако благодаря наличию информационной модели и набора общедоступных услуг данные внешним пользователям предоставляются в терминах указанной модели, как если бы они, имея такую структуру, размещались в едином хранилище.

Компоненты метахранилища

Метахранилище должно содержать следующие сведения [89]:

• семантическую модель предметной области;

• метаописание нормативно-справочной информации (НСИ);

• метаописание (модель) бизнес-процессов;

• описание информационных ресурсов (собственных и внешних);

• описание компонентов самой ИС;

• каталог предлагаемых услуг (\¥еЬ-сервисов).

Семантическая (информационная) модель предметной области

Эта модель предназначена для описания объектов, их структуры и взаимосвязей. Информация об объектах может быть фрагментирована и

сосредоточена в различных источниках, нередко дублируется в них, а целостная картина возникает только на уровне семантической модели. При построении такой модели целесообразно исходить из требований задач анализа данных и строить модель таким образом, чтобы она отражала присущий руководству предприятия "взгляд сверху". Схема семантической модели может быть положена в основу структуры ИБД, в терминах этой модели удобно предоставлять услуги внешним потребителям и решать аналитические задачи.

Метаописание нормативно-справочной информации

Часть информации, фигурирующей в информационной модели, должна быть классифицирована, стандартизована и структурирована для ее применения в аналитических процедурах, а также для того, чтобы можно было корректно объединить фрагменты данных, поступающих из различных источников. Сведения о том, какая информация должна быть классифицирована, - это и есть метаописание нормативно-справочной информации (состав и структура справочников, а также взаимосвязей между ними).

Метаописание (модель) бизнес-процессов Модель бизнес-процессов -наиболее привычная и широко используемая часть метаописания. Обычно эта модель создается на первом этапе проекта автоматизации в ходе обследования предприятия. Однако она может формироваться и по-другому.

В настоящее время имеется немало готовых типовых библиотек процессов для различных областей деятельности, которые являются результатом анализа и обобщения передового опыта многих предприятий (так называемые best practices). Хотя использование этих библиотек позволяет избежать возможных серьезных ошибок, довольно часто описанные в них процессы избыточны, содержат лишние шаги. В таких случаях для "упрощения" процессов применяются специальные

инструментальные средства, которые на уровне метаописания позволяют адаптировать процессы к специфике конкретного предприятия.

Принципы описания информационных ресурсов

Метаописание ресурсов предназначено для того, чтобы указать все ресурсы, являющиеся поставщиками информации, а также определить правила работы с ними. В роли таких ресурсов могут выступать собственные прикладные системы предприятия, внешние ИС, базы данных и прочие открытые источники (например, Интернет).

Описание ресурса должно включать следующий минимальный набор сведений:

• регламент получения и обновления информации;

• формат данных и способ доступа к ним (подключения к источнику);

• состав исходной информации (состав объектов, описанный в терминах информационной модели) и способы ее хранения в источнике;

• способы идентификации информационных объектов в источнике;

• первоисточник информации об объекте или отдельных его атрибутах (необходим для указания приоритетов информационных ресурсов, учитываемых в случае дублирования в них данных).

Такое описание позволяет решать многие задачи, например, автоматически генерировать \¥еЬ-сервисы, взаимодействующие с тем или иным ресурсом. Важное значение имеет и выбор подходов к созданию метаописания. Ведь они по сути являются предпосылками к информационной интеграции с разнообразными ресурсами не только в масштабе предприятия/холдинга/ведомства, но и в национальном и международном масштабе.

Для описания ресурсов целесообразно использовать концепции и

стандарты, одобренные ИТ-сообществом, лидирующими компаниями-производителями, научными и индустриальными кругами; это могут быть, например, элементы Semantic Web 1 (1 SemanticWeb - подход к представлению информации о ресурсах, позволяющий компьютерам использовать эти ресурсы в полной мере, а всевозможным программам разных производителей эффективно работать с данными на основе формализованных правил. Важнейший элемент концепции Semantic Web -опора на следующие стандарты: Resource Definition Framework (RDF) -язык для описания содержания информационных ресурсов, обеспечивающий гибкий подход к представлению данных; Web Ontology Language (OWL) -язык Web-онтологий, который может формально описать значение терминов, используемых в Web-документах; XML - обеспечивает синтаксис для формирования структурированных документов, но не налагает никаких семантических ограничений на их содержание; XML Schema - определяет структуру XML-документов, а также дополнительные типы данных.) или стандарты W3C. Спецификация Semantic Web основывается языке XML и, в частности, использует его способность определять настраиваемые схемы разметки.

Язык RDF позволяет описывать модель данных (datamodel) для объектов ("ресурсов") и отношения между ними средствами XML. Специфиакция RDF Schema служит, в частности, для описания свойств и классов RDF-ресурсов. OWL предоставляет дополнительные возможности для описания свойств и классов, в том числе позволяя характеризовать отношения между классами (например, непересекаемость), задавать их кардинальность (скажем, "точно один") и т. д.

Описание компонентов ИС

Компонентная модель ИС может базироваться на тех же принципах, что и описание информационных ресурсов. Однако информация о

компонентах системы должна быть несколько иной, и описывается она другими языками, например ССМ (CORBA Component Model); ВОСА (Business Object Component Architecture); CDL (Component Définition Language). Признанным лидером на поле стандартизации компонентов стала технология Enterprise Java Beans, предложенная компанией Sun. Указанная модель должна отражать свойства каждого компонента: выполняемые им функции, средства его реализации, взаимосвязи с другими компонентами ИС, а также с внешним миром. В ней содержатся сведения о том, в каких конфигурациях программной системы (систем) задействован компонент, какова его стоимость, какие известные ошибки он порождает, какие запросы на его изменение существуют и т. д. Фактически описание компонентов ИС решает проблему управления конфигурациями.

Каталог внешних услуг (Web-сервисов)

Каталог внешних услуг должен описывать открытые интерфейсы для доступа к информации в ИБД. Независимо от того, будет ли ИБД физически единым, или же его единство будет обеспечиваться метаданными лишь на концептуальном уровне, для внешних потребителей информации он должен выглядеть как целостное хранилище с набором сервисов для доступа к содержащимся в нем данным. Как уже упоминалось выше, доступ ко всей совокупности данных должен осуществляться в терминах информационной модели. Для создания такого каталога следует проанализировать потребности оперативной отчетности и корпоративного анализа, требования систем, взаимодействующих с ИБД, возможные запросы вышестоящих организаций и прочих внешних пользователей. Иными словам, следует построить модель запросов к хранилищу.

На основании такой модели формируется набор \УеЬ-сервисов (либо API-интерфейсов), которые и образуют каталог услуг, предлагаемых ИБД. Web-сервисы описываются с помощью языка Web Services Description

Language (WSDL), определяющего способ доступа к ним. Он описывает функциональные возможности Web-сервисов и группирует операции взаимодействия с ними в интерфейсы, задающие способы выполнения тех или иных операций и наборы входных и выходных параметров. Для обнаружения Web-сервисов, их самого общего описания и интеграции используется универсальный метод Universal Description, Discovery, and Integration (UDDI). Технология UDDI позволяет приложениям и организациям динамически находить нужные им другие приложения или услуги, если те описаны в терминах Web-сервисов [89].

1.5. Сети дистрибуции данных

Сеть доставки (и дистрибуции) контента (англ. Content Delivery Network или Content Distribution Network, CDN) — географически распределённая сетевая инфраструктура, позволяющая оптимизировать доставку и дистрибуцию контента конечным пользователям в сети Интернет. Использование контент-провайдерами CDN способствует увеличению скорости загрузки интернет-пользователями аудио-, видео-, программного, игрового и других видов цифрового контента в точках присутствия сети CDN [91].

1.5.1. Преимущества CDN

На скорость загрузки веб-страницы и её содержимого сильно влияет то,

насколько далеко пользователь находится от сервера. Это происходит из-за того, что при использовании технологии TCP/IP, применяемой для распространения информации в сети Интернет, задержки при передаче информации зависят от количества маршрутизаторов, находящихся на пути между источником и потребителем контента [14, 16]. Размещение контента между несколькими серверами средствами CDN сокращает сетевой маршрут передачи данных и делает загрузку сайта быстрее с точки зрения

пользователя.

(V ♦ (X

CL S

Рис. 1.5.1. Одноточечная дистрибуция контента (слева) и дистрибуция

средствами CDN (справа)

Использование CDN снижает количество хопов (англ. hop, прыжок — участок сети между двумя узлами сети, по которому передаются сетевые пакеты (или датаграммы). Обычно используется для определения «расстояния» между узлами. Чем больше транзитных участков — тем сложнее путь маршрутизации и тем «дальше» находятся узлы друг от друга), что существенно увеличивает скорость скачивания контента из сети Интернет. Конечные пользователи испытывают меньшую задержку при загрузке контента, отсутствие резких изменений скорости загрузки и высокое качество потока данных. Возникающая стабильность позволяет операторам CDN доставлять видеоконтент в формате HD, обеспечивать быструю загрузку файлов больших размеров или организовывать видео вещание с высоким качеством сервиса (QoS) и низкими затратами на сеть [13].

Технология CDN способна предотвратить задержки при передаче данных, возможные прерывания связи и потери на перегруженных каналах и стыках между ними. Управление нагрузкой при передаче сетевого трафика позволяет разгрузить магистраль и узлы сети, распределив возникающую

нагрузку между удалёнными серверами.

Размещение серверов в непосредственной близости от конечных пользователей может увеличить исходящую пропускную способность всей системы. К примеру, наличие единственного порта 100 Мбит/с не означает данную скорость на всех участках сети, так как свободная пропускная способность магистрального канала в момент передачи может быть всего 10 Мбит/с. В случае, когда используются 10 распределённых серверов, суммарная пропускная способность может составить 10x100 Мбит/с. Современные сети доставки и дистрибуции контента способны осуществлять автоматический контроль целостности данных на каждом из серверов сети. При этом гарантируется 100 % доступность контента для конечного пользователя в случае потери связности между узлами сети, выхода из строя центрального или удалённого сервера.

Наиболее развитые коммерческие CDN предоставляют статистический контроль процессов доставки и дистрибуции контента. Контент-провайдер в реальном времени может получить всю необходимую информацию о загрузке, доступности и популярности своего контента в каждом регионе присутствия. 1.5.2. Технология

Сети доставки и дистрибуции контента состоят из географически распределённых многофункциональных платформ, взаимодействие которых позволяет максимально эффективно обрабатывать и удовлетворять запросы пользователей при получении контента.

При использовании сети СОЫ, данные центрального сервера интернет-ресурса реплицируются на периферийные платформы. Каждая платформа поддерживает в актуальном состоянии полную или частичную копию распространяемых данных. Узел сети, входящий в состав платформы, взаимодействует с локальными сетями интернет-провайдеров и

распространяет контент конечным пользователям по кратчайшему сетевому маршруту с оптимального по загруженности сервера. Длина сетевого маршрута зависит от географической или топологической удалённости пользовательского компьютера от сервера или стоимости передачи трафика в регионе присутствия.

Кэширование является самым распространённым методом реализации CDN решения, так как предполагает оптимальное использование дискового пространства и связующих каналов сети. При этом максимальные затраты по времени загрузки файла (очередь файлов) берет на себя первый пользователь, обратившийся на оригинальный сервер контент-провайдера. Все последующие пользователи будут обращаться к уже загруженным репликам (HTTP-объектам) с ближайшего к ним сервера. Таким образом, на удалённых серверах хранится только популярный и часто запрашиваемый контент. Крупные CDN могут состоять из огромного количества распределённых узлов и размещать свои сервера непосредственно в сети каждого локального интернет-провайдера. Многие CDN операторы делают акцент на пропускной способности связующих каналов и минимальном количестве точек присоединения в регионе присутствия. Вне зависимости от используемой архитектуры, главным предназначением подобных сетей является ускорение передачи как статического контента, так и непрерывного потока данных [91]. CDN можно рассматривать как сеть, построенную поверх инфраструктуры Internet с целью высокоскоростной доставки мультимедиа или динамического контента конечным пользователям. Выполнение этой задачи достигается благодаря согласованной работе трех функциональных компонентов [92]:

• сервисы переадресации запроса на кэш-сервер, способный наиболее эффективно его обслужить. В терминологии CDN такой кэш-сервер именуется сервером-заменителем (surrogate);

• сервисы распределения копий оригинального контента по системе серверов-заменителей, расположенных на границе опорной сети (в точках присутствия Internet-провайдера, на базовых станциях беспроводной сети, на корпоративном ргоху-сервере и т. д.). В результате их применения удается минимизировать число запросов и объемы ответных данных, передаваемых по магистральным каналам;

• сервисы учета и биллинга, позволяющие поставщику CDN-услуг выставлять счета провайдерам контента, а также другим CDN-провайдерам, с которыми он обменивается трафиком. Необходимые для этого статистические данные собирает ПО, устанавливаемое на кэш-серверах. Эти же данные используются для управления контентом, анализа трендов в «потреблении» той или иной информации, а также для планирования мер по наращиванию ресурсов сети и серверов.

В структурном отношении сети CDN включают в себя множество компонентов, которые также можно объединить в три большие группы. Доставка контента. Компоненты этой группы отвечают за большую часть операций обработки данных — от кодирования до собственно доставки конечному пользователю. Средства сжатия потокового трафика и его разбиения на пакеты должны учитывать как тип контента, так и способ доступа пользователя во Всемирную сеть (по коммутируемой или DSL-линии, по выделенному каналу и т. д.). Следующие за этим операции защиты потокового контента выполняют так называемые системы управления цифровыми правами (Digital Rights Management, DRM). Они отвечают за шифрование контента, его электронную публикацию, отслеживание прав доступа пользователей и имеющихся у них лицензий, управление ключами. Очевидно, что доступ пользователей к информации невозможен без индексирования. К аудио- или видеопотокам классические алгоритмы индексирования неприменимы, и провайдеру CDN-услуг для этой цели

приходится задействовать специальное ПО. На практике индексирование выполняется параллельно с шифрованием мультимедиа-контента, а создаваемые в результате метаданные публикуются на Web-cepeepe и применяются в качестве указателя для доступа к конкретным материалам.

Обработку запросов пользователя осуществляет медиа-сервер. Так называют специальное программное обеспечение, функционирующее на сервере общего назначения под управлением Windows или Unix. В его обязанности входят сопровождение потоков реального времени, поддержка операций доставки контента, предоставляемого по запросу, тиражирование входного «живого» видеопотока на множество клиентских станций (для уменьшения сетевой нагрузки), поддержка широкого диапазона скоростей передачи (например, от 8 кбит/с до 2 Мбит/с), адаптация параметров контента к пропускной способности канала «последней мили». Доставка мультимедиа-контента по IP-сети осуществляется с использованием открытых протоколов — RTSP, RTP, MMS. Тем не менее при создании самих медиа-серверов производители обычно опираются на патентованные алгоритмы обработки данных; в результате средства кодирования, медиа-сервер и средства воспроизведения контента от разных фирм с большой вероятностью окажутся несовместимыми. В аппаратную составляющую системы доставки входят также сами Web-серверы, на которых хранятся метаданные и индексы (указатели).

Средства кэширования, расположенные в точках присутствия (POP) провайдера CDN-услуг, могут представлять собой оборудование общего назначения либо специализированные устройства, рассчитанные на работу с контентом определенного типа. В любом случае в дополнение к статическому кэшированию обычных данных в сети CDN должны поддерживаться операции кэширования и тиражирования потоков. При наличии первой кэш-сервер играет роль вспомогательного медиа-сервера,

сохраняющего фрагменты потоков для обработки последующих запросов к ним, а вторая позволяет передавать поток сразу нескольким пользователям. В отличие от использования простейшей схемы Web-кэширования в сети CDN могут задействоваться кластеры или иерархии серверов-заменителей, позволяющие снизить нагрузку на магистральные каналы. Если запрошенные данные отсутствуют на кэш-сервере, последний выясняет его наличие у своих «собратьев» с помощью протокола ICP (Internet Cache Protocol); в итоге данные поступают с ближайшего кэш-сервера без обращения к исходному источнику контента.

Замыкают этот архитектурный блок клиентское ПО и средства управления контентом. Сохраняющаяся несовместимость серверных платформ различных производителей требует установки на компьютере пользователя сразу нескольких приложений для обработки и воспроизведения потокового трафика. Как правило, дело ограничивается «джентльменским набором» из трех программ — RealPlayer компании RealNetworks, QuickTime фирмы Apple и Windows Media производства Microsoft. В области методов управления наблюдается не меньший разнобой, так что, выбирая для этих целей тот или иной продукт, провайдер CDN-услуг должен прежде всего руководствоваться здравым смыслом и пожеланиями клиентов.

1.5.3. Маршрутизация контента

Проблема маршрутизации разбивается на две части — глобальную и локальную.Средства глобальной маршрутизации призваны направить запрос клиента в одну из точек присутствия CDN-провайдера. Поскольку IP-адреса разных точек присутствия ставятся в соответствие одному и тому же доменному имени, глобальную маршрутизацию может выполнить сервер DNS. Такое простейшее решение имеет существенный недостаток: DNS-сервер будет распределять поступающие запросы по IP-адресам на основе

простейшей циклической схемы, тогда как этому процессу не повредил бы учет загруженности отдельных серверов-заменителей.

В любом случае цель глобальной маршрутизации — направить пользователя на ближайшую точку присутствия провайдера. Критерии такой близости могут быть различными: близость с точки зрения сетевой топологии (определяется по таблицам маршрутизации), времени отклика, фактическая территориальная близость. Нередко во внимание принимаются и сведения о пользователе. Например, запросы потребителя, который регулярно оплачивает предоставляемые услуги или приносит провайдеру значительный доход, логично было бы направить на кэш-сервер, обеспечивающий наивысшее качество обслуживания.

Локальная маршрутизация, называемая также локальной переадресацией или интеллектуальной коммутацией, отвечает за распределение запросов между серверами в пределах одной точки доступа. Как правило, для этой цели используется коммутация уровней 4 — 7, позволяющая принять во внимание тип контента, данные о пользователе, сведения о текущей загрузке отдельных серверов в кластере, собираемые средствами протокола SNMP. Высокоуровневая коммутация может быть реализована путем установки коммутаторов или маршрутизаторов, о которых говорилось выше, либо инсталляции на сервере специального ПО.

Реже для этих же целей используются другие методы. Один из них был предложен фирмой Cisco Systems и базируется на протоколе Web Cache Communication Protocol (WCCP). Он позволяет маршрутизатору перехватить клиентский запрос к некоторому серверу и перенаправить его на сервер-заменитель. WCCP поддерживается средствами кэширования разных производителей. Еще один метод основан на применении специализированного ПО маршрутизации, которое обычно создается самим CDN-провайдером и позволяет ему добиться более гибкого контроля за

работой сети, а также ускорить внедрение новых услуг.

Сетевая инфраструктура. Строго говоря, эта область не относится к архитектуре сетей хотя и является жизненно необходимой для их

эффективного функционирования. Особо важны средства многоадресной рассылки, поддержки качества сервиса, обмена трафиком между провайдерами.

В последнее время концепция СЭК стала проникать на корпоративный рынок. Появление в корпоративных сетях мультимедиа-приложений, а также распространение интра- и экстрасетей (табл. 1.3) сделало задачу оперативного распространения контента более чем актуальной. Организация СЭК в корпоративной среде дает возможность оптимизировать документооборот и повысить эффективность процессов принятия решений, наладить оперативную доставку информации в отдаленные филиалы, упростить электронное распространение ПО, вывести на новый уровень систему внутрикорпоративного обучения. По оценкам аналитиков, переход от обычных вариантов обучения на сетевой (с применением технологий СОИ) позволит крупным фирмам снизить затраты на обучение на 70%, а общий выигрыш от замены традиционных коммуникаций (совещаний, встреч, переговоров) на аудио- и видеоконференции — на 60%.

Таблица 1.3.

Тип сети Приложения

CDN в Internet Обслуживание заказчиков Демонстрация новых продуктов Видео-РА<3 Анонсы новых товаров и услуг

Корпоративная CDN Доведение до сотрудников распоряжений руководства Распространение корпоративной информации Демонстрация новых продуктов Техническое обучение персонала

CDN-экстрасеть Взаимодействие с партнерами

Демонстрация новых продуктов

Техническое обучение

Web-семинары

Управление каналами поставок

Поскольку концепция CDN своим появлением прежде всего обязана разрастанию Всемирной паутины, высокоскоростная доставка Web-контента пользователям Internet на Западе сегодня развита в наибольшей степени. Услуги CDN успешно предоставляют компании Adero, Akamai Technologies, ВТ Ignite, Cidera, Digital Island (сегодня — в составе Cable & Wireless), ePic Realm, Globix, iBeam, InterNAP Network Services, Mirrorlmage Internet, Speedera Networks, st3, Yahoo!, Broadcast. Одни фирмы располагают собственной разветвленной инфраструктурой магистральных каналов и точек присутствия, поверх которой развертывается сеть CDN, другие арендуют такую инфраструктуру у крупных ISP, третьи для увеличения территориального охвата используют комбинированный подход. Примеры контента, авторы которого предпочитают прибегать к услугам CDN-провайдеров, разнообразны — от видео по запросу до материалов систем дистанционного обучения, от изображений высокого разрешения, используемых в телемедицине, до лент финансовых новостей и видеотрансляций концертов [92].

Выводы

1. Показано, что постоянный рост числа поисковых запросов и их объема приводит к увеличению загрузки каналов связи и серверов распределенной системы, что отрицательно сказывается на ее пользовательских характеристиках, в связи с этим актуальной становится задача построения поисковых систем, создающих минимальную нагрузку на сетевые ресурсы.

2. Эффективность поиска требуемой информации в распределенной интегрированной системе зависит от организации данных в этой системе, предоставляемых для поиска ресурсов.

3. Показаны возможности использования метаданных при организации интегрированных систем.

4. Показаны возможности применения СБЫ технологии для осуществления доступа к искомым ресурсам.

2. ОРГАНИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ИНТЕГРИРОВАННОЙ

СИСТЕМЕ

Здесь приводятся результаты анализа процедур поиска информации в распределенной системе. Выделяются базовые алгоритмы поиска.

Основные результаты данной главы опубликованы в следующих работах автора [18, 19, 22, 24].

2.1. Общие принципы организации поиска информации 2.1.1. Средства поиска

В различных публикациях, посвященных конкретным поисковым системам, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим типовую схему организации поисковой системы на примере, взятом из работы [98], и представленную на рисунке 2.1.1.

Ciie.nt

WWW Sties

Ititewet robot

Рис. 2.1.1. Типовая схема информационно-поисковой системы

.чн. ;рсн:

!?н-'гГ

U СО г

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Заключение диссертации по теме «Вычислительные машины и системы», Галиев, Тимур Эргунович

Результаты работы могут быть полезны администраторам компьютерных сетей и распределенных интегрированных информационных систем при организации поиска информации и снижении нагрузки на ресурсы компьютерной сети.

ЗАКЛЮЧЕНИЕ. ОБЩИЕ ВЫВОДЫ

1. Проведен анализ нагрузки на компьютерную сеть, создаваемой при поиске информации, показавший, что при поиске возникают значительные объемы дополнительного трафика, связанного с необходимостью формирования большого количества запросов, увеличивается нагрузка на серверы обработки запросов, что приводит к ухудшению характеристик сети и качества обслуживания пользователей.

2. Показано, что длительность поиска во многом зависит от методов и средств формирования и обработки поисковых запросов, формы представления и объемов дополнительной информации в поисковых системах. Это делает целесообразным построение корпоративных интегрированных информационных систем, ориентированных на обработку информации, связанной с однородными предметными областями, когда возможна однозначная интерпретация поисковых запросов и получение более точной априорной информации о размещении искомых данных.

3. Анализ поисковых процедур, наиболее распространенных в распределенных системах, позволил выделить базовые (типовые) алгоритмы поиска, отличающиеся количеством используемой априорной информации о размещении искомых данных, объемом вспомогательных данных для ранжирования наличием дополнительных средств обработки и формирования поисковых запросов.

4. Разработан комплекс математических моделей для расчета вероятностных и временных характеристик базовых алгоритмов поиска, учитывающий специфику обработки и формирования поисковых запросов, позволяющий оптимизировать параметры алгоритмов для минимизации нагрузки на компьютерную сеть.

5. Разработано специализированное программное обеспечение для расчетов по моделям, проведения имитационного моделирования алгоритмов поиска, что расширяет и дополняет возможности математических моделей, дает возможность увеличить число факторов принимаемых во внимание при проведении расчетов характеристик алгоритмов поиска.

6. Проведена апробация результатов при анализе специализированных поисковых систем, ориентированных на обслуживание запросов населения при обработке персональных данных и экономической информации.

Список литературы диссертационного исследования кандидат технических наук Галиев, Тимур Эргунович, 2012 год

ЛИТЕРАТУРА

1. Антопольский А.Б., Ауссем В.И., Блау С.А., Жежель А.И., Отчет о результатах работ по гранту РФФИ № 04-07-90087 "Исследование и разработка системы метаданных для электронных информационных ресурсов и сервисов в фундаментальной науке", Москва, 2004 г (4).

2. Дж. Брауде Эрик, Технология разработки программного обеспечения, СПб.: Изд-во «Питер Принт», 2004. - 323с

3. Альянах И.Н. Моделирование вычислительных систем. - Л.: Машиностроение, 1988.-223 с.

4. Арсеньев Б.П., Яковлев С.А. Интеграция распределенных баз данных. -СПб.: Изд-во "Лань", 2001,- 464 с.

5. Атре Ш. Структурный подход к организации баз данных. - М.: Финансы и статистика, 1983.

6. Афанасьев В.И., Фуфлыгин М.Д. Информационные технологии в социально-экономической сфере. - М.: МИЭМ, 1998.

7. Ашманов И. С., Иванов А. А. Продвижение сайта в поисковых системах. — М.: Вильяме, 2007. — 304 с.

8. Бакусов Л.М. и др. Математические модели информационных процессов и управления в АСУ: Учебн. пособие. Уфа, 1991.

9. Балыбердин В.А. Оценка и оптимизация характеристик систем обработки данных. - М.: Радио и связь, 1987. - 176 с.

Ю.Баженов С.Р., Баженов И.С., Мазов H.A., Малицкий H.A. Система обеспечения контроля и учета доступа из Интернета к распределенным библиографическим базам данных // Библиотеки и ассоциации в меняющемся мире : новые технологии и новые формы сотрудничества. Материалы конф. Судак. Респ. Крым, Украина, 5-13 июня 1999 г. - М.,

1999. - С. 226-228; Баженов С.Р., Новоженин А.Ф. Разработка системы решения информационно -библиотечных задач в ГПНТБ СО РАН с использованием Интернета // Библиотеки и ассоциации в меняющемся мире : новые технологии и новые формы сотрудничества. Материалы конф.Судак. Респ. Крым, Украина, 6-14 июня 1998 г. - М., 1998. - С. 265-267.

11. Байков Владимир Дмитриевич Интернет. Поиск информации. Продвижение сайтов. — СПб.: БХВ-Петербург, 2000. — 288

12. Башарин Г.П., Бочаров П.П., Коган Я.А. Анализ очередей в вычислительных сетях. Теория и методы расчета. - М.: Наука, 1989. - 336 с.

13. Бертсекас Д., Галагер Р. Сети передачи данных.: Пер. с англ. - М.: Мир, 1989.-544 с.

14. Блэк Ю. Сети ЭВМ: протоколы, стандарты, интерфейсы. / Пер. с англ. -М.: Мир. 1990. -510с.

15. Бочаров П.П., Печинкин A.B. Теория массового обслуживания. - М.: Изд-во РУДН, 1995.-529 с.

16. Вишневский В.М. Теоретические основы проектирования компьютерных сетей. - М.: Техносфера, 2003 .-512с.

17. Галиев Т.Э. Интегрированные системы. Метаданные как средство интеграции. // 15 Международная научно-техническая конференция «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций: Материалы конференции, часть 2, Рязань, РГРТУ, 2008.-С. 3-5.

18. Галиев Т.Э. Применение метаданных для организации доступа в распределенных системах. // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов, Рязань, РГРТУ, 2008,- С. 97-99.

19. Галиев Т.Э. Функции метаданных в распределенных системах. // Сборник трудов кафедры «Вычислительные комплексы системы и сети» МИЭМ. Москва, МИЭМ, 2008. - С.

20. Галиев Т.Э. Современные технологии передачи данных Triple Play и NGN. // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Москва, МИЭМ, 2007.-С. 164.

21. Галиев Т.Э. Проблемы создания интегрированных информационных систем. // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Москва, МИЭМ, 2008. - С. 158 - 159.

22. Галиев Т.Э. Оценка эффективности использования метаданных при поиске информации в распределенных системах. Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2009. - С. 105-110.

23. Галиев Т.Э. Рост количества поисковых запросов в интернете. // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2011. - С. 6163.

24. Галиев Т.Э. Организация поиска в интегрированных распределенных системах // Математическое и программное обеспечение вычислительных систем: Межвузовский сборник научных трудов. Рязань, РГРТУ, 2011. С. 126-129.

25. Галиев Т.Э. Имитационные модели поиска информации в корпоративных поисковых системах. // Программная инженерия, № 1, 2012. - С. 46-47.

26. Галиев Т.Э. Методы ранжирования поисковой информации в корпоративных поисковых системах. // Открытое образование, № 1, 2012. - С. 46-51.

27. Гарсиа-Молина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс = Database Systems: The Complete Book. — Вильяме, 2003. — 1088 с.

28. Гуляев Ю.В., Олейников А.Я., Филинов E.H. Развитие и применение открытых систем в Российской Федерации. // Информационные технологии и вычислительные системы. - М.:1995. Том 1, N 1, с. 1-12.

29. Гусев В. С. Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М.: Диалектика, 2007. — 224 с.

30. Демидович Е.М. Основы алгоритмизации и программирования. Язык СИ : учебн. Пособие. - СПб.: БХВ-Петербург, 2008.

31. Дейт К. Введение в системы баз данных. 6-е изд. - М.: Диалектика, 1998. -784 с.

32. Дирк Слема, Джейсон Гарбис, Перри Рассел. Корпоративные системы

33. Джавян А.Ю., Ягджян В.Г. Методика построения интеллектуальной информационно-поисковой системы, основанной на модульно-распределенной архитектуре // Научно-техническая информация. 2002. №2. - 20-23 с.

34. Калиниченко JI.A., Методы и средства интеграции неоднородных баз данных, 1983.

35. Калиниченко Л.А., Костромина O.E., Хитрова О.Н. Концепции построения систем управления распределенными БД// Прикладная информатика. - М.: Финансы и статистика.- 1984.

36. Камер Дуглас Э. Компьютерные сети и Internet. Разработка приложений для Internet. : Пер. с англ. - М.: Изд. дом "Вильяме", 2002. - 640 с.

37. Кемени Дж., Снелл Дж. Конечные цепи Маркова. -М.: Наука, 1970.-272 с.

38. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. — М.: Диалектика, 2007. — 272 с.

39. Когаловский М.Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. — 800 с.

40. Коннолли Т., Бегг К. Базы данных. Проектирование, реализация и сопровождение. Теория и практика = Database Systems: A Practical

Approach to Design, Implementation, and Management. — 3-е изд. — M.: Вильяме, 2003. — 1436 с.

41. Кузнецов С. Д. Основы баз данных. — 2-е изд. — М.: Интернет-университет информационных технологий; БИНОМ. Лаборатория знаний, 2007. — 484 с.

42. Ландэ Д. В. Поиск знаний в Internet. — M.: Диалектика, 2005. — 272 с.

43. Маннинг К., Рагхаван П., Шютце X. Введение в информационный поиск. — Вильяме, 2011.

44. Мартин Дж. Вычислительные сети и распределенная обработка данных /М.: "Финансы и статистика", 1985.

45. Моисеев Н.Н., Иванилов Ю.П., Столярова Е.М. Методы оптимизации. М.: Наука, 1978.-352 с.

46. Моисеев Н.Н. Математические задачи системного анализа. - М.: Наука, 1981.-488 с.

47. Мышкис А. Д. Элементы теории математических моделей. — 3-е изд., испр. — М.: КомКнига, 2007. — 192 с.

48. Нейман В. И. Структуры систем распределения информации. - М.: Связь, 1975.- 264 с.

49. Николаев В.И., Брук В.М. Системотехника: методы и приложения. - Л.: Машиностроение, 1985. - 199 с.

50. Просиз Джеф, Программирование для Microsoft .NET = Programming Microsoft .NET. — M.: Русская редакция, 2003. — С. 704.

51.Растригин Л. А. Современные принципы управления сложными объектами. - М:. Сов. радио, 1980.

52. Ретано А., Слайс Д., Уайт Р. Принципы проектирования корпоративных IP-сетей. : Пер. с англ. - М.: Изд. дом «Вильяме», 2002,- 368 с.

53. Садовский В.Н. Основания общей теории систем.-М.: Наука, 1974.- 280 с.

54. Самарский А. А., Михайлов А. П. Математическое моделирование. Идеи. Методы. Примеры.. — 2-е изд., испр. — М.: Физматлит, 2001.

55. Семенов Ю.А. Протоколы и ресурсы Internet. - M.: Радио и связь, 1996. -320 с.

56. Семененко A.B. Сравнение и анализ различных программных решений в области поиска данных // Научно-техническая информация. 2002. №12. -28-32 с.

57. Советов Б. Я., Яковлев С. А. Моделирование систем: Учеб. для вузов — 3-е изд., перераб. и доп. — М.: Высш. шк., 2001. — 343 с.

58. Сипсер Р. Архитектура связи в распределенных системах.- М.: Мир, 1981.

59. Строгалев В. П., Толкачева И. О. Имитационное моделирование. — МГТУ им. Баумана, 2008. — С. 697-737.

60. Танненбаум Э., М. Ван Стен. Распределенные системы. Принципы и парадигмы. - СПб.: Питер, 2003. - 877 с.

61. Трусов П.В. Введение в математическое моделирование. Учебное пособие. — М.: Логос, 2004.

62. Ульман Дж. Основы систем баз данных: Пер. с англ. - М.: Финансы и статистика. 1983. - 572 с.

63. Уотке Кристина, Информационная архитектура, чертежи для сайта. - М.: Кудиз-Образ. - 2004. - 299 с.

64. Уэлдон Д.-Л. Администрирование баз данных: Пер. с англ. - М.: Финансы и статистика. - 1984. - 360 с.

65. Фрэнк Г., Фриш И. Сети, связь и потоки. Пер. с англ. - М.: Связь, 1978. -448 с.

66. Хемди A. Taxa Глава 18. Имитационное моделирование // Введение в исследование операций = Operations Research: An Introduction. — 7-е изд. — M.: «Вильяме», 2007. — С. 697-737.

67. Шварц M. Сети связи: протоколы, моделирование и анализ: В 2 ч.- М.: Наука, 1992. - 336 с.

68. Шварцман М.Е. К вопросу каталогизации ресурсов Интернета // Мир библиографии. - 1998. -N5; Шварцман М.Е. Использование метаданных для каталогизации российских ресурсов Интернета //Электронные библиотеки. - 1998. - Т. 1, Вып. 2.

69. ANSI/X3/SPARC Study Group on Data Base Management Systems. Interim Report. FDT Bull. ASM-SIGMOD. v. 7, no. 2 (1975), p. 1-140.

70. Adler R. Distributed Coordination Model for Client/Server Computing/ IEEE Computer, vol. 28, N4, pp. 14-22.

71. Anderson R. Security Engineering - A Guide to Building Dependable Distributed Systems. New-York: John Wiley, 2001.

72. Buretta M. Data Replication: Tools and Techniques for Managing Distributed Information. New York: John Wiley, 1997.

73. Cheng P. A. Security Architecture for the Internet Protocol. IBM Systems Journal, N1, 1998.

74. Cristian F. Understanding Fault-Tolerant Distributed Systems. Commun. ACM, vol. 34, N2, hh. 56-78.

75. Emmeich W. Engineering Distributed Objects. New-York: John Wiley, 2000.

76. Forman I.R. On the design of large distributed systems // Proc. IEEE CS 1986 Int. Conf. on Computer Languages, Miami, FL.-1986.-P.84-95.

77. Ford W. Computer Communications Security - Principles, Standard Protocols and Techniques. New Jersey: Prentice-Hall, 1994.

78. James D. McCabe. Practical Computer Network Analysis and Design. Morgan Kaufmann Publishing company, 1998.

79. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.

80. Oracle. Database Administrator's Guide. Oracle Corp.- 1984.

81. Saltón G., C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.

82. Stallings W. Data and Computer Communications, Fifth Edition. Upper Saddle River, NJ: Prentice Hall, 1997.

83. Tannenbaum A. Computer Networks. Englewood Cliffs, NJ: Prentice Hall, 3rd ed., 1996.

84. http://www.cemi.rssi.ru/mei/reports/r04-0287.htm.

85. http://www.osp.ru/os/1999/05-06/179837/_pl.html «Системы управления полуструктурированными данными», Максим Гринев, журнал «Открытые системы».

86. http://www.citforum.rU/cfm/prcorpsys/infsistpr_03.shtml#24 «Проектирование и разработка корпоративных информационных систем», С. Д. Кузнецов, Центр Информационных Технологий, 1998.

87. http://www.oracle.com/global/ru/oramag/march2004/mpeople_march.html.

88. http://www.citforum.ru/internet/articles/dbforwww.shtml «Технологии баз данных для World-Wide Web: обзор», Даниэла Флореску, Алон Леви, Альберто Мендельсон, Журнал СУБД, #04-05/98.

89. http://synthesis.ipi.ac.ru/sigmod/seminar/s20030424 .

90. http://www.citforum.rU/database/articles/art_25.shtml#2.5 - Тенденции в мире систем управления базами данных, «Интегрированные или федеративные системы и мультибазы данных».

91. http://www.computer-museum.ru/histsoft/ji98091.php «Шлюзы как средство интеграции баз данных. Практический подход», Глеб Ладыженский.

92. http://citcity.ru/12101/ «Интеграция данных и Хранилища», подготовлено Intersoft Lab по материалам зарубежных сайтов, 29 марта 2006.

93. http://www.oracle.com/global/ru/oramag/feb2006/russia_integ.html «Межведомственная интеграция: пути оптимизации», Ирина Полотнюк, «ФОРС - Центр Разработки».

94. http://www.citforum.ru/consulting/BI/federative_access/, Дэвид Гир, «Федеративный доступ к базам данных»

95. http://www.fostas.ru/library/show_article.php?id=127, Когаловский Михаил

Рувимович, «Интеграция данных в информационных системах», Институт проблем рынка РАН, Москва.

96. http://www.icsti.su/portal/rus/newproblem/index.php?m=14, А.А.Бездушный, А.Н.Бездушный, В.А.Серебряков, В.И.Филиппов, «Интеграция метаданных Единого Научного Информационного Пространства РАН», Российская Академия Наук Межведомственный Суперкомпьютерный Центр Ран Вычислительный Центр Ран Им. А.А.Дородницына.

97. http://www.pcweek.ru/themes/detail.php7n>? 1015&THEME_ID=13884, Ирина Полотнюк, "Метаданные как базис интеграции"РС Week/RE (492) ЗСГ2005.

98. http://www.iso.ru/journal/articles/450.html, Intersoft Lab, Метаданные и их место в Хранилище. Представление метаданных с помощью XML.

99. http://ru.wikipedia.org/wiki/CDN, Википедия, «Content Delivery Network», 19.07.2010.

100. http://www.osp.ru/nets/2001/14/145576/, Павел Иванов, «Сети доставки контента», Издательство Открытые системы, 14.12.2001.

101. http://www.comscore.com/Press_Events/Press_Releases/2008/01/Baidu_Ra nked_Third_Largest_World_Wide_Search_Engine, «Baidu Ranked Third Largest Worldwide Search Property by comScore in December 2007».

102. http://www.comscore.com/Press_Events/Press_Releases/2010/6/comScore_ Releases_May_2010_U.S._Search_Engine_Rankings, «ComScore Releases May 2010 U.S. Search Engine Rankings».

103. http://company.yandex.ru/facts/researches/ya_regions_search_2010.xml#p 1, «Поиск в интернете: региональные особенности».

104. http://www.comscore.eom/Press_Events/Press_Releases/2009/8/Global_Sea rch_Market_Draws_More_than_100_Billion_Searches_per_Month, «Global

Search Market Draws More than 100 Billion Searches per Month».

105. http://www.comscore.com/Press_Events/Press_Releases/201 l/7/comScore_ Releases_Overview_of_European_Internet_Usage_for_May_2011, «ComScore Releases Overview of European Internet Usage for May 2011».

106. http://dbcl 13.cs.ust.hk:8001 /Index Server/doc/paper66.html. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. A World Wide Web Resource Discovery System.

107. http://www.osp.ru/os/1996/03/178885/, Павел Храмцов, РНЦ, Курчатовский институт, «Информационно-поисковые системы Internet», «Открытые системы».

108. http://www.computerworld.com.au/article/261958/-z_programming_languages_c, The A-Z of Programming Languages: C#.

109. http://www.osp.ru/cw/2000/25/5618/, Windows разделят на услуги, «Computerworld Россия» , № 25, 2000.

110. http://www.zabalnet.com/overview-highlight-principal-design-features.html, Principal Design Features of .NET Framework.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.