Модель оценивания параметров поисковых структур в случайной среде тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Соловьев, Михаил Михайлович
- Специальность ВАК РФ05.13.18
- Количество страниц 126
Оглавление диссертации кандидат технических наук Соловьев, Михаил Михайлович
ОГЛАВЛЕНИЕ
Введение
Глава 1. Обзор и анализ поисковых структур в случайной среде
§ 1.1. Исторические сведения
§ 1.2. Обзор современных поисковых структур в сети Интернет
и их алгоритмов
§ 1.3. Анализ алгоритмов формирования результатов
Выводы к главе 1
Глава 2. Задачи и модели процессов поиска процессов поиска
§ 2.1. Постановка задачи нахождения весовых характеристик
поисковой структуры
§ 2.2. Модель оценивания параметров объектов в сети
§ 2.3. Задача оптимизации процесса поиска
§ 2.4. Моделирование эффективного процесса поиска
§ 2.5. Имитационное стохастическое моделирование
§ 2.6. Задача нахождения момента остановки поиска
§ 2.7. Математическое и имитационное моделирование задачи
Выводы к главе 2
Глава 3. Модель оценивания вероятности возникновения угроз
§ 3.1. Описание проблемы
§ 3.2. Постановка задачи
§ 3.3. Формализация задачи
§ 3.4. Практическое применение описанной модели
Выводы к главе 3
Глава 4. Описание комплекса программ и его практическое использование,
проверка адекватности результатов
§ 4.1. Описание комплекса программ
§ 4.2. Проверка адекватности
§ 4.3. Результаты внедрения модели оценивания параметров
поисковых структур
§ 4.4. Эффективность смоделированного процесса поиска
§ 4.5. Практическое применение моделей
Выводы и заключение
Библиографический список
Приложения
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Системные исследования и оптимизация функционирования Интернет систем с использованием сетей Петри2004 год, кандидат технических наук Белохвостиков, Иван Владимирович
Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет2011 год, кандидат технических наук Краснощеков, Евгений Евгеньевич
Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах2007 год, кандидат технических наук Слюсарь, Валентин Викторович
Разработка и исследование принципов построения вертикальных образовательных порталов с открытой архитектурой2008 год, кандидат технических наук Силаев, Антон Валерьевич
Введение диссертации (часть автореферата) на тему «Модель оценивания параметров поисковых структур в случайной среде»
ВВЕДЕНИЕ
В настоящее время Интернет является важным фактором жизнедеятельности современного информационного общества. Благодаря широкому распространению компьютерных технологий в электронной форме представлена информация практически всех отраслей человеческой деятельности, таких как наука, производство, литература и т.д. В России насчитывается 41 млн пользователей 1 глобальной сети. Интернет предоставляет удобный, быстрый и относительно дешевый доступ практически к любому виду информации. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы выбора необходимой пользователю информации. Основными инструментами, решающими эту задачу, являются так называемые поисковики - Интернет-ресурсы, примерами которых могут служить получившие известность «Яндекс», «Google», «Рамблер» и др. Они могут быть универсальными и осуществлять поиск по обширным критериям, различным тематикам и направлениям или быть определенного профиля (на конкретном ресурсе, в заданной области и т.д.). Объектами поиска зачастую являются сайты. Каждый объект такого поиска характеризуется набором параметров, имеющих конкретные значения для данного ресурса и поисковика. Следует отметить, что эти значения не являются постоянными, а претерпевают изменения во времени в зависимости от содержания объекта (как правило, переменного), изменений внутренних связей объекта (ссылочной составляющей), внешних связей с другими объектами, изменений в их назначении самой поисковой системой и др. Эти значения учитываются поисковыми системами при формировании результатов, вычисляемых в алгоритме ранжирования поисковой структуры [11, 22]. Таким образом, ранжирование результатов определяется изменением значений данных параметров. Это и вызывает набольший интерес как у владельцев сайтов, так
1 По данным компании comScore на сентябрь 2010 года http://www.slideshare.net/Osnat_z/ comscore- online-measurement-russia-riw-november-2010.
4
и у разработчиков поисковых систем. Существует множество компаний [87, 93], продвигающих сайты в Интернете, которые заинтересованы в понимании процессов, формирующих результаты выдачи в популярных поисковиках.
Для понимания работы алгоритма ранжирования требуется большое количество данных, полученных как от поисковых систем, так и от самих объектов. В настоящее время существуют системы [75, 90], способные отслеживать изменения результатов выдачи и значений характеристик сайтов, а также собирать и анализировать их статистические данные. Но эти системы не могут отслеживать информацию по «чужим», сторонним сайтам, в результате чего исследование алгоритмов ранжирования поисковых структур является трудоемкой и нетривиальной задачей. Интерес к изучению данной проблемы нашел свое отражение в многочисленных программных продуктах в сети Интернет, таких как GoogleAnalytics и др. Таким образом, исследование в данной области является актуальным.
Разработанная в диссертационной работе система может отслеживать изменения параметров любого сайта и результаты выдачи поисковика (на примере «Яндекс»). В отличие от существующих систем, она может работать как отдельный сайт и легко переноситься на другую платформу посредством простой установки. Помимо этого, она является свободно распространяемым продуктом и не требует каких-либо материальных затрат. В любой момент пользователь системы может легко получить доступ к собранным данным.
Помимо этого, из-за большого количества объектов в сети и увеличивающегося числа пользователей, желающих удовлетворить свои информационные потребности, существует проблема скорости поиска данных. В диссертационной работе сформулирована и решена задача оптимизации количества единовременно выдаваемых результатов. В данном контексте под скоростью подразумеваются действия пользователей, которые требуется произвести для поиска необходимой информации, т.е. чем больше действий выполнено для достижения конечной цели, тем ниже
эффективность (скорость) поиска. Таким образом, используя разработанные в диссертационной работе методы и комплекс программ, пользователь будет быстрее находить нужную информацию, совершая при этом меньшее число действий. В настоящее время большинство поисковиков показывают лишь десять объектов на одной странице выдачи. Это число у них постоянно и не зависит от количества найденных результатов.
Таким образом, при низкой скорости поиска (когда для достижения необходимого результата требуется много обращений к поисковику) возникает ситуация большой загруженности сервера, осуществляющего этот поиск. Поэтому актуальной также оказывается задача нахождения наиболее вероятного момента сбоя в работе сервера из-за большого количества обращений к нему. Для решения этой задачи была разработана математическая модель, описывающая его поведение при некоторой активности пользователей со временем. В соответствии с ней была создана компьютерная модель, имитирующая загруженность сервера при различных пороговых значениях параметров системы. Данная часть программы была внедрена на предприятии. Полученные результаты ее работы помогли определить наиболее нестабильное время функционирования сервера, что в дальнейшем позволило исключить проблемные моменты в его эксплуатации.
В настоящей диссертационной работе в качестве объекта исследования рассматривается процесс нахождения наилучшего результата выдачи поисковой структуры.
Предметом исследования являются модели и алгоритмы, позволяющие получать решения по нахождению наиболее оптимальных параметров поисковой системы.
Целью данной работы является исследование проблем, связанных с эффективным поиском информации, их решение, описание проходящих при
этом процессов и построение их математических, компьютерных и имитационных моделей.
Задачей диссертационного исследования является разработка математических моделей и создание на их основе комплекса программ для решения нескольких типов задач:
1. Мониторинг позиций сайтов по ключевым запросам различных поисковых систем.
2. Сокращение времени поиска путем выдачи оптимального количества результатов.
3. Нахождение момента остановки поиска, результат которого удовлетворяет ожиданиям пользователя.
4. Оценивание вероятности возникновения исследуемых угроз, информация о которых присутствует в сети Интернет.
Для решения этих задач применялись разработанные автором методы с
использованием математического моделирования и современных систем разработки.
Методы исследования. В диссертационной работе используются методы математического моделирования дискретных систем. Задачи 2, 3 и 4 описываются и решаются с применением вероятностных методов. Для проведения большого количества экспериментов и имитационного моделирования используются методы генерации случайных данных, получаемых с использованием нормального и экспоненциального распределения.
При создании комплекса программ применяются методы объектно-ориентированного программирования на языках высокого уровня PHP, MySQL и Delphi. В программной реализации моделей используется аппарат численного математического моделирования и библиотеки подпрограмм компьютерной математики.
Апробация созданных программ проводится путём сравнения результатов их работы со значениями, полученными от реальных объектов и их функционирования. Помимо этого, результаты диссертационной работы докладывались и обсуждались на кафедре прикладной математики и информатики УлГУ, а также на следующих конференциях:
1. X Всероссийский симпозиум по прикладной и промышленной математике, ОППМ, г. Сочи - Дагомыс, 1-8 октября 2009 г.
2. XI Всероссийский симпозиум по прикладной и промышленной математике «Инновационная экономика: проектные решения и управление рисками», ОППМ, г. Кисловодск, 1-8 мая 2010 г.
3. VI Всероссийская открытая научно-практическая конференция «Актуальные задачи математического моделирования и информационных технологий», г. Сочи, 22-27 мая 2010 г.
4. X Международная научно-практическая конференция «Теория, методы и средства», г. Новочеркасск, 5 апреля 2010 г.
5. Международная научная школа для молодежи, г. Москва, октябрь 2010 г.
Численные методы применялись при построении моделей стохастических систем с динамическим выбором шага дискретизации, а также использовался модифицированный метод минимизации, максимизации функций. На этапе проверки адекватности моделей вычисляются средние и среднеквадратичные отклонения теоретических и экспериментальных данных.
Научная новизна заключается в том, что в работе предложены новые модели системы оптимального выбора параметров поиска, а также простая в использовании и эффективная система сбора и мониторинга статистики объектов поиска; были поставленные задачи оптимизации, решение которых позволило найти эффективные значения параметров поисковых систем. Их применение может ускорить поиск, быстрее выдать пользователю желаемый
результат, тем самым сократив нагрузку на сервер или определив наиболее вероятный момент его сбоя. Разработана математическая модель автоматизированного принятия решений на основе данных, полученных из случайной среды.
Основные положения, выносимые на защиту:
1. Модель формирования результатов поисковой структурой при запросах пользователей на основе заданных параметров объектов.
2. Метод нахождения момента остановки процесса сетевого поиска.
3. Математическая модель оптимизации количества результатов поиска на основе оригинального использования численного метода.
4. Комплекс программ для имитационного моделирования и численного анализа процессов поиска.
Достоверность результатов обеспечивается использованием аналитических и численных методов расчёта, методов математического моделирования и применением современных методик анализа экспериментальных данных посредством компьютерного моделирования. Тестирование каждой модели проходило на компьютере путем многократных запусков программ с использованием различных нормировочных коэффициентов.
Теоретическая и практическая значимость диссертационного исследования заключается в том, что разработанный комплекс программ может использоваться как целиком, так и отдельно по трем компонентам. Причем модели и комплекс программ позволяет не только анализировать полученные данные, но и прогнозировать, моделировать различные ситуации, которые позволили сделать поиск более эффективным, определить моменты сбоя сервера и пороговое значение его загруженности. Часть комплекса была внедрена и применяется на практике в ООО «Креатер» г. Ульяновска.
По теме диссертации опубликовано 10 работ, в том числе 4 работы в рецензируемых научных журналах, рекомендованных ВАК.
Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 97 наименований источников отечественных, зарубежных авторов и электронных ресурсов, а также приложений. Общий объём диссертации составляет 126 страниц, в том числе 99 страниц основного текста и 27 страниц приложений.
СОДЕРЖАНИЕ РАБОТЫ
Во введении даётся общая характеристика современного состояния проблемы в данной области исследования и диссертационной работы в целом. Обоснована актуальность темы диссертации, сформулированы цели и задачи в общем виде.
В первой главе рассматриваются популярные на данный момент поисковые структуры. Они сравниваются между собой по различным критериям, а также перечисляются их достоинства и недостатки. Приводится пример обобщенного метода ранжирования результатов выдачи поисковой машиной или поисковиком (на примере «Яндекс»).
В параграфе 1.1 рассказывается о развитии поисковых систем со временем. В параграфе 1.2 приводятся наиболее известные из них в сети Интернет. Производится сравнение и сопоставление таких систем.
В параграфе 1.3 рассматривается обобщенный алгоритм ранжирования результатов на примере поисковой машины Google.
Во второй главе описываются задачи, решаемые в данной диссертационной работе. Производится их математическое и имитационное моделирование.
Предполагается, что гипотетически поисковик при сортировке результатов опирается на некие характеристики объекта под конкретный запрос пользователя. Исходя из этого, возникает задача определения веса той или иной характеристики объекта для поисковика. Данная задача ставится в параграфе 2.1.
В параграфе 2.2 строится теоретическая модель выдачи результатов по обобщенной формуле (1):
(£)> С1)
1=1
где ¿е[1..т], т,п<со. Причем Р1 (Ь) = {Р\,Р2,—,Рп} ~ множество значений характеристик искомых объектов, используемых поисковой структурой для ранжирования результатов выдачи, таких, что значения Р*(Ь) общедоступны, имеются у каждого объекта и могут быть различны для любого элемента из множества поисковых запросов Ь={1\, /г, ..., 4}, К={к1г к2, ..., кп} -множество коэффициентов (так называемого веса) для параметров Р, которые необходимо оценить. Зная результаты / (/ - множество значимостей объекта поиска со временем t=[l..m]), иными словами, зная позицию объекта при выдаче результатов, можно построить линейное приближение и определить коэффициенты К.
В параграфе 2.3 описывается задача оптимизации процесса поиска, решением которой должен задаваться разработчик поисковой структуры, например, решением задачи нахождения оптимального количества выдаваемых поисковиком результатов на запрос пользователя. Эта задача рассматривается в диссертационной работе. Критерием оптимальности в этом случае является наименьшее количество действий, затраченных для поиска необходимой информации.
В параграфе 2.4 строится математическая модель процесса поиска, описываемая формулой (2):
Ф(Л) = ЕЫ1 (со) + ЕР1 (ЛГ- (со); ю)—Ц-тт, (2)
а> о
где ^(г;<й) - позиция /-го объекта на г-й запрос пользователя, причем г = 1,2,..., N, здесь N - функция, характеризующая номер последнего запроса в этом конкретном со -эксперименте, при котором пользователь удовлетворен результатом поиска. В момент г = И процесс останавливается (т. е. поиск считается завершенным, если число просмотренных пользователем
результатов меньше или равно количеству выданных объектов на первой странице), причем, в зависимости от ситуации, N может быть различно. Таким образом, N можно формально представить формулой (3):
где А - нижняя граница результата, при котором пользователь останавливает эксперимент.
Следует отметить, что при уменьшении единовременно выдаваемых результатов увеличивается количество обращений пользователей к поисковику, а при увеличении количества результатов выдачи число запросов пользователей уменьшается, но теряется качество такой выдачи, и в ней сложно ориентироваться из-за их большого числа.
В параграфе 2.5 приведено имитационное стохастическое моделирование данной модели и представлены его результаты в виде графика. Описываются блок-схемы соответствующих алгоритмов данного программного модуля. В результате чего установлено, что решение функционала (2) достигается в 30% от общего количества результатов или от максимальной границы А.
В параграфе 2.6 рассматривается процесс выдачи результатов поиска, но из-за того, что подходящей информации может быть много, требуется найти самый ожидаемый пользователем результат. Возникает задача нахождения эффективного объекта при поиске информации в сети.
В параграфе 2.7 приводится математическое и имитационное описание задачи из параграфа 2.6. Обозначим М - максимальный уровень ожидания пользователя - идеальный результат поиска. Устанавливается реальная граница ожидания М£=М-е> 0, где £ = {1,2,3,. ..,М -1} . Пусть {Хг}/>1 -множество значений параметров /-го последовательного объекта поиска, экспоненциально распределенных по формуле (4):
= тш(г: г > 1, ^ (г; со )<А),
(3)
>0, у >0
0, Хг<0
Пусть iTi}i> i - множество моментов остановок Tj = inf(0 <t <Т \ nt =i) , являющихся моментами, в которые поисковая
система получает объект для анализа, где Т - максимальное время поиска результата (здесь время носит дискретный характер). Таким образом, задача сводится к нахождению т - оптимального момента остановки поиска, описываемого уравнением (5):
т = mf(t: Yt >М£), (5)
t
где Yt -Y0 + ¡(Х^ - Ys_)dn:s . Т.е. Yt имеет кусочно-постоянные траектории, О
значения которых равны Хп только в моменты скачка ns. Иными словами, Yt содержит наблюдения за весь период времени [0; t] в моменты скачков nt, учитывая предыдущее значение процесса. Где nt - это пуассоновский процесс (в разложении Дуба-Мейера). По этому закону задаются объекты для анализа в поисковой системе.
Поэтому задача оптимизации сводится к минимизации среднего времени ожидания наилучшего результата и одновременно к уменьшению границы допустимых отклонений s . Это требование формализуется математически в формуле (6):
Ф(г, s) = аЕт + б -» min. (6)
£>0
Результаты имитационного компьютерного моделирования процесса, описываемого в данном параграфе формулой (6) представлены на графиках. Далее подробно рассматривается и описывается блок-схема алгоритма решаемой задачи.
Третья глава. В сети Интернет содержится большой объем информации, способной помочь достоверно оценить нежелательное событие. Но возникает проблема сбора необходимых и точных данных для такой оценки. В результате чего в данной главе ставится и решается задача
оценивания возникновения чрезвычайных ситуаций угроз на основе открытой информации в сети Интернет.
В параграфах 3.1 и 3.2 описывается рассматриваемая задача оценивания вероятности возникновения чрезвычайных ситуаций. Приводятся примеры, где текущий вопрос может быть актуален. Предполагается, что к возникновению определенной угрозы на у'-ом объекте (обозначенной
гг ^
символом А ) приводят какие-либо факторы угроз (ФУ) В -{В }, / е [1,-/У], где N - количество различных ФУ.
о
В параграфе 3.3 проводится формализация задачи. Пусть мера Р(А )
о
представляет собой вероятность события А , оцениваемого по ФУ с учетом
О»
заранее определенных условных вероятностей Р(А | В1) и частот появления
факторов В1 . Оценивание меры В1 производится по входным данным ср{ (векторный набор статистических показателей).
о
Для вычисления вероятности события А используется формула (7):
Р/(^) = 1-П(1-дгР/(5г')), (7)
г=1
а также допускается, что у каждого оцениваемого объекта, есть защитные меры от факторов В1, которые характеризуется коэффициентом значимости
п-то защитного фактора а]п .
Формула (8) позволяет определить защитный коэффициент от факторов В1 для у-го объекта:
т
-, (8)
^ т
п=1
где 1]п - факт выполнения п-то защитного фактора /-то объекта, причем О < К]8 < 1 . Также принимается во внимание, что каждый источник
информации (ИИ) анализируется в соответствии со временем актуальности ТА по фактору В1 : ТА = {*,•}, г е [1,ЛГ] . При этом для N источников информации и для каждого фактора определяется количество встречаемости каждого из слов в течение времени актуальности ТА в виде векторов: (р1 = {(р\, <£>2? •••■> ф1 ) , гДе пг ~ число найденных слов в ИИ для В1 . По
полученным данным <р1 и коэффициентам значимостей [3\ I-ой компоненты
ч
1-го вектора входных данных позволяют построить оценку К(9):
V1 -
1
(9)
ш')2:ш)2
1=1 1=1
Далее по формуле (10):
Р^В1) = г • Р}{В1) + а ■- Г) ■ (10)
строятся оценки мер ФУ Р^ (В1), где
р)(в1) = кЪ-( (11)
представляет собой меру опасности по /~му фактору при условии его полной компенсации защитными мерами объектов. Формула (12)
Р]-(В1) = \-{\-кЬ)-к1, (12)
представляет собой меру опасности по г-му фактору при условии доминирования любой из опасностей. Таким образом, оценка меры по /-му
фактору Pj(Bl) может быть записана в виде (13):
р^) = г-кЬ-(1-Ц) + (1-у)-(1-(\-кЬ)-к{), (13)
где параметр у е [ОД] - баланс соотношения защищенности объекта от ФУ В\
Оценки вероятностей Р;(В1) и РЛА ) приводят нас к итоговой
формуле (14) для расчета степени угрозы возникновения события А :
Pj(As) = \-f[(\-qiPj{Bi)). (14)
1=1
В параграфе 3.4 описывается практическое применение разработанной модели в составе автоматизированной системы расчета угроз авиационной безопасности.
В четвертой главе приводится описание комплекса программ и его практическое применение. Производится проверка адекватности полученных результатов путем их сравнения с существующими объектами.
В параграфе 4.1 представлено описание комплекса программ. Каждая программа описывается отдельно и может применяться независимо от всего комплекса. Все модули написаны на языках высокого уровня PHP, Mysql и Delphi. Например, описывается созданная система сбора статистики значений параметров объектов для конкретных ключевых запросов и позиций выдачи поисковика со временем для решения поставленной задачи. Данная система не только собирает статистику, но и позволяет отслеживать все изменения в статистиках при помощи графиков и таблиц. Любой человек, знающий логин и пароль к системе, может выступать в роли администратора: создавать, редактировать и удалять объекты и поисковые слова. Это позволяет делать удобный и понятный интерфейс системы управления.
В параграфе 4.2 проверяется адекватность разработанных моделей и алгоритмов. В параграфе 4.3 для задачи оптимизации процесса поиска из параграфа 2.3 рассчитывается эффективность относительно удобности поиска пользователем и уменьшение нагрузки на поисковик. Для этого минимизируется граница А, не выходя за установленные 30% (указанные в параграфе 2.5). Таким образом, чтобы уменьшить нагрузку на саму поисковую структуру и сделать выдачу более восприимчивой для пользователя, необходимо понизить количество результатов выдачи. Но при этом работа пользователя (значение Ф(Л) ) не должна слишком сильно увеличиваться, граница этого роста обозначается через число В. Исходя из
16
всего вышесказанного, введем эффективное значение количества единовременно выдаваемых результатов (С) поиска, выражаемое формулой (15):
С{В) = тах{4 :0 < Ф(4 ) - Ф(4+1) < В). (15)
в> о
Очевидно, что при минимальных значениях В число будет весьма велико и не может удовлетворять требованиям по уменьшению числа выдаваемых результатов, наоборот, при выборе В очень большим результат устремляется к нулю.
Ряд проведенных экспериментов показывает, что эффективное количество результатов выдачи (по критерию удобства пользователя -нагрузка поисковика) должна составлять 2-3% от общего количества результатов или от максимальной границы А.
В параграфе 4.5 рассказывается о практическом применении данной модели на реальном примере работы веб-сервера. Проанализированы данные его нагрузки на разработанном алгоритме. Происходит сопоставление теоретических и практических данных, высчитывается их среднее и среднеквадратичное отклонение. В результате чего подобраны параметры для теоретической модели, имеющие наибольшую близость с реальными данными.
В выводах и заключении кратко перечислены основные новые достижения и результаты диссертационной работы:
1. Построены математические модели, способные упростить поиск пользователю и сократить нагрузку на поисковую систему;
2. Разработана математическая и компьютерная модель оценивания возникновения угроз на основе собранных и проанализированных информационных данных из глобальной сети Интернет;
3. Создан комплекс программ для решения задач, связанных с моделированием поиска в случайной среде, а также мониторинга данных для поисковой оптимизации сайта;
Разработаны программы, применение которых возможно как в задачах, имеющих аналитическое решение, так и на практике с использованием реальных объектов.
В приложение помещены листинги отдельных фрагментов кода комплекса программ и алгоритмов, применявшихся для построения математических моделей, структура базы данных, а также дополнительные изображения построенных графиков из программного комплекса, не вошедшие в основную часть диссертации.
Автор выражает глубокую благодарность своему научному руководителю - профессору, доктору физико-математических наук Александру Александровичу Бутову за точную постановку задач, детальное рассмотрение результатов работы и всестороннюю поддержку на всех этапах написания диссертационного труда.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети2008 год, кандидат технических наук Седова, Татьяна Львовна
Оценка нагрузки на компьютерную сеть при обработке поисковых запросов в интегрированных информационных системах2012 год, кандидат технических наук Галиев, Тимур Эргунович
Разработка методов и алгоритмов мультиагентного поиска релевантной информации в информационных средах гипертекстовой организации2000 год, кандидат технических наук Кононенко, Роман Николаевич
Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах2010 год, кандидат технических наук Терехов, Алексей Андреевич
Разработка методики оптимизации распределения ресурсов центров обработки данных в сети интернет2009 год, кандидат технических наук Тутова, Наталья Владимировна
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Соловьев, Михаил Михайлович
ВЫВОДЫ И ЗАКЛЮЧЕНИЕ
В диссертационной работе решались поисково-оптимизационные задачи. Был проведен анализ современного состояния исследований и алгоритмов наиболее популярных поисковых структур в сети Интернет.
В рамках данной диссертационной работы разрабатывались и исследовались модели нахождения параметров поисковых структур в случайной среде. Были построены модели, имитирующие процесс поиска в сети, нахождение момента остановки поиска при получении желаемого результата пользователем, а также модуль расчета оценки вероятности возникновения чрезвычайной ситуации на основе открытой информации в сети Интернет.
Адекватность моделей достигнута за счет строгости постановок задач и использования аналитических и численных методов расчета, методов математического моделирования и применения современных методик экспериментальных исследований. Результаты прикладного применения диссертационной работы привели к схожим теоретическим результатам. Модели разрабатывались в вероятностных терминах. На основе приведенных алгоритмов создан комплекс программ рассмотренных моделей.
Успешное применение результатов диссертационной работы доказывает ее актуальность и востребованность в области информационных технологий, а также в других областях, где требуется принятие решения на основе большого объема эмпирических данных.
Основные результаты, полученные в диссертационной работе:
1. Построены математические модели, способные упростить поиск как пользователю, так и поисковой системе;
2. Разработана математическая и компьютерная модель оценивания возникновения угроз на основе собранных и проанализированных информационных данных из глобальной сети Интернет;
3. Создан комплекс программ для решения задач, связанных с моделированием поиска в случайной среде, а также мониторинга данных для поисковой оптимизации сайта;
4. Разработаны программы, применение которых возможно как в задачах, имеющих аналитическое решение, так и на практике с использованием реальных объектов.
Результаты использования комплекса программ на практике:
1. При помощи системы сбора параметров сотрудники отдела компании стали ежедневно и более чем 6,5 раз быстрее получать необходимую информацию по интересующим сайтам и ключевым словам;
2. Разработанный модуль ежемесячной генерации отчетов о результатах проделанной работы по продвижению для выбранного сайта позволил сократить время формирования таких отчетов более чем в 4,2 раза;
3. Применение имитационной модели задачи нахождения эффективного объекта поиска позволило обнаружить моменты пиковых нагрузок на сервер. Благодаря этому, после проведения мероприятий по оптимизации работы сервера, частота возникновения ситуаций с нагрузкой, близкой (равной, либо больше) пиковой, была снижена в 1,4 раза.
Список литературы диссертационного исследования кандидат технических наук Соловьев, Михаил Михайлович, 2012 год
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Алгоритм сортировки страниц HITS [Электронный ресурс]: статья. -Режим доступа: http://traf.net.ru/se/algoritm-hits.htm
2. Анулова, С. В. Стохастическое исчисление / С. В. Анулова, А. Ю. Веретенников, Н. В. Крылов [и др.]. - М. : ВИНИТИ, 1989. - Сер. Итоги науки и техники. Современные проблемы математики. Фундаментальные направления. - Т. 45. - 264 с.
3. Ахо, А. Построение и анализ вычислительных алгортимов : пер. с англ. /
A. Ахо, Дж. Холкрофт, Дж. Ульман. - М. : Мир, 1979. - 536 с.
4. Ахо, А. Структуры данных и алгоритмы : учеб. пособие / А. Ахо,
B. Хопкрофт, Д. Ульман, Д. Джеффри. - М. : Издательскй дом «Вильяме», 2000. - 384 с.
5. Ахо, А. Теория синтаксического анализа, перевода и компиляции. Т. 1. Синтаксический анализ / А. Ахо, Дж. Ульман. - М., 1978. - 612 с.
6. Ашманов, И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. - М. : ООО «И. Д. Вильяме», 2007. - 304 с.
7. Бажанова, Т. В. Описание системы в терминах классической СМО с бесконечным числом приборов / Т. В. Бажанова, К. О. Раводин, М. М. Соловьев // Учен. зап. Ульяновского гос. ун-та. Сер. Математика и информационные технологии. Вып. 1(2) / под ред. проф. А. А. Смагина. - Ульяновск: УлГУ, 2009. - С. 243-245
8. Банди, Б. Методы оптимизации (вводный курс) / Б. Банди. - М. : Радио и связь, 1988.- 128 с. : ил.
9. Биллингсли, П. Сходимость вероятностных мер : пер. с англ. / П. Биллингсли ; Главная ред. физ.-мат. лит. изд-ва. - М. : Наука, 1977. -352 с.
10. Борель, Э. Вероятность и достоверность / Э. Борель. - М. : Наука, 1969. -Режим доступа: http://eqworld.ipmnet.ru/ru/library/books/Borel 1969ru.djvu
11. Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса / А. Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин // Тр. РОМИП. - 2008. - С. 160-169.
12. Брукс, Ф. П. (мл.) Как проектируются и создаются программные комплексы / Ф. П. Брукс (мл.). - М. : Наука, 1979. - 151 с.
13. Бутов, А. А. Элементы стохастического исчисления : методическое пособие / А. А. Бутов. - Ульяновск : УлГУ, 1996. - 24 с. - Режим доступа: http://fmit.ulsu.m/pm/butovforsite/butovaaelementsofstochasticcalculus.pdf
14. Васильев, Ф. П. Численные методы решения экстремальных задач / Ф. П. Васильев. - М. : Наука, 1980. - 552 с.
15. Викинаука [Электронный ресурс]: сайт. - Режим доступа: Ьйр://ги.8с1епсе.ш1к1а.сош^1к1/Поисковая%20оптимизация.
16. Википедия - XML [Электронный ресурс]: энциклопедия. - Режим доступа: http://ru.wikipedia.org/wiki/Xml
17. Виленкин, Н. Я. Метод последовательных приближений / Н. Я. Виленкин. -М. : Наука, 1968.- 108 с.
18. Вирт, Н. Алгоритмы и структуры данных : пер. с англ. / Н. Вирт. - М. : Мир, 1989.-360 с. : ил.
19. Гагарина, Л. Г. Технология разработки программного обеспечения / Л. Г. Гагарина, Е. В. Кокорева, Б. Д. Виснадул. - М. : ИД «ФОРУМ»; ИНФРА-М, 2008. - Режим доступа: http://letitbit.net/download/ 97279.9984a5fab96aedldb4dle2666d02ad92/gagarina_tehnologiya_razrabotk i_programmnogo_obespecheniya.rar.html
20. Гамма, Э. Приемы объектно-ориентированного проектирования. Паттерны проектирования / Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. - СПб. : Питер, 2007. - 366 с.
21. Грил, Ф. Практическая оптимизация / Ф. Грил, У. Мюррей, М. Райт. -М. : Мир, 1985.-252 с.
22. Грис, Д. Наука программирования / Д. Грис. - М. : Мир, 1984. - Режим доступа: http://www.brain21ife.eom/book/l 179.html.
23. Губин, М. В. Модели и методы представления текстового документа в системах информационного поиска / М. В. Губин. - СПб., 2005. - Режим доступа: http://maxgubin.com/articles/autoreferat.pdf
24. Гулин, А. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 / А. Гулин, М. Маслов, И. Сегалович // Тр. РОМИП-2006: Тр. IV российского семинара по оценке методов информационного поиска / под ред. И. С. Некрестьянова. - СПб. : НИИ Химии СПбГУ, 2006.
25. Гэри, М. Вычислительные алгоритмы и труднорешаемые задачи : пер. с англ. / М. Гэри, Д. Джонсон. - М., 1982. - 416 с. : ил.
26. Евдокимов, Н. В. Основы контентной оптимизации. Эффективная Интернет-коммерция и продвижение сайтов в Интернет / Н. В. Евдокимов.
- М. : Вильяме, 2007. - 160 с. : ил.
27. Зангвилл, У. Нелинейное программирование. Единый подход / У. Зангвилл.
- М. : Сов. радио, 1973. - 311 с.
28. Зенкевич, О. Метод конечных элементов в технике / О. Зенкевич. - М. : Мир, 1975.-318 с.
29. Зуев, М. Б. Продвижение сайтов в поисковых системах: спасательный круг для малого бизнеса / М. Б. Зуев, П. А. Маурус, А. Г. Прокофьев. -3-е изд. - М. : БИНОМ. Лаборатория знаний, 2009. - 299 с.
30. Зябрев, И. Статистические методы исследования алгоритмов текстового ранжирования поисковых систем / И. Зябрев, О. Пожарков // Доклад на конференции «Поисковая оптимизация и продвижение сайтов в Интернете 2009». - Режим доступа: http ://www.altertrader. com/publications 18 .html
31. Избранные статьи о вебтехнологиях [Электронный ресурс]: статья. -Режим доступа: http://nomagic.ru/all.php?aid=34.
32. Кастро, Э. HTML и CSS для создания web-страниц / Э. Кастро. - М. : НТ Пресс, 2006. - 144 с.
33. Кнут, Д. Э. Искусство программирования. Т. 3. Сортировка и поиск / Д. Э. Кнут. - М. : Издательскй дом «Вильяме», 2007. - 824 с. - Режим
доступа: http://www.booksgid.com/programmer/26470-iskusstvo-
programmirovanij a.html
34. Козлов, Д. Д. Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ / Д. Д. Козлов, А. А. Белова // Сб. работ стипендиатов по гранту компании Яндекс. 2005. - Режим доступа: http://company.yandex.ru/grant/2005/06_Kozlov_l 02805 .pdf.
35. Кокшаров, С. SEO: поисковая оптимизация от А до Я / С. Кокшаров, А. Люстик, М. Шакин. «Самиздат», 2011. - 707 с. - Режим доступа: http://depositfiles.com/ru/files/6up2p 1 iwc
36. Кормен, Т. X. Алгоритмы: построение и анализ / Т. X. Кормен, Ч. И. Лейзерсон, Р. Л. Ривест, К. Штайн. - 2-е изд. - М. : Издательский дом «Вильяме», 2005. - 1296 с. - Режим доступа: http://reslib.com/book/ Algoritmi_postroenie_i_analiz_Kormen_T_
37. Корявко, А. Методы предварительной обработки данных для алгоритма Клейнберга / А. Корявко, И. Некрестьянов // Тр. IV Всероссийской конф. - RCDL'2002. - V. 2. - Р. 215-231.
38. Круз, Р. Л. Структуры данных и проектирование программ : пер. с англ. / Р. Л. Круз. - М. : БИНОМ. Лаборатория знаний, 2008. - 765 с.
39. Крупский, А. Ю. Разработка и стандартизация программных средств / А. Ю. Крупский, Л. А. Феоктистова. - М. : Дашков и Ко, 2009. - Режим доступа: http ://kilofile. сот/download/52012.
40. Кузнецов, М. Программирование: ступени успешной карьеры / М. Кузнецов, И. Симдянов. - СПб. : БХВ-Петербург, 2006. - 302 с.
41. Кузьмин, А. В. Поиск в Интернете. Как искать, чтобы найти / А. В. Кузьмин, Н. Н. Золотарева. - М. : Наука и техника, 2006. - 160 с. -Режим доступа: http://letitbit.net/download/4375.46826d48129f6f042c8d7 0f783/poisk_v_internete.pdf.html
42. Ландэ, Д. В. Поиск знаний в Internet. Профессиональная работа / Д. В. Ландэ. - М. : Диалектика, 2005. - 272 с.
43. Лемешко, Б. Ю. Об оценивании параметров распределений по интервальным наблюдениям / Б. Ю. Лемешко, С. Н. Постовалов // Новосибирский гос. технический ун-т. Сер. Вычислительные технологии, Т. 3,№ 2.- 1998.-С. 31-38.
44. Лемешко, Б. Ю. Статистический анализ одномерных наблюдений случайных величин / Б. Ю. Лемешко // Новосибирск : Изд-во НГТУ, 1995. - Программная система. - 125 с.
45. Липцер, Р. Ш. Мартингалы и предельные теоремы для случайных процессов / Р. Ш. Липцер, А. Н. Ширяев // ВИНИТИ. - 1989. - Сер. Современные проблемы математики. - Т. 45. - С. 159-251.
46. Липцер, Р. Ш. Статистика случайных процессов / Р. Ш. Липцер, А. Н. Ширяев. - М. : Наука, 1974. - 696 с.
47. Липцер, Р. Ш. Теория мартингалов / Р. Ш. Липцер, А. Н. Ширяев. - М. : Наука, 1986.
48. Лоэв, М. Теория вероятностей / М. Лоэв. - М. : ИЛ, 1962. - Режим доступа: http://eqworld.ipmnet.ru/ru/library/books/Loevl962ru.djvu
49. Маликов, А. В. Проектирование и исследование свойств реляционных баз данных, нормализованных на основе операций выборки и соединения : дис. ... д-ра технич. наук / А. В. Маликов. - Ставрополь, 2005.-256 с.
50. MaTeMaTHKa\Optimization Toolbox [Электронный ресурс]: электронная книга. - Режим доступа: http://matlab.exponenta.rU/optimiz/book_4/4/ lsqcurvefit.php.
51. Мациевский, Н. С. Реактивные веб-сайты. Клиентская оптимизация в алгоритмах и примерах : учеб. пособие / Н. С. Мациевский, Е. В. Степа-нищев, Г. И. Кондратенко. - М., 2010. - Режим доступа: http://www.lbz.ru/ pdf/ cC0253-6x.pdf.
52. Мик, Б. Практическое руководство по программированию / Б. Мик, П. Хит, Н. Рашби. - М. : Радио и связь, 1986. - Режим доступа:
http://letitbit.net/download/96378.979970765bf9968da514e034e741/mik_pra kticheskoe_rakovodstvo_po_programmirovaniyu_pdf.rar.html
53. Окулов, С. M. Сортировка и поиск / С. М. Окулов // Информатика. -2000.-№ 33, 35.
54. Окулов, С. М. Основы программирования / С. М. Окулов. - М. : БИНОМ. Лаборатория знаний, 2002. - 424 с. : ил.
55. Орлов, А. И. Прикладная статистика / А. И. Орлов // Ч. 2. Основные проблемы прикладной статистики, §2.2. - М. : Изд-во «Экзамен», 2004. -483 с.
56. Оптимизация [Электронный ресурс]: справочник. - Режим доступа: http://www.chemport.ru/chemical_encyclopedia_article_2622.html
57. Осадчук, Е. В. Конкурентоспособность в Интернете: как сделать свой проект успешным / Е. В. Осадчук. - М. : БИНОМ. Лаборатория знаний, 2008.- 152 с.
58. Островский, Г. М. Технические системы в условиях неопределенности: анализ гибкости и оптимизация : учеб. пособие / Г. М. Островский, Ю. М. Волин. - М. : БИНОМ. Лаборатория знаний, 2008. - 319 с.
59. Поисковая система Яндекс [Электронный ресурс]: статья. - Режим доступа: http://dataword.info/poiskovaya-sistema-yandeks.php
60. Поляк, Б. Т. Введение в оптимизацию / Б. Т. Поляк. - М. : Наука, 1983. -384 с.
61. Практическое руководство по решению некоторых вычислительных задач с использованием Microsoft Excel : учеб. пособие / Л. И. Артемьева, В. В. Васильев, Т. Н. Гартман [и др.] ; под ред. д.т.н., проф. Т. Н. Гартмана. - М. : РХТУ им. Д. И. Менделеева, 2006. - 68 с.
62. Рыжов, А. П. Модели поиска информации средствами теории нечетких множеств: моногр. / А. П. Рыжов. - М. : МГУ, 2004. - Режим доступа: http://www.intsys.msu.ru/staff/ryzhov/FuzzyRetrieval2010.pdf.
63. Самарский, А. А. Математическое моделирование: Идеи. Методы. Примеры. / А. А. Самарский, А. П. Михайлов. - М. : Наука. Физматлит, 1997.-320 с.
64. Cea, Ж. Оптимизация. Теория и алгоритмы / Ж. Cea. - М. : Мир, 1973. -244 с.
65. Севостьянов, И. Поисковая оптимизация. Практическое руководство по продвижению сайта в Интернете / И. Севостьянов. - СПб. : Питер, 2010.
- 240 с.
66. Сергеев, А. П. HTML и XML. Профессиональная работа / А. П. Сергеев.
- М. : Диалектика, 2004. - 880 с.
67. Соловьев, М. М. Задача выбора параметра для эффективного поиска / М. М. Соловьев // Актуальные задачи математического моделирования и информационных технологий: материалы VI Всероссийской открытой науч.-практич. конф. - Сочи, 2010. - С. 150-151.
68. Соловьев, М. М. Задача эффективного поиска в сети / М. М. Соловьев // Обозрение прикладной и промышленной математики: XVII Всероссийская школа-коллоквиум по стохастическим методам и XI Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия) и II Региональный макросимпозиум «Насущные задачи прикладной математики в Ставрополье». Т. 17, вып. 5. - М., 2010. -С. 766-776.
69. Соловьев, М. М. Модель эффективного поиска в сети / М. М. Соловьев // Моделирование. Теория, методы и средства: материалы X Международной науч.-практич. конф. - Новочеркасск, 2010. - С. 133-134.
70. Соловьев, М. М. Модель процесса поиска в сети / М. М. Соловьев, А. А. Корепин // Обозрение прикладной и промышленной математики: Тез. Всероссийских XVII школы-коллоквиума по стохастическим методам и XI симпозиума по прикладной и промышленной математике (весенняя сессия), Всероссийских XVI школы-коллоквиума по стохастическим методам и X симпозиума по прикладной и
промышленной математике (весенняя сессия), Всероссийского Макросимпозиума «Инновационная экономика: проектные решения и управление рисками». Вып. 3. - М., 2010. - С. 459-460.
71. Соловьев М. М. Программа получения и обработки данных объекта в случайной среде / М. М. Соловьев // Математические основы эффективных вычислений и информатики. Сб. науч. тр. Международной науч. школы для молодежи. - М., 2010. - С. 39-42.
72. Соловьев, М. М. Система анализа новостных Интернет-ресурсов для вычисления угроз авиационной безопасности / М. М. Соловьев, К. О. Раводин, А. А. Бутов, М. А. Волков // Естественные и технические науки. - М. : Спутник+, 2011. - С. 278-282.
73. Соловьев, М. М. Система сбора данных в случайной среде для оценивания параметров поисковых структур / М. М. Соловьев, И. А. Санников // Обозрение прикладной и промышленной математики: Тез. X симпозиума по прикладной и промышленной математике (осенняя открытая сессия), Т. 16, вып. 5.-М., 2009.-С. 245-246.
74. Соловьев, М. М. Модель оценивания параметров поисковых структур / М. М. Соловьев // Учен. зап. Ульяновского гос. ун-та. Сер. Математика и информационные технологии. Вып. 1(2) / под ред. проф. А. А. Смагина.
- Ульяновск: УлГУ, 2009. - С. 249-252.
75. Статистика сайта Live Internet [Электронный ресурс]: сайт-программа. -Режим доступа: http://www.liveinternet.ru/stat.
76. Сухарев, А. Г. Курс методов оптимизации / А. Г. Сухарев, А. В. Тимохов, В. В. Федоров. - М. : Наука, 1986. - 367 с.
77. Тихомиров, В. М. Некоторые вопросы теории приближений / В. М. Тихомиров. - М. : Изд-во МГУ, 1976. - 305 с.
78. Ульман, JI. Основы программирования на PHP : пер. с англ. / JI. Ульман.
- М. : ДМК Пресс, 2001. - 288 с.
79. Феллер, В. Введение в теорию вероятностей и ее приложения : пер. с англ. Т. 1 / В. Феллер. - М., 1984. - 511 с.
80. Феллер, В. Введение в теорию вероятностей и ее приложения : пер. с англ. Т. 2 / В. Феллер. - М., 1984. - 766 с.
81. Фридл, Дж. Регулярные выражения / Дж. Фридл. - СПб. : Питер, 2003. -464 с.
82. Фридман, A. J1. Основы объектно-ориентированной разработки программных систем / A. JI. Фридман. - М. : Финансы и статистика, 2000. - Режим доступа: http://turbobit.net/awk49a0vmsuy/fridman_osnovy_ obektno_orientirovannoi_razrabotki_programmnyh_sistem.rar.html
83. Шабанов, В. И. Алгоритм формирования ассоциативных связей и его применение в поисковых системах / В. И. Шабанов, А. Е. Власова // Междунар. конф. по компьютерной лингвистике и ее приложениям «Диалог-2003». - Режим доступа: http://wwvv.rambler.ru/cib/rumetrica/ article.html?mid=3690476
84. Ширяев, А. Н. Вероятность - 1. Элементарная теория вероятностей. Математические основания. Предельные теоремы / А. Н. Ширяев. - М. : МЦНМО, 2004. - 520 с.
85. Яндекс, Рамблер и другие Алгоритмы поиска и ранжирования сайтов Яндекс и Рамблер как «черные ящики» [Электронный ресурс]: статья. -Режим доступа: http://www.minich.ru/business/seo.
86. Boyer, R. S. A fast string searching algorithm / R. S. Boyer, J. S. Moore. -Comm. ACM, 1977.
87. BroaDBanD Group. Продвижение сайтов - раскрутка сайта в поисковых системах [Электронный ресурс]: сайт компании. - Режим доступа: http://www.bdbd.ru.
88. Butov, A. A. On the semimartingale presentation problem for the processes possessing correlation function with finite support / A. A. Butov // Ученые зап. Ульяновского гос. ун-та. - Сер. Фундаментальные проблемы математики и механики. - 1999. - Вып. 1(6).
89. Butov, A. A. Random walks in random environments of the general type / A. A. Butov // Stochastics and stochastics reports. - 1994. - V. 48. - P. 145160.
90. Google Analytics [Электронный ресурс]: сайт-программа. - Режим доступа: http ://www. google. com/intl/ru/analytics.
91. Grill, P. E. Practical optimization / P. E. Grill, W. Murrey, M. H. Wright // System Optimization Laboratory Department of Operations Research Stanford University California, USA, 1981.-252 p.
92. Hidden Content on the Web [Электронный ресурс]: статья. - Режим доступа: http://www.robertlackie.com/invisible/index.html
93. Ingate. Поисковое продвижение и раскрутка сайтов в интернете [Электронный ресурс]: сайт компании. - Режим доступа: http://www.ingate.ru/
94. King, А. В. Website Optimization / А. В. King. - O'Reilly Media, 2008. -400 p.
95. Levenberg, К. A Method for the Solution of Certain Problems in Least Squares / K. Levenberg // Quarterly Applied Math. - 1944. - 2. - P. 164-168.
96. Marquardt, D. An Algorithm for Least Squares Estimation of Nonlinear Parameters / D. Marquardt // SI AM Journal Applied Math. - 1963. - V. 11.-P. 431-441.
97. Shoemaker, P. Communication Research / P. Shoemaker, M. E. Roloff- USA, 2005.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.