Идентификация трафика сетей передачи данных в реальном времени тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Джаммул Самих Мохаммед

  • Джаммул Самих Мохаммед
  • кандидат науккандидат наук
  • 2019, ФГБОУ ВО «Национальный исследовательский университет «МЭИ»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 143
Джаммул Самих Мохаммед. Идентификация трафика сетей передачи данных в реальном времени: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГБОУ ВО «Национальный исследовательский университет «МЭИ». 2019. 143 с.

Оглавление диссертации кандидат наук Джаммул Самих Мохаммед

СПИСОК СОКРАЩЕНИЙ

ВВЕДЕНИЕ

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ ИДЕНТИФИКАЦИИ ТРАФИКА В СЕТЯХ ПЕРЕДАЧИ ДАННЫХ

1.1. Сравнительный анализ существующих моделей трафика сетей передачи данных

1.2. Анализ существующих методов классификации трафика в сетях передачи данных

1.3.Математическая постановка задачи идентификации сетевого трафика

1.4.Выводы по главе

ГЛАВА 2.РАЗРАБОТКА МОДЕЛИ ИДЕНТИФИКАЦИИ ТРАФИКА

СЕТЕЙ ПЕРЕДАЧИ ДАННЫХ

2.1 .Модель идентификации трафика сетей передачи данных на основе

скрытой марковской модели

2.2.Определение значений параметров модели идентификации

трафика

2.3.Определение наблюдаемых параметров модели идентификации

трафика

2.4.Определение начальных значений параметров модели

2.5. Определение пороговой функции идентификации приложения

2.6. Выводы по главе

ГЛАВА 3. РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ И

ПРОГРАММНЫХ СРЕДСТВ ИДЕНТИФИКАЦИИ СЕТЕВОГО ТРАФИКА

Стр.

3. 1 .Подготовка трафика для идентификации

3.2. Алгоритмы идентификации сетевого трафика на этапе обучения и тестирования

3.3.Выбор сетевых приложений и описание набора трафика на этапах обучения и тестирования

3.4.Сравнение полученных и известных результатов идентификации сетевого трафика

3.5.Выводы по главе

ГЛАВА 4. РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛЕЙ И

АЛГОРИМОВ ИДЕНТИФИКАЦИИ ТИПОВ ПРИЛОЖЕНИЙ ТУННЕЛЬНОГО ТРАФИКА

4.1.Модель идентификации типа приложений в туннеле сетевого трафика

4.2.Параметры модели идентификации типа приложения в туннеле трафика

4.3. Разработка алгоритмов и программ идентификации типов приложений в туннели трафика

4.4.Тестирование модели идентификации типов приложений в туннеле трафика

4.5.Выводы по главе

ОБЩИЕ ВЫВОДЫ И ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А. Исходные коды программных модулей, примеры

файлов наблюдаемых данных и вычисленных параметров модели

ПРИЛОЖЕНИЕ Б. Акты внедрения

СПИСОК СОКРАЩЕНИЙ

ДП - длина пакета

ИВП - интервал времени между пакетами ИТ - идентификация трафика

ИТПТТ - идентификация типа приложения в туннеле трафика

МГС - модель гауссовой смеси

СММ - скрытая марковская модель

СПД - сети передачи данных

AR - autoregressive

ARIMA - autoregressive integrated moving average ARMA - autoregressive moving average

FARIMA - autoregressive fractionally integrated moving average

FBM - fractional Browning motion

FGN - fractional Gaussian noise

FTP - file transfer protocol

HTTP - hypertext transfer protocol

HTTPS - hypertext transfer protocol secure

MA - moving average

P2P - peer two peer

SSH - secure shell

TOR - the onion router

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Идентификация трафика сетей передачи данных в реальном времени»

ВВЕДЕНИЕ

Интенсивное использование интернет-приложений в различных аспектах жизни привело к увеличению объема передаваемого трафика и одновременно к увеличению угроз безопасности информации. Реакцией на это стало совершенствование способов защиты данных и пользователей. Наиболее известным методом защиты данных является шифрование. Но при использовании шифрования управление трафиком и безопасностью сети становится сложнее по причине невозможности осуществления проверки содержимого зашифрованных пакетов [8]. Ситуация усугубляется еще тем, что шифрование зачастую используется в обход политики безопасности и правил использования сетевых ресурсов. В этом случае необходимо соблюдать баланс между обеспечением конфиденциальности и обеспечением сетевой безопасности при угрозе со стороны злоумышленников. Политика безопасности как на уровне сетей интернет-провайдеров, так и на уровне глобальных сетевых операторов определяет правила поведения с потенциально опасными приложениями с точки зрения их влияния на экономику, политику, моральные устои общества и т.п. Примером применения политики безопасности на уровне государства может служить проект «Золотой щит» (неофициальное название - «Великий китайский файервол»), который блокирует ряд сервисов и сайтов, в том числе такие известные сервисы, как «Facebook» и «Google» [5]. В свою очередь эффективность применения политики безопасности во многом зависит от валидности классификации трафика, увеличение которой является нетривиальной задачей. Так, несмотря на все попытки блокировки такого нежелательного трафика, как BitTorrent, статистика показывает, что его объем остается очень высоким [56]. Например, в Азиатско-Тихоокеанском регионе в 2016 году доля трафика различных торрент-клиентов достигала 24% от общего объема трафика, циркулировавшего на заданном регионе (см. Рисунок

В.1). Такой объем нежелательного трафика подтверждает, что существующие методы идентификации и классификации трафика не справляются с поставленной задачей определения типа сетевой нагрузки.

■УоиТиЬе

■ В^Тоггеггё - НТТР

■ Я5ТР 3.7

■ РасеЬоок

■ СМегЕ

Рисунок В.1. Основные типы трафика в Азиатско-Тихоокеанском

регионе в 2016 г.

Все вышесказанное подтверждает, что идентификация и классификация трафика сетей передачи данных (СПД) являются важной темой диссертационного исследования, поскольку определяют собой основные шаги по созданию модели управления трафиком при решении задач корректного применения политики безопасности.

Связано это еще и с тем, что каждый интернет-провайдер определяет свою собственную политику безопасности, которая включает правила запрета использования определенных служб, посещения нежелательных веб-сайтов или 1Р-адресов [94]. Однако иногда системы сетевой безопасности, такие, как брандмауэры или системы обнаружения вторжений, блокируют наряду с опасным трафиком и приложениями, трафик и приложения, которые содержат признаки подозрительной деятельности, не являясь таковыми (например,

туннелированный трафик). Распознавание таких сервисов и приложений невозможно без использования эффективного метода идентификации трафика, который может обнаружить и блокировать потенциальные угрозы в сети [25, 28].

Другой стороной разработки эффективного метода классификации трафика является повышение качества обслуживания абонента. Приложения отличаются друг от друга требованиями к ресурсам сети в целях получения определенного уровня качества работы каждого приложения. Интернет-провайдер классифицирует трафик приложений и устанавливает соответствующие приоритеты для каждого потока на основе требований приложений [7, 15]. Например, требования к параметру временной задержки и числу битовых ошибок при передаче трафика 1Р-телефонии и видеоконференции отличаются от требований к аналогичным параметрам при передаче трафика веб-сервисов. Интернет-провайдер оптимизирует свою инфраструктуру для обеспечения требуемого качества обслуживания пользователя, а для этого необходимо провести правильную классификацию.

Таким образом, исследования, направленные на разработку новых методов и моделей идентификации трафика (ИТ) СПД, функционирующих в реальном масштабе времени, являются по-прежнему актуальными и имеют практическое значение при решении проблем обеспечения политик безопасности.

Целью работы является повышение уровня защиты и надежности СПД за счет улучшения идентификации трафика в реальном времени на уровне приложений и в туннеле, с использованием скрытой марковской модели.

Для достижения поставленной цели диссертационного исследования были решены следующие задачи:

— анализ существующих моделей трафика СПД, выявление их преимуществ и недостатков и особенностей организации трафика

применительно к задаче идентификации;

— сравнительный анализ существующих методов идентификации трафика СПД и разработка модели, метода и алгоритмов идентификации сетевого трафика в реальном времени с использованием его статистических характеристик и скрытой марковской модели (СММ);

— разработка алгоритма вычисления значений параметров предлагаемой модели с использованием итерационной процедуры Баума-Велша;

— разработка алгоритма инициализации СММ на основе модели гауссовой смеси, обеспечивающей оптимальную сходимость процедуры Баума-Велша в рамках требуемого качества идентификации;

— разработка методики подготовки наборов данных на основе реального и модельного сетевого трафика на этапах обучения и тестирования предложенной модели;

— модификация предложенных метода и алгоритмов идентификации для решения задачи идентификации туннельных приложений;

— разработка программных средств идентификации на основе предложенных алгоритмов и их экспериментальное исследование, а также внедрение полученных научных и прикладных результатов работы.

В соответствии с целью и задачами диссертационной работы объектом исследования является трафик СПД, а предметом исследования - методы, модели и средства быстрой идентификации полезного и туннельного трафика в реальном времени.

Теоритическую методологическую основу исследования составляют труды российских и зарубежных авторов по системному анализу, теории компьютерных систем и сетей, защите компьютерных систем и сетей, линейной и нелинейной алгебры, теории вычислительной сложности алгоритмов, теории вероятностей и математической статистики, в том числе

по математическому аппарату цепей Маркова, математическому моделированию.

Обработка данных и построение моделей осуществлялись с использованием программных средств MATLAB v. 2016 и Visual Studio 2010.

Информационную базу диссертационного исследования составили российские и международные стандарты в области защиты информации; законодательные акты РФ; нормативные документы в области защиты автоматизированных систем; публикации и диссертации практиков и учёных; доклады российских и зарубежных учёных на симпозиумах и конференциях, касающихся темы работы; результаты разработок, исследований и аналитических обзоров российских и зарубежных организаций и компаний, работающих в сфере защиты информации; материалы сети Интернет и периодической печати; накопленная статистическая информация по теме диссертационного исследования.

Научная новизна диссертации заключается в следующих результатах:

1. Предложена новая модель идентификации трафика, основанная на СММ и по своим параметрам ориентированная на её использование в высокоточных задачах идентификации трафика СПД в реальном времени, а также проведена формальная постановка задачи идентификации, что позволило сформулировать требования к методу идентификации, включая обязательную возможность классификации известных приложений, работоспособность идентификации трафика в условиях высокоскоростной передачи данных в реальном времени, сохранения конфиденциальности пользователей и обеспечения требуемой точности идентификации.

2. Обоснован метод идентификации сетевого трафика, подтвердивший возможность и целесообразность создания инструмента для решения задачи идентификации на основе классификации трафика с использованием статистического анализа, СММ и итерационной процедуры

Баума-Велша для вычисления параметров СММ.

3. Разработан алгоритм инициализации СММ с использованием модели гауссовой смеси, обеспечивающий сходимость процедуры Баума-Велша в рамках требуемого качества идентификации. Применение этого алгоритма в общем алгоритме идентификации позволяет выполнить идентификацию в реальном времени с точностью более 90%, полнотой более 80%, валидностью более 95% и долей ошибок менее 5% при ограниченном числе пакетов (10 пакетов).

4. Выполнена модификация предложенных метода и алгоритмов, позволившая решать задачи идентификации типов приложений в туннеле трафика со следующими средними показателями: точность более 70%, полнота выше 75%, валидность более 85% и доля ошибок ниже 15% для набора из 6 типов приложений за время наблюдения не менее 15 с.

Практическая значимость диссертационного исследования заключается в решении задачи идентификации трафика в системах управления трафиком и в системах обеспечения защиты и безопасности компьютерных сетей, для которых идентификация приложений является предварительным шагом в процедурах фильтрации и мониторинга информации, что позволило повысить как эффективность защиты сети от подозрительных приложений, так и качество ее обслуживания с помощью установки соответствующих приоритетов и получения более полной информации об использовании сети.

Внедрение результатов работы. Результаты работы в виде моделей, методов, методик, алгоритмов и программных средств были использованы в коммерческом проекте ЗАО «КРОК инкорпорейтед», связанным с внедрением сетевых технологий в проекте ОАО Вымпелком «Внедрение DPI Allot», в частности, при тестировании уровня информационной безопасности путем запрета нежелательных типов трафика. Разработанные диссертантом модели и алгоритмы успешно проявили себя при решении задачи распознавания

различных типов трафика, в которых трафик определенных приложений не тарифицируется, что позволило повысить уровень безопасности передачи пакетов, а также перенаправлять определенные виды трафика.

Модели и алгоритмы идентификации типов приложений в туннельных трафиках и мониторинга подозрительных действий использованы также в коммерческих разработках НПЦ «ИНТЕЛТЕК ПЛЮС» и НИИ ИСУ МГТУ им. Н.Э. Баумана при поиске аномалий в передаваемых по сети конфиденциальных данных с целью обнаружения вредных приложений в режиме реального времени и с высокой точностью идентификации. Разработанные программные средства были адаптированы в НИИ ИСУ и применены в составе специализированного стенда динамического анализа сетевого трафика.

Диссертация состоит из списка сокращений, введения, четырех глав, общих выводов и заключения, списка литературы (111 наименований) и двух приложений. Полный объем диссертации составляет 143 страниц текста с 53 рисунками и 10 таблицами.

В первой главе определяется объект и предмет исследования, критически анализируются известные модели трафика СПД, рассматриваются их основные элементы и структуры, возможности и недостатки, а также существующие методы классификации трафика на основе анализа содержимого пакетов, с использованием машинного обучения и на основе анализа статистических характеристик пакетов. Выполнена математическая постановка задачи идентификации трафика СПД в виде двух этапов, на первом из которых определяется совокупность признаков и находится функция отображения изучаемого потока в пространство признаков, а на втором -находится функция сопоставления, связывающая значения признаков с соответствующими классами. Для оценки качества отображения и сопоставления использованы четыре показателя (точность, полнота,

валидность и доля ошибки), а классификация трафика выполнена на различных уровнях, используемых при анализе трафика в СПД.

Во второй главе выполнена разработка оригинальной модели идентификации трафика СПД в реальном времени на основе СММ. При обучении СММ используются оптимальные параметры модели для каждого изучаемого приложения. Аналитическая генерация параметров выполнена с помощью совокупности алгоритма Баума-Велша и метода неопределенных множителей Лагранжа. В целях сокращения вычислительной сложности модели в работе определены модельное число наблюдаемых значений и диапазоны их изменения, сохраняющие требования по точности модели. Независимость наблюдаемых значений позволила построить две самостоятельные СММ для идентификации сетевых приложений со своими параметрами и определить процедуры их обучения. Для обеспечения устойчивости процесса определения параметров СММ по алгоритму Баума-Велша в работе решена задача выбора начальных значений параметров с использованием модели гауссовой смеси (МГС). Для статистической оценки компонентов МГС использован метод максимального правдоподобия. Проведена экспериментальная оценка применения МГС с использованием различных способов выбора начальных значений параметров модели, подтвердившая эффективность МГС.

В третьей главе проведены разработка и исследование алгоритмов и программ для реализации предложенной модели идентификации трафика СПД с использованием трафика ряда приложений. Основными алгоритмами модели являются:

1) алгоритм восстановления потоков трафика, который разделяет потоки трафика и вычисляет наблюдаемые значения потоков из собранных данных ТСПД;

2) алгоритм вычисления параметров модели СММ на основе алгоритма

Баума-Велша;

3) алгоритм определения начальных значений параметров модели;

4) алгоритм оценки предложенной модели идентификации, использующий четыре стандартных показателя: точность, полноту, валидность и долю ошибок.

Реализация разработанных алгоритмов выполнена в среде MATLAB v. 2016 и MS Visual Studio 2010. Их тестирование проведено для шести приложений и различного числа потоков и пакетов. Сравнение полученных результатов с результатами других авторов показало их более высокое качество идентификации при минимальном числе пакетов.

В четвертой главе решена задача идентификации типа приложения в туннеле трафика на уровне протокола TCP. Для этого в работе предлагается модель идентификации типа приложений в туннеле трафика на основе двух СММ, причем наблюдаемые значения образуют последовательность, состоящую из числа пакетов и максимального интервала времени между пакетами. Для идентификации типа приложений в туннеле трафика использованы как алгоритмы идентификации трафика СПД, так и алгоритмы, разработанные для туннеля. Были выполнены обучение и тестирование модели на шести типах приложений, показавшие ее высокую эффективность (при наблюдении туннеля в течении времени 15 с и более, показатель валидности достигает значения более 85%, показатель точности - более 75%, показатель доли ошибки - менее 15%).

В заключении сформулированы основные выводы и результаты, полученные в работе. В приложении А приведены исходные коды программных модулей, примеры файлов наблюдаемых данных и вычисленных параметров модели. В приложении Б приведены копии документов, подтверждающих внедрение результатов диссертации.

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ ИДЕНТИФИКАЦИИ ТРАФИКА В

СЕТЯХ ПЕРЕДАЧИ ДАННЫХ

1.1. Сравнительный анализ существующих моделей трафика сетей передачи данных

Идентификация сетевого трафика является важной задачей в области безопасности, защиты и управления трафиком сетей передачи данных [15, 98, 100]. Эффективным математическим инструментом ее решения является моделирование сетевого трафика. Именно математическое моделирование широко используется для решения следующих сетевых подзадач [4, 20, 24, 39, 82]:

1) прогнозирование будущего трафика с целью оценки ресурсов, необходимых для получения определенного уровня качества обслуживания; сюда относится, например, оценка необходимой пропускной способности и размера буферов с целью достижения приемлемых показателей потерь и задержки пакетов;

2) оценка влияния алгоритмов управления сетевым трафиком на характеристики сети;

3) изучение специфических явлений и процессов, происходящих в сети (явлений фрактальности трафика, пульсации трафика и т.п. [3, 30]);

4) генерация трафика для целей имитационного моделирования сетевых взаимодействий;

5) идентификация источника трафика на основе различных его характеристик, например, идентификация приложений в системах обнаружения вторжений.

В основе ряда моделей трафика лежат стационарные случайные процессы с различными законами распределения, с помощью которых воспроизводятся характеристики трафика (количество пакетов, полученных

или отправленных в течение определенного промежутка времени; интервалы между пакетами {т^}, где I = 1,2,...; длины пакетов {/¿}, I = 1,2, ..., последовательность направлений передачи пакетов {^¿}, I = 1,2,... и т.д.).

В зависимости от способа описания модели делятся на группы, наиболее распространенными из которых являются:

1) модели на основе законов распределения;

2) модели на основе стохастических временных рядов;

3) модели на основе теории фракталов;

4) модели на основе цепей Маркова.

Первая группа моделей является классической и строится на основе известных законов распределения [13, 19 ,31]. Самыми распространенными из них являются модель Пуассона и On/Off модель. В модели Пуассона [31] определяет количество входящих пакетов, причем вероятность получения = к пакетов за интервал времени t задается экспоненциальным законом распределения:

Р{ВД = к} = ^к!-, (1-1)

где Я - интенсивность поступления пакетов. При этом вероятность получения ноль пакетов равна

Р{ВД = 0} = е(-Я£).

Уравнение (1.1) показывает, что распределение интервала времени между двумя пакетами является экспоненциальным распределением с параметром Я [13]. Преимуществом этой модели является простота в применении и тот факт, что сумма нескольких независимых пуассоновских процессов составляет новый процесс с суммарной интенсивностью Я = Я^. Однако эта модель не обладает памятью [86], т.к. в любой момент времени вероятность получения пакета не зависит от поступления пакетов в прошлом.

По этой причине эта модель не объясняет феномен пульсации трафика.

Модель On/Off [29, 91] используется в тех случаях, когда выделяются два состояния источника трафика: активное и пассивное. Время наступления активного состояния имеет экспоненциальное распределение с параметром 1/а, а время наступления пассивного состояния распределяется по экспоненциальному закону распределения с параметром 1/#. Схема взаимного перехода состояний приведена на Рисунке 1.1.

Рисунок 1.1. Модель On/Off

В активном состоянии пакеты генерируются с постоянной интенсивностью 1/$, где Т - время между двумя последовательными пакетами, а в пассивном состоянии пакеты не генерируются. Этот процесс можно рассматривать, как произведение основного процесса и модулирующего процесса, являющегося марковским процессом (0,1) (см. Рисунок1.2).

Рисунок 1.2. Модель On/Off как модулированный случайный процесс

Эта модель может быть использована для представления поведения нескольких приложений (источников трафика), таких как приложения IP-телефонии (аудио- и видеопоток).

Однако условие постоянной интенсивности пакетов считается основным недостатком этой модели, так как такое условие редко выполняется в реальных сетевых приложениях. Если вместо постоянной интенсивности 1/Т пакеты генерируются в активном состоянии с использованием пуассоновского распределения с параметром Я, то процесс является прерывистым пуассоновским процессом (IPP - Interrupted Poisson process). В работе [90] модель On/Off используется для моделирования видео-трафика, где выявляются активное (буферизация) и пассивное состояния, при этом интенсивность в активном состоянии является фиксированной.

Классические модели не могут применяться для решения задачи идентификации трафика СПД, т.к. не обладают памятью, а используемая в них простая форма распределения редко встречается на практике описания трафика.

Моделям трафика на основе теории временных рядов посвящены работы [1, 7, 57, 59, 61, 65, 92, 109]. Случайный процесс Хп в моделях сетевого трафика на основе временных рядов используется для представления интенсивности источника трафика с дискретным временем п = 1,2,..., где интервалы между последовательными отсчетами равны. Основным свойством этих моделей является кратковременная зависимость, так как эти модели используют авторегрессии при представлении процесса Хп, что позволяет использовать их для прогнозирования трафика. Самыми известными моделями временных рядов являются модели линейной авторегрессии AR (Autoregressive), с авторегрессионным скользящим средним ARMA (Autoregressive moving average) и с авторегрессионным интегрированным скользящим средним ARIMA (Autoregressive integrated moving average).

Самой простой моделью временных рядов является модель AR [22], в которой значения временного ряда в конкретный момент времени линейно зависят от предыдущих значений ряда [58]. Эта модель представляется в виде:

где , - порядок модели, {а*, а2, ■■■, а(} - ее коэффициенты и еП - белый шум.

Модель AR удобна при исследовании видео-трафика с медленным движением. В этом случае представляет собой изменение для &-го видеокадра. Медленное движение вызывает корреляции между последовательными видеокадрами [75].

Модель ARMA обобщает две более простые модели временных рядов -модель AR и модель скользящего среднего (Moving Average) (MA). Модель скользящего среднего представляет собой линейную комбинацию предыдущих значений шума:

¿=1

где {е%} - белый шум, {#*,#2, ■■■ - коэффициенты скользящего среднего, а / - порядок модели.

Модель АЯМА(р^) составляется из комбинации моделей АЯ и МА следующим образом:

^.¿—х*.......

¿=1 ¿=1

Если в этой модели ввести обратный оператор 0, такой, что = , то модель ARMA можно представить в виде:

0(0)Х% = 0(0)е%, (1.2)

где

1(0) = 1 - !*0-----!(0(,

2(0) = 1

Модель ARMA может использоваться для прогнозирования трафика приложений, обладающих сезонным характером или цикличностью, как это делается в работе [65], где модель ARMA применяется для моделирования и прогнозирования трафика сети BitTorrent. Также эта модель может использоваться для идентификации сетевых вторжений и атак [105].

Модель ARIMA рассматривается как частный случай модели ARMA, если принять 5n = VdXn(d порядок разности) и VXn равно

VXn = X%- X%-i = (1 — B)Xn-

Тогда для ARMA(,, /)

1(0)5% = в(В)еп,

1(B)(1-B)dXn = 9(B)e%.

В этом случае Xn является процессом модели ARIMA, так как Xn является интегралом процесса 5n (модели ARMA).

Данные временные ряды часто подчиняются некоторому тренду, например, медленно увеличиваются или имеют циклические особенности, как это следует из модели ARMA (1.2). Для того, чтобы сгладить эти сезонные изменения, используют разность значений временных рядов (1 — B)dXn. В этом случае эта разность является стационарным временным рядом. На практике порядок разности обычно равен 1 или 2 [30].

Модели сетевого трафика на основе модели ARIMA используются для прогнозирования трафика и производительности сети, как это предложено в работе [92]. Они также могут использоваться для обнаружения аномалий поведения трафика (см. работы [1, 35, 109]).

Модели сетевого трафика на основе теории временных рядов подходят для решения задачи прогнозирования трафика и используются для анализа типов трафика с зависимостями между пакетами или с сезонным их характером, но они не подходят для моделирования ряда других типов

трафика, поэтому их нельзя использовать для полного решения задачи идентификации сетевого трафика произвольного типа. Кроме того, модели на основе временных рядов отличаются высокой вычислительной сложностью, что резко ограничивает их применение для идентификации в реальном масштабе времени.

Понятие фрактала (самоподобия) было впервые введено Бенуа Мандельбротом в 1982 году [77]. Оно использовалось для описания естественного явления сохранения ряда свойств объекта на различных масштабах пространства или времени. Например, если объект является фрактальным, то его часть при увеличении может быть похожа на весь объект (как это показано на Рисунке 1.3).

Рис. 1.3. Самоподобный двумерный объект

Фрактальные модели трафика сетей передачи данных позволяют исследовать феномен пульсации (Ви^тезз) трафика, который выявляется на различных масштабах времени (см. Рисунок 1.4).

Дадим определения основных понятий фрактальных моделей, которые используются для моделирования сетевого трафика. Пусть Х(&),& £ : -дискретный стационарный в широком смысле случайный процесс с математическим ожиданием М[Х(&)] = ц и дисперсией 0[Х(&)] = @2. Его автоковариация Ь(^) не зависит от & и равна

Ь(^) = М([Х(п + &) - ц][ВД - ц]), где М — операция вычисления математического ожидания.

Обозначим через Х(с)(&) усредненный по блокам длины т процесс

Х(п):

тп

Х(т)(п)= — ' X(j), т,п EN, т L-i

j=(n-l)m+l

с автоковариацией Ь(т)(к) и дисперсией Ь(т)(0) соответственно.

Рисунок 1.4. Объем пульсации сетевого трафика в масштабах времени 100 с (а), 10 с (б), 1 с (в) и 100 мс (г)

Процесс Х(п) называется самоподобным в узком смысле (strictly self-similar) с параметром H (1/2< H <1), если для всех п и т

Х(п) =7 т1-нХ(т)(п),

где =7 обозначает равенство в конечномерных распределениях. Процесс называется строго самоподобным в широком смысле (exactly second-order self-similar) с параметром H (1/2< H <1), если

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Джаммул Самих Мохаммед, 2019 год

СПИСОК ЛИТЕРАТУРЫ

1. Ажмухамедов И.М., Марьенков А.Н. Поиск и оценка аномалий сетевого трафика на основе циклического анализа // Инженерный вестник Дона. 2012. №2. 10 с.

2. Андреев А.М., Усовик С.В. Модель трафика корпоративной телекоммуникационной сети с пакетной коммутацией в задаче кластеризации при условии ограниченного наблюдения // Инженерный журнал: наука и инновации. 2012. № 6. 20 с.

3. Басараб М.А., Строганов И.С. Обнаружение аномалий в информационных процессах на основе мультифрактального анализа // Вопросы кибербезопасности. 2014. № 4 (7). С. 30-40.

4. Благов А.В. Исследование адекватности моделей самоподобного трафика, используемых для оценки качества обслуживания в сети // Электронный журнал: Труды МАИ. 2014. № 76. C. 17.

5. Бондарева В. Великий файрвол: особенности интернета в Китае // ТАСС. 2015. URL. https://tass.ru/info/2530474.

6. Ванюшина А.В. Автоматическая классификация IP-трафика в компьютерной сети методом машинного обучения: дис. ... канд. техн. наук. Москва. 2018. 150 с.

7. Дорт-Гольц А. А. Разработка и исследование метода балансировки трафика в пакетных сетях связи: дис. ... канд. техн. наук. СПБ. 2014. 148 с.

8. Григорьев В.С. Проблемы распознавания зашифрованного трафика в канале связи // Научные записки молодых исследователей. 2017. №3. С. 43-51.

9. Фрактальный анализ и процессы в компьютерных сетях : учеб. пособие [и др.]. 2-е изд., стереотип. Тамбов : Изд-во Тамб. гос. техн. ун-та.

2007. 108 с.

10. Добровольский Е.В., Нечипорук О.Л. Моделирование сетевого трафика с использованием контекстных методов // Hay^Bi праци ОНАЗ ïm. О.С. Попова. 2005. № 1. С. 24-32.

11. Елагин В. С., Зарубин А. А., Онуфриенко А. В. Эффективность DPI-системы для идентификации трафика и обеспечения качества обслуживания ОТТ-сервисов // Наукоемкие технологии в космических исследованиях Земли. 2018. № 10(3). С. 40-53.

12. Карпухин А. В., Кириченко Л.О., Радивилова Т.А. Исследование продуктивности сети и возникновения перегрузки при самоподобной нагрузке с помощью OPNET Modeler // Современные информационные и электронные технологии: 9-я междунар. науч.-практич. конф., 19-23 мая2007 г.: труды конф. Одесса, 2008. С. 102.

13. Каштанов В.А. Элементы теории случайных процессов // Учебное пособие, Московский государственный институт электроники и математики. М. 2012. 113 с.

14. Киянов и.р. Tor и луковая маршрутизация // Научные труды КубГТУ. 2016. № 13. C 129-135.

15. Кузьмин В.В. Модели и процедуры управления трафиком в мультисервисной сети оператора связи: диссертация: дис. ... канд. техн. наук. Нижний. 2015. 189 с.

16. Лившиц Б. С., А. П. Пшеничников, Харкевич А. Д. Теория телетрафика, Учебник для вузов. перераб. и доп. М.: Связь, 1979. 224 с.

17. Михайлов А. А., Базуева С. А. Использование скрытой марковской модели при синтезе стохастического алгоритма решения задачи // Инженерный вестник Дона. - 2015. - №2(2). С.16

18. Одоевский С.М., Хоборова В.П. Методы прогнозирования качества обслуживания самоподобного трафика в устройствах коммутации

мультисервисной сети // труды учебных заведений связи. 2017. № 3 (3). С. 86-92.

19. Острейковский В. А., Павлов А. С. Математические модели оценки техногенного риска сложных систем на основе распределения Эрланга // Надежность и качество сложных систем. 2016. № 1 (13). С. 99-106.

20. Петров В.В. Статистический анализ сетевого трафика. МЭИ, ИРЭ, Москва. 2017. URL: http://www.pi.314159.ru/petroff2.pdf (дата обращения 10.11.2018).

21. Петров В.В. Структура телетрафика и алгоритм обеспечения качества обслуживания при влиянии эффекта самоподобия. М.: МЭИ, 2005.

22. Пешкова М.Н. Авторегрессионная модель // Сибирская финансовая школа. 2014. №2 (103). С. 63-65.

23. Сарымсаков Т.А. Основы теории процессов Маркова. М.: Гостехтеориздат, 1954. 208 с.

24. Соловьев А.Ю. О задаче прогнозирования самоподобных сетевых процессов // II Международная научная конференция «Современные проблемы информатизации в системах моделирования, программирования и телекоммуникациях». 2009. 3 с.

25. Сухов, В.Е. Система обнаружения аномалий сетевого трафика на основе искусственных иммунных систем нейросетевых детекторов // Вестник РГРТУ. 2015. № 54. Часть 1. С. 84-90.

26. Тамазян А.С. Статистические модели трафика компьютерных сетей на основе долговременно-зависимых динамических потоков: дис. ... канд. техн. наук. СПБ. 2016.

27. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. пер. с англ. М. : ДМК Пресс, 2015. 399 с..

28. Шарабыров И.В. Система обнаружения атак в локальных

беспроводных сетях на основе технологий интеллектуального анализа данных: дис. ... канд. техн. наук. Уфа. 2016. 144 с.

29. Шелухин О.И., Лукьянцев Д. А. Многоуровневая on/off модель интернет-трафика корпоративной сети спутниковой связи // Электротехнические и информационные комплексы и системы. 2006. № 2 (2). С.59-65.

30. Шелухин О.И., Осин А.В., Смольский С.М. Самоподобие и фракталы: телекоммуникационные приложения. Под ред. О. И. Шелухина. -М.: ФИЗМАТЛИТ, 2008. 368 с.

31. Шойтов А. М. Сложное распределение Пуассона для числа повторений значений дискретной функции от цепочек // Дискрет. матем. -2007. № 19 (2). С. 6-26.

32. Alshammari R., Zincir-Heywood A.N. An Investigation on the Identification of VoIP traffic: Case study on Gtalk and Skype // International Conference on Network and Service Management (CNSM). 2010. С. 310- 313.

33. Bacquet C., Zincir-Heywood A.N., Heywood M.I. Genetic Optimization and Hierarchical Clustering Applied to Encrypted Traffic Identification // IEEE Symposium on Computational Intelligence in Cyber Security (CICS). 2011. C.194-201.

34. Bakhshi T., Ghita B. On internet traffic classification: A two-phased machine learning approach // Journal of Computer Networks and Communications. 2016. № 8. C. 21.

35. Benjamin M.A., Rigby R.A., Stasinopoulos D.M. Generalized autoregressive moving average models // Journal of the American Statistical Association. 2003. № 98. С. 214-223.

36. Biagini, F., Hu Y., 0ksendal B., Zhang T. Stochastic Calculus for Fractional Brownian Motion and Applications // Springer, London . 2008. ISBN:

978-1-85233-996-8

37. Bilmes J.A. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models / university of Berkeley, CA, Technical Report ICSI-TR-97-021, 1998. URL. http://melodi.ee.washington.edu/people/bilmes/mypapers/em.pdf (дата обращения 10.11.2018)

38. Blondia C. A discrete-time batch markovian arrival process as b-isdn model // Belgian Journal of Operations Research, Statistics and Computer Science. 1993. № 32(16). С. 3-23.

39. Box G.E.P., Jenkins G.M. Time Series Analysis, Forecasting and Control. Revised ed. San Francisco, CA: Holden-Day, - 1976 - C.112.

40. Bujlow, T., Riaz M. T., Pedersen J. M. A method for classification of network traffic based on C5.0 Machine Learning Algorithm // International Conference on Computing, Networking and Communications ICNC'12. 2012. C. 237-241.

41. Celik Z. B. Malware traffic detection using tamper resistant features / Celik Z. B. [и др.] // In Proc. IEEE Military Communications Conference (MILCOM). 2015. C. 330-335.

42. Chis, T., Harrison P. G. Adapting Hidden Markov Models for Online Learning // Electronic Notes in Theoretical Computer Science. 2015. № 318. С.109-127.

43. Christopher M., Edward J. Daniel, Keith A. Teague A Real-Time Network Analysis Tool to Aid in Characterizing VoIP System Performance // International Journal of Electrical Engineering Education. 2012. № 42(2). С. 119-131.

44. Crispin M. Internet Message Access Protocol - Version 4 // RFC 1730, Network Information Center, DDN Network Information Center, Dec. 1994. Режим URL: https://tools.ietf.org/html/rfc3501 (дата обращения 12.11.2018).

45. Crotti M. Traffic classification through simple statistical fingerprinting / M. Crotti [и др.] // SIGCOMM Comput. Commun. Rev. 2007. № 37(1). С. 5-16.

46. Crovella M.E., Bestavros A. Explaining world wide web traffic self-similarity // Technical Report TR-95-015, Computer Science Department, Boston University, Oct. - 1995. URL: http://www.cs.bu.edu/faculty/crovella/papers.html. (дата обращения 13.10.2018)

47. Dainotti A., de A.Pescape W., Rossi P.S. Classification of network traffic via packet-level hidden markov models // IEEE GLOBECOM 2008 - 2008 IEEE Global Telecommunications Conference, New Orleans, LO. 2008. C. 1-5.

48. Davis R.I.A., Lovell B.C. Comparing and Evaluating HMM Ensemble Training Algorithms Using Train and Test and Condition Number Criteria // Pattern Analysis and Applications. 2003. № 6. C. 327-336.

49. Dierks T., Rescorla E. The Transport Layer Security (TLS) Protocol Version 1.2. / RFC 5246 - 2008. - URL: http://www.rfc-editor.org/info/rfc5246 (дата обращения 13.9.2018)

50. Ding L., Yu F., Peng S., Xu C. Classification Algorithm for Network Traffic based on Improved Support Vector Machine // Journal of Computers. 2013. № 8(4). C. 1090-1096.

51. Do, L. H., Branch P. Real Time VoIP Traffic Classification // Technical Report 090914A, Centre for Advanced Internet Architectures, Swinburne University of Technology, Melbourne, Australia. 2009. URL: http://caia.swin.edu.au/reports/090914A/CAIA-TR-090914A.pdf (дата обращения 08.05.2018)

52. Dusi M., Crotti M., Gringoli F., Salgarelli L. Detection of Encrypted Tunnels across Network Boundaries // in Proceedings of the 43rd International Conference on Communications, Beijing, China. 2008. C. 1738-1744.

53. Fischer W., Meier-Hellstern K. The Markov-modulated Poisson process (MMPP) cookbook // Performance Evaluation. 1993. № 18(2). С. 149-171.

54. Freier A., Karlton P., Kocher P. The Secure Sockets Layer (SSL) Protocol Version 3.0 // RFC 6101, Netscape Communications. 2017. - URL: https://ru.wikipedia.org/wiki/SSL (дата обращения 30.05.2018)

55. Garrett M., Willinger W. Analysis, modeling and generation of self-similar vbr video traffic // Proceedings SIGCOMM '94. - 1994. - URL: ftp://ftp.bellcore.com/pub/dvw/sigcomm94mwg.ps (дата обращения 20.01.2018)

56. Global Internet Phenomena Report - Asia pacific, Africa and the middle-east // Sandvine inc. 2016. URL: https://www.sandvine.com/resources/global-internet-phenomena/2016/asia-pacific-africa-and-the-middle-east.html (дата обращения 18.06.2018)

57. Granger C., Joyeux R. An Introduction to Long-Memory Time Series Models and Fractional Differencing // Journal of Time Series Analysis. 1980. № 1. - С. 15-30.

58. Grunenfelder, R. Characterization of video codecs as autoregressive moving average processes and related queuing system performance / Grunenfelder R. [и др.] // IEEE Journal on Selected Areas in Communications. 1991. № 9(3). С. 284-293.

59. Gutierrez N., Wiesinger-Widi M. AUGURY: A Time Series Based Application for the Analysis and Forecasting of System and Network Performance Metrics // 2016 18th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing (SYNASC), Timisoara. - 2016. - C. 351-358. doi: 10.1109/SYNASC.2016.062

60. Heffes H., Lucantoni D. A Markov modulated characterization of packetized voice and data traffic and related statistical multiplexer performance // IEEE Journal on Selected Areas in Communications (SAC). 1986. № 4. С. 856-868.

61. Hegger R., H. Kantz, Schreiber T. Practical implementation of nonlinear time series methods: the TISEAN package // Max Planck Institute for Physics of Complex Systems. 1999. C. 27. URL: https://arxiv.org/pdf/chao-

dyn/9810005.pdf (дата обращения 18.08.2018)

62. Hjelmvik, E., John W. Statistical protocol identification with spid: Preliminary results // 6th Swedish National Computer Networking Workshop (SNCNW). 2009. C.5.

63. Hodo E. Machine Learning Approach for Detection of nonTor Traffic // Hodo E. [и др.]. Proceedings of the 12th International Conference on Availability, Reliability and Security ARES '17. 2017. C. 6.

64. Hodo E. Machine learning approach for detection of nontor traffic / Hodo E, Bellekens X, Iorkyase E, Hamilton A, Tachtatzis C, Atkinson R // ARES'17, Reggio Callabria, ITALY. - 2017. - C. 6.

65. Hoong P.K., Tan IK.T., Keong C.Y. BitTorrent network traffic forecasting with ARMA // International Journal of Computer Networks & Communications (IJCNC). 2012. № 4(4). С. 143-156.

66. J. Ilow. Forecasting network traffic using FARIMA models with heavy tailed innovations // 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP. 2000. № 6. C. 3814-3817.

67. Jelenkovic P. R., Lazar A. A., Semret N. Multiple time scales and subexponentiality in mpeg video streams // Proceedings of the International IFIP-IEEE Conference on Broadband Communications, 1996. URL: http://comet.columbia.edu/publications/conference.html. (дата обращения 09.04.2018)

68. Kent S. IP Authentication Header (AH) // RFC 4302 (PROPOSED STANDARD), December. 2005. URL: https://tools.ietf.org/html/rfc4302 (дата обращения 22.07.2018)

69. Korczynski M., Duda A. Classifying Service Flows in the Encrypted Skype Traffic // 2012 IEEE International Conference on Communications (ICC). -2012. C. 1064-1068.

70. Kullback S., Leibler R. A. On Information and Sufficiency // Annals of

Mathematical Statistics. 1951. № 3. С. 40-53.

71. Kumano Y. Towards real-time processing for application identification of encrypted traffic // Kumano Y. [и др.] International Conference on Computing, Networking and Communications (ICNC). 2014. C. 136-140.

72. Larue, P., Jallon P., Rivet B. Modified k-mean clustering method of HMM states for initialization of Baum-Welch training algorithm // 19th European Signal Processing Conference. 2011. C. 951-955.

73. Lashkari A.H., Draper-Gil G., Mamun M.S., Ghorbani A.A. Characterization of Tor Traffic Using Time Based Features // proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal. 2017. C. 253-262.

74. Leech M., Ganis M., Lee Y., Kuris R., Koblas D., Jones L. SOCKS Protocol Version 5 // RFC 1928. 2017. URL: https://en.wikipedia.org/wiki/SOCKS (дата обращения 04.03.2018)

75. Maglaris, B., Anastassiou D., Sen P., Karlsson G., Robbins J. Performance models of statistical multiplexing in packet video communications / Maglaris, B // IEEE Transactions on Communications. 1988. №36 (7). С.834-844.

76. Mandelbrot B.B., Van Ness J.W. Fractional brownian motions, fractional noises and applications // SIAM Review. 1968. № 10(4). 422-437.

77. Mandelbrot B.B. The Fractal Geometry of Nature. - San Francisco: W.H. Freeman and Company, 1982. - 460 p.

78. Mazhar M., Rathore U. Threshold-based generic scheme for encrypted and tunneled Voice Flows Detection over IP Networks // Journal of King Saud University - Computer and Information Sciences. - 2015. - № 27(3) - C. 305-314.

79. Miller S., Curran K., Lunney T. Traffic Classification for the Detection of Anonymous Web Proxy Routing // International Journal for Information Security Research (IJISR) . 2015. № 5(1). С. 538-545.

80. Moore A., Crogan M., Zuev D. Discriminators for use in flow-based

classification // Technical report, Queen Mary, University of London. 2005. p.16.

81. Munz G., Dai H., Braun L., Carle G. TCP traffic classification using Markov models // in Proceedings of the 2nd International Conference on Traffic Monitoring and Analysis (TMA '10), Zurich, Switzerland, 2010. C.127-140.

82. Muscariello L. Markov models of internet traffic and a new hierarchical MMPP model / L. Muscariello, M. Mellia, M. Meo, M.A. Marsan, R. Lo Cigno // Computer Communications Journal. -2005. - № 28(16). - С. 1835-1851.

83. Napster / Википедия. 2017. Режим URL: https://ru.wikipedia.org/wiki/Napster (дата обращения 10.09.2018)

84. Okada Y., Ata S., Nakamura N., Nakahira Y. Application Identification from Encrypted Traffic Based on Characteristic Changes by Encryption // IEEE International Workshop Technical Committee on Communications Quality and Reliability (CQR). 2011. C. 1-6.

85. Park K., Wang W. QoS-sensitive transport of real-time MPEG video using adaptive forward error correction // Proc. IEEE Multimedia Systems '99. 1999.

C. 426-432.

86. Paxson V., Floyd S. Wide-area Traffic: The Failure of Poisson Modeling // ACM SIGCOMM Computer Communication Review. 1994. № 24(4). С. 257-268.

87. Rabiner L.R.. A tutorial on Hidden Markov Models and selected applications in speech recognition // Proceedings of the IEEE. 1989. № 2 (77). C. 257-285.

88. Raghavan, V., ver Steeg G., Galstyan A., Tartakovsky A. Coupled hidden markov models for user activity in social networks // IEEE International Conference on Multimedia and Expo Workshops (ICMEW). 2013. C. 1-6.

89. Rahbarinia B. Perdisci R., Lanzi A., Li K. PeerRush: Mining for Unwanted P2P Traffic // Journal of Information Security and Applications. 2014. -

№ 29(3). С. 194-208.

90. Rao, A. [и др.]. Network characteristics of video streaming traffic // Proc. of ACM CoNEXT'11, Dec. 6-9, Tokyo, Japan. 2011. 12 с.

91. Rolland C. ON/OFF models to capture IP traffic structure / C. Rolland / Université Pierre et Marie Curie (Paris VI) - France. 2006. URL: https://pdfs.semanticscholar.org/32d2/5e774f8c2a91a74688e421b2724dad4203b3. pdf (дата обращения 06.07.2018)

92. Rutka, G. Network traffic prediction using ARIMA and neural network models // Electronics and Electrical Engineering. 2008. № 4(48). С.47-52.

93. S. Kent. IP Encapsulating Security Payload (ESP) / S. Kent // RFC 4303 (PROPOSED STANDARD), December. - 2005. - URL: https://tools.ietf.org/html/rfc4303 (дата обращения 50.06.2018)

94. Sanchez F. Duan Z., Dong Y. Blocking spam by separating end-user machines from legitimate mail server machines // Proceedings of the 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference, CEAS '11, ACM, New York, NY, USA. 2011. C. 116-124.

95. Service Name and Transport Protocol Port Number Registry / Internet Assigned Numbers Authority (IANA) - 2017. - URL: http://www.iana.org/assignments/service-names-port-numbers/service-names-port-numbers.xhtml. (дата обращения 01.08.2018)

96. Shu H. On-Line Handwriting Recognition Using Hidden Markov Models // M.S. thesis, Massachusetts Institute of Technology, - 1997. - URL: https://dspace.mit.edu/bitstream/handle/1721.1/42603/37145316-MIT.pdf;sequence=2 (дата обращения 11.03.2018)

97. Skype Security / Википедия. - 2017. - URL: https://en.wikipedia.org/wiki/Skype security (дата обращения 09.07.2018)

98. Sperotto, A., Sadre R., de Boer P., Pras A. Hidden markov model modeling of ssh brute-force attacks // Integrated Management of Systems, Services,

Processes and People in IT. 2009. C. 164-176.

99. Tosun U. Hidden Markov models to analyze user behaviour in network traffic // Technical report, Bilkent University 06800 Bilkent, Ankara, Turkey - 2005 URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.106.7337 (дата обращения 12.05.2018)

100. Velan P., Cermak M., Celeda P. A survey of methods for encrypted traffic classification and analysis // International Journal of Network Management. 2015. № 25(5). C. 355-374.

101. WhatsApp / Википедия. 2017. URL: https://en.wikipedia.org/wiki/WhatsApp

102. Wilson, A.D., Bobick, A.F. Parametric Hidden Markov Models for Gesture Recognition / Wilson, A. D., AND. // IEEE Trans. PAMI 21. 1999. № 21. C. 884-900.

103. Wright Ch.V., Ballard L., Monrose F., Masson G.M. Language Identification of Encrypted VoIP Traffic: Alejandra y Roberto or Alice and Bob? // 16th USENIX Security Symposium. 2007. C. 43-54.

104. Wright, C.V., Monrose F., Masson G.M. HMM profiles for network traffic classification (extended abstract) // Proc. ACM Workshop on Visualization and Data Mining for Computer Security. 2004. C. 9-15.

105. Xu S., Zeng B. Network traffic prediction model based on autoregressive moving average // JOURNAL OF NETWORKS. - 2014. - № 9(3). -C. 653-659.

106. Yang, B. LRD of Fractional Brownian Motion and application in Data Network / B. Yang. - 2008. URL: http://math.arizona.edu/ ~flaschka/Topmatter/527files/termpapers/bole.pdf (дата обращения 15.05.2018)

107. Ylonen T., Lonvick C. The Secure Shell (SSH) Transport Layer Protocol // RFC 4253 (Proposed Standard), - 2006. - URL: https://tools.ietf.org/html/rfc4253 (дата обращения 11.04.2018)

108. Yoon B.J. Hidden Markov models and their applications in biological sequence analysis // Curr Genomics. 2009. № 10(6). C. 402-415.

109. Yu Q., Jibin L., Jiang L. An Improved ARIMA-Based Traffic Anomaly Detection Algorithm for Wireless Sensor Networks / International Journal of Distributed Sensor Networks. 2016. URL: https://doi.org/10.1155/2016/9653230 (дата обращения 18.09.2018)

110. Yu S. Z., Kobayashi H. An Efficient Forward-Backward Algorithm for an Explicit-Duration Hidden Markov Model // IEEE signal processing letters. 2003. №10(1). С.11-14.

111. Zhang F., Wu W. A Network Traffic Classification based on Coupled Hidden Markov Models / School of Computer Science, Beihang University. - 2017. URL: http://atc.udg.edu/MERMAT/papers/paper 5 Zhang and Wu.pdf (дата обращения 07.05.2018)

ПРИЛОЖЕНИЕ А. Исходные коды программных модулей, примеры файлов наблюдаемых данных и вычисленных

параметров модели

П. 1 Разработанные программные модули в средстве МаНаЬ

Функция вызывающая функция Модуль

compBackwardProb HMM_EM_Size, НММ_БМ_Т1ше Обучение модели - Вычисл. Парам С ММ

compForwardProb HMM_EM_Size, HMM_EM_Tiшe Обучение модели - Вычисл. Парам С ММ

compGamma HMM_EM_Size, HMM_EM_Tiшe Обучение модели - Вычисл. Парам С ММ

HMM_EM_Size - Обучение модели - Вычисл. Парам С ММ

HMM_EM_Time - Обучение модели - Вычисл. Парам С ММ

ReadFromFile HMM_EM_Size, HMM_EM_Tiшe Обучение модели - Вычисл. Парам С ММ

T_ReadFromFile HMM_EM_Size, HMM_EM_Tiшe Обучение модели - Вычисл. Парам С ММ

gaussian1D GMMCoшp Обучение модели -Инициализация параметров

weightedAverage Обучение модели -Инициализация параметров

GMMComp HMM_EM_Size, HMM_EM_Tiшe Обучение модели -Инициализация параметров

Find_Theshold RunTestALL_Final Тестирование

PlotingResults RunTestALL_Final Тестирование

PlotingResultsTunnel - Тестирование

TestPlot_corrTunnel - Тестирование

TestPlot_corrTunnel - Тестирование

RunTestALL_Final - Тестирование

П.2. Программный код вычисления компонентов МГС для инициализации параметров СММ

function [phi,mu,sigm] =GMMComp(Obs,k) %[Obs,ObsT ime 443] =

ReadFromFile('FlowSize_4 4 3.txt','FlowTime_443.txt','FlowInfo_443.txy',9); X = Obs(:); m = size (X, 1); hist(X,100);hold on

xlabel('Time between two packets (scaled by: Log(t)/3)'); ylabel('Packet Counts');

title('Packet counts per time interval between packets');

% Set 'k' to the number of components to find. % k = 4; clear pdf;

mu1= zeros(1, k); for (i = 1 : k)

mu1(i) = i*(100/k) -50/k;

end

% Use the overal variance of the dataset as the initial variance for each cluster.

sigma1 = ones(1, k) * sqrt(var(X));

% Assign equal prior probabilities to each cluster. phi1 = ones(1, k) * (1 / k); W = zeros(m, k);

% Loop until convergence. for (iter = 1:1000)

%fprintf(' EM Iteration %d\n', iter);

o, o,_______________________________________________

%% STEP 3a: Expectation

g,

% Calculate the probability for each data point for each distribution.

% Matrix to hold the pdf value for each every data point for every cluster.

% One row per data point, one column per cluster, pdf = zeros(m, k);

% For each cluster... for (j = 1 : k)

% Evaluate the Gaussian for all data points for cluster 'j'. pdf(:, j) = gaussian1D(X, mu1(j), sigma1(j));

end

% Multiply each pdf value by the prior probability for each cluster. % pdf [m x k] % phi [1 x k] % pdf_w [m x k]

pdf_w = bsxfun(@times, pdf, phi1);

% Divide the weighted probabilities by the sum of weighted probabilities

for each cluster.

% sum(pdf_w, 2) — sum over the clusters. W = bsxfun(@rdivide, pdf_w, sum(pdf_w, 2));

2- 2- ==

%% STEP 3b: Maximization

2- 2-

%% Calculate the probability for each data point for each distribution.

% Store the previous means so we can check for convergence. prevMu = mul;

% For each of the clusters... for (j = 1 : k)

% Calculate the prior probability for cluster 'j'. phil (j) = mean(W(:, j));

% Calculate the new mean for cluster 'j' by taking the weighted % average of *all* data points. mul(j) = weightedAverage(W(:, j), X);

% Calculate the variance for cluster 'j' by taking the weighted % average of the squared differences from the mean for all data % points.

variance = weightedAverage(W(:, j), (X - mu1(j)).A2);

% Calculate sigma by taking the square root of the variance. sigmal(j) = sqrt(variance);

end

% Check for convergence.

% Comparing floating point values for equality is generally a bad idea,

but

% it seems to be working fine, if (mul == prevMu) break

end

% End of Expectation Maximization loop. end

mul =mul';

sigm = sigmal; mu = mul; phi = phil;

function val = gaussianlD(x, mu, sigma) % x - Input vector

% mu - Mean % sigma - Standard deviation

% Evaluate a lD gaussian.

val = (l / (sigma * sqrt(2 * pi))) * exp(-(x - mu).A2 ./ (2 * sigmaA2));

Программный код обучения модели

function [model,log_like] = HMM_EM_Size(O_all_Org,N,M) % learn HMM parameters using EM

1 x NumSamples cell, each is a

1 x SampleLength, observed sequence, with M symbols (1,..,M) number of hidden states

a model, which contains the following estimated parameters N x N, transition matrix, a_ij = Prb(q_j|q_i) N x M, emission matrix, b_ij = Prb(o_j|q_i) N x 1, prior probabilities % log_like: log likelihood of each iteration % O_all = CleanMat(O_all_Org);

O_all = O_all_Org; NumSamples = size(O_all,1);

%M = max(O_all{1}); % assume all symbols have occurred at least once

% M = 30; conv_prec = 1e-6; max_iter = 300;

A = ones(N,N); A = bsxfun(@times,A,1./sum(A(1,:))); % Initialization with GMM [phi,mu,sigm] =GMMComp(O_all,N); for i = 1:N

B(i, :)=normpdf([1:1:M],mu(i),sigm(i)) ;

end

B = B + 0.0001 ;

Temp_p = zeros (N,NumSamples);

for i = 1:N

Temp_p(i,:) = gaussian1D(O_all(:,1), mu(i), sigm(i));

end

P = phi'.*sum(Temp_p,2); P = P./(sum(P,1));

B = bsxfun(@times,B,1./sum(B,2)); % End GMM initialization

log_like = zeros(max_iter,1); for it = 1:max_iter

new_P = zeros(N,1); new_A = zeros(N,N); new_A1 = zeros(N,N); total_sum_gamma = zeros(N,1); total_sum_gamma_com = zeros(N,1); mean_B = zeros (N,1); var_B = zeros(N,1); new_B = zeros(N,M); for SampleIdx = 1:NumSamples O = O_all(SampleIdx,:); SampleLength = length(O);

% compute forward and backward probabilities [alpha] = compForwardProb(O,A,B,P); [beta] = compBackwardProb(O,A,B);

% compute posterior probabilities (E-step) [gamma] = compGamma_Final(alpha,beta);

% input: % O_all:

o,

% N:

g,

% output: % model:

% A:

% B:

% P:

% compute averaged joint posterior (q_i,q_j|o) tempSumGamma = sum(gamma,2) - gamma(:,SampleLength); total_sum_gamma = total_sum_gamma + tempSumGamma; ksi = zeros(N); for t = l:SampleLength-l

ksi_tmp = (alpha(:,t) * (beta(:,t+l).*B(:,O(t+l)))') .* A ; ksi = ksi + ksi_tmp / sum(sum(ksi_tmp));

end

new_A = new_A + ksi;

new_P = new_P + gamma(:,l); meansl = zeros(N,l); for i = l:N

for t = l:SampleLength

meansl(i,l) = meansl(i,l) +gamma(i,t)*O(t);

end

end

tempSumGamma = tempSumGamma + gamma(:,SampleLength); for i = l:N

for j = l:M temp = 0;

for t = l:SampleLength if (j == O(t))

temp = temp + gamma(i,t);

end

end

new_B(i,j) = new_B(i,j)+ temp;

end

end

total_sum_gamma_com = total_sum_gamma_com + tempSumGamma; % update parameters (M-step)

% evaluate log-likelihood

log_like(it) = log_like(it) + log(sum(alpha(:,SampleLength)));

end

% normalize update P = new_P / sum(new_P);

new_A = bsxfun(@times,new_A,l./total_sum_gamma); new_B = bsxfun(@times,new_B,l./total_sum_gamma_com); A = bsxfun(@times,new_A,l./sum(new_A,2)); B = bsxfun(@times,new_B,l./sum(new_B,2));

% determine if converged if it > 2

log_like_change = abs(l-log_like(it-l)/log_like(it)); if log_like_change < conv_prec fprintf('######Size !!!!!!!!!!!!!!!!!converged!!!!!!!!!!!!!!!!\n');

break; % converged

end

end

model.A = A; model.B = B; model.P = P;

log_like = log_like(1:it); disp('A');

function [alpha] = compForwardProb(O,A,B,P)

о. g. compute forward probabilities

g. input:

g. O: 1 x T, sequence

g. A: N x N, transition matrix, a_ij = Prb(q_j q_i)

g. B: N x M, emission matrix, b_ij = Prb(o_j|q_ i)

g, g. P : N x 1, prior probabilities

g. output:

g. alpha N x T, forward probabilities

g. P(O_{1..t},Q_t=i) for alpha(i,t)

g. scale_ alpha: T, a series of scalars to make alpha in range

[N M] = size (B) ; T = length(O); alpha = zeros(N,T); alpha(:,1) = P.*B(:,O(1));

for t = 2:T

alpha(:,t) = A'*alpha(:,t-1),*B(:,O(t));

end

function [beta] = compBackwardProb_New(O,A,B) % compute backward probabilities

input:

o. O: 1 x T

o. A: N x N

o. B: N x M

o. scale_alpha T

sequence

a series

of scalars to make alpha in range

% output: % beta:

N x T, backward probabilities

P(O_{t + 1,..,T}|Q_t=i) for beta (i,t)

o

[N M] = size (B) ; T = length(O); beta = zeros(N,T);

beta (:,T) = ones(N,1); for t = T-1:-1:1

beta (:,t) = A*(B(:,O(t + 1)).*beta(:,t + 1)); %beta(:,t) = beta(:,t) * scale_alpha(t);

end

Программный код тестирования модели

for cc=2:2 0

[ObsSize90 01,ObsTime90 01,ObsResult90 01 ] = ReadFromFile1('FlowSize_9001.txt','FlowTime_9001.txt','FlowInfo_9001.txt',cc)

[ObsSize80,ObsTime80,ObsResult 80] = ReadFromFilel('FlowSize_80.txt','FlowTime_80.txt','FlowInfo_80.txt',cc);

[Ob sSize443,Ob s T ime 4 4 3,Ob s Re sult4 43] = ReadFromFilel('FlowSize_4 4 3.txt','FlowTime_4 4 3.txt','FlowInfo_443.txt',cc);

[ObsSize88,ObsTime88,ObsResult 88] = ReadFromFilel('FlowSize_88.txt','FlowTime_88.txt','FlowInfo_88.txt',cc); [ObsSize5222,ObsTime5222,ObsResult5222] =

ReadFromFilel('FlowSize_5222.txt','FlowTime_5222.txt','FlowInfo_5222.txt',cc) ;

[ObsSize993,ObsTime9 93,ObsResult993] = ReadFromFilel('FlowSize_993.txt','FlowTime_9 93.txt','FlowInfo_993.txt',cc);

% Generating model parameters for all application - Length of the packets [models8 0_3_l0,log_likes] = HMM_EM_Size_New(ObsSize8 0,3,l500); [models8 8_3_l0,log_likes] = HMM_EM_Size_New(ObsSize8 8,3,l500); [models4 4 3_3_l0,log_likes] = HMM_EM_Size_New(ObsSize443, 3,l500); [models99 3_3_l0,log_likes] = HMM_EM_Size_New(ObsSize993, 3,l500); [models5222_3_l0,log_likes] = HMM_EM_Size_New(ObsSize5222,3,l500); [models900l_3_l0,log_likes] = HMM_EM_Size_New(ObsSize900l,3,l500);

% Generating model parameters for all application - Time between packets [modelt8 0_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime80,3,l00); [modelt8 8_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime88,3,l00); [modelt4 4 3_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime4 4 3,3,l0 0); [modelt9 93_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime993,3,l00); [modelt5222_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime5222,3,l0 0); [modelt900l_3_l0_2,log_liket] = HMM_EM_Time_New(ObsTime900l,3,l0 0);

ratio = l; Non = 0;

names = ObsResult{l};

TempProb = zeros(size(ObsSize,l),6); [ObsSize,ObsTime,ObsResult] = ReadFromFilel('FlowSize_0.txt','FlowTime_0.txt','FlowInfo_0.txt',cc);

% Calculation threshold for each application threshold900l =

Find_Theshold(ObsSize900l,ObsTime900l,models90 0l,A,models900l.B,models90 0l.P, modelt90 0l,A,modelt900l.B,modelt90 0l.P); threshold80 =

Find_Theshold(ObsSize80,ObsTime80,models80,A,models80,B,models80,P,modelt80.A ,modelt8 0.B,modelt80.P); threshold88 =

Find_Theshold(ObsSize8 8,ObsTime8 8,models88,A,models88,B,models88,P,modelt88.A ,modelt8 8.B,modelt88.P); threshold4 4 3 =

Find_Theshold(ObsSize4 43,ObsTime44 3,models44 3.A,models44 3.B,models44 3.P,model t4 43.A,modelt4 43.B,modelt4 43.P) ; threshold993 =

Find_Theshold(ObsSize9 93,ObsTime993,models993.A,models993.B,models993.P,model t9 93,A,modelt993.B,modelt993.P) ; threshold5222 =

Find_Theshold(ObsSize5222,ObsTime5222,models5222,A,models5222.B,models5222.P, modelt5222,A,modelt5222.B,modelt5222.P) ;

ResultsAllDet = zeros(size(ObsSize,l),30); ResultDet = zeros(8,9);

for i=l:size(ObsSize,l)

if strcmp(names(i,l), 'TOR') ResultsAllDet(i,l) = l; rr = l;

ResultDet(1,1)= ResultDet(1,1)+1;

else

if strcmp(names(i,1), 'HTTP') ResultsAllDet(i,6) = 1; rr = 2;

ResultDet(2,1)= ResultDet(2, 1) +1;

else

if strcmp(names(i,1), 'p2p') ResultsAllDet(i,11) = 1; rr = 3;

ResultDet(3,1)= ResultDet(3, 1) +1;

else

if (strcmp(names(i,1), 'HTTPS'))%||strcmp(names(i,1),

'HTTP'))

ResultsAllDet(i,16) = 1; rr = 4;

ResultDet(4,1)= ResultDet(4,1)+1;

else

if strcmp(names(i,1), 'IMAPS') Result sAllDet(i,21) = 1; rr = 5;

ResultDet(5,1)= ResultDet(5,1)+1;

else

if strcmp(names(i,1), 'WhatsApp') Result sAllDet(i,26) = 1; rr = 6;

ResultDet(6,1)= ResultDet(6,1)+1; else

rr = 7;

end

end

end

end

end

end

probs = (-

1)*CalculateProb (ObsSize(i),models90 01.A,models9001.B,models90 01.P);

probt = (1) *CalculateProb(ObsTime(i),modelt90 01,A,modelt9001.B,modelt90 01.P);

TempProb(i,1) = (probs+probt)/((threshold9001(1)*threshold90 01(3) +threshold9001 (2)*threshold9001 (4))*ratio) ; TempProb(i,1) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models80,A,models8 0,B,models80.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt80,A,modelt8 0.B,modelt80.P);

TempProb(i,2) = (probs/(threshold80(1)*threshold80(3)) + probt/(threshold80(2)*threshold80(4)))/ratio; TempProb(i,2) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models88,A,models8 8,B,models88.P);

probt = (1) *CalculateProb(ObsTime(i),modelt88,A,modelt8 8.B,modelt88.P);

TempProb(i,3) = (probs/(threshold88(1)*threshold88(3)) + probt/ (threshold88(2)*threshold88(4)))/ratio; ; TempProb(i,3) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models4 4 3.A,models4 4 3.B,models4 4 3.P);

probt = (-1)*CalculateProb(ObsTime(i),modelt4 4 3.A,modelt4 4 3.B,modelt4 4 3.P);

TempProb(i,4) = (probs/(threshold443(1)*threshold443(3)) + probt/(threshold4 4 3 (2)*threshold4 4 3 (4)))/ratio; TempProb(i,4) = (probs + probt); probs = (-

1)*CalculateProb(ObsSize(i),models90 01.A,models9001.B,models90 01.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt90 01,A,modelt9001.B,modelt90 01.P);

TempProb(i,1) = (probs+probt)/((threshold9001(1)*threshold90 01(3) +threshold90 01(2)*threshold9001(4))*ratio); TempProb(i,1) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models80,A,models8 0,B,models80.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt80,A,modelt8 0.B,modelt80.P);

TempProb(i,2) = (probs/(threshold80(1)*threshold80(3)) + probt/ (threshold80(2)*threshold80(4)))/ratio; TempProb(i,2) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models88,A,models8 8,B,models88.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt88,A,modelt8 8.B,modelt88.P) ;

TempProb(i,3) = (probs/(threshold88(1)*threshold88(3)) + probt/(threshold88(2)*threshold88(4)))/ratio; ; TempProb(i,3) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models4 4 3.A,models4 4 3.B,models4 4 3.P);

probt = (-1)*CalculateProb(ObsTime(i),modelt 4 4 3.A,modelt 443.B,modelt 443.P); TempProb(i,4) = (probs/(threshold443(1)*threshold443(3)) + probt/(threshold443 (2)*threshold4 4 3 (4))) /ratio; TempProb(i,4) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models993.A,models993.B,models993.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt993.A,modelt993.B,modelt993.P);

TempProb(i,5) = (probs/(threshold993(1)*threshold993(3)) + probt/(threshold993(2)*threshold993 (4))) /ratio; TempProb(i,5) = (probs + probt);

probs = (-

1)*CalculateProb(ObsSize(i),models5222,A,models5222.B,models5222.P); probt = (-

1)*CalculateProb(ObsTime(i),modelt5222,A,modelt5222.B,modelt5222.P);

TempProb(i,6) = (probs/(threshold5222(1)*threshold5222(3)) + probt/(threshold5222(2)*threshold5222(4)))/ratio; TempProb(i,6) = (probs + probt);

MN = min(TempProb(i,:)); fr = 0; if (rr < 8)

for k=1:6

if (MN== TempProb(i,k))

ResultsAllDet(i,3+(k-1)*5) = 1;

cl = k; if (fr == 0) fr = 1;

else

fr = 2;

end

else

Result sAllDet(i,2+(k-1)*5) = 1;

end;

ResultsAllDet(i,4+(k-1)*5) = ResultsAllDet(i,1+(k-1)*5)* ResultsAllDet(i,3+(k-1)*5);

ResultsAllDet(i,5+(k-1)*5) = (1-ResultsAllDet(i,1+(k-1)*5)) * ResultsAllDet(i,3+(k-1)*5); end;

ResultDet(rr,cl+1)= ResultDet(rr,cl+1)+1; else

ResultDet(rr,8)= ResultDet(rr,8)+1;

end;

end;

end

fprintf('Total num of flows = %d \n',size(ObsSize,1));

П.3. Пример длина пакетов для ИТТРБ

flowid packet 1 packet 2 packet 3 packet 4 packet 5 packet 6 packet 7 packet 8 packet 9 packet 10

9 209 -1300 -1289 326 -282 506 -1300 -1300 -1300 -1300

10 517 -145 59 602 -586 634 -1300 -534 650 -1300

11 517 -145 59 618 -1300 -1300 -1300 -1300 -1300 -950

12 517 -145 59 634 -1300 -1300 -290 634 -458 634

13 517 -145 59 618 -1300 -1300 -1300 -1300 -1242 634

20 517 -145 59 698 -1300 -1300 -1300 -1300 -1300 -1300

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.