Идентификация трафика корпоративной телекоммуникационной сети с пакетной коммутацией тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат наук Усовик Сергей Викторович
- Специальность ВАК РФ05.13.15
- Количество страниц 176
Оглавление диссертации кандидат наук Усовик Сергей Викторович
ВВЕДЕНИЕ
I"ЛАВА 1. ПОСТАНОВКА ЗАДАЧИ ИДЕНТИФИКАЦИИ ТРАФИКА В СОВРЕМЕННЫХ КОРПОРАТИВНЫХ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ С ПАКЕТНОЙ КОММУТАЦИЕЙ И СУЩЕСТВУЮЩИЕ МЕТОДЫ ЕЕ РЕШЕНИЯ
1.1. Состояние современных корпоративных телекоммуникационных сетей с пакетной коммутацией и направления их развития
1.2. Актуальные задачи в области проектирования, эксплуатации и управления корпоративными сетями и современные методы их решения
1.3. Место и роль решения задачи идентификации трафика в современной корпоративной сети с пакетной коммутацией
1.4. Постановка задачи идентификации трафика при осуществлении управления функционированием корпоративной телекоммуникационной сети с пакетной коммутацией
1.5. Существующие методы идентификации трафика корпоративной сети с пакетной коммутацией и их оценка
1.6. Постановка научной задачи
1.7. Выводы по главе
I Л А В А 2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТРАФИКА КОРПОРАТИВНОЙ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ С ПАКЕТНОЙ КОММУТАЦИЕЙ
2.1. Описание трафика сетей с пакетной коммутацией
2.2. Математическая модель трафика корпоративных сетей с пакетной коммутацией
2.2.1. Постановка задачи разработки модели трафика корпоративной сети с пакетной коммутацией
2.2.2. Обзор существующих моделей трафика сетей с пакетной коммутацией
2.2.3. Модели трафика телекоммуникационных сетей, основанные на свойствах случайных марковских процессов
2.3. Математическая модель трафика корпоративной сетей с пакетной коммутацией на основе скрытых марковских моделей
2.4. Выводы по главе
I ЛАВА 3. АНАЛИЗ И ИССЛЕДОВАНИЕ СВОЙСТВ ПРЕДЛОЖЕННОЙ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ТРАФИКА КОРПОРАТИВНОЙ СЕТИ С ПАКЕТНОЙ КОММУТАЦИЕЙ
3.1. Применение предложенной математической модели для описания протоколов, применяемых в корпоративных телекоммуникационных сетях
3.2. Классификация трафика протоколов, используемых в корпоративных телекоммуникационных сетях
Классификация на основе числа компонент модели трафика
корпоративных телекоммуникационных сетей
3.2,2. Классификация на основе значений параметров А и 6i = (pi, Ái) модели трафика корпоративных телекоммуникационных сетей
3.3. Исследование индивидуальных особенностей трафика сетевых устройств и пользователей корпоративной телекоммуникационной сети с пакетной коммутацией
Анализ влияния загруженности канала передачи информации на
параметры модели трафика
Анализ интервалов времени поступления пакетов потоков сетевых протоколов с использованием предложенной модели трафика
3.4. Выводы по главе
ГЛАВА 4. АЛГОРИТМЫ И МЕТОДЫ ИДЕНТИФИКАЦИИ ТРАФИКА КОРПОРАТИВНОЙ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ С ПАКЕТНОЙ
КОММУТАЦИЕЙ
4.1. Порядок решения задачи идентификации трафика
4.2. Применение идентификации в структурном анализе трафика корпоративных телекоммуникационных сетей с пакетной коммутацией
4.3. Разделение трафика корпоративных телекоммуникационных сетей с пакетной коммутацией
4.4. Задача обнаружения изменения свойств трафика корпоративной
телекоммуникационной сети с пакетной коммутацией
4.4.1, Структурная модель наблюдаемого трафика корпоративных телекоммуникационных сетей передачи данных
Постановка задачи обнаружения разладки наблюдаемого процесса поступления трафика в условиях априорной неопределенности
4.5. Последовательное обнаружение момента изменения свойств (разладки) трафика корпоративной телекоммуникационной сети с пакетной коммутацией
4.5.1. Определение минимального объема данных наблюдений для применения алгоритма поиска разладки
4.5.2, Скорейшее обнаружение момента разладки в условиях априорной неопределенности относительно параметров модели трафика
4.6. Обзор существующих алгоритмов классификации трафика корпоративной сети с пакетной коммутацией
4.7. Алгоритм идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией
4.8. Выводы по главе
ОБЩИЕ ВЫВОДЫ И ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК
Анализ и разработка метода оценки скорости звеньев мультисервисной сети при совместном обслуживании неоднородного трафика реального времени2016 год, кандидат наук Саламех Немер
Модели и алгоритмы оперативного оценивания характеристик трафика для автоматизированного управления качеством услуг в корпоративных мультисервисных сетях связи2022 год, кандидат наук Агеева Нина Сергеевна
Разработка метода выбора структуры и оценки пропускной способности корпоративных сетей связи2009 год, кандидат технических наук Амарян, Сергей Рубенович
Методы повышения информационной безопасности IP-телефонии с учётом вероятностно-временных характеристик протоколов распределения ключей2016 год, кандидат наук Ковцур Максим Михайлович
Разработка метода численного анализа характеристик узлов обработки трафика мультисервисной сети2013 год, кандидат наук Козырева, Надежда Ивановна
Введение диссертации (часть автореферата) на тему «Идентификация трафика корпоративной телекоммуникационной сети с пакетной коммутацией»
ВВЕДЕНИЕ
В настоящее время все сферы деятельности, связанные с информационно -телекоммуникационными технологиями, во всем мире находятся на этапе интенсивного развития. Этим определяется перенос в область телекоммуникационных, вычислительных сетей и сетей передачи данных тех направлений деятельности, которые ранее существовали независимо. Появляются новые требования к предоставляемым услугам в соответствии с растущими ожиданиями пользователей. Состояние современной инфраструктуры телекоммуникационных сетей должно соответствовать этим требованиям. Практически оформлен переход от разнообразных телекоммуникационных и вычислительных сетей к сетям, объединяющим мобильных и фиксированных абонентов. Наряду с ростом числа пользователей увеличивается перечень услуг, предоставляемых абонентам телекоммуникационных сетей: электронная почта, просмотр Web-страниц, игры, музыка, видео, чаты, потоковое видео высокого разрешения, IP-телефония, банковские сервисы, государственные услуги, социальные сети и т.д. По результатам исследований компании Cisco Systems c 2007 года произошло приблизительно трехкратное увеличение трафика различных сервисов сети Интернет. Также появляются новые технологии распространения информации, что уже привело к появлению новых видов и типов трафика, протоколов информационного обмена, а также такого понятия, как «сетевое поведение пользователей». Широко распространены в настоящее время системы с архитектурой «клиент-клиент», так называемые системы P2P (peer-to-peer system -сетевая инфраструктура без централизованного сервера). Трафик подобных сетей является одним из основных источников роста нагрузки в современных телекоммуникационных сетях. Ежемесячный объем трафика P2P-cоединений вырос с 4,6 экзабайт в 2011 году до 10 экзабайт в 2016 году и в будущем среднегодовые темпы роста будут составлять до 17 % ежегодно (согласно данным компании Cisco).
Происходит ускоренное увеличение количества персональных устройств и межмашинных соединений. По расчетам компании Cisco, на долю межмашинных соединений, поддерживающих приложения Интернета вещей (Internet of Things, IoT), к 2021 году придется более половины от общего числа всех устройств и соединений (27,1 млрд.) и 5 % глобального IP-трафика. По данным компании Nokia Bell Labs, количество устройств IoT вырастет с 12 млрд. в 2017 году до 100 млрд. в 2025 году. Основными факторами такого роста стали IoT-инновации, касающиеся подключенных домов, подключенного здравоохранения, сетевой интеграции автомобилей и транспорта, развития сервисов межмашинной связи следующего поколения.
Наряду с вышеперечисленным, увеличиваются объемы трафика в корпоративном сегменте. Активно внедряется технология программно -определяемых сетей, где функции контроля и управления выполняются не множеством сетевых устройств, а единым контроллером.
Однако указанные тенденции влекут за собой появление проблем в проектировании, построении и управлении телекоммуникационными сетями. Эти проблемы являются следствием особенностей работы новых и нестандартного использования традиционных технологий сетевых соединений, а также появления новых видов и типов трафика. Например, P2P-приложения имеют встроенный механизм обхода защиты сетевых экранов, и поэтому генерируемый ими трафик плохо поддается контролю со стороны администраторов телекоммуникационной сети. Трафик систем с архитектурой «клиент-клиент» маскируется под данные других приложений. Увеличение числа межмашинных соединений посредством глобальных сетей сопряжено с большим разнообразием не стандартизованных документально способов сетевого взаимодействия, появлением новых видов передач и телекоммуникационных протоколов. Особенностью корпоративного трафика является использование самых различных методов и способов защиты информации. Это представляет определенные проблемы проектирования и администрирования общественных сетей, предоставляющих свои каналы и ресурсы в аренду. В телекоммуникационной сети происходит одновременная
трансляция множества неоднородных потоков с изменяющейся интенсивностью, зачастую отсутствуют строгие признаки идентификации и классификации трафика. Ситуация осложняется тем, что программные средства, обеспечивающие шифрование исходящего трафика, маскировку нагрузки, использующие нестандартные сетевые протоколы и порты, находятся в свободном (нелицензируемом) обращении.
Складывается ситуация, когда, с одной стороны, прогресс подталкивает общество к все более интенсивному использованию средств передачи информации, а, с другой стороны, необходимо обеспечивать функционирование телекоммуникационных сетей с заданными показателями качества. Это происходит при возрастающем объеме передаваемой информации и появлении новых способов и технологий сетевого взаимодействия. Остро данная задача стоит для корпоративных телекоммуникационных сетей, поскольку они критичны к потерям и задержкам информации, а также к поддержанию постоянной работоспособности в силу того, что циркулирующая в них информация влияет на принятие решений руководством организации. Востребованность решений обеспечения качества функционирования сетей в корпоративном сегменте обусловлена его бурным развитием. При эксплуатации корпоративных телекоммуникационных сетей необходимо постоянно адаптировать алгоритмы и методы управления передачей информации под современные условия во избежание негативных последствий для компании и клиентов. Адаптируемые методы управления необходимо закладывать на этапе проектирования сетей, а для их разработки необходимо иметь четкие представления о объекте управления, под которым понимается динамический процесс передачи трафика по телекоммуникационным сетям. В силу указанных причин необходимо исследовать трафик корпоративных телекоммуникационных сетей с пакетной коммутацией.
Актуальность диссертационного исследования обусловлена необходимостью разработки механизма точной идентификации разнородного трафика, не имеющего явных признаков классификации. Этот механизм должен участвовать в формировании управляющих воздействий при эксплуатации и
администрировании корпоративной телекоммуникационной сети для повышения качества передачи трафика. При решении задач в области управления телекоммуникационными сетями идентификация неразрывно связана с сегментацией трафика, выделением в его структуре однородных участков в соответствии с заданным признаковым пространством. Это признаковое пространство участвует в классификации трафика для дальнейшей выработки управляющих воздействий. Результат классификации, в свою очередь, зависит от точности определения границ участков трафика, обладающего похожими характеристиками. В пределах этих участков трафик имеет устойчивые классификационные признаки.
Качественное решение задачи идентификации трафика необходимо для разработки новых алгоритмов функционирования оборудования вычислительных сетей, маршрутизации, а также в области информационной безопасности, где остро стоит задача выработки идентификационных алгоритмов телекоммуникационных сетей и классификационных признаков объектов с целью выявления нарушителей и сокрытия уязвимых параметров и характеристик. Также результаты идентификации трафика телекоммуникационных сетей могут найти применение в задачах радиомониторинга и статистического демультиплексирования, где высока априорная неопределенность.
Степень разработанности темы исследования. Проблема идентификации трафика исследовалась в трудах российских и зарубежных ученых, таких как: А. В. Городецкий, О.И. Шелухин, А.М. Тенякшев, А.В. Осин, Ю.Ю. Громов, В.М. Вишневский, Г.А. Урьев, Н.Г. Щербакова, Р.Г. Шыхалиев, Л. Льюнг, T. Lane, T. Karagiannis, A. Dainotti, W. Pescap'e, P.S. Rossi, Sebastian Zander, Thuy Nguyen и другие.
Цель работы: разработка и исследование эффективных и быстродействующих алгоритмов идентификации, методов и технологий передачи трафика за счет повышения качества кластеризации и классификации трафика на основе новой математической модели.
Для достижения поставленной цели выполнены:
1. Анализ состояния современных корпоративных сетей с пакетной коммутацией на предмет применяемых методов идентификации и моделей трафика, технологий и протоколов передачи информации.
2. Разработка и исследование математической модели трафика корпоративной телекоммуникационной сети с пакетной коммутацией, имеющей уровень новизны и математической строгости.
3. Разработка алгоритма классификации трафика протоколов, используемых в корпоративных телекоммуникационных сетях.
4. Разработка алгоритма скорейшего обнаружения изменения свойств трафика телекоммуникационной сети с пакетной коммутацией, повышающего качество кластеризации трафика.
5. Разработка алгоритма идентификации трафика.
Научная задача: разработка алгоритма идентификации, позволяющего повысить качество сегментации и классификации трафика различных процессов сетевого взаимодействия в условиях высокой степени априорной неопределенности исходных данных.
Объект исследования: трафик корпоративных телекоммуникационных сетей с пакетной коммутацией.
Предмет исследования: алгоритмы и методы идентификации, классификации и кластеризации трафика корпоративных телекоммуникационных сетей с пакетной коммутацией, а также алгоритмы сегментации и разделения трафика сетевых процессов и источников информации.
Методы и математический аппарат исследования: теория вероятностей и математическая статистика, теория информации, математическая теория управления, теория марковских и скрытых марковских случайных процессов, теория фракталов.
Соответствие паспорту научной специальности. Область исследования соответствует следующим пунктам паспорта специальности 05.13.15 -«Вычислительные машины, комплексы и компьютерные сети»:
пункту 2. «Теоретический анализ и экспериментальное исследование функционирования вычислительных машин, комплексов и компьютерных сетей с целью улучшения их технико-экономических и эксплуатационных характеристик».
пункту 6. «Разработка научных методов, алгоритмов и программ, обеспечивающих надежность, контроль и диагностику функционирования вычислительных машин, комплексов и компьютерных сетей».
Научная новизна заключается в следующем:
1. Предложена модель, обладающая новизной в части определения числа скрытых состояний.
2. Разработан алгоритм классификации трафика протоколов, используемых в корпоративных телекоммуникационных сетях.
3. Решена задача обнаружения изменения свойств трафика телекоммуникационной сети с пакетной коммутацией. Предложен алгоритм последовательного обнаружения момента разладки в наблюдениях трафика сетей передачи данных.
Представлен порядок решения задачи идентификации трафика сети с пакетной коммутацией, и предложен алгоритм идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией.
Основные научные результаты, полученные в ходе исследования лично автором и выносимые на защиту:
1. Математическая модель трафика корпоративной телекоммуникационной сети с пакетной коммутацией.
2. Алгоритмы классификации трафика протоколов, используемых в корпоративных телекоммуникационных сетях.
3. Алгоритмы идентификации и сегментации трафика корпоративной телекоммуникационной сети с пакетной коммутацией.
Теоретическая ценность определяется полученными математическими выражениями, описывающими математическую модель для идентификации
трафика корпоративной телекоммуникационной сети с пакетной коммутацией, а также алгоритм разделения разнородного трафика.
Практическая значимость заключается в следующем:
1. Разработанная модель применима при проектировании вычислительных сетей, разработке новых устройств, принцип действия которых основан на статистических характеристиках трафика.
2. Разработанный алгоритм идентификации применим в системах контроля за изменениями параметров трафика и управления сетевыми процессами.
3. На основе разработанных модели и алгоритма созданы программные средства идентификации. Экспериментальные исследования подтвердили их работоспособность и эффективность полученных в диссертации научных результатов. Разработанные программные средства внедрены в изделиях и аппаратно-программных комплексах АО «РусБИТех» и ООО «ТехАргос».
Личный вклад автора. Все основные научные результаты, модель идентификации трафика, алгоритм идентификации на основе этой модели, экспериментальные исследования и программные средства, приведенные в диссертации, получены автором лично.
Степень достоверности результатов исследований. Основные результаты, полученные в работе, являются обоснованными либо на доказательном, либо на э к с
п Апробация работы. Материалы диссертационной работы докладывались и обсуждались на следующих научных конференциях: «VII Межведомственная кронференция «Научно-техническое и информационное обеспечение деятельности ипецслужб» (Москва, 2008), «6-я Всероссийская научная конференция «Проблемы рмазвития технологических систем государственной охраны, специальной связи и информации» (Орел, 2009), научных семинарах и заседаниях кафедры номпьютерных систем и сетей МГТУ им. Н.Э. Баумана. т а л
Публикации. Основные положения диссертации отражены в семи научных работах, опубликованных в научных изданиях, шесть из которых включены в перечень ВАК РФ, общим объемом 6,36 п. л. / 4,3 п. л. По результатам исследований был получен патент на полезную модель № 94785 «Устройство анализа сетевого трафика».
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы (85 наименований). Полный объем диссертации составляет 176 страниц текста с 37 рисунками и 10 таблицами.
]'ЛАВА 1. ПОСТАНОВКА ЗАДАЧИ ИДЕНТИФИКАЦИИ ТРАФИКА В СОВРЕМЕННЫХ КОРПОРАТИВНЫХ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ С ПАКЕТНОЙ КОММУТАЦИЕЙ И СУЩЕСТВУЮЩИЕ МЕТОДЫ ЕЕ
РЕШЕНИЯ
Состояние современных корпоративных телекоммуникационных сетей с пакетной коммутацией и направления их развития
В настоящее время одним из основных факторов развития организаций и предприятий различного уровня является успешное внедрение и развитие информационных технологий. Основу для внедрения таких технологий составляют корпоративные сети передачи данных. Корпоративная сеть - это компьютерная сеть смешанной топологии, в которую входят несколько локальных вычислительных сетей. Корпоративная сеть объединяет удаленные филиалы и администрируется сотрудниками корпорации. Фактически, это транспортная инфраструктура организации, поддерживающая решение актуальных задач и обеспечивающая достижение ее целей (то есть выполнение миссии организации) [1,2]. Это система, посредством которой осуществляется передача информации между различными приложениями, используемыми в системе корпорации. В настоящее время существует множество вариантов построения корпоративных телекоммуникационных сетей. Архитектура зависит от решаемых задач в конкретной организации. Однако у корпоративных сетей есть много общего. На Рисунке 1.1 представлена общая структура корпоративной телекоммуникационной сети. На этом рисунке показана опорная корпоративная сеть, объединяющая внутренние ресурсы корпорации, и сеть общего пользования, являющаяся инструментом взаимодействия с мобильными пользователями или удаленными сотрудниками. Точками сопряжения этих сетей являются следующие ресурсы и инструменты: Web-сервер, сервер электронной торговли, сервер доступа и регистрации, почтовый сервер и др.
Мобильный пользователь
Удаленный офис
Удаленный офис
Центральны офис
Мобильный Удаленный
пользователь пользователь (сотрудник)
Рисунок 1.1. Общая структура корпоративной телекоммуникационной сети
Несмотря на то, что на Рисунке 1.1 опорная корпоративная сеть и сеть общего пользования разделены, в настоящее время эти составные части структуры корпоративных сетей интегрированы между собой. Организации отказываются от построения и содержания собственной транспортной инфраструктуры. Эта тенденция характерна как для мелких организаций, не имеющих больших финансовых средств, так и для крупных мировых корпораций. Примером может служить банковский сектор, где часть функций по содержанию внутренней инфраструктуры передана посредникам (аутсорсинговые контакт-центры, почтовые системы, центры обработки данных (ЦОД) и т.д.). Связь с ними осуществляется через общественные сети, в том числе, через Интернет. В Российской Федерации существуют труднодоступные районы, где отсутствует возможность прокладки наземных каналов связи. Соответственно, расположенные в них офисы пользуются услугами операторов спутниковых систем связи. Другим примером могут служить виртуальные сотовые операторы (MVNO - Mobile Virtual Network Operator). Сетевая инфраструктура этих компаний, как для обслуживания внутрикорпоративных ресурсов, так и для обслуживания клиентов, полностью построена на базе сетей операторов сотовой связи. В случае с MVNO интеграция
общественных и корпоративных телекоммуникационных сетей послужила развитию новой отрасли бизнеса.
Предпосылкой к объединению различных сетей в корпоративном сегменте явилось развитие технологий, удовлетворяющих требованиям по качеству, скорости и безопасности передачи контента. Основой построения системы передачи и управления корпоративным контентом явилось внедрение виртуальных частных сетей (VPN - Virtual Private Network) в сетях операторов связи и в сетях компаний, а также их использование отдельными пользователями. Виртуальная частная сеть (VPN) является частной сетевой службой, организуемой поверх сети общего пользования. Самые быстрорастущие рынки услуг VPN: Таиланд - 24 %; Индонезия - 22 %; Китай - 20 %; Бразилия - 19 %. Экономики перечисленных стран динамично развиваются. Практически все крупные корпорации и компании имеют в них свои представительства и производственные мощности, что влечет за собой требование по наличию в указанных регионах внутрикорпоративных и межкорпоративных сетей связи. Рост сетевых возможностей в странах Азии и Латинской Америки влечет за собой увеличение трафика в других странах, например, в Европе и Северной Америке. Рост VPN-услуг наблюдается в развитых странах: Германия - 6 %, США - 5 %, Великобритания - 5 %, Австралия - 4 %. Такие невысокие показатели, во-многом, обусловлены ограничительным законодательством, однако, и они свидетельствуют о развитии рынка предоставления услуг по организации сетей VPN. Представленная на Рисунке 1.2 статистика регулярности использования VPN, по данным ресурса www.globalwebindex.net, говорит о их популярности. Из приведенной статистики следует, что рынок услуг по предоставлению сервисов VPN развивается большими темпами и в ближайшем будущем будет наблюдаться устойчивый рост числа корпоративных VPN-каналов.
20%
ll ll ll ll I. Il
4-5 раз в 2-3 раза в Один раз в менее 1 раза в Один раз в Реже одного неделю неделю неделю неделю месяц раза в месяц
= Пользователи VPN ■ Пользователи Интернет
Рисунок 1.2. Регулярность использования VPN (процент от пользователей VPN и пользователей Интернет)
Со стороны обычных пользователей причиной повышенного интереса к VPN является анонимность в сети. На графике, представленном на Рисунке 1.3, приведена статистика использования сервисов VPN для обеспечения анонимности просмотра сетевых ресурсов (по данным ресурса www.globalwebindex.net).
Ежедневно
Азия и Тихоокеанский регион
Африка и Средний Восток
Европа
Латинская Америка
Северная Америка
27%
31%
27%
22%
28%
Рисунок 1.3. Статистика использования VPN-сервисов для анонимного доступа к сетевым ресурсам
К распространению разнообразных VPN-услуг в качестве средств обеспечения безопасности сетевого обмена подталкивает страх пользователей и организаций перед киберпреступлениями, среди которых наиболее частыми являются: кража личных данных и кража данных кредитных карт. В 2015 году жертвами подобных преступлений стали 63 % и 45 % от всех подвергшихся кибератакам пользователей Интернет соответственно. Это привело к тому, что почти 30 % пользователей в США отказались от проведения финансовых транзакций в сети в 2015 году. При этом порядка 63 % компаний не имеют никаких процедур или планов действий на случай кибератак на их сетевые ресурсы. В результате бизнес разного уровня и масштаба несет крупные издержки, а часто и убытки. Среди основных причин недостаточной защищенности корпоративных данных в сети называются следующие:
- недостаточное число компетентного в вопросах сетевой безопасности персонала - 56 %;
- недостаточность бюджета для закупки соответствующих решений и технологий в сфере IT-безопасности - 45 %;
- отсутствует возможность контролировать сотрудников для предотвращения утечки информации - 36 %.
На первый план в настоящее время выходит необходимость предупреждения угроз, поскольку современные решения в области борьбы с атаками злоумышленников и устранением их последствий зачастую неэффективны из-за так называемой уязвимости нулевого дня. Злоумышленники запускают и завершают атаку в тот же день, так что система безопасности не успевает отреагировать. Подобные уязвимости выросли с 2013 года по 2015 год на 125 %. Услуги VPN позволяют предупредить и существенно снизить негативное влияние перечисленных выше причин утечек корпоративных данных особенно в условиях увеличения у пользователей различного рода устройств, взаимодействующих с сетью.
Состояние современных корпоративных сетей с пакетной коммутацией обусловлено существенным числом факторов, влияющих на структуру корпоративной сети. Эти факторы делятся на внутренние и внешние.
1. Внутренние факторы:
- необходимость затрачивать значительные ресурсы для обслуживания подсистем хранения, обработки и управления корпоративным контентом;
- сложность межсетевого взаимодействия внутренних локально -вычислительных сетей удаленных офисов, расположенных зачастую в труднодоступных районах;
- экономически обоснованная необходимость взаимодействия с клиентами и сотрудниками посредством общедоступных сетей (в том числе Интернет).
2. Внешние факторы:
- увеличение скоростей передачи информации и предоставление широкополосного доступа в Интернет;
- рост числа и активное развитие мобильных средств коммуникации (смартфоны, планшеты, ноутбуки);
- продолжающаяся конвергенция цифровых сетей связи (телефония, видео, передача данных) посредством протокола IP в качестве основного;
- расширение возможностей операторов и провайдеров по объединению различного трафика, в том числе появляющегося под влиянием внедрения новых технологий;
- появление возможности предоставлять больший объем приложений и услуг по сети провайдеров при одновременном сокращении требований к оборудованию, размещаемому на территории пользователя.
Таким образом, под влиянием вышеупомянутых факторов происходит отказ от опорной корпоративной сети и передача ее функций сети общего пользования, администрируемой оператором связи, получают развитие услуги VPN. Сети VPN позволяют удаленным узлам безопасно подключаться через сеть общего
пользования без дополнительных затрат на покупку или аренду выделенных линий сети. Дополнительным толчком внедрения VPN в сетях операторов явилось развитие технологии MPLS (MultiProtocol Label Switching — многопротокольная коммутация по меткам). Технология MPLS запускает VPN, обеспечивая подобную канальной структуру, ориентированную на организацию соединений, позволяя операторам развертывать VPN поверх инфраструктуры IP-сети, традиционно не ориентированной на соединения. В современном корпоративном сегменте технология MPLS становится основой корпоративной телекоммуникационной сети на базе сетей общего пользования. Этому способствуют основные преимущества технологии:
1. Технология MPLS позволяет единой конвергированной сети поддерживать как новые, так и существующие услуги, создавая эффективный путь перехода к IP-инфраструктуре. MPLS функционирует поверх как инфраструктуры DS3, SONET, 10/100/1000/10G Ethernet так и сетей IP, ATM, ретрансляции кадров, Ethernet и TDM.
2. MPLS позволяет формировать трафик. Явная (точно определенная) маршрутизация и функция формирования трафика позволяют уплотнить больший объем данных в пределах имеющейся пропускной способности.
3. MPLS поддерживает предоставление услуг с гарантированным качеством обслуживания (QoS - quality of service). Пакеты, которые должны доставляться с высоким качеством, могут помечаться, позволяя провайдерам обеспечивать определенные малые значения задержки для речевых и видео сигналов в сквозном соединении.
4. MPLS упрощает требования обработки, предъявляемые к маршрутизаторам, поскольку маршрутизаторы просто передают пакеты, основываясь на фиксированных метках.
5. MPLS обеспечивает соответствующий уровень безопасности, чтобы сделать IP-сеть такой же безопасной, как сеть ретрансляции кадров в WAN, одновременно сокращая потребность на шифрование в IP-сетях общего пользования.
Сети VPN на базе MPLS хорошо регулируются. Поскольку они базируются на сети провайдера, то для потребителя отсутствует необходимость конфигурирования и управления.
Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК
Исследование и разработка методов обеспечения качества передачи речи в конвергентных сетях при неточной информации о сетевых характеристиках2009 год, кандидат технических наук Самсонов, Михаил Юрьевич
Модели и методы исследования процессов функционирования и оптимизации построения сетей связи следующего поколения (Next Generation Network)2009 год, доктор технических наук Сычев, Константин Иванович
Анализ вероятностно-временных характеристик узлов обработки непуассоновского мультимедийного трафика мультисервисных сетей связи2015 год, кандидат наук Самойлов Михаил Сергеевич
Разработка и исследование метода оценки эффективности введения мультисервисной интеграции на корпоративной сети2001 год, кандидат технических наук Голышко, Александр Викторович
Методы и модели анализа показателей эффективности телекоммуникационной составляющей программно-конфигурируемых сетей2015 год, кандидат наук Малахов Сергей Валерьевич
Список литературы диссертационного исследования кандидат наук Усовик Сергей Викторович, 2022 год
ист.
1500
1750
Рисунок 4.9.
в)
Временные ряды наблюдений агрегированных данных двух источников:
а) временной ряд наблюдения интенсивностей;
б) временной ряд наблюдения интервалов между информационными пакетами;
в) временной ряд наблюдения вероятностей соответствия наблюдений модели
Как видно на Рисунке 4.9 возможность визуально определить порог к разделения наблюдений Рк(01х¥), к = 1,2,...,п, генерируемых различными источниками отсутствует. Результаты вычислений (4.32) - (4.34) применительно к представленным на Рисунке 4.9 временным рядам показаны на Рисунках 4.10 - 4.12.
А(к )
' оц.
12000
11000
10000
9000
8000
7000
500 г
750 г =1000 1250
ист.
800 т =1000 к
ист.
а)
б)
Рисунок 4.10.
а) оценка максимального правдоподобия номера точки коц , в которой выполняется гипотеза о соответствии наблюдений интенсивностей Ак, к = 1,2, ...,п первому источнику;
б) правило принятия решения о моменте разладки оц. при оценке координаты коц. при наблюдении интенсивностей Ак, к = 1,2,... ,п
Л(к )
1 оц.
а) б)
Рисунок 4.11. а) оценка максимального правдоподобия номера точки коц,, в которой выполняется гипотеза о соответствии наблюдений межпакетных интервалов вк, к = 1,2, ...,п первому источнику; б) правило принятия решения о моменте разладки оц. при оценке координаты коц. при наблюдении межпакетных интервалов вк, к = 1,2,... ,п
Л(к )
1 оц/
0.0006
0.0005 -
0.0004
0.0003
0.0002
0.0001
0.0004
0.0003 -
0.0002 -
=1000 1200
=1000 1250
1500 к
а)
б)
Рисунок 4.12. а) оценка максимального правдоподобия номера точки коц, в которой выполняется гипотеза о наиболее вероятном (Рк(0^1), к = 1,2,..., п) соответствии наблюдений модели Х¥1, описывающей первый источник (I = 1);
б) правило принятия решения о моменте разладки тоц. при оценке координаты коц. при наблюдении Рк(01х¥1), к = 1,2,...,п,1 = 1
Как видно на Рисунках 4.10 а, 4.11 а, 4.12 а, максимум оценки максимального правдоподобия номера точки коц четко определен при анализе Рк(01^), к = 1,2, ...,п. Как следствие, наибольшее значение gk, по сравнению с предысторией, наблюдается при рассмотрении Рк(01¥), к = 1,2,...,п (Рисунок 4.12 б) и при значении тоц, наиболее близком к тист.
Таким образом, наиболее правдоподобная оценка тоц. истинного момента разладки тист получается при рассмотрении Рк(01¥), к = 1,2,.,п. В данном случае для принятия решения о наличии разладки применим критерий Неймана -Пирсона [9, 83, 84]. Порог к, фактически, задает значение вероятности ошибки первого рода а при условии бинарной (двухальтернативной) задачи поиска
разладки: Н0: наблюдения порождены моделью ¥^(Р(О1Н0)); Н1: наблюдения порождены моделью (Р(О1Н1)), ].
Значение а определяет время задержки обнаруживаемой гипотезы. Минимизация К до некоторого порогового значения а (по критерию Неймана-Пирсона) приближает значения коц. и оц. к истинному значению момента разладки ист..
Решение задач, сформулированных в параграфах 4.5.1 и 4.5.2, показывает возможность и особенности применения метода последовательного обнаружения момента разладки наблюдений скрытой марковской цепи при неизвестных параметрах. Ограничения, возникающие в ходе получения алгоритма обнаружения момента разладки, не являются критическими при решении задачи разделения группового трафика сети с пакетной коммутацией. Снятие этих ограничений является предметом дальнейшего изучения. Таким образом, в качестве метода поиска момента изменения статистических свойств трафика корпоративной телекоммуникационной сети с пакетной коммутацией, описываемого скрытой марковской цепью, предложено использовать алгоритм кумулятивных сумм (АКС) для данных, полученных в результате применения алгоритма прямого хода, вычисляющего вероятность появления наблюдений для конкретной (текущей) модели трафика. Применение вероятностей Рк(О1х¥), к = 1,2, ...,п, вычисляемых при последовательном поступлении наблюдаемых данных, позволяет точнее, чем при рассмотрении интенсивностей Ак,к = 1,2,... ,п и межпакетных интервалов вк,к = 1,2,... ,п, определять момент наступления разладки при заданном значении ошибки первого рода а. Решение задачи разделения группового трафика является этапом решения задачи идентификации.
Обзор существующих алгоритмов классификации трафика корпоративной сети с
пакетной коммутацией
Согласно схеме, представленной на Рисунке 4.3, после выполнения разделения и локализации трафика сетевого процесса в устройстве сравнения индивидуальных реализаций и выбора осуществляется классификация. При наличии моделей идентифицируемых сетевых процессов и приложений идентификация сводится к сопоставлению наблюдаемого процесса и некоего эталона. Классификация должна учитывать модели наблюдаемого и ненаблюдаемого процессов.
Большинство работ, в которых исследовались вопросы классификации и идентификации трафика, основаны на эмпирических исследованиях [49, 68, 69, 70, 71]. При этом число классов С в каждой работе различно, это объясняется прежде всего бурным развитием телекоммуникаций и протоколов и, как следствие, появлением новых объектов классификации. Однако классифицируемые протоколы и сетевые процессы определены в Таблице 1.
В главе 3 рассмотрена классификация трафика протоколов, используемых в корпоративных телекоммуникационных сетях. Трафик протоколов различим как на уровне средних значений в каждой из компонент смеси, так и на уровне разброса значений и частоты их появления. Для классификации трафика применим метод разделения наблюдений по пороговому значению. Параметры А и вг = являются классифицирующими признаками. Они показывают
различные значения в зависимости от значения параметра I. Изменение у(^) = А(Ь)х(£) наблюдаемого трафика протоколов управляется марковскими цепями, отличающимися по поведению. Поведение управляющей марковской цепи определяет функцию А( ). Основной задачей при классификации по параметрам А и в^ = (Р1,А{) является задание порогов отнесения к определенному сетевому протоколу.
Однако для качественного решения задач управления из функциональных групп, определенных в параграфе 1.2, необходимо классифицировать более
сложные структурные конструкции, чем локализованный трафик конкретного протокола. Необходимо локализовывать и классифицировать определенные события. Для применения технологии Traffic Engineering необходимо классифицировать на разных временных масштабах, при этом для одной сети параметры моделей А и в1 = (pi, А^ будут различными.
Если речь идет об обеспечении информационной безопасности, то каждая новая реализация вредоносного трафика описывается уникальной моделью. Этот трафик необходимо корректно локализовать и впоследствии безошибочно классифицировать.
Все изложенное выше приводит к тому, что для качественного управления трафиком и сетевыми ресурсами недостаточно использовать алгоритмы классификации на основе решающего правила д(ш)\Х^М, использующего простую разницу в значениях параметров модели. Поэтому необходимо рассмотреть существующие на сегодняшний день алгоритмы классификации на предмет возможности их применения в алгоритмах управления корпоративной сетью и идентификации трафика сетевых процессов.
В работе [71] определена задача классификации сетевого трафика. Пусть дано множество потоков сетевых данных X = [f1,f2, ■■■,fn}, где каждый поток fi характеризуется множеством р атрибутов [х1г,х^, ■ ,х1р}и множеством классов
трафика С = [Сг,С2, — ,Ск}. Требуется определить такое отображение f\X^C, чтобы каждый поток fi соответствовал только одному классу трафика. Далее приводится обзор существующих алгоритмов идентификации трафика сетей с пакетной коммутацией.
Классификация на основе машинного обучения. Одним из самых распространенных является метод машинного обучения. В работе [69] описан подход к автоматической классификации и идентификации сетевых приложений, базирующейся на наблюдаемых параметрах. Алгоритм машинного обучения (ML) автоматически строит классификатор, изучая особенности набора данных. На Рисунке 4.13 представлена схема классификатора, описанного в [69].
Рисунок 4.13. Классификация потока на основе машинного обучения
На этапе классификации пакетов осуществляется выборка подмножества пакетов для подачи на схему машинного обучения. Выборка пакетов состоит из пакетов предположительно одного приложения. Решается задача изучения классов на основе статистики потока и признаковой модели потока (1). Как только классы изучены, классифицируются новые потоки (2).
В работе [69] рассматривается байесовский классификатор, который способен к самообучению путем кластеризации. Причем в работе делается попытка ограничить количество используемых признаков путем выделения наиболее приоритетных.
В качестве алгоритма машинного обучения (МЬ) используется алгоритм [68]. В данном алгоритме делается предположение о независимости наблюдаемых случайных событий, любое подобие между событиями относит их к одному классу. Класс, к которому принадлежит наблюдаемое событие, является его скрытым атрибутом. Вероятность, что событие Х1 из набора I возможных событий с наблюдаемыми атрибутами Х^, является членом класса ^ из множества / классов состоит из двух частей: вероятности появления класса среди всей совокупности
классов и функции плотности распределения вероятностей внутри каждого из классов. Каждое случайное событие принадлежит только одному неизвестному классу С] из множества / с вероятностью Р(Х^ Е С]1Ус). Эта вероятность
независима от вектора параметров события Х1. Поскольку число классов есть величина дискретная, то вероятность появления класса описывается функцией
плотности распределения Бернулли с параметром Ус, являющимся набором вероятностей [п1, ...,п}], 0 <П] < 1, ^¡П] = 1. Таким образом,
Р(Х1ЕС]1]/с) = п]. (4.35)
Для априорного распределения Ус применяется формула:
_ гд + 1) п 1
Р(П1.....(4.36)
По критерию максимума апостериорной вероятности для исследуемого случая оценивается ТГ]\ И] = (I] + 1/])/(1 + 1), где 1] - известное число событий, принадлежащих С]. Предполагается, что события Х^, принадлежащие каждому
классу, обладают векторами параметров Х1, которые независимо и одинаково
-» —»
распределены Р^Х^Х^ Е С],У]). Условная вероятность того, что событие Х^ имеет оценку параметров Х1, при условии, что событие принадлежит классу С] есть результат условно независимых вероятностных распределений к атрибутов:
\Х1 Е С], У]) = П Р(Х1к ^ Е С¡, Цк) . (4.37)
к
Вероятность того, что событие Х^ с набором параметров Х1 принадлежит классу С] и выражается следующей формулой:
Р&Х Е С^УСУ]) = П]ПР(Х]к\Х1 Е СрУ]к). (4.38)
к
Вероятность наблюдения события Х^ с набором параметров Х^ независимо от принадлежности к классу:
Р&Ю = ^ (тг;ПР(Х*1Х1 е С1,Цк))
(4.39)
Таким образом, вероятность наблюдения полного набора наблюдений Х выражается следующим образом:
РШ = П Х(т ПР(Х'к1Х' е С>^к)
I ; \ к
Приведенное описание преобразуется к байесовской модели:
(4.40)
Р№) = ^ъП^Х Е С1'Цк) . (4.41)
]к I ] к
Таким образом, метод машинного обучения сводится к построению байесовского классификатора. Полезность описанной работы для классификации трафика заключается в возможности обучения без учителя с неизвестными классами, а также в описании механизма влияния различных параметров трафика на качество классификации, что необходимо для решения задач управления сетевыми потоками.
В работе [71] для создания модели классификации трафика в качестве метода без учителя предлагается использовать кластеризацию [73, 74]. В качестве метрики разбиения пространства характеристик используется метрика Евклида:
р
(4.42)
,к=1
Предлагается использовать алгоритм к-средних. В качестве критерия остановки выбирается минимальное изменение среднеквадратической ошибки разбиения:
к п
(4.43)
=1 =1
Для борьбы с основным недостатком алгоритма fc-средних, заключающемся в нахождении локального оптимума вместо глобального, предлагается использовать многократное повторное выполнение алгоритма.
Дерево принятия решений (дерево классификации). Имеется обучающая выборка, состоящая из набора параметров F = F±, F2, ... , Fk и некоторого класса. Класс С дискретная величина: С±, С2, ... , Сх. Структура дерева представляет собой следующее: «листья» и «ветки». На ребрах («ветках») дерева решения записаны параметры, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — параметры, по которым различаются случаи. Для того, чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Дерево является рекурсивной структурой, где «листья» представляют из собой классы. Чтобы классифицировать объект, необходимо пройти дерево, начиная с корня, пока не будет достигнут «лист». Используется коэффициент прироста информации для определения направления движения по дереву. Данный коэффициент определен как нормированная величина (4.44), основанная на энтропии произвольных переменных (4.45). Таким образом, измеряется корреляция между двумя произвольными переменными [70].
нт-нсхт
GAINRATIO(XIY) = , (4.44)
H(X)
IG(XIY) = H(X) - H(XIY), (4.45)
где
H(XIY) = -^P(Уj)^p(xi|yj)log2p(xi|yj), (4.46)
H(X) = P(xi) 1°g2 P(x{), (4.47)
гдер(хд = P[X = xi],p(yi) = P[Y = yj],p(xjlxj) = P[X = x^Y == y}\
Решение принимается по наибольшему значению коэффициента прироста информации. Прохождение по дереву продолжается, пока узел не превращается в «лист» [70].
Метод многомерного отбора-FCBF (Fast Correlation-Based Filter). Метод применяется для выбора параметров сравнения признаков разделения процессов. FCBF используется для отбора информативных признаков. Метод начинает работать с полным множеством доступных для анализа признаков, использует меру симметричной неопределенности для определения зависимостей между признаками и позволяет найти подмножество, лучше всего описывающее данную предметную область, путем поиска и последовательного исключения малоинформативных признаков. Применяется мера симметричной неопределенности:
SU(X, У) = 2
H(X)-H(X\Y)
= SU(Y,X), (4.48)
Н(Х) + Н(У)
где Н(Х),Н(У) - энтропия случайных величин, имеющих соответственно I и у состояний, Н(Х\У) - условная энтропия (4.46), (4.47). Если значение Би равно 1, то на основании одного признака можно предсказать значение второго, если Би равно 0, то это означает независимость признаков. Для получения итогового подмножества признаков выполняются следующие действия [76]:
1. Путем последовательного расчета меры для всех признаков и сравнения с заданным пороговым значением 8 получают множество Б' релевантных классу С
признаков Ур1 е Б',1 = 1, Ы, Би1с > 8, где Би^ обозначает корреляцию признака Р1 и класса С.
2. Определение доминантных признаков таких, что для Р^ (Р^ е Б,5и1с > 8) не существует Р; е Б'()' ф Г), для которого Би^ > Би1с, где Би^ - количественная оценка степени корреляции признака Р\ и других релевантных признаков из множества Б'. Признак с самым большим значением Би1с является доминантным признаком всегда.
3. Если найден Fj, для которого условие из п. 2 не выполняется, то считаем его избыточным по отношению к Fi. Обозначим SP. как множество, содержащее все возможные избыточные признаки по отношению к Fi.
4. Пусть Fi Е S' и множество SP. не пустое. Разделим SP. на два класса: S+. = { Fj\Fj Е Sp.,SUjC > SUi>c} и S- = {Fj\Fj Е SPi,SUjtC < SUi>c}.
5. Если IS+I = 0, то Fi можно считать доминантным признаком, не продолжать поиск избыточных признаков для элементов множества S-., а удалить их.
6. Если IS+I Ф 0, то необходимо проверить его элементы: если среди них не найдено доминантных признаков, то следовать п. 5, иначе - удалить признак Fi, а решение относительно удаления признаков S-. принимать на основе других признаков S'.
Для определения порога S может быть применен метод, основанный на байесовском алгоритме. Алгоритм основывается на предварительном обучении на известных классах.
Данный метод FCBF может быть использован для уменьшения размерности признаков при идентификации в дополнение к описанным методам и алгоритмам.
Классификация на основе различия аналитических моделей трафика. В работе [25] представлена методология сравнения аналитических моделей с эмпирическими моделями, полученными при помощи различных средств наблюдения за трафиком. Сравнения моделей происходят путем сопоставления распределений наблюдаемых параметров с существующими теоретическими распределениями при помощи теста Колмогорова-Смирнова. Исследованы различные параметры протоколов telnet, nntp, smtp, ftp. Основная проблема заключается в том, что теоретические распределения редко совпадают с распределениями наблюдаемых параметров. В работе [25] предлагается использовать наиболее близкое распределение, при этом сокращается число наблюдений соответствующих параметров. Используется тест, подобный тесту «хи»--квадрат:
(4.49)
1=1
где М - число областей, на которые разбивается пространство наблюдений; р^ -доля правильно предсказанных наблюдений; п - общее число наблюдений; Ы -число наблюдений, принадлежащих -й области.
В работе [25] делается одно важное изменение. Если тест «хи»-квадрат используется, чтобы сравнивать различные распределения, то происходит увеличение х2 с увеличением п, поэтому трудно сравнивать величины х2 при наборах данных различной длины. Если два распределения различны, то для больших значений п, Ы^/^пр^) достигается некоторый показатель р^. Показатель преобразуется в:
К.Л^Ы-^. (4.50)
4-1 (пр^2 =1
Показатель инвариантен к увеличению п. Если области разбиения наблюдений одинаковы, то (4.50) преобразуется в:
м
К2=^ — 1)2. (4.51)
=1
Исходя из (4.51) можно вычислить среднее отклонение в каждой области:
д = ^КТМ. (4.52)
Величина д интерпретируется следующим образом: значение К2, которое наблюдается, если в каждой области пропорция наблюдений отклоняется от предсказания на ¡1, то есть — пр^/^пр^ = д. В общем, отклонение изменяется от области к области, д используется для суммирования среднего числа. Величина д показывает насколько тесно распределения различных моделей соответствуют распределению наблюдаемых параметров. Модели с самым низким значением д соответствуют лучшему выбору модели.
Исследования, приведенные в работе [25], важны с точки зрения практического обоснования возможности построения моделей различных сетевых приложений. Результаты работы говорят о том, что трафик сложно представлять известными аналитическими моделями без потери точности. Это происходит в силу разнообразия типов трафика и зависимости наблюдений от структуры и организации телекоммуникационной системы.
Наивный байесовский классификатор. Описание наивного байесовского классификатора приведено в [38, 77]. Рассматривается последовательность данных х = (х1, ...,хп), которая является реализацией Х = {Х1, ...,Хп}. Каждая случайная переменная Х1 описывает т атрибутов {А1,.,Ат}, называемых
дискриминаторами. Х^ = (а(\ ... - случайный вектор параметров,
описывающих трафик. Также имеется к известных классов С = { с1,..., ск}. Каждое наблюдение х^ из х принадлежит одному из классов с;. Статистическое заключение о классе с; ненаблюдаемого потока у основывается на условной вероятности при наблюдении потока у:
, , . P(Cj)f(У|Cj)
р(с'1у) = ъ^тс,)- (453)
Формула (4.53) описывает правило Байеса. Главная задача классификации заключается в оценке f(у|Cj),j = 1,...,к. При этом накладываются условия независимости наблюдаемых дискриминаторов и их гауссовости. Хотя эти предположения зачастую являются нереалистичными, в работе [77] показано, что наивный байесовский классификатор работает лучше, чем более сложные методы. При этом он занимает меньше времени на процедуру классификации. В работе [38] описана проблема аппроксимации каждого дискриминатора гауссовским распределением. Применяются ядерные методы оценки, то есть оценка реальной плотности распределения вероятностей:
г-хс
^ = ¿1 1 (4.54)
1 Х1\С(Х1) = С1
где h - диапазон, параметр сглаживания, К (t) - ядро (некоторая неотрицательная функция, такая, что f™ К(t)dt = 1).
Описываемая процедура в качестве ядра использует гауссовскую плотность распределения вероятностей. Выбор параметра h влияет на точность аппроксимации, которая определяется среднеквадратичной ошибкой (MISE -Mean Integrated Squared Error):
MlSE(f) = E[j (f(t) - f(t))2 dt]. (4.55)
В работе [38] затрагивается вопрос выбора дискриминатора и сокращения размерности. Дискриминатор должен иметь только одно значение, избыточность уменьшает точность классификации. Для решения задач выбора дискриминатора предлагается использовать метод многомерного отбора FCBF (FCBF - Fast Correlation - Based Filter).
Результатом исследования применения наивного байесовского классификатора для классификации трафика является то, что наивный байесовский классификатор с ядерными оценками плотности распределения вероятностей и техникой FCBF приводят к точности классификации 95 %. Данная техника классификации может быть использована для трафика с небольшим числом сведений, то есть в процессе обучения «без учителя».
4.7 Алгоритм идентификации трафика корпоративной телекоммуникационной
сети с пакетной коммутацией
После проведенных исследований согласно порядку решения задачи идентификации трафика (Рисунок 4.1) необходимо построить итоговый алгоритм.
Рисунок 4.14. Блок-схема алгоритма идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией
На блок-схеме алгоритма отражены все необходимые этапы идентификации. Этап построения модели сетевого процесса происходит до момента выбора наиболее правдоподобных значений параметров {А, 9„ 1} при достижении
пороговых значений h% и hp. При этом реализуется внешний алгоритм ARD EM автоматического выбора числа компонент скрытой марковской модели.
Этап локализации реализации сетевого процесса начинается с выбора допустимого значения ошибки первого рода а. Этот параметр необходим для определения порога h остановки работы алгоритма кумулятивных сумм (АКС). На этапе локализации сетевого процесса реализуется процедура последовательного обнаружения момента изменения свойств (разладки) случайного процесса. При этом определение момента изменения свойств сетевого процесса зависит от значения порога h и определяется уравнением (4.25).
Описанные выше этапы составляют процедуру идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией. По наблюдаемому трафику строится модель А*(t), описывающая процесс y*(t) Е Y*, как максимально приближенный к наблюдениям у(t) Е Y неизвестной реализации x(t) Е X. Локализация процесса y(t) Е Y необходима для перестроения модели А*( t).
Для решения последующих целевых задач управления, а также корректировки результатов идентификации происходит классификация локализованного трафика. Эта процедура реализуется в устройствах сравнения индивидуальных реализаций и выбора, показанных на Рисунке 4.3. На блок-схеме подробно представлен алгоритм идентификации трафика протоколов, исследованный в главе 3. Алгоритм классификации сетевых процессов, чьи структура и признаки определяются целями управления, осуществляются в соответствии с существующими методами классификации, обзор которых приведен в параграфе 4.6. Выбор конкретного алгоритма является предметом дальнейших исследований.
Таким образом, представленный на Рисунке 4.14 алгоритм идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией описывает все этапы обработки поступающего трафика для последующей выработки управляющих воздействий. Алгоритм включает в себя результаты всех
проведенных исследований, описанных в предыдущих главах. Он служит для выполнения последнего этапа порядка решения задачи идентификации трафика (см. Рисунок 4.1). Алгоритм может быть реализован в виде соответствующих устройств управления или в виде специализированного программного обеспечения.
4.8 Выводы по главе 4
Таким образом, в главе 4 представлен порядок решения задачи идентификации трафика сети с пакетной коммутацией. На основании этого порядка разработан и представлен алгоритм идентификации трафика. Были исследованы формы представления наблюдаемого трафика мультиплексированного потока данных с составлением структурной модели наблюдаемого трафика, которая включает в себя модель последовательности скрытого потока событий и модель наблюдения сетевого трафика. В ходе разработки алгоритма были решены задачи обнаружения изменения свойств наблюдаемого трафика, а также скорейшего обнаружения момента разладки в условиях априорной неопределенности относительно параметров модели трафика. В главе приведен обзор алгоритмов и методов для дальнейшей классификации локализованного трафика.
ОБЩИЕ ВЫВОДЫ И ЗАКЛЮЧЕНИЕ
В результате исследований решена задача идентификации трафика в современных корпоративных телекоммуникационных сетях с пакетной коммутацией. Задача заключается в разработке математической модели сетевого трафика, анализе и исследовании ее свойств, в создании алгоритма и описании методов идентификации трафика.
При выполнении диссертации получены следующие основные результаты:
1. Сформулирована задача идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией.
2. Произведена оценка существующих методов идентификации трафика корпоративной сети с пакетной коммутацией.
3. По результатам сравнительного анализа существующих моделей трафика сетей передачи данных предложена модель, основанная на скрытой марковской модели и обладающая новизной в части определения числа скрытых состояний. Модель ориентирована на использование в полностью автоматических системах анализа, мониторинга и классификации трафика, а также управления сетевыми ресурсами.
4. На основе предложенной модели описан алгоритм классификации трафика протоколов, используемых в корпоративных телекоммуникационных сетях. Точность проведения классификации достигает 90 %, полнота классификации достигает 80 %.
5. Проведен анализ влияния загруженности канала передачи информации на параметры модели трафика и исследованы индивидуальные особенности трафика сетевых устройств и пользователей корпоративных телекоммуникационных сетей с пакетной коммутацией.
6. На основе предложенной модели трафика решена задача обнаружения изменения свойств трафика телекоммуникационной сети с пакетной коммутацией. Предложен алгоритм последовательного обнаружения момента разладки в наблюдениях трафика сетей передачи данных. Определен минимальный объем
обрабатываемых данных для применения указанного алгоритма, а также разработан алгоритм скорейшего обнаружения момента разладки в условиях априорной неопределенности относительно параметров модели трафика.
7. Представлен порядок решения задачи идентификации трафика сети с пакетной коммутацией. На основании этого порядка разработан и представлен алгоритм идентификации трафика корпоративной телекоммуникационной сети с пакетной коммутацией.
8. Результаты исследований опубликованы в шести периодических и научно-технических изданиях, входящих в Перечень ВАК РФ, в которых рекомендуются публикации основных результатов диссертаций на соискание ученой степени кандидата наук и доктора наук. По результатам исследований был получен патент на полезную модель № 94785 «Устройство анализа сетевого трафика».
СПИСОК ЛИТЕРАТУРЫ
1. Олифер В.Г., Олифер Н.А. Компьютерные сети. Принципы, технологии, протоколы: учебник для вузов. 2-е изд. СПб.: Питер, 2003. 864 с.
2. Ладыженский Г.М. Архитектура корпоративных информационных систем // Системы Управления Базами Данных. 1997. № 5-6. С. 18-24.
3. CCITT Recommendation X.700 (1992), Management framework for open systems interconnection (OSI) for CCITT applications. Сайт Международного союза электросвязи (МСЭ). 2022. URL. https://www.itu.int/rec/dologin pub.asp?lang=e &id=T-REC-X.700- 199209-I%21 %21PDF-E (дата обращения: 10.01.2022).
4. ГОСТ Р ИСО/МЭК 7498-4-99 Информационная технология (ИТ). Взаимосвязь открытых систем. Базовая эталонная модель. Часть 4. Основы административного управления. М.: ИПК Издательство стандартов, 1999. 16 с.
5. Леохин Ю.Л. Научные основы управления параметрами структур корпоративных сетей: Автореферат диссертации на соискание ученой степени доктора технических наук: 05.13.13. М., 2009. 36 с.
6. Леохин Ю.Л. Архитектура современных систем управления корпоративными сетями // Качество Инновации Образование. 2009. № 2. С. 54-63.
7. Виктор Олифер, Наталья Олифер. Искусство оптимизации трафика // Журнал сетевых решений/LAN. 2002. № 12. Сайт журнала сетевых решений. URL. https://www.osp.ru/lan/2002/12/135572 (дата обращения: 02.07.2021).
8. Бочков М.В., Копчак Я.М. Метод идентификации вычислительных сетей при ведении компьютерной разведки // Сб. докл. VI Междунар. конф. SCM'2003 СПб.: СПГЭТУ, 2003. т. 1. С. 288-290.
9. Льюнг Л. Идентификация систем. Теория для пользователя: Пер. с англ. / Под ред. Я.З. Цыпкина. М.: Наука. гл. ред. физ.-мат. лит., 1991. 432 с.
10. Zucchini, W. and MacDonald, I. L. Hidden Markov Models for Time Series: An Introduction using R. Chapman & Hall (CRC Press), 2009. 265 p.
11. MacDonald, I. L. and Zucchini, W. Hidden Markov and Other Models for Discrete-Valued Time Series. London: Chapman and Hall, 1997. 238 p.
12. T. Lane. Hidden markov models for human/computer interface modeling. In Proceedings of the IJCAI-99 Workshop on Learning about Users. International Joint Conferences on Artifficial Intelligence, August 1999. P. 35-44.
13. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М.: ФИЗМАТЛИТ, 1999. 352 с.
14. Сетевой трафик. Сайт Wikipedia. URL. http://ru.wikipedia.org/wiki/Сетевой тра фик (дата обращения: 11.12.2021).
15. Шелухин, О.И., Тенякишев, А.М., Осин, А.В. Фрактальные процессы в телекоммуникациях. Монография. / Под ред. О.И. Шелухина. М.: Радиотехника, 2003. 480с.
16. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974. 415 с.
17. V.Paxson, Empirically derived analytic models of wide-area TCP connections, IEEE/ACM Trans. Netw., 1994, vol. 2, no. 4, P. 316-336.
18. V.Paxson and S.Floyd, Wide area traffic: the failure of Poisson modeling, IEEE/ACM Trans. Netw., 1995, vol. 3, no. 3, P. 226-244.
19. T.Karagiannis, K.Papagiannaki, and M.Faloutsos, BLINC: multilevel traffic classification in the dark // Proceedings of the Conference on Applications, Technologies, Architectures, and Protocols for Pomputer Communications, New York, USA, 2005, P. 229-240.
20. L. Zhanh and J. Tang, Characterization and performance study of IP traffic in WDM networks // Computer communications, 2001, No.24, P. 1702-1713.
21. Bruce A. Mah. An Empirical Model of HTTP Network Traffic. Copyright 1997 IEEE. Published in the Proceedings of INFOCOM,97, vol. 2, April 1997. P.592-600.
22. Wright, C., Monrose, F., Masson, G.: HMM profiles for network traffic classification(extended abstract). In: Proc. of Workshop on Visualization and Data Mining for Computer Security (VizSEC/DMSEC), Fairfax, VA, USA (2004). P. 9 -15.
23. Dainotti, A., de Donato, W., Pescap'e, A., Rossi, P.S.: Classification of network traffic via packet-level hidden markov models. In: Proc. of IEEE Global
Telecommunications Conference (GLOBECOM) 2008, New Orleans, LA, USA (2008). P. 1 - 5.
24. Manuel Crotti, Maurizio Dusi, Francesco Grinoli, Luca Salgarelli. Traffic Classification through Simple Statistical Fingerprinting. ACM SIGCOMM Computer Communication Review, Volume 37, Number 1, January 2007. P. 5 - 16.
25. Vern Paxson. Empirically-Derived Analytic Models of Wide-Area TCP Connections: Extended Report, June 15, 1993. 24 p.
26. Местецкий Л.М. Математические методы распознавания образов // Курс лекций, МГУ ВМиК, кафедра «Математические методы прогнозирования», -Москва, 2002-2004. 85 c.
27. Дынкин Е.Б. Марковские процессы. М., Физматгиз, 1963 г., 860 с.
28. Тихонов В.И., Миронов М.А. Марковские процессы. М., «Сов. радио», 1977 г., 488 с. с ил.
29. Шелухин О.И., Тенякшев А.М., Осин А.В. Моделирование информационных систем. / Под ред. О.И. Шелухина. Учебное пособие. - М.: Радиотехника, 2005. - 368 с.: ил.
30. L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, Proceedings of the IEEE 77 (2) (1989). P. 257-285.
31. Gerhard Munz, Hui Dai, Lothar Braun, Georg Carle1. TCP Traffic Classification Using Markov Models. Network Architectures and Services - Institute for Informatics Technische Universitat Munchen, Germany. Springer-Verlag Berlin Heidelberg. 2010. P.127 - 140.
32. L. Muscariello, M. Mellia, M. Meo, M. Ajmone Marsan, R. Lo Cigno. Markov models of internet traffic and a new hierarchical MMPP model. Computer Communications 28 (2005). P. 1835-1851.
33. Paulo Salvador, Antonio Pacheco, Rui Valadas. Modeling IP traffic: joint characterization of packet arrivals and packet sizes using BMAPs. Computer Networks 44 (2004). P. 335-352.
34. Steven L. Scott, Padhraic Smyth. The Markov Modulated Poisson Process and Markov Poisson Cascade with Applications to Web Traffic Modeling. BAYESIAN STATISTICS 7, 2003. P. 671 - 680.
35. Громов Ю.Ю., Земской Н.А., Иванова О.Г., Лагутин А.В., Тютюнник. Фрактальный анализ и процессы в компьютерных сетях: учебное пособие. - 2-е изд., стереотип. - Тамбов: Изд-во Тамб. гос. техн. ун-та, 2007. 108 с.
36. В.М. Вишневский. Теоретические основы проектирования компьютерных сетей. Москва: Техносфера, 2003. 512с.
37. Бестугин и др. Контроль и диагностирование телекоммуникационных сетей / А.Р. Бестугин, А.Ф. Богданова, Г.В. Стогов. СПб: Политехника, 2003. 174 с.
38. Andrew W. Moore, Denis Zuev. Internet Traffic Classifiation Using Bayesian Analysis Techniques. In ACM SIGMETRICS. 2005. P.50 - 60.
39. Hongbo Jiang, Andrew W. Moore, Zihui Ge, Shudong Jin, Jia Wang. Lightweight Application Classification for Network Management. INM '07. 2007. P. 299 - 304.
40. Scott, S.L. (1999). Bayesian analysis of a two state Markov modulated Poisson process. J. Comp. Graph. Statist. 8, P. 662 - 670.
41. D. Karlis, E. Xekalaki, Robust inference for finite Poisson mixtures, Journal of Statistical Planning and Inference 93 (2001). P. 93 - 115.
42. Бронштейн И. Н., Семендяев К.А. Справочник по математике для инженеров и учащихся втузов. 13-е изд., исправленное. Наука, Гл. ред. физ.-мат. лит., 1986. 544 с.
43. Овчаров Л.А. Прикладные задачи теории массового обслуживания. М.: Машиностроение, 1969. 324 с.
44. Клейнрок Л. Теория массового обслуживания. Пер. с англ./Пер. И.И. Грушко; ред. В. И. Нейман. М.: Машиностроение, 1979. 432 с.
45. Федер Е. Фракталы: Пер. с англ. М.: Мир, 1991. 254 с.
46. Колесников А.В. Моделирование сетевого трафика и алгоритмы борьбы с перегрузками на основе методов нелинейной динамики и краткосрочного прогнозирования временных рядов: Диссертация на соискание ученой степени кандидата технических наук: 05.13.15. М., 2015. 144 с.
47. Гмурман, В.Е. Теория вероятностей и математическая статистика: Учеб. Пособие для вузов/В.Е. Гмурман. 9-е изд., стер. М.: Высш. шк., 2003. 478 с.
48. Урьев Г.А. Результаты экспериментальных исследований сетевого трафика телекоммуникационной сети. // Урьев Г.А., Шелухин О.И., Осин А.В., «Теоретические и прикладные проблемы сервиса». 2005. № 1-2 (14-15), C. 38 - 49.
49. Dainotti, A., Pescape, A., Rossi, P.S., Palmieri, F., Ventre, G. Internet traffic modeling by means of Hidden Markov Models. / Computer Networks 52(2008). P. 2645-2662.
50. A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society.Series B (Methodological), 39(1), 1977. P. 1-38.
51. Ветров Д.П., Кропотов Д.А., Осокин А.А. Автоматическое определение количества компонент в ЕМ-алгоритме восстановления смеси нормальных распределений // Ж. вычисл. матем. и матем. физ., 2010, т. 50, №4, C. 1-14.
52. Tipping M.E. Sparse Bayesian learning and the relevance vector machine // J. Mach. Learn. Res.. 2001. V. 1. P. 211-244.
53. MacKay D.J.C. Bayesian interpolation // Neural Comp. 1992. V. 4. No. 3. P. 415-447.
54. Жиглявский А.А., Красковский А.Е. Обнаружение разладки случайных процессов в задачах радиотехники. Л.: Издательство Ленинградского университета. 1988. 224 с.
55. http://mawi.wida.ad.jp.
56. Польман, Норберт, Кразерс, Тим. Архитектура брандмауэров для сетей предприятия.: Пер. с анл. М.: Издательский дом "Вильямс". 2003. 432 с.
57. Zhang F., Wu W. A Network Traffic Classification based on Coupled Hidden Markov Models / School of Computer Science, Beihang University. 2017. URL: http://atc.udg.edu/MERMAT/papers/paper 5 Zhang and Wu.pdf (дата обращения 07.05.2018).
58. Бертсекас Д., Галлагер Р. Сети передачи данных: Пер. с англ. М.: Мир, 1989. 544 с.
59. P. Smyth Clustering sequences with hidden markov models. In Advances in Neural Information Processing, 1997. P. 648 - 654.
60. J. McQueen. Some methods for classification and analysis of multivariate observations, in Symposium on Mathematical Statistics and Probability, 1967. P. 281 - 297.
61. Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A maximization technique occurring in the statistical analysis of probabilistic functions of markov chains. The Annals of Mathematical Statistics, 1970, Vol.41, No.1. P. 164-171.
62. Ю.А. Калуш, В.М. Логинов. Показатель Херста и его скрытые свойства. // Сибирский журнал индустриальной математики. Октябрь-декабрь, 2002. Том V, № 4(12). C. 29 - 37.
63. О. К. Исаенко, В. Ю. Урбах, "Разделение смесей распределений вероятностей на их составляющие", Итоги науки и техн. Сер. Теор. вероятн. Мат. стат. Теор. кибернет., 13, ВИНИТИ, М., 1976. C. 37-58.
64. Д.Д. Моргайлов, Ю.В. Ладыженский, М. Юнис. Исследование влияния мультиплексированных каналов и параметров измерений на показатель Херста для трафика пакетов в компьютерных сетях Информатика и компьютерные технологии - 2012 (ИКТ - 2012) / Материалы VIII международной научно-технической конференции студентов, аспирантов и молодых ученых - 18-19 сентября 2012 - Донецк, ДонНТУ - 2012. C. 227-231.
65. Королев А.В., Силаев А.М. Алгоритм Витерби для модели нестационарных скрытых марковских процессов со случайным скачком параметров. // Материалы тринадцатой Всероссийской научно-технической конференции «Информационные технологии в науке, проектировании и производстве», Н.Новгород, МВВО АТН РФ, 2004. С. 28-29.
66. Королев А.В., Силаев А.М. Алгоритм оценки состояний и времени скачка параметров в модели нестационарных скрытых марковских процессов.
// Тезисы докладов восьмой научной конференции по радиофизике". Н.Новгород, ННГУ, 2004. С. 152-153.
67. Щербакова Н.Г. Анализ IP-трафика методами DATA MINING. Проблема классификации. //Проблемы информатики, 2012. C. 30 - 46.
68. P. Cheeseman, J. Stutz, "Bayesian Classification (Autoclass): Theory and Results", Advances in Knowledge Discovery and Data Mining, AAAI/MIT. 1996. P. 153 -180.
69. Sebastian Zander, Thuy Nguyen, Grenville Armitage. Automated Traffic Classification and Application Identification using Machine Learning. // Proceedings of the IEEE Conference on Local Computer Networks 30th Anniversary (LCN'05). 2005. P. 250 - 257.
70. Wei Li, Marco Canini, Andrew W. Moore, Raffaele Bolla. Efficient Application Identification and the Temporal and Spatial Stability of Classification Schema. // Comput. Networks. Vol. 53. 2009. P. 790 - 809.
71. Шыхалиев Р.Г. Анализ и классификация сетевого трафика компьютерных сетей. // informasiya texnologiyalari problemlsri, № 2, 2010. C. 15-23.
72. Ширяев А.Н. Статистический последовательный анализ. Главная редакция физико-математической литературы издательства «Наука», 1976. 272 с.
73. M.Dunham, Data Mining: Introductory and Advance Topics. Prentice Hall, New Jersey, 1st edition, 2003. 315 p.
74. N.J.Nilsson, Introduction to Machine Learning. URL. http://robotics.stanford.edu/people/nilsson/MLDraftBook/MLBOOK.pdf. (дата обращения: 10.11.2009).
75. Ванюшина А.В. Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения: Автореферат диссертации на соискание ученой степени кандидата технических наук: 05.13.15. М., 2019. 21 с.
76. А.С. Романов, Р.В. Мещеряков, З.И. Резанова. Методика проверки однородности текста. // Управление, вычислительная техника и информатика. Доклады ТУСУРа, № 2 (32), июнь 2014, С. 264-269.
77. I. H. Witten and E. Frank. Data Mining. Practical Machine Learning Tools and Techniques, Second Edition Morgan Kaufmann, 2005. 560 p.
78. Никифоров И.В. Последовательное обнаружение изменения свойств временных рядов. М.: Наука, 1983. 199 с.
79. Мамойленко С.Н. Организация функционирования распределенных вычислительных систем в мультизадачных режимах: Автореферат диссертации на соискание ученой степени доктора технических наук: 05.13.15. Новосибирск, 2012. 36 с.
80. Ширяев А.Н. Задача скорейшего обнаружения нарушения стационарного режима // Докл. АН СССР. 1961. Т. 138, № 5. С. 1039 - 1042.
81. Lorden G. Procedures for reacting to a change in distribution // Ann. Math. Statist. 1971. Vol. 42, № 6. P. 1897 - 1908.
82. Клигене Н., Телькснис Л. Методы обнаружения моментов изменения свойств случайных процессов//Автоматика и телемеханика. 1983. № 10. C. 5 - 56.
83. Эйкхофф П. Основы идентификации систем управления. М.: Мир, 1975. 686 с.
84. Райбман Н.С. Что такое идентификация? М.: Наука, 1970. 118 с.
85. Фицов В.В. Модели и методы проектирования сетевой архитектуры глубокой инспекции пакетов: Диссертация на соискание ученой степени кандидата технических наук: 05.12.13. СПб., 2021. 213 с.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.