Идентификация логических соединений в информационно-телекоммуникационных сетях, содержащих средства анонимизации пользователей тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Горелик Константин Сергеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 142
Оглавление диссертации кандидат наук Горелик Константин Сергеевич
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
1 АНАЛИЗ МЕТОДОВ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ В ИТКС, СОДЕРЖАЩИХ СРЕДСТВА АНОНИМИЗАЦИИ
1.1 Особенности использования ИТКС общего пользования для предоставления услуг анонимного доступа к информационным ресурсам
1.2 Анализ известных методов идентификации пользователя инфокоммуникационных услуг в сети Интернет
1.3 Формальная постановка задачи исследования
1.4 Выводы по разделу
2 МЕТОД ИДЕНТИФИКАЦИИ НА ОСНОВЕ МОДЕЛИ ВЕРОЯТНОСТНОЙ СВЯЗИ, ОПИСЫВАЮЩЕЙ ПРОФИЛИ ЛОГИЧЕСКОГО СОЕДИНЕНИЯ ИТКС, СОДЕРЖАЩЕЙ СРЕДСТВА АНОНИМИЗАЦИИ ПОЛЬЗОВАТЕЛЕЙ
2.1 Анализ моделей разнородного трафика и проблемы их применения
2.2 Выбор и обоснование признакового пространства для решения задачи идентификации в сетях с анонимизацией
2.3 Разработка модели вероятностной связи, описывающей профили логических соединений в сетях с анонимизацией, используемые в задаче идентификации пользователя
2.4 Разработка метода идентификации на основе модели вероятностной связи, описывающей профили логического соединения ИТКС, содержащей средства анонимизации пользователей
2.5 Выводы по разделу
3 АЛГОРИТМ ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ ПРОФИЛЕЙ ЛОГИЧЕСКИХ СОЕДИНЕНИЙ В СЕТЯХ С АНОНИМИЗАЦИЕЙ ПРИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ
3.1 Обоснование исходных данных для построения алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
3.2 Алгоритм обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
3.3 Алгоритм разделения смеси нормальных распределений
3.4 Решающая процедура отнесения анализируемого профиля логического соединения к одному из известных классов
3.5 Исследование свойств разработанного алгоритма
3.6 Выводы по разделу
4 ЭКСПЕРИМЕНТАЛЬНОЕ ОЦЕНИВАНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМА ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ ПРОФИЛЕЙ ЛОГИЧЕСКИХ СОЕДИНЕНИЙ В СЕТЯХ С АНОНИМИЗАЦИЕЙ ПРИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ
4.1 Оценка эффективности алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
4.2 Реализация алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
4.3 Технические предложения по реализации алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
4.4 Выводы по разделу
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическое моделирование средств управления ресурсами и данными в распределенных и виртуализованных средах2007 год, доктор физико-математических наук Тормасов, Александр Геннадьевич
Модели и алгоритмы повышения криптостойкости и производительности защищенного канала связи в телекоммуникационных сетях TCP/IP2018 год, кандидат наук Метлинов, Александр Дмитриевич
Методика идентификации пользователей порталов сети интернет на основе методов математической лингвистики2015 год, кандидат наук Сухопаров Михаил Евгеньевич
Идентификация трафика корпоративной телекоммуникационной сети с пакетной коммутацией2022 год, кандидат наук Усовик Сергей Викторович
Разработка и исследование алгоритмов динамического резервирования канального ресурса защищенных корпоративных мультисервисных сетей связи2020 год, кандидат наук Миронов Олег Юрьевич
Введение диссертации (часть автореферата) на тему «Идентификация логических соединений в информационно-телекоммуникационных сетях, содержащих средства анонимизации пользователей»
ВВЕДЕНИЕ
Современный этап развития инфокоммуникационных услуг, сервисов и приложений информационно-телекоммуникационных сетей (ИТКС) общего пользования, в том числе Интернет, характеризуется появлением средств и методов, обеспечивающих анонимность пользователей в сети, а проблема их идентификации является одной из наиболее обсуждаемых представителями правоохранительных ведомств и экспертным сообществом.
Использование средств анонимизации, с одной стороны, обеспечивает пользователям возможность получения услуг связи и доступа к информационным ресурсам без раскрытия содержания передаваемых данных и личности потребителя, право которого гарантируется статьей 23 Конституции Российской Федерации, но, с другой стороны, статистика показывает, что более 70 % зафиксированных фактов применения средств анонимизации в сети Интернет использовалось для посещения запрещенных сайтов, ведения переписки незаконного характера (в том числе террористической направленности), организации виртуальных атак на информационные ресурсы коммерческих организаций и органов государственной власти. К тому же за последние три года количество пользователей, применяющих технологии анонимизации в сети Интернет, увеличилось вдвое.
Правительством Российской Федерации в июне 2016 года был принят ряд поправок в ФЗ «О противодействии терроризму» в соответствии с пакетом законопроектов, предложенных главами комитетов Думы и Совета Федерации. В соответствии с ФЗ от 6 июля 2016 г. № 375-ФЗ «О внесении изменений в Уголовный кодекс Российской Федерации и Уголовно-процессуальный кодекс Российской Федерации в части установления дополнительных мер противодействия терроризму и обеспечения общественной безопасности» операторы связи обязаны хранить текстовые сообщения, голосовую информацию, изображения, звуки, видео и иные сообщения с целью их использования при проведении оперативно-разыскных мероприятий спецслужб. Однако с учетом
того, что применяемые на сегодня средства и методы анонимизации используют алгоритмы криптографических преобразований гарантированной стойкости, хранение зашифрованных данных пользователей без их привязки к конкретным узлам и устройствам сети на практике не дает желаемых результатов, а научно-технические решения в области идентификации логических соединений для подобных условий до сих пор не разработаны. Следует отметить, что в данной работе под логическим соединением понимается взаимосвязь, обеспечиваемая некоторым уровнем Эталонной модели взаимодействия открытых систем, между двумя логическими объектами смежного верхнего уровня с целью обмена данными. Профиль логического соединения - набор свойств трафиков, формируемых пользователем на входе логического соединения, и трансформируемых сетью с анонимизацией на его выходе.
Степень разработанности темы исследования. Результаты анализа литературы по данной тематики показали, что в области методов и средств идентификации трафика пользователей известны работы Гвоздева А.В., Ж. Норта, С. Чакраварти, Бессоновой Е.Е. и др. Однако их результаты основаны на анализе сигнатурных признаков телекоммуникационных протоколов и в целом ориентированы на незащищенную передачу данных, поэтому для сетей с анонимизацией эти подходы не применимы.
Таким образом, проведенный анализ показал, что научно-теоретическая база в области моделей и методов идентификации логических соединений в ИТКС с учетом возможной анонимизации пользователей развита недостаточно, а существующие технические разработки ограничены сферой применения и малоэффективны в современных условиях развития средств анонимизации. Следовательно, направление и тема диссертационной работы являются актуальными, а технические решения, направленные на совершенствование методов идентификации логических соединений в ИТКС, содержащих средства анонимизации пользователей, востребованы на практике.
Целью диссертационной работы является совершенствование методов идентификации логических соединений пользователей в ИТКС, содержащих
средства анонимизации, за счет выявления закономерностей изменения статистических свойств наблюдаемых параметров трафика, определяемых алгоритмами функционирования сети.
Для достижения поставленной цели сформулированы и решены следующие задачи исследования:
1. Исследование существующих методов анализа логических соединений в ИТКС, использующих средства анонимизации, с позиции идентификации пользователей.
2. Разработка модели вероятностной связи, описывающей профили логических соединений в сетях с анонимизацией, используемые в задаче идентификации пользователя.
3. Разработка метода идентификации на основе модели вероятностной связи, описывающей профили логического соединения ИТКС, содержащей средства анонимизации пользователей.
4. Разработка алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей.
5. Проведение натурных экспериментов, иллюстрирующих работоспособность и эффективность предлагаемых метода и алгоритма.
Научную новизну работы составляет следующее:
1. Модель вероятностной связи, описывающая профили логических соединений в сетях связи с анонимизацией, позволяющая получить зависимости между трафиком, формируемым пользователем на входе логического соединения, и трафиком на выходе, измененным средствами анонимизации.
2. Метод идентификации на основе модели вероятностной связи, позволяющий учесть изменения статистических свойств наблюдаемых параметров трафика.
3. Признаковое пространство и мера близости профилей логических соединений пользователей, позволяющие решить задачу идентификации при использовании средств анонимизации.
Теоретическая значимость работы определяется моделью вероятностной связи с решающей процедурой отнесения анализируемого профиля логического соединения к одному из известных классов на основе расстояние Кульбака-Лейблера, позволяющих обеспечить достоверность идентификации в отсутствии априорных данных об используемых методах преобразования трафика в сетях с анонимизацией.
Практическая значимость работы заключается в доведении разработанных теоретических подходов и алгоритмических конструкций, применяемых для решения задачи идентификации логических соединений в сетях с анонимизацией пользователя, до уровня программных средств, что подтверждается актом внедрения в деятельность ООО «ТехАргос СпецСистемы» и свидетельством о государственной регистрации программы для ЭВМ 2018611957. Разработанные теоретические положения отражены в патенте на изобретение № 2631971 от 29.09.2017 г. «Способ идентификации логического соединения в инфокоммуникационной сети, обеспечивающей анонимный доступ».
Объект исследования: ИТКС, содержащие средства анонимизации пользователей.
Предмет исследования: методы идентификации логических соединений пользователей в ИТКС, содержащих средства анонимизации.
Методы диссертационного исследования. Научной основой для решения поставленной задачи являются: теория вероятностей и математической статистики, теория машинного обучения, теория алгоритмов, теория вычислительных экспериментов, а также методы кластерного анализа, методы математического моделирования.
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.01 «Системный анализ, управление и обработка информации (информационные системы управления)» (технические науки) по следующим областям исследования:
п.4. Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации;
п.5. Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации.
Положения, выносимые на защиту:
1. Метод идентификации на основе модели вероятностной связи, описывающей профили логического соединения ИТКС, содержащей средства анонимизации пользователей.
2. Алгоритм обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей.
3. Результаты натурных экспериментов, проведенных на ИТКС, содержащей средства анонимизации пользователей, подтверждающие работоспособность разработанных метода и алгоритма.
Степень достоверности результатов обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными положениями теории и практики анализа ИТКС, иллюстрируется результатами натурных экспериментов в сетях связи содержащих средства анонимизации.
Апробация результатов диссертационного исследования.
Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: 11 Межведомственной конференции «Научно-техническое и информационное обеспечение деятельности спецслужб» (ИКСИ, Москва, 2016 г.); Х Всероссийской межведомственной научной конференции «Актуальные направления развития систем охраны, специальной связи и информации для нужд государственного управления» (Академия ФСО России, Орёл, 2017 г.).
Публикации. По теме диссертационного исследования опубликовано 7 печатных работ (из них 4 научные статьи опубликованы в рецензируемых журналах, рекомендованных ВАК при Минобрнауки России), 1 патент на
изобретение и 2 Свидетельства Роспатента РФ о государственной регистрации программы для ЭВМ.
1 АНАЛИЗ МЕТОДОВ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ В ИТКС, СОДЕРЖАЩИХ СРЕДСТВА АНОНИМИЗАЦИИ
Данная глава посвящена анализу особенностей построения информационно-телекоммуникационных сетей, содержащих средства анонимизации пользователя. Проведен сравнительный анализ наиболее популярных средств, обеспечения анонимности в сети Интернет. Исследованы основные методы идентификации потребителей информационных услуг. Представлена классификация известных подходов к деанонимизации пользователя с указанием их достоинств и недостатков. Сформулирована задача диссертационной работы.
1.1 Особенности использования ИТКС общего пользования для предоставления услуг анонимного доступа к информационным ресурсам
На сегодняшний день анонимные сети являются одним из наиболее эффективных подходов обеспечения приватности при работе в Интернете. Стоит отметить, что число анонимных сетей достаточно велико около 30 активно использующихся ежедневно. В рамках данной главы будут рассмотрены наиболее популярные представители.
Все методы обеспечения анонимности клиента можно сгруппировать в несколько направлений: централизованные, гибридные, децентрализованные (рисунок 1.1).
Анонимные сети
Централизованные
-Прокси-серверы; -SOCKS-серверы; VPN-сервисы; SSH-туннели.
Гибридные
-Hyperboria; -Psiphon; TOR.
Децентрализованные
-ANts P2P Invisible Internet Project (I2P); Freenet; -GNUnet;
Nodezilla; —SKad (OpenKAD); Manolito.
Рисунок 1. 1 Классификация анонимных сетей
Первое направления представляют собой сети на основе централизованной архитектуры, отличительной особенностью которой является наличие одного или несколько центральных узлов (серверов), которые осуществляют перенаправление трафика сети, обеспечивают анонимность за счет сокрытия реальных ^-адресов и другой адресной информации пользователя. Также данный узел занимается управлением соседними узлами и сбором статистики.
Централизованные решения чаще всего выбираются пользователями из-за высокой скоростью работы, однако данная архитектура обладает невысокой надежностью, так как функционирование целой системы зависит от работы центрального узла. К таким решениям в частности относятся прокси-серверы, SOCKS-серверы, УР^сервисы, SSH-туннели. Обобщенная схема работы централизованного средства анонимизации (прокси-сервера) представлена на рисунке 1.2.
Сервер анонимизации
Зашифрованный трафик
Открытый трафик
Клиент
Прокси-сервер
Рисунок 1.2 Схема работы прокси-сервера
Клиент обязан полностью доверять третьей стороне (центральному узлу анонимизации), что является большим недостатком при обеспечении анонимности для данной группы методов. Также существует угроза нарушения конфиденциальности и целостности передаваемых данных, сетевой трафик может быть прослушан на сервере-посреднике, а в некоторых случаях - и на канале связи. Стоит отметить, что централизованные сервисы не в состоянии противостоять как целенаправленным атакам, так и неумышленным воздействиям внешней среды, они имеют низкую отказоустойчивость, и в случае компрометации центральных сервера атакующий может деанонимизировать пользователя или вывести всю систему из строя [1].
Рассмотрим второе направление методов. Ярким представителем является TOR (The Onion Router). TOR представляет собой открытое программное обеспечение, реализующее систему прокси-серверов для установления анонимного сетевого соединения, защищённого от наблюдения [2].
Данное гибридное решение было разработано в центре высокопроизводительных вычислительных систем исследовательской лаборатории Военно-морских сил США в рамках проекта Free Haven по федеральному заказу. В 2002 г. эта разработка была рассекречена, исходные тексты переданы независимым разработчикам, создавшим клиент-серверное приложение и опубликовавшим его под свободной лицензией. Проект поддерживает правозащитная организация Electronic Frontier Foundation,
существенную финансовую помощь оказывает Министерство обороны и Государственный департамент США, Национальный научный фонд.
TOR представляет собой крупномасштабную сеть, включающую в себя порядка 7000 узлов (по состоянию на февраль 2016 года). Стоит отметить, что Россия входит в тройку стран, наиболее активно использующих TOR [3].
TOR обеспечивает полную анонимность пользователя в сети Интернет. Благодаря скрытию фактов посещения различных сайтов и общей активности пользователя в сети в целом. Когда пользователь передаёт данные в сети Интернет, программное обеспечение TOR скрывает всю информацию о пункте их назначения и сами данные [2]. Осуществляется многослойное шифрование данных пользователя и далее передача через цепочку промежуточных узлов сети (рисунок 1.3). Такой подход не позволяет выяснить идентифицировать пользователя, то есть определить местонахождение и IP-адрес источника в точке назначения, так как соединение осуществляется через узлы-посредники. Обработка данных на множестве узлов цепочки осуществляются в зашифрованном виде. Узлам цепочки известна только информация о следующем узле в цепи, которому пересылается содержимое. Криптотуннели в цепочке узлов формируются с использованием криптоалгоритмов на открытых ключах. Только выходной узел способен расшифровать содержимое, которое пересылается на пункт назначения. Доставка полученных ответов осуществляется также с сохранением анонимности по всех цепочке узлов [4].
Шифрованный трафик ^ Открытый трафик
Узел TOR
TOR-ссть
Рисунок 1.3 Схема передачи данных в TOR-сети
TOR-сеть обладает хорошей кроссплатформенностью, активно развивается и предоставляет клиенту удобные программные средства для подключения к ней. В настоящее время не выявлено практических эффективных атак, компрометирующих механизмы самой TOR-сети.
Третье направление методов представляет собой полностью децентрализованные решения, тот случай когда каждый узел системы может обеспечивать установку соединения с другим узлом, осуществлять передачу данных напрямую и выполнять другие технические и обслуживающие функции. Отличительность особенностью данной системы является то, что увеличение размера всей системы (количества узлов) и способствует росту её надёжности, так как происходит дублирование функций на различных узлах, что в свою очередь обеспечивает высокую отказоустойчивость. Самым ярким представителем таких решений является анонимная сеть I2P.
Сеть I2P (Invisible Internet Project) - это защищённая, полностью децентрализованная, анонимная сеть, работающая поверх обычного Интернета [5]. В качестве основных целей проекта I2P выступают анонимное размещение различных информационных ресурсов внутри данной сети и обеспечение
анонимности пользователей при работе с ними. При запуске клиента I2P каждый пользователь автоматически становится участником сети. Таким образом, сеть предоставляет приложениям специальный транспортный механизм для анонимному и защищённому обмену сообщениями. Сеть 12Р обеспечивает строгое соблюдение маршрута передачи пакетов. Процедуры реализованные в сети I2P обеспечивают доставку в первоначально заданной последовательности без ошибок, потерь и дублирования, таким образом, предоставляется возможность использования ^-телевидения, Ш-телефонии, интернет-радио, видеоконференции и других потоковых протоколов. Пользователи сети I2P получают доступ к внутренним каталогам сайтов, электронным библиотекам, а также торрент-трекерам. Специально для пользователей, которые по разным причинам не могут установить на компьютер программное обеспечение, существуют точки входа для доступа в сеть 12Р непосредственно из Интернета.
Сеть 12Р копирует структуру Интернета за исключением невозможности цензуры в связи с использованием процедур многоуровневого шифрования и анонимизации. Поэтому сторонние лица не могут узнать, что пользователь делает в данный момент времени.
В 12Р сети отсутствует DNS-адресация с помощью центральных серверов, в результате чего отсутствует возможность уничтожения, блокирования и фильтрации сети [5]. Каждый пользователь имеет возможность свободно и абсолютно бесплатно создавать сайты, сохраняя анонимной информацию про местонахождение сервера и человека.
При передаче трафик от отправителя до получателя полностью шифруется. Используется четыре уровня шифрования:
- сквозное;
- «чесночное»;
- туннельное;
- шифрование транспортного уровня.
Для того чтобы обезличить передаваемую информацию перед шифрованием добавляется определенное количество байт перед шифрованием, что мешает
проводить анализ содержимого передаваемых сетевых пакетов. Адреса сети представляют собой криптографические идентификаторы на основе открытых ключей, которые не связаны с реальным сервером. IP-адреса в сети I2P не используются. Каждое сетевое приложение разворачивает шифрованные, анонимные туннели. Применяются односторонние туннели (весь исходящий и входящий трафик проходит через разные туннели) - направление, длину, а также, другую информацию о применяемом приложении или о службе в рамках, которой создали данные туннели, не является возможным. С помощью сниффера невозможно проанализировать проходящий поток данных, так как все передаваемые сетевые пакеты расходятся по нескольким разным туннелям. Примерно каждые 10 минут происходит периодическая смена созданных туннелей на новые, с новыми ключами шифрования и цифровыми подписями [6].
Вследствие этого нет необходимости в шифровании на уровне прикладных программ, даже если существует недоверие к шифрованию с использованием программ, которые имеют закрытый исходный код, такие как Skype. Сеть I2P всегда производит четырёхуровневое шифрование всех пакетов.
I2P представляет собой защищенный протокол обмена данными, работающий поверх традиционно используемого стека протоколов TCP/IP. В первую очередь используется протокол UDP, а потом уже TCP. I2P решает три основные задачи:
1) Полное сокрытие адресной информации (IP-адрес сервера);
2) Отказ от централизованного хранения доменных имен, в роли DNS-серверов выступают множество серверов;
3) Полное шифрование пакетов данных при передаче от пользователя к серверу и обратно для борьбы с перехватом пакетов.
Также решается еще одна задача - обеспечение анонимности при выходе в Интернет и посещение заблокированных сайтов благодаря использованию подмены IP-адреса.
Рассмотрим работу протокола передачи данных в I2P. Допустим, клиент I2P обращается к определенному серверу или другому пользователю. Первым делом,
что нужно сделать пользователю - это создать туннель от себя до сервера. В качестве туннеля будет выступать цепочка промежуточных узлов (серверов), через которые будут пересылаться пакеты от пользователя к выбранному серверу в зашифрованном виде. Узлами данной цепочки выступают, как правило, другие пользователи сети I2P с установленным специализированным программным обеспечением. Данная схема передачи похожа на используемую в сети TOR. Сеть TOR использует «луковую» маршрутизацию, когда каждое промежуточное звено снимает один слой шифрования, основным недостатком которой является то, что последнее звено общается с конечным сервером открытым текстом. Данный недостаток может стать потенциальной опасностью для деанонимизации пользователя. Протокол I2P работает по-другому (рисунок 1.4), он
использует «чесночную» маршрутизацию [6].
Данный вид маршрутизации преобразует исходный пакет для передачи в еще больший зашифрованный пакет, который содержит еще несколько таких пакетов для передачи к разным узлам. Таким образом, когда пользователь получает большой пакет, он извлекает из него только маленький пакет предназначенный для него, а остальные передает дальше. Все пакеты передаются
Интернет
- пользователи с установленным браузером I2P
- направление передачи шифрованного трафика
Рисунок 1.4 Схема передачи данных в I2P
в зашифрованном виде, поэтому только тот, кому отправлялся маленький пакет, может его обрабатывать.
Таким образом, принципы используемые в сети I2P сводят на нет атаки основанные на перехвате и анализе пакетов для определения физическое расположения сервера, который не обладает информацией о пользователе, который к нему обращается [5]. Также с перехватом трафика борется периодическая смена узлов в цепочке, примерно каждые 10 минут.
Результаты сравнительного анализа сетей, обеспечивающих анонимный доступ, в сети Интернет представлены в таблице 1.1.
Таблица 1 .1 - Результаты сравнительного анализа способов и средств обеспечения анонимного доступа в сети Интернет
Средства Свойства^. УРШ88И той I2P
Скорость высокая низкая низкая
Анонимность низкая высокая высокая
Требование к доверию сервера высокие низкие низкие
Доступ к ресурсам сети интернет имеется имеется не предполагается
Выравнивание пакетов возможна реализация возможна реализация возможна реализация
Шифрование трафика используется используется используется
Многообразие сервисов высокое низкое низкое
Наличие выявленных уязвимостей имеется не имеется не имеется
Структура централизованная смешанная распределенная
Важно отметить, что иные, намного менее популярные методы обеспечения анонимного доступа в настоящий момент либо имеют критические уязвимости, либо не изучены в достаточной степени мировым экспертным сообществом.
1.2 Анализ известных методов идентификации пользователя инфокоммуникационных услуг в сети Интернет
Методы идентификации можно разделить на два класса: методы с предоставлением идентификатора и методы без предоставления идентификатора [7]. К первому классу относятся электронные системы, биометрические системы, системы с использование паролей, а также различные их комбинации. Ко второму классу относятся способы, которые идентифицируют объект по косвенным поведенческим признакам, характерным конкретно для данного объекта. В связи с отсутствием в трафике явных идентификаторов применение методов первого класса для решения рассматриваемой задачи идентификации существенно ограничено [8]. В тоже время их применение дает гарантированно точный результат с низкой степенью погрешности. Для решения задачи поведенческой идентификации трафика использование способов второго класса позволит идентифицировать поток с некоторой достоверностью.
Результаты анализа источников [8-10] показали, что методы идентификации применяемые в IP-трафике подразделяется на методы, основывающиеся на содержимом пакетов и на методы, основывающиеся на статистических характеристиках трафика (рисунок 1.5).
Многие Интернет-услуги, при работе, используют фиксированные порты. В этом случае задача идентификации заключается в поиске TCP SYN-пакетов, чтобы определить серверную сторону нового клиент-серверного TCP-соединения. Для того чтобы определить приложение проверяется номер порта пакета на основе списка зарегистрированных портов IANA [8]. UDP использует порты похожим образом, но без установления соединения. К несомненным достоинствам метода относятся простота реализации и высокая скорость работы. Подход имеет ряд недостатков. Во-первых, многие приложения могут не иметь своих портов, зарегистрированных в IANA, к примеру, пиринговые приложения, такие как Napster и Kazaa [9].
Идентификация трафика
Основана на содержимом Основана на статистических методах
Основана на номере TCP/UDP порта
Основана на полезной нагрузке
Основана на характеристике обмена между хостами
Основана на анализе взаимодействия хостов
Рисунок 1.5 Методы идентификации потребителей инфокоммуникационных услуг
в сети Интернет
Для того чтобы обойти контроль доступа, используемый в операционной системе, приложения используют различные порты [10]. В [/NIX-подобных системах непривилегированные пользователи имеют возможность запустить HTTP-сервер на портах, отличных от 80. Очень часто порты сервера выделяются динамически.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Оптимизация размещения средств защиты информации в узлах коммутации VPN сети2017 год, кандидат наук Ковалев Максим Сергеевич
Методы скрытой распределённой передачи сеансовых данных в телекоммуникационных сетях2013 год, кандидат наук Макаров, Максим Игоревич
Методика и алгоритмы защиты аутентификационных данных пользователей в WEB - приложениях2017 год, кандидат наук Дзьобан, Павел Игоревич
Методы и средства углубленного анализа сетевого трафика2017 год, кандидат наук Маркин, Юрий Витальевич
Идентификация трафика сетей передачи данных в реальном времени2019 год, кандидат наук Джаммул Самих Мохаммед
Список литературы диссертационного исследования кандидат наук Горелик Константин Сергеевич, 2018 год
У - У
T = 1 - (2.27)
У
Следует отметить, что для рассматриваемых исходных данных наилучший результат был получен с использованием метода основанного на формировании решающих деревьев, так как на проверочной выборке модель, полученная с использованием данного метода показала наибольшую среднюю точность предсказания порядка 0,92.
♦Проверочная выборка
0,6 _ -Полиномиальная регрессия
♦Метод опорных векторов
^Случайный лес (Random Forest)
O.i ................................................... jV
0 10 20 3(1 40 50 60 70 HO 90 100
Рисунок 2.18 - Оценка точности результатов, полученных на различных моделях
1. Во втором разделе данной работы был проведен анализ существующих моделей мультимедийного трафика. Общим недостатком, используемых в настоящее время моделей, является их специфичность и отсутствие универсальности. Рассмотренные модели направлены в основном на описание процесса поступления пакетов. Получаемые при этом результаты малоинформативны для описания трафика в ИТКС, обеспечивающей анонимный доступ.
2. Проведено исследование зависимости значений размеров пакетов и интервалов времени между их поступлением в ИТКС, обеспечивающей анонимный доступ. Полученные результаты позволили утверждать, что различные пользователи сети с анонимизацией порождают трафик, рассматриваемые характеристики которого различны. Данные отличия наглядно отражают выборки большого объема.
3. Выбрано и обосновано признаковое пространство характеризующее трафик на входе и выходе логического соединения, позволяющее учесть набор свойств формируемых пользователем и трансформируемых сетью с анонимизацией.
4. На основе полученного признакового пространства сформирован профиль логического соединения пользователя, функционирующего в ИТКС с анонимизацией, представленный смесями компонентов нормальных распределений на входе и выходе логического соединения.
5. Для решения задачи восстановления зависимости между значениями параметров распределений трафика на входе и выходе логического соединения, разработана модель вероятностной связи профиля логического соединения ИТКС, использующая методы восстановления регрессии и позволяющая учесть изменения статистических свойств наблюдаемых параметров трафика, ставших следствием воздействий средств анонимизации.
6. Разработан метод идентификации на основе модели вероятностной связи, описывающей профили логического соединения ИТКС, содержащей средства анонимизации пользователей.
3 АЛГОРИТМ ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ ПРОФИЛЕЙ ЛОГИЧЕСКИХ СОЕДИНЕНИЙ В СЕТЯХ С АНОНИМИЗАЦИЕЙ ПРИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ
3.1 Обоснование исходных данных для построения алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
Проведенный в первом разделе анализ параметров, оказывающих влияние на достоверность идентификации логических соединений в сетях, обеспечивающих анонимный доступ, позволил выявить основные факторы и данные необходимые для решения задачи исследования (рисунок 3.1) [71].
Методы перемешивания трафика
Структура сети
Алгоритмы шифрования
Рисунок 3.1 Факторы, оказывающие влияние на достоверность идентификации логического соединения в сетях, обеспечивающих анонимный доступ
На повышение достоверности идентификации влияют априорные знания о структуре сети, об используемых методах шифрования и обеспечения анонимности. Использование данной информации позволяет при построении модели сети, обеспечивающей анонимный доступ, учесть данные аспекты работы и снизить ошибку предсказания ее работы.
Чаще всего при решении данной задачи нет априорной информации о структуре сети и методах обеспечения анонимности, поэтому для решения задачи идентификации логического соединения в сетях с анонимизацией возможно использовать только наблюдаемые характеристики трафика.
Каждый пользователь при взаимодействии с анонимной сетью формирует логическое соединение, которое представляет собой полный путь прохождения трафика до интересуемого информационного ресурса. Каждое логическое соединение характеризуется профилем - набор свойств, формируемых пользователем сети Интернет в результате обращения к различным информационным ресурсам. Таким образом, для решения задачи идентификации логических соединений необходимо сопоставить профили логических соединений на входе и выходе сети, обеспечивающей анонимный доступ [72].
Профиль логического соединения сети, обеспечивающей анонимный доступ, характеризуется свойствами передаваемого трафика. В рамках второй главы в ходе многократных экспериментов были выбраны наиболее чувствительные и информативные признаки.
Для открытых сетей признаковое пространство формируется на основе основных полей телекоммуникационных протоколов различных уровней в соответствии с ЭМВОС. В таблице 3.1 представлен перечень данных параметров, которые представляют собой признаковое пространство для определения потребителя услуг сети Интернет.
№ Уровень ЭМВОС Признаки
1 Канальный размер фрейма L (байт); интенсивность передачи пакетов данных X (фреймов/сек.); время паузы между поступлением пакетов Tn (минимальное, среднее, максимальное); пиковая битовая скоростью передачи B(max) (бит/с); средняя битовая скорость передачи В(ср) (бит/с); пачечность K, определяемая отношением B(max)/ В(ср); среднее временем пиковой нагрузки Тр, (с).
2 Сетевой /Р-адрес источника; IP-адрес получателя; значение служебных полей IP заголовка: метки DSCP; степень фрагментарности пакета; идентификатор /Р-пакета; время жизни пакета (TTL).
3 Транспортный номер транспортного порта источника; номер транспортного порта получателя; тип протокола транспортного уровня (UDP, TCP); использование протоколов реального времени RTP/RTCP (для услуг реального времени и их характеристики): формат полезной нагрузки и определяет её интерпретацию приложением; SSRC источник синхронизации; время получения пакета; порядковые номера потерянных пакетов; порядковые номера повторяющихся пакетов; ожидаемое время доставки; задержка с момента приема последнего отчета RTCP Receiver Report; общая статистика медиа-пакетов.
4 Прикладной пиковый период за день (DPP); фиксированный интервал измерений за день (FDM/); используемые протоколы прикладного уровня.
На основе результатов анализа объекта исследования и эмпирических данных, полученных в ходе натурного эксперимента, был сформирован перечень
наблюдаемых параметров трафика, необходимых для корректной работы разработанного алгоритма [71]:
- объем передаваемой информации;
- интенсивность входных и выходных потоков;
- длительность сеанса передачи;
- интервалы времени между поступлением пакетов.
3.2 Алгоритм обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
В данном разделе рассмотрим алгоритм обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей.
Допустим в данный момент времени наблюдаем логическое соединение на выходе ИТКС, обеспечивающих анонимный доступ пользователей. В результате чего фиксируем характеристики порожденного им трафика на выходе сети с анонимизацией такие как время начала и окончания сеанса, объем переданной информации, интенсивность и наблюдаемые значения интервалов между поступлением пакетов. Данная информация позволяет сформировать профиль эталонного логического соединения, логического соединение соответствие которому необходимо найти на входе сети, обеспечивающей анонимный доступ.
Блок - схема алгоритма представлена на рисунке 3.2 [73].
В качестве входных данных алгоритма используются наблюдаемые параметры трафика логических соединений на входе и выходе сети, обеспечивающей анонимный доступ (Блок 1).
В блоке 2 формируется профиль эталонного логического соединения. Под эталонным логическим соединением понимается соединение, наблюдаемое на выходе сети с анонимизацией, которому необходимо найти соответствие среди соединений на входе сети. Профиль эталонного логического соединения представляет собой кортеж из элементов характеризующих порожденный им
трафик - Рэ ^12. лДэ, Д^,УЭ), где ^ ¡-интервалы времени между пакетами, Л^-
средняя интенсивность потока в логическом соединении, Д^- интервал времени работы соединения, Уэ- объем, переданной информации.
Для снижения вычислительной сложности предложенного алгоритма осуществляется сопоставление профилей соединений на входе и выходе сети, обеспечивающей анонимный доступ. Все пространство признаков было разбито
на 2 подмножества. В первое подмножество признаков вошли: интервалы времени работы соединения; объем переданной информации; интенсивность потока соединения. Они позволяют отобрать сеансы пользователей, которые наиболее приближенны к эталонному профилю (блок 3).
В соответствии с блоком 4 формируются профили логических соединений на входе сети, наиболее подобные по первичным признакам -
Р (^ 2...!, \вх, Д^, эталонному профилю.
На следующем этапе, параметр трафика логических соединений -интервалы времени между поступлением пакетом необходимо представить моделью конечной смеси нормальных распределений. Данная процедура реализуется на основе классического ЕМ-алгоритма (блок 5). Более подробно алгоритм разделения смеси распределений представлен в разделе 3.3 главы 3.
Блок 6 реализуется на основе решений полученных в результате использования метода, описанного в главе 2. При расчете параметров смеси распределений алгоритм использует модель, полученную методом обучения по прецедентам на эмпирических данных в рамках рассматриваемой сети, обеспечивающей анонимный доступ. В результате чего в данном блоке предсказываются параметры компонент смеси нормального распределения, характеризующих наблюдаемые параметры трафика, полученные после прохождения сети с анонимизацией.
Начало
Ввод исходных данных
Данные, характеризующие параметры трафика соединений на входе и выходе сети с анонимизацией в рассматриваемый промежуток времени
Формирование эталонных профилей
Первичный
отбор логических соединений
Формирование кортежей эталонных профилей логических соединений
Выбор логических соединения на основе первичных признаков
Формирование профилей логических соединений
Расчет параметров смеси распределений
5
Формирование профилей логических соединений
Применение ЕМ-алгоритма для описания наблюдаемых параметров трафика смесью нормальный распределений
Расчет коэффициентов по выбранной модели
Расчет значений параметров распределений с использованием вероятностной модели, полученной на основе разработанного метода
Расчет матрицы взаимных расстояний
Расчет матрицы взаимных расстояний на основе симметризованного расстояния Кульбака-Лейблера
Кластеризация
Применение алгоритма кластеризации для получения групп логических соединений функционирующих в одинаковых условиях
Вывод объектов по полученным кластерам
Конец
2
3
4
6
7
8 -
9
Рисунок 3.1 Блок-схема алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией
Для построения матрицы межкластерных расстояний было выбрано расстояние Кульбака - Лейблера (блок 7). Подробное описание сопоставления сложных распределений на основе расстояния Кульбака-Лейблера и процедура построения матрицы межкластерных расстояний представлено в разделе 3.4 главы 3.
В качестве алгоритма кластеризации, используемого в блоке 8, был выбран классический алгоритм к-средних с добавлением предварительных процедур для проверки на кластеризуемость данных с использованием статистики Хопкинса. Определение числа кластеров основывается на исходном задании количества эталонов и использовании 20 различных критериев. Данные процедуры повышают точность и скорость работы алгоритма кластеризации.
В физическом смысле каждый кластер характеризуется логическими соединениями функционирующих в одинаковых условиях пользователей.
В результате работы алгоритма получаем наиболее вероятное логическое соединение и близкие соединения, отсортированные по эталонам на основе симметризованного расстояния Кульбака - Лейблера.
Для аппроксимации гистограмм распределений смесью нормальных распределений необходимо решить две задачи:
1) определить количество компонент смеси,
2) рассчитать значения параметров (математического ожидания, дисперсии) каждой компоненты и соответствующих весовых коэффициентов.
Обе эти задачи могут быть решены с помощью алгоритмов EM-типа (EM, SEM, MCEM-алгоритмы и их модификации).
Рассмотрим более подробно, в чем заключается основной принцип работы алгоритмов EM-типа. Важным элементом является вспомогательный вектор скрытых переменных G, который обладает 2 свойствами [74]:
1) его значения могут быть определены только, если известны значения вектора параметров 0;
2) поиск максимума правдоподобия зависит от значений скрытых переменных.
В основе EM-алгоритма лежит последовательное итерационное выполнение 2 шагов: E-шага (expectation) и M-шага (maximization). На E-шаге вычисляется (оценивается) ожидаемое значение вектора скрытых переменных G по текущему приближению вектора параметров 0. В то время как на M-шаге решается задача максимизации правдоподобия в результате чего находится новое приближение вектора 0 по значениям векторов G и 0[74].
Область применения EM-алгоритма может применяться в различных областях, таких как восстановление пропусков в данных, кластеризация, дискриминантный анализ, обработка изображений [75].
Рассмотрим каждый шаг EM-алгоритма более подробно.
E-шаг (expectation)
Пусть p(x, 0у) плотность вероятности того, что объект х принадлежит или получен из определенной компоненты смеси распределений. По формуле условной вероятности для р(х, 0у) получаем (3.1):
р(х, 0у) = р(х)Р( 0у|х) = суру(х) (3.1)
Пусть д¿у = Р( 0у |х¿) - апостериорная вероятность того, что объект х^ получен или принадлежит из определенной компоненты смеси. Данные величины будут рассматриваться как скрытые переменные. Пусть ( )
( ), где - -й столбец матрицы .
Для выполнения формулы полной вероятности, необходимо, чтобы все
объекты принадлежали определенным компонентам смеси распределений:
к
^ д ¿у = 1 дл я в с ех I = 1,. . ., £. (3.2)
Используя формулу Байеса и значения параметров компонент соу, 0у, можем рассчитать :
^уРуОО
M-шаг (maximization)
В основе лежит решение оптимизационной задачи с использованием значений скрытых переменных ¿/¿у и принципа максимума правдоподобия. Необходимо максимизировать логарифм правдоподобия, представленный выражением 3.4 при ограничении £у=г боу- = 1 :
т т к
Q(0 ) = 1 n^pO^ = п^ЫуРу (х ¿) - max . (3.4)
¿=1 ¿=1 j=1
Тогда лагранжиан для рассматриваемой оптимизационной задачи будет выглядеть следующим образом:
т
(3.5)
L( 0; X™) = ^ 1 п(£ <рДх f) ) - Я (^ < - 1 ).
¿=1 \;=1 / \;=1
Если приравнять нулю производную от (3.5) по <о ,то получаем :
к
3L ^ рДх^ .
-Я = 0, 7 = 1 . .Д . (3.6)
OL ST1
да); Z_f J i = 1
Важным условием работы данного шага является выполнение ограничения-неравенства < >0 на каждой итерации.
В общем виде M-шаг (maximization) заключается в получении весов компонент и оцениванию параметров компонент на основе решения независимых оптимизационных задач.
Для EM-алгоритма все условия сходимости рассмотрены в [76-78].
Важным элементом работы EM-алгоритма является выбор критерия останова. Итерации основных шагов алгоритма останавливаются, только тогда когда значения функционала 0 ) или скрытых переменных G перестают изменяться [74]. Наиболее удобно изменять скрытые переменные, так как они представляют собой вероятности, а следственно принимают значения в отрезке [ 0 ,1 ] .
Одним из недостатков EM-алгоритма является его зависимость от выбора начального приближения [74]. Начальное приближение влияет на качество решения и скорость сходимости решения. Сходимость EM-алгоритма особенно ухудшается, когда в ходе итераций несколько компонент попадают в одно распределение. Для выхода из этого положения параметры компонент выбирают
случайным образом или центры объектов выбираются максимально удаленных друг от друга.
В EM-алгоритме с последовательным добавлением компонент данной проблемы связанной с выбором числа компонент и начального приближения нет [74]. В основе лежит идея выбора набора компонент, которые хуже всего могут быть описаны смесью, то есть которые с наименьшими значениями правдоподобия р(х ¿). Для данных объектов формируется ещё одна компонента. Далее происходит добавление в смесь и запуск EM-алгоритма до тех пор пока все элементы смеси не будут принадлежать определенным компонентам.
В стохастическом ЕМ-алгоритме для преодоления недостатков связанных с получением большого количества локальных экстремумов при максимизации 0 ) борются на основе методов адаптивной стохастической оптимизации. Поэтому стохастическом EM-алгоритму не присущи обычные недостатки любого детерминированного процесса многоэкстремальной оптимизации [74].
Преимущества стохастическом ЕМ-алгоритма объясняются внесением случайности в результате чего при оптимизации не происходит попадание в локальные максимумы [74]. Также стоит отметить стохастический EM-алгоритм работает гораздо быстрее классического EM-алгоритма.
Таким образом, алгоритм разделения смеси распределений можно представить в виде следующей блок-схемы, представленной на рисунке:
Хт — |х1,..., Хт | - выборка . к - число компонент смеси © — (М (Г )к_^ - начальное приближение параметров смеси § - параметр'критерия останова;
I — 1,...,т, ] — 1,...,к
2 Р..— • 0. • 91) .
• Щ • % -^к-•
2к—1ю^ф( х;9*)
--т
91 •— тах 2 % 1пф(х ;9); 9 /=1 1 т 11
® 1- 2 %; 1 т—1 1
© — (М , )к-1 - оптимизированный вектор параметров смеси
Рисунок 3.2 Блок-схема алгоритма идентификации логического соединения в сетях, обеспечивающих анонимный доступ
3.4 Решающая процедура отнесения анализируемого профиля логического соединения к одному из известных классов
Проведенный анализ литературы по математической статистике позволил выявить множество различных коэффициентов, которые показывают насколько близки или далеки некоторые два распределения р 1 и р 2 друг к другу.
В различных источниках в качестве данных коэффициентов выступают расстояние между распределениями [79], мера разделяющей информации [80], мера статистического расстояния [81]. В работе [82] описан метод построения данных коэффициентов О кл( р 1 , р 2) «различимости» двух распределений, которые обладают характерными свойствами:
- коэффициент О кл(р 1;р2 ) должен быть определен на всех парах распределений с одним носителем;
- значение ( ) должно быть минимально при ;
- расстояние ( ) не увеличивается при любом измеримом преобразовании носителя распределений и .
В основе рассматриваемого метода [82] лежит рассмотрение различных выпуклых функций случайной величины р 2 /р ^ С точки зрения распределения Р математическое ожидание / независимо от , а дисперсия стремится к нулю при р 2 ^ р ^ Стоит отметить, что данным методом может быть получена большая часть известных функций расстояния. В том числе, данным методом могут быть построены все возможные ^дивергенции [83] и расстояние Кульбака - Лейблера [82].
Для построения матрицы межкластерных расстояний было выбрано расстояние Кульбака - Лейблера (относительная энтропия) [84].
Расстояние Кульбака - Лейблера является мерой того, насколько далеки друг от друга два вероятностных распределения. Стоит отметить, что данное расстояние не является метрикой на пространстве распределений, из-за невыполнения условий по симметричности, что не позволяет провести кластеризацию логических соединений по эталонам наиболее корректно.
В случае рассмотрения дискретных распределений выражение для расчета расстояния Кульбака - Лейблера имеет вид
Окл(Р1-Р 2)-^ р 1(Х)/ П , (37)
где р i(x), р 2(х) дискретные распределения вероятностей по X. При этом
Акл(Р1'Р 2 ) * ^ кл(р 2' Р i) и £>КЛ(Р1 ' Р 2) ^ 0 .
Стоит отметить, что расстояние Кульбака - Лейблера не является метрикой на пространстве распределений, вследствие несимметричности, что не позволяет провести кластеризацию логических соединений по эталонам наиболее корректно [85].
Для корректного использования расстояние Кульбака - Лейблера при построении матрицы межкластерных расстояний необходимо провести симметризацию. Для симметризации расстояния Кульбака - Лейблера был выбран подход "среднего сопротивления" (Resistor Average), формула расчета представлена выражением 3.8:
+ 1 (3.8)
Оси м Кл(Р1Р 2 ) Дкл(Р1 -Р 2 ) Окл(р2 - Р1)'
где ( ) - симметризованное расстояние Кульбака -Лейблера.
Таким образом, симметризованный вариант расстояния может быть представлен выражением (3.9).
п , л _ Ок - л(Р1 > Р 2) ' О к - л(Р 2 -Рр ал
Ок - л си м(р1 - р 2 ) - Ок - л(Р1-Р 2 )+Ок - л(Р2-Р1)" (3 9)
Учитывая, что плотности распределения, характеризующие наблюдаемые характеристики трафика заданы моделью конечной смеси нормальных распределений, то, расстояние Кульбака - Лейблера может быть представлено:
Ас - л(Р1,Р2) =
| ^ , * -
X I=1 (2 77" 67^ *
2а\2,-
1,4 X
(х - ¿)2 £ I=1^1 , * -е 2 ^'
X 1п-
(3.10)
(х - д2,7)2
Е 2 1^2 ,; , е
Матрица межкластерных расстояний будет представлять собой симметричную матрицу с нулями на главной диагонали, заполненная значениями симметризованных расстояний Кульбака - Лейблера, которые рассчитываются попарно между всеми смесями нормальных распределений (таблица 2).
Таблица 2 - Матрица межкластерных расстояний на основе симметризованного расстояния Кульбака - Лейблера
Р1 р 2 • р*
0 В К - Л си м(р 1 ,р 2 ) В К - Л с и м (р 1,р д
В К - л с и м (р 1,р 2) 0 ^К - Л си м(р2,р д
В К - Л с и м (р 1,р д ^К - Л сим (р 2 ,р) 0
В итоге получаем алгоритм расчета матрицы межкластерных расстояний для проведения кластеризации на следующем этапе алгоритма идентификации логических соединений ИТКС, обеспечивающих анонимный доступ, который включает в себя следующие этапы (рисунок 3.3):
1) начало цикла расчета матрицы межкластерных расстояний, с использованием симметризованного расстояния Кульбака - Лейблера;
2) шаг перебора пар всех логических соединений сложных распределений представленных, конечной смесью нормальных распределений , для расчета матрицы межкластерных расстояний;
3) этап расчета расстояния Кульбака - Лейблера для модели р 1 относительно модели ;
4) этап расчета расстояния Кульбака - Лейблера для модели р2 относительно модели ;
5) этап расчета симметризованного расстояния Кульбака - Лейблера для моделей р1 и р2 ;
6) окончание цикла расчета. В результате работы данного алгоритма получаем симметричную матрицу Мд! Ьтк х Ьтзначениями симметризованных расстояний Кульбака - Лейблера для всех пар логических соединений.
Рисунок 3.3 Блок-схема алгоритма расчета матрицы межкластерных
расстояний
Для проведения кластеризации рассматриваемых логических соединений сети с анонимизацией пользователя необходимо выбрать алгоритм кластеризации.
Широкое применение имеют направление алгоритмов кластеризации неиерахического разделения (Partitioning algorithms). Декомпозиция производится набора данных, состоящего из n наблюдений, на к групп (кластеров) с заранее неизвестными параметрами. Ключевым элементом алгоритмов разделения данного типа является поиск центроидов - сгущений наблюдений, центры которых максимально удалены друг от друга, но с минимальным разбросом внутри каждого кластера (сгущения). Среди наиболее известных разделяющих алгоритмов можно выделить следующие:
- метод к-средних Мак-Кина [86];
- алгоритм PAM [87] (Partitioning Around Medoids), использующий разделение вокруг медоидов (медоид представляет собой центроид, но его координаты смещены к ближайшему из исходных объектов данных);
- алгоритм CLARA [88] (Clustering Large Applications) -модифицированный PAM для анализа больших наборов данных.
В качестве алгоритма кластеризации, используемого в блоке 8 алгоритма идентификации логических соединений, был выбран классический алгоритм к-средних с добавлением предварительных процедур для проверки на кластеризуемость данных и определения числа кластеров. Данные процедуры повышают точность и скорость работы алгоритма кластеризации.
В литературе [89] предложено множество методов и критериев оценки качества результатов кластеризации (clustering validation). Можно выделить несколько направлений наиболее известных для оценки валидации предполагаемых кластеров [90]:
- внешняя валидация, которая заключается в сравнении итогов кластерного анализа с заранее известным результатом (когда метки кластеров известны заранее);
- относительная валидация, которая оценивает структуру кластеров, изменяя различные параметры одного и того же алгоритма (при изменении числа кластеров);
- внутренняя валидация, которая использует внутреннюю информацию процесса объединения в кластеры (в том случае когда отсутствует внешняя информации о рассматриваемом процессе);
- оценка стабильности объединения в кластеры на основе методов методы ресэмплинга.
Важной проблемой алгоритмов кластеризации состоит в том, что методы кластеризации формируют группы, даже если кластеризуемые данные представляет собой полностью случайную структуру (некластеризуемы). Поэтому основная задача, которая стоит перед валидацией, является оценка общей предрасположенности имеющихся данных к объединению в кластеры (clustering tendency) [91].
Одним из индикаторов тенденции к группированию (кластеризации) является статистика Хопкинса (Hopkins) [91]. Для расчета статистики Хопкинса создается псевдо-набор данных, которые сгенерированы случайным образом на основе распределения исходных данных, с тем же стандартным отклонением. Для каждого объекта пересчитывается среднее расстояние до ближайших соседей: между реальными объектами и между искусственными объектами и их самыми близкими реальными соседями. Тогда статистика Хопкинса рассчитывается в соответствии с выражением (9):
Хп Wj
d = V п +Y 11/ ' (312)
¿п Чi + ¿n Wi
В случае когда Hind будет превышать 0.5, тогда можно предположить, что группируемые объекты распределены случайно и однородно. Если величина то с уверенностью 90% можно предположить наличие тенденции к группированию данных.
Также часто прибегают и к визуальной оценке тендеции к группированию (VAT, Visual Assessment of cluster Tendency): потенциальные группы представлены темными квадратами вдоль главной диагонали VAT-диаграммы. Пример VAT-диаграммы представлен на рисунке 3.4:
Рисунок. 3.4 Пример VAT-диаграммы
Для определения оптимального числа кластеров существует более 30 различных индексов качества. При этом происходит перебор различных комбинаций числа групп, метрик дистанции и методов кластеризации.
Таким образом, блок-схема алгоритма кластеризации может представлена на рисунке 3.5:
X - логические соединения для кластеризации Сj - эталоны
М- матрица межкластерных расстояний
Статистика Хопкинса
ZW; n 1
Hind
2 nqi ^ 2 ^ i
Расчет количества кластеров по 26 индексам
Отнесение к ближайшему центру yi =arg minp(xi;Cj),i = 1,...,n
yeY
Отнесение к ближайшему центру
„ 2=1[ Уг=У\fj (X) .
Cj =-1---, У е Г, j =1,..., и
2=1[У/ =У]
0 = (Mj, а, )j=1
Рисунок. 3.5 Блок-схема алгоритма расчета матрицы межкластерных расстояний
Произведем исследование предложенного алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией по следующим основным свойствам [92-93]:
- элементарность;
- корректность;
- результативность;
- точность;
- вычислительная сложность.
Данный алгоритм является элементарным, т. к. содержит блоки, выполняющие простые операции: присвоение, вычисление математических выражений и сравнение. Для блоков 5 и 8, представляющих собой сложные итерационные процедуры, элементарность достигается подробным описанием операций, совершаемых над данными.
Под корректностью понимается свойство алгоритма, заключающееся в способности давать правильные результаты при различных входных данных. При этом в обязательном порядке должны быть выполнены следующие условия [94-95]:
1. После выполнения конечного числа элементарных для вычислительной машины операций любое входное данное должно быть преобразовано в результат .
2. Результат у устойчив по отношению к малым возмущениям входных данных.
3. Результат обладает вычислительной устойчивостью.
Выполнимость первого условия для разработанного алгоритма
обуславливается наличием конечного счетного множества входных данных и возможностью их преобразования в выходной результат с использованием конечного множества элементарных операций, реализуемых на ЭВМ.
Выполнимость второго условия обуславливается наличием входных и (или) выходных условий, называемых предусловием и постусловием соответственно, в критических фрагментах алгоритма. Для разработанного алгоритма критическими являются:
1. Фрагменты вычисления составляющих разделение смеси распределений на основе итерационной процедуры представленной в блоке 5), поскольку в их состав входят элементы, находящиеся в знаменателе. Для обеспечения корректности вычислений необходима предварительная проверка выполнения условий.
2. Фрагмент вычисления матрицы межкластерных расстояний представленных блоком 6 алгоритма, поскольку в их состав входят параметры, находящиеся в знаменателе, следовательно, для обеспечения корректности вычислений необходима предварительная проверка выполнения условий.
Выполнимость третьего условия для разработанного алгоритма доказывается путем оценивания вычислительной погрешности.
Результативность (отсутствие аварийного останова) алгоритма достигается проверкой корректности входных данных, в блоке 2 производится проверка корректности ввода данных.
Из-за наличия ошибок округления при вводе данных в ЭВМ и при выполнении арифметических операций возникает вычислительная погрешность. Ее величина определяется в соответствии с выражением [96]:
6 = 5Н,5В,5М), (3.13)
где - неустранимая погрешность исходных данных;
- погрешность (вклад) вычислительной платформы;
- погрешность используемого метода.
Оценка неустранимой погрешности исходных данных вычисляется в соответствии с выражением [94]:
8Н(а) « 1 0 +1 ,
(3.14)
где N - количество значащих цифр числа a.
Значащими цифрами числа называют все цифры в его записи, начиная с первой ненулевой слева [95].
В разработанном алгоритме для всех входных данных значение N=4, следовательно, 8Н « 1 0 - 3.
Значение вычислительной погрешности зависит от вычислительной платформы. Для платформы AMD Athlon-1600 с операционной системой Windows 7 вычислительная погрешность составляет 8В « 3 , 5 6 ■ 1 0 - 2 0.
Погрешность используемого метода вычисляется в соответствии с выражением [97]:
|х| ■ |F(x)|
где /(х) - исследуемая функция с аргументом x;
F(x) - производная первого порядка функции /(х).
Погрешность используемых методов в разработанном алгоритме определяется погрешностью типа выходных данных. Поскольку выходные данные имеют тип float с количеством значащих цифр N=7, то 8М « 1 0 - 6 [97].
Тогда на основе выражения (3.15) общая вычислительная погрешность разработанного алгоритма будет составлять
8 = 5мр( 8Н,8В,8М) = ( 1 0 - 3 ,3 , 5 6^1 0 - 2 0,1 0 - 6) = 1 0 - 3. (3.16)
При выполнении всех рассмотренных условий разработанный алгоритм можно считать корректным [94].
Сложность алгоритма идентификации логических соединений в ИТКС, обеспечивающих анонимный доступ определяется блоками 5, 8.
Блоки 5 и 8 представляют собой итерационные процедуры, сложность которых зависит от размерности элементов выборки q, числа кластеров К и количества итераций т. Таким образом, вычислительная сложность алгоритма
имеет порядок и представляет собой отношение числа операций к
суммарному объему входных данных и выходных данных.
1. Разработан алгоритм обработки профилей логических соединений пользователей в сетях с анонимизацией, использующий предложенный метод построения вероятностной модели и решающую функцию.
2. Для нахождения параметров каждой компоненты смеси нормальных распределений (математического ожидания и дисперсии) описан алгоритм разделения.
3. Для проверки гипотез об идентичности сравниваемых профилей с эталонным разработана решающая процедура отнесения анализируемого профиля логического соединения к одному из известных классов, использующая симметризованное расстояние Кульбака-Лейблера.
4. Результаты анализа свойств предложенного алгоритма обработки профилей логических соединений пользователей в сетях с анонимизацией позволило сделать вывод о том, что разработанный алгоритм сходится, обладает
л (кч2 \
полиномиальной сложностью второго порядка О (—^ и точность алгоритма определяется погрешностью вычислений, которая составляет .
4 ЭКСПЕРИМЕНТАЛЬНОЕ ОЦЕНИВАНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМА ОБРАБОТКИ ЭМПИРИЧЕСКИХ ДАННЫХ ПРОФИЛЕЙ ЛОГИЧЕСКИХ СОЕДИНЕНИЙ В СЕТЯХ С АНОНИМИЗАЦИЕЙ ПРИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ
4.1 Оценка эффективности алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации пользователей
Для получения оценки эффективности предложенного алгоритма был проведен эксперимент с использованием различных сетей, обеспечивающих анонимный доступ, схема экспериментального стенда представлена на рисунке 4.1.
Сервер записи статистики
Рисунок. 4.1 Схема проведения эксперимента
Целью эксперимента является оценивание эффективности разработанного алгоритма с позиции достоверности идентификации логических соединений в сети с анонимизацией по сравнению с известными алгоритмами.
Сравнение разработанного алгоритма будет проводится с решениями описанными в первой главе:
- корреляционные алгоритмы;
- алгоритмы первичного отбора;
- алгоритмы анализа взаимодействия хостов.
Эффективность работы алгоритмов будет оцениваться точностью идентификации логических соединений в рамках каждого проведенного эксперимента. Точность определяется долей правильных решений алгоритма:
N
(4Л)
где Л/пр ав - количество правильных определений логических соединений, Л/0 б щ -общее количество применений алгоритма для решения задачи определения логического соединения.
Стоит отметить, что точность идентификации логических соединений алгоритмов, зависит как от технических характеристик сетей, обеспечивающих анонимный доступ, в рамках которой решается поставленная задача, так и от количества пользователей функционирующих в данный момент времени.
Эксперимент проводился с использованием 2 различных ИТКС, обеспечивающих анонимный доступ пользователей, архитектура которых включала один прокси-сервер и цепочку из 3 прокси-серверов. В каждом повторении эксперимента изменялось количество пользователей в диапазоне от 10 до 250.
В качестве исходных данных использовались различные типы трафика (услуги) характерные для пользователей сети Интернет, представленных в таблице 4.1.
Для проведения эксперимента использованы:
- генераторы трафика, формирующие различный тип трафика, характерный для пользователей сети Интернет;
- рабочие станции.
Системные требования для рабочей станции:
- процессор - не менее Intel Pentium IV /AMD (2 GHz);
- не менее 512 Mb RAM;
- video - не менее 128 Mb;
- 2 Mb свободного места на жестком диске;
- операционная система Windows XP SP3 или выше;
Таблица 4.1 Перечень Интернет-услуг используемых для проведения эксперимента
при формировании исходных данных
№ потока Название потока Интернет услуги
1 Аудио Онлайн вещание аудио-файлов
2 Видео Онлайн просмотр потоковых видеоданных
3 Изображения Онлайн просмотр изображений
4 Карты Онлайн работа с электронными картами
5 Передача данных Передача данных
6 Электронная почта Электронная почта
7 Видеоконференция Персональная видеосвязь
8 Web Web-браузинг
9 Аудио-Web Web-браузинг, Онлайн вещание аудиофайлов
10 Видео-ПД Онлайн просмотр потоковых видеоданных, Передача данных
11 Изображения-ЭП Онлайн просмотр изображений, Электронная почта
12 Карты- Видеоконференция Онлайн работа с электронными картами, Персональная видеосвязь
13 Аудио-Карты Онлайн работа с электронными картами, Онлайн вещание аудиофайлов
14 Видео-ЭП Онлайн просмотр потоковых видеоданных, Электронная почта
15 Изображения-Видеоконференция Онлайн просмотр изображений, Персональная видеосвязь
16 ПД-Web Web-браузинг, Передача данных
17 Аудио-Изображения Онлайн просмотр изображений, Онлайн вещание аудиофайлов
18 Видео-Web Web-браузинг, Онлайн просмотр потоковых видеоданных
19 Карты-ПД Онлайн работа с электронными картами, Передача данных
20 Видеоконференция -ЭП Персональная видеосвязь, Электронная почта
Результаты эксперимента по оценке точности алгоритмов идентификации логических соединений в ИТКС, обеспечивающих анонимный доступ пользователей представлены в таблицах 4.2 - 4.7.
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработан ный алгоритм 0,98 0,97 0,92 0,9 0,89 0,87 0,84 0,81 0,8 0,8 0,79 0,77 0,71 0,61 0,56 0,52 0,49 0,45 0,43 0,42 0,41 0,38 0,35 0,29 0,21
2 Корреляци онные алгоритмы 0,97 0,95 0,91 0,89 0,87 0,85 0,81 0,71 0,7 0,68 0,61 0,6 0,551 0,48 0,39 0,32 0,3 0,28 0,27 0,24 0,23 0,23 0,22 0,21 0,2
3 Алгоритмы первичного отбора 0,92 0,85 0,81 0,79 0,68 0,55 0,51 0,49 0,44 0,41 0,38 0,36 0,33 0,32 0,3 0,28 0,27 0,25 0,2 0,19 0,19 0,17 0,17 0,16 0,15
4 Алгоритмы анализа взаимодейс твия хостов 0,91 0,8 0,71 0,7 0,68 0,63 0,61 0,57 0,53 0,50 0,39 0,36 0,31 0,3 0,3 0,28 0,27 0,25 0,24 0,24 0,23 0,22 0,21 0,2 0,2
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработан ный алгоритм 0,95 0,94 0,93 0,91 0,88 0,87 0,82 0,83 0,81 0,8 0,76 0,73 0,72 0,61 0,56 0,52 0,44 0,42 0,43 0,41 0,4 0,39 0,35 0,25 0,24
2 Корреляци онные алгоритмы 0,96 0,95 0,92 0,88 0,85 0,82 0,82 0,78 0,72 0,6 0,61 0,6 0,51 0,44 0,391 0,32 0,31 0,2 0,27 0,24 0,23 0,23 0,23 0,21 0,21
3 Алгоритмы первичного отбора 0,93 0,84 0,82 0,76 0,68 0,54 0,52 0,43 0,42 0,4 0,36 0,32 0,31 0,31 0,31 0,29 0,27 0,23 0,2 0,18 0,19 0,16 0,14 0,15 0,15
4 Алгоритмы анализа взаимодейс твия хостов 0,92 0,82 0,72 0,74 0,67 0,62 0,62 0,58 0,55 0,51 0,38 0,34 0,31 0,32 0,31 0,26 0,27 0,26 0,22 0,23 0,23 0,23 0,21 0,21 0,19
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработан ный алгоритм 0,96 0,95 0,92 0,91 0,84 0,87 0,82 0,83 0,81 0,8 0,76 0,73 0,72 0,61 0,56 0,52 0,44 0,42 0,43 0,41 0,4 0,39 0,35 0,25 0,24
2 Корреляци онные алгоритмы 0,96 0,95 0,93 0,87 0,81 0,80 0,81 0,76 0,72 0,6 0,61 0,6 0,51 0,44 0,391 0,32 0,31 0,28 0,24 0,23 0,22 0,21 0,22 0,22 0,21
3 Алгоритмы первичного отбора 0,92 0,85 0,82 0,76 0,64 0,54 0,53 0,44 0,41 0,41 0,36 0,32 0,31 0,31 0,31 0,29 0,27 0,23 0,2 0,18 0,19 0,16 0,14 0,15 0,15
4 Алгоритмы анализа взаимодейс твия хостов 0,93 0,81 0,73 0,71 0,63 0,63 0,61 0,57 0,53 0,52 0,39 0,34 0,32 0,31 0,31 0,27 0,27 0,26 0,22 0,23 0,23 0,22 0,21 0,21 0,19
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработанный алгоритм 0,92 0,9 0,85 0,82 0,75 0,62 0,58 0,55 0,52 0,51 0,48 0,41 0,38 0,33 0,32 0,3 0,29 0,28 0,28 0,27 0,27 0,26 0,26 0,25 0,25
2 Корреляционны е алгоритмы 0,9 0,87 0,8 0,71 0,67 0,58 0,52 0,48 0,41 0,4 0,32 0,29 0,28 0,23 0,21 0,2 0,2 0,19 0,18 0,17 0,16 0,15 0,14 0,13 0,13
3 Алгоритмы первичного отбора 0,7 0,68 0,61 0,58 0,54 0,51 0,5 0,48 0,41 0,4 0,38 0,29 0,24 0,23 0,19 0,17 0,15 0,15 0,11 0,11 0,11 0,11 0,1 0,1 0,1
4 Алгоритмы анализа взаимодействия хостов 0,85 0,78 0,65 0,58 0,56 0,52 0,51 0,5 0,49 0,46 0,39 0,34 0,31 0,3 0,29 0,24 0,22 0,21 0,2 0,19 0,18 0,17 0,16 0,14 0,11
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработан ный алгоритм 0,91 0,91 0,84 0,84 0,51 0,87 0,83 0,82 0,81 0,8 0,78 0,76 0,73 0,64 0,56 0,52 0,46 0,45 0,42 0,42 0,41 0,39 0,36 0,28 0,21
2 Корреляци онные алгоритмы 0,94 0,94 0,92 0,88 0,86 0,85 0,81 0,76 0,72 0,68 0,64 0,65 0,51 0,48 0,39 0,32 0,3 0,28 0,27 0,24 0,23 0,24 0,22 0,21 0,2
3 Алгоритмы первичного отбора 0,71 0,83 0,82 0,78 0,67 0,55 0,51 0,48 0,47 0,41 0,33 0,37 0,34 0,32 0,31 0,26 0,27 0,25 0,22 0,18 0,17 0,18 0,17 0,16 0,15
4 Алгоритмы анализа взаимодейс твия хостов 0,84 0,82 0,73 0,72 0,65 0,62 0,61 0,54 0,52 0,50 0,38 0,34 0,32 0,3 0,32 0,28 0,26 0,25 0,24 0,24 0,23 0,22 0,21 0,2 0,2
№ Алгоритм Количество пользователей сети
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250
1 Разработан ный алгоритм 0,93 0,92 0,85 0,82 0,5 0,87 0,83 0,81 0,8 0,8 0,79 0,77 0,71 0,61 0,56 0,52 0,49 0,45 0,43 0,42 0,41 0,38 0,35 0,29 0,21
2 Корреляци онные алгоритмы 0,9 0,95 0,91 0,89 0,87 0,85 0,81 0,71 0,7 0,68 0,61 0,6 0,551 0,48 0,39 0,32 0,3 0,28 0,27 0,24 0,23 0,23 0,22 0,21 0,2
3 Алгоритмы первичного отбора 0,7 0,85 0,81 0,79 0,68 0,55 0,51 0,49 0,44 0,41 0,38 0,36 0,33 0,32 0,3 0,28 0,27 0,25 0,2 0,19 0,19 0,17 0,17 0,16 0,15
4 Алгоритмы анализа взаимодейс твия хостов 0,85 0,8 0,71 0,7 0,68 0,63 0,61 0,57 0,53 0,50 0,39 0,36 0,31 0,3 0,3 0,28 0,27 0,25 0,24 0,24 0,23 0,22 0,21 0,2 0,2
Таким образом, полученные данные в рамках многократных экспериментов по оценке точности идентификации алгоритмов идентификации логических соединений от количества пользователей сети с анонимизацией с различной структурой, демонстрируют эффективность разработанного алгоритма обеспечивает выигрыш приблизительно равный
8-14 % в зависимости от количества анализируемых логических соединений (рисунки 4.2-4.3).
Рисунок. 4.2 График зависимости точности идентификации логических соединений алгоритмов от количества
пользователей сети с 1 прокси-сервером.
Рисунок. 4.3 График зависимости точности идентификации логических соединений алгоритмов от количества
пользователей сети с 3 прокси-серверами.
4.2 Реализация алгоритма обработки эмпирических данных профилей логических соединений в сетях с анонимизацией при идентификации
пользователей
На рисунке 4.5 представлена функциональная модель автоматизированной системы обнаружения логических соединений в сетях обеспечивающих анонимный доступ. В состав модели входят следующие подсистемы:
- подсистема приема трафика;
- подсистема статистической обработки трафика;
- подсистема графической интерпретации результата;
- подсистема хранения;
- подсистема работы с файлами *.рсар;
- подсистема идентификации.
Рисунок. 4.5 Функциональная модель автоматизированной системы идентификации логических соединений
Подсистема приема трафика
Реализация подсистемы приема трафика осуществляется с использованием библиотеки WinPcap. Архитектура используемая в WinPcap расширяет стандартные функции ОС из семейства Win32 процедурой приема и передачи данных по телекоммуникационной сети. В добавок WinPcap дает возможность приложениям API высокого уровня управлять низкоуровневыми процессами. Структура WinPCAP включает в себя следующие компоненты: драйвер устройства захвата пакетов (paсket.vxd), низкоуровневая динамическая библиотека (packet.dll) и статическая библиотека высокого уровня (libpcap) [98].
Для перехвата пакетов, передаваемых по сети, приложение взаимодействует непосредственно с сетевым оборудованием. По этой причине операционная система должна предоставлять несколько примитивных функций для приема и передачи данных непосредственно через сетевой адаптер. Назначение этих функций состоит в том, чтобы принять входящий пакет и передать его в стек протоколов операционной системы для дальнейшей обработки. Приложение получает пакет без заголовков канального, сетевого и транспортного уровней, интерпретирует и обрабатывает его и предоставляет в удобном для пользователя виде.
Динамическая библиотека packet.dll отделяет программы пользователей от драйверов в результате чего предоставляет приложению независимый интерфейс от вида операционной системы. Данный подход позволяет приложению работать на различных Windows-платформах без проведения перекомпиляции. Библиотека packet.dll работает на уровне пользователя, но отдельно от приложения [99].
Статическая библиотека libpcap обеспечивает перехват и фильтрацию пакетов. Она задействует функции, предоставляемые библиотекой packet.dll, и обеспечивает программе пользователя управление процессами приема и фильтрации данных на высоком уровне. Библиотека libpcap статически связана с программой пользователя и является ее частью [100].
Компонент статистической обработки размера пакетов
Компонент статистической обработки размеров пакетов осуществляет подсчет количества входящих и исходящих пакетов и построение гистограмм их распределения по длинам (размерам пакетов).
Пакеты различного размера распределяются по интервалам с шагом 100 Байт, максимальное возможное значение ограничено размером 1500 Байт. Далее для упрощения интерпретации результатов нормируются относительно максимального значения и представляются в виде гистограмм распределения интерфейсом программы.
Компонент статистической обработки размера пакетов
Компонент статистической обработки времени выполняет аналогичные действия, что и компонент статистической обработки размеров пакетов за исключением того, что в качестве принимаемого параметра выступает время между получением текущего пакета и приемом последующих. Шаг интервала принят 1 мс, максимальное значение 3 сек.
Компонент статистической обработки активности 1Р-адресов позволяет учесть №-адреса, наиболее часто используемые при взаимодействии пользователя с ресурсами. Результаты сбора статистики позволяют оценить степень участия того или иного хоста сети в процессах информационного обмена.
Компонент статистической обработки портов и сервисов предоставляет дополнительную информацию о статистики открытия портов транспортного уровня при пользовании ИТКС, обеспечивающей анонимный доступ пользователей. Компонент обеспечивает дополнительный признак для принятия решения о профиле пользователя.
Подсистема идентификации
Подсистема идентификации реализует сравнение эталонных значений статистических показателей трафика со статистическими свойствами пакетов, принятых на сетевой адаптер.
Подсистема хранения профилей нагрузки
Хранение идентификаторов, личных данных и профилей потоков целесообразно реализовывать с использованием специализированных компонент, поддерживаемых средой программирования. Среди таких средств, позволяющих обеспечить не только хранение, но и быстрый доступ к необходимым записям (для процедур идентификации), а также своевременную модификацию сведений о легальных потоках (например, при обучении модели ИТКС с анонимизацией на основе опорных векторов), выделяют элементы доступа к базам данных с использованием компонент ADO и ADO Tables. Данные компоненты среды программирования могут обеспечить взаимодействие приложения с широким перечнем современных СУБД, а также обладают преимуществами по гибкости настроек и их модификации.
4.3 Технические предложения по реализации алгоритма обработки
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.