Формирование обучающего множества для бинарной классификации объектов (на примере информационных технологий антивирусного анализа) тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Демина Раиса Юрьевна
- Специальность ВАК РФ05.13.01
- Количество страниц 130
Оглавление диссертации кандидат наук Демина Раиса Юрьевна
ВВЕДЕНИЕ
ГЛАВА 1. ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ БИНАРНОЙ КЛАССИФИКАЦИИ В ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ АНТИВИРУСНОГО АНАЛИЗА
1.1 Роль бинарной классификации в информационных технологиях
1.2 Общая схема классификации
1.3 Факторы, влияющие на эффективность классификации
1.4 Влияние состава обучающего множества на верность распознавания
1.5 Задача увеличения верности классификации
1.6 Задача сокращения времени обучения
1.7 Взаимосвязь основных концептов предметной области
1.8 Выводы по первой главе. Постановка цели и задач исследования
ГЛАВА 2. МЕТОДИКА ФОРМИРОВАНИЯ ОБУЧАЮЩЕГО МНОЖЕСТВА
2.1 Анализ байтового состава файлов обучающего множества, обеспечивающего большую верность распознавания
2.2 Мера схожести объектов
2.3 Алгоритм отбора объектов в обучающее множество
2.4 Особенности программной реализации алгоритма расчета матрицы схожести
2.5 Экспериментальная проверка методики формирования ОМ
2.6 Выводы по второй главе
ГЛАВА 3. СОКРАЩЕНИЕ ВРЕМЕНИ ОБУЧЕНИЯ КЛАССИФИКАТОРА
3.1 Определение наиболее затратной по времени процедуры при обучении классификаторов
3.2 Сравнительный анализ возможных алгоритмических решений
3.3 Общий подход к модификации алгоритмов сортировки
3.4 Расширенный бинарный поиск
3.5 Особенности программной реализация алгоритма РБП
3.6 Экспериментальная проверка вычислительной эффективности предложенного алгоритма
3.7 Выводы по третьей главе
ГЛАВА 4. ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ В ДЕЯТЕЛЬНОСТЬ АНТИВИРУСНОЙ КОМПАНИИ SECURITYSTRONGHOLD
4.1 Антивирусный пакет StrongholdAntimalware компании SecurityStronghold
4.2 Программный модуль «Формирование обучающего множества для задач статического эвристического анализа»
4.2.1 Общие сведения о работе системы
4.2.2 Функциональное назначение
4.2.3 Инсталляция и выполнение программного продукта
4.2.4 Руководство пользователя
4.3 Модуль «Расширенный бинарный поиск»
4.3.1 Общие сведения о работе системы
4.3.2 Функциональное назначение
4.3.3 Подключение библиотеки
4.4 Система сбора статистики
4.5 Анализ результатов внедрения
4.6 Выводы по четвертой главе
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ЛИТЕРАТУРЫ
Приложение А Результаты проверки различных обучающих множеств
Приложение Б Графики байтового распределения для «хорошего» ОМ
Приложение В Свидетельства о государственной регистрации программ для ЭВМ
Приложение Г Акты внедрения результатов диссертационного исследования
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическая модель обеспечения контроля над исполнением образца и маскировки аналитических инструментов при инвазивном динамическом анализе вредоносного ПО2023 год, кандидат наук Переберина Анастасия Александровна
Алгоритмы распознавания рукописных символов в условиях малой обучающей выборки2017 год, кандидат наук Хаустов Павел Александрович
Математические модели и алгоритмы распознавания упакованных вредоносных программ2013 год, кандидат наук Сорокин, Иван Витальевич
Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей2012 год, кандидат технических наук Козачок, Александр Васильевич
Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения2021 год, кандидат наук Вычегжанин Сергей Владимирович
Введение диссертации (часть автореферата) на тему «Формирование обучающего множества для бинарной классификации объектов (на примере информационных технологий антивирусного анализа)»
ВВЕДЕНИЕ
Актуальность исследования. Классификация является одной из основных задач машинного обучения, которая нашла применение в большом количестве разнообразных областей: банковское дело, медицина, распознавание лиц, фильтрация спама. Одной из наиболее значимых областей является антивирусный анализ. Широкое развитие информационных технологий привело к тому, что для обучения применяется большой объем данных, который необходимо обрабатывать как можно быстрее с максимальной пользой для классификатора.
В связи с тем, что совокупность классифицируемых элементов часто имеет большой объем и обладает широким разнообразием свойств, для разбиения на классы используется способ, предусматривающий обучение классификатора на некотором множестве примеров (обучающем множестве - ОМ), с последующим тестированием обученного классификатора на примерах, не вошедших в ОМ и повторением перечисленных шагов до достижения доли правильно распознанных объектов (верности классификатора [73]) уровня, удовлетворяющего лицо, принимающее решение (ЛИР). При этом актуальной задачей является выбор оптимального по объему и структуре ОМ, качество которого оказывает непосредственное влияние на верность классификатора. Кроме того, периодически возникает необходимость переобучения классификатора в связи с появлением объектов, обладающих новыми свойствами. Поскольку часто данный процесс необходимо осуществлять в режиме реального времени, то критически важным становится продолжительность и трудозатратность такого переобучения.
Одним из ярких примеров актуальности решения указанных задач является процесс принятия решений в сфере информационных технологий антивирусного анализа, в основе которого лежит процедура бинарной классификации. Необходимость использования антивирусного эвристического анализа (АЭА) связана с тем, что число компьютерных вирусов постоянно растет. При этом антивирусные компании не всегда успевают своевременно их обнаружить и предложить конечному пользователю соответствующее программное обеспечение, основанное на сигнатурном анализе, для нейтрализации угроз
обработки информации. Блоки эвристического анализа современных антивирусных пакетов распознают лишь около 60% новых вирусов, сигнатуры которых еще отсутствуют в базах [62, 88, 54]. Поэтому задача увеличения верности классификаторов, применяемых в информационных технологиях антивирусного анализа, является весьма актуальной. Кроме того, желательно (особенно при использовании антивирусных пакетов в системах, работающих в режиме реального времени) сократить время обучения (переобучения) классификатора.
Развитие информационных технологий повлекло за собой не только широкие возможности оперативного доступа к информации, но и распространение разнообразного вредоносного программного обеспечения (ПО) [12, 13, 30, 49]. Антивирусные лаборатории занимаются поиском вирусов, выделяют характеризующие их сигнатуры и добавляют их в базы данных (БД) антивирусного ПО (АВПО) [48, 101].
Обновления этих БД в АВПО, установленном на пользовательских ПЭВМ и серверах, чаще всего осуществляются в автоматическом режиме несколько раз в сутки (при условии, что ЭВМ подключены к Интернету). После установки обновлений пользователи ограждают себя от выявленных экспертами новых вирусов. Однако те вирусы, сигнатуры которых еще не включены в БД, не обнаруживаются АВПО. Существенно, что обновления БД для АВПО на пользовательских ЭВМ осуществляются с задержкой по времени, включающей в себя следующие компоненты: продолжительность выявления новых вирусов с момента их фактического попадания в сеть Интернет; время, требуемое на пересылку (поступление) «образцов вирусов» в антивирусные лаборатории; время, затрачиваемое в таких лабораториях на анализ поступившей информации и подготовку обновлений для БД АВПО (а иногда и для корректировки «ядра» АВПО); продолжительность ожидания пользователями момента очередного автоматического скачивания/установки обновленных БД АВПО на ПЭВМ/серверах. Поэтому для обнаружения неизвестного ранее вредоносного ПО во всех современных АВПО, помимо сигнатурного анализа, дополнительно
применяется эвристический анализ (ЭА). Он называется динамическим, если его проведение предусматривает запуск программы ЭА в виртуальном пространстве [55]. Данный метод требует большого количество ресурсов ПК, поэтому его использование не всегда целесообразно. От этого недостатка свободен статический ЭА, не предусматривающий запуска программы ЭА в «песочнице». В ходе статического ЭА определяется, содержит ли в себе сканируемый файл признаки вирусов. Для этого решается задача бинарной классификации.
Задача антивирусной классификации состоит из двух этапов: обучения классификатора и выполнения распознавания с целью оценки качества обучения [89]. Обучение осуществляется «с учителем» и в общем случае происходит следующим образом. «Учитель» каждому элементу обучающего множества (как правило, это исполняемые файлы и библиотеки) присваивает метку, отражающую, к какому классу относится каждый из файлов вредоносных или доброкачественных объектов. Из каждого объекта обучающего множества выделяются характеризующие его признаки, затем они добавляются в общий перечень признаков [61].
После формирования общего перечня признаков необходимо из них выделить наиболее значимые (информативные), а избыточные и нерелевантные -отбросить [56, 59]. Признак считается нерелевантными (недифференцирующим), если на его основе нельзя отличить объект одного класса от объекта другого класса. На основе выделенных из файлов обучающего множества релевантных признаков в антивирусной лаборатории с использованием различных моделей («наивного» Байесовского классификатора; алгоритма J48; деревьев решений; «случайного леса») строится эвристический классификатор [32, 47]. На этапе обнаружения из сканируемого (проверяемого) файла на пользовательской ЭВМ извлекаются его признаковые характеристики. Они сравниваются с характеристиками, выделенными в процессе обучения классификатора; определяется степень их соответствия признакам вредоносного ПО.
В случае если степень соответствия выше некоторого порогового значения, то проверяемый файл с определенной вероятностью признается (считается)
вирусным. На этапе распознавания может быть выяснено, что сканируемый файл состоит на х% из признаков, свойственных вредоносным файлам, и на у% из признаков, свойственных доброкачественным файлам. При этом согласно настройкам «чувствительности» ЭА, определяющим пороговое значение, файл может быть признан (или не признан) вредоносным. Соответственно, чем чувствительней эвристика, тем больше вирусов будет обнаружено. Однако при этом увеличится и количество ложных срабатываний алгоритма на доброкачественных файлах.
Исследования лаборатории Лпй-Ма^аге показали, что эвристика обнаруживает в лучшем случае 60% неизвестных компьютерных вирусов при 0,01-0,04% ложных срабатываний [35]. Таким образом, повышение процента корректного распознавания является актуальной задачей.
Рассмотрим подробнее вопрос эффективности классификации. В рамках данной работы под повышением эффективности классификации будем понимать увеличение верности при сокращении времени обучения.
По определению, верность - доля правильно классифицированных тестовых примеров [90]. Верность определяется качеством модели, построенной на этапе обучения.
Кроме того, этап обучения занимает достаточно много времени, что часто бывает критично для систем реального времени [4, 31].
Исходя из этого, для повышения эффективности классификации в сфере информационных технологий антивирусного анализа является актуальным решение двух задач: увеличения верности классификации и сокращения времени этапа обучения.
Задача увеличения верности классификации. На этапе обучения формируется коллекция файлов, для каждого из которых указано, является ли он вредоносным или легитимным. Для обучения необходимо определенное число представителей каждого класса. Как правило, из имеющейся коллекции случайным образом отбирается необходимое количество файлов обучающего множества (ОМ). Оставшиеся файлы, как правило, используются для
тестирования модели. Ряд экспериментов [20] показал, что результаты обнаружения зависят от ОМ, на котором была обучена модель. Таким образом, качество модели можно повысить за счет целенаправленного (неслучайного) отбора файлов в ОМ, при обучении на котором верность будет максимальна.
Задача сокращения времени обучения. В работе проанализирован процесс, состоящий из извлечения, фильтрации и накопления признаков на этапе обучения классификаторов, используемых в информационных технологиях антивирусного анализа. В общем случае он происходит следующим образом. Из каждого файла извлекаются все признаки и добавляются в множество обучающих данных, в котором признаки должны храниться в упорядоченном отсортированном виде, без дубликатов. Обычно для этого извлеченные из файла признаки добавляются в множество обучающих данных. После этого обучающие данные сортируются, вследствие чего все повторяющиеся признаки оказываются на соседних позициях.
На следующем шаге дубликаты удаляются и множество обучающих данных становится отсортированным и не содержащим повторяющихся элементов. Проведенный анализ показал, что больше всего времени тратится на процесс сортировки. Соответственно, необходимо найти альтернативное решение, которое бы позволило не использовать алгоритм сортировки как таковой.
Следует отметить связь между формированием ОМ файлов и скоростью обучения. Сокращение количества объектов в ОМ приведет к уменьшению времени обучения. Однако при этом необходимо обеспечить максимально полный набор признаков.
Таким образом требуется сформировать минимальное ОМ, обеспечивающее полный набором признаков. Т.е. найти минимальное количество максимально разнообразных файлов, которые содержали бы в себе все необходимые для верного распознавания признаки.
Поскольку эффективность классификации во многом зависит от эффективности обучения: качества обучающего множества и времени, потраченного на его формирование. Улучшение этих параметров повысит
эффективность классификации.
Учитывая вышеизложенное, актуальной является задача разработки методики формирования обучающего множества, применение которой повысило бы верность классификации и сократило временные затраты на обучение.
Степень разработанности темы. Теории классификации и вопросам ее применения в информационных технология антивирусного анализа посвящено большое количество работ отечественных и зарубежных исследований. Разработке методик применения алгоритмов бинарной классификации, а также способам их комбинирования посвящены работы П.Н. Дружкова, Н.Ю. Золотых, А.Н. Половикина, Е.О. Путина, А.В. Тимофеева, В.Ю.Дайнеко, А.В. Казачок, Д.А. Эдель, Guillaume Bonfante, Matthieu Kaczmarek, Jean-Yves Marion, Robert C. Holt, Yanfang Ye, Dingding Wang, Tao Li, Dongyi Ye, Qingshan Jiang.
Ряд работ посвящен сравнению алгоритмов классификации (Ada Boots, J48, Naive Bayes) для их применения в информационных технологиях антивирусного анализа (J. Zico Kolter, Marcus A. Maloof, Eitan Menahem, Asaf Shabtai, Lior Rokach, Yuval Elovici, Christina Warrender, Stephanie Forrest, Barak Pearlmutter). Разработкой собственного алгоритма антивирусной классификации занимались исследователи университета имени Бен-Гуриона Gil Tahan, Lior Rokach, Yuval Shahar, Chanan Glezer. В своих работах данная группа ученых рассматривает, в том числе, вопрос сокращения времени обучения. Однако, решение, которое они предлагают применимо исключительно для разработанного ими алгоритма. В.Д. Котов занимался разработкой методики репрезентативной выборки для обучения классификатора, но исключительно для распознавания зараженных интернет-страниц. В большинстве работ, посвященных вопросам формирования обучающего множества и сокращения времени обучения, предлагаются лишь частные решения, не применимые в общем случае, в том числе для алгоритмов антивирусной бинарной классификации.
Имеется противоречие между необходимостью повышения верности классификации различных объектов и уменьшения времени обучения/переобучения классификаторов с одной стороны, и недостаточной
степенью теоретической и практической изученности данного вопроса, с другой стороны. С точки зрения информационных технологий антивирусного анализа данное противоречие проявляется следующим образом: наблюдается тенденция роста числа ежемесячно появляющихся компьютерных вирусов и их штаммов с одной стороны, и своевременным безошибочным их распознаванием существующими антивирусными средствами эвристического анализа, с другой стороны.
Исходя из этого, были выбраны объект и предмет исследования, а также сформулированы цель и задачи диссертации.
Объектом исследования является процедура обработки информации при принятии решений по классификации различных объектов.
Предметом исследования являются методика и алгоритмы формирования обучающего множества для классификаторов, используемых в информационных технологиях антивирусного анализа.
Целью диссертационной работы является повышение верности классификации путем разработки методики и алгоритмов формирования оптимального обучающего множества и адаптация предложенных подходов для решения задач информационных технологий антивирусного анализа. Для достижения поставленной цели были решены следующие задачи:
1. Выявлены специфические особенности этапа обучения классификаторов, в том числе используемых в информационных технологиях антивирусного анализа; обоснована необходимость целенаправленного формирования обучающего множества; выявлены наиболее затратные по времени этапы обучения.
2. Сформулировано определение меры схожести двух объектов.
3. Разработана методика формирования обучающего множества.
4. Разработан алгоритм формирования отсортированного перечня уникальных элементов (признаков) на основе сортировки простыми вставками.
5. Разработанные методики и алгоритмы адаптированы для применения в информационных технологиях антивирусного анализа. Спроектировано и реализовано соответствующее программное обеспечение. Результаты
апробированы и внедрены в практику работы компании «Security Stronghold».
Методы исследования. В процессе работы использовались методы системного анализа, теории машинного обучения, теории вероятностей, теории алгоритмов, объектно-ориентированное программирование.
Научная новизна диссертационного исследования:
1. Впервые введена мера схожести объектов, основанная на подсчете относительной частоты вхождения характерных свойств одного объекта в другой, позволяющая при обучении классификаторов оценить прирост информации при замене в обучающем множестве одного объекта другим, что, в свою очередь позволяет формировать наиболее информативное обучающее множество.
2. Предложена методика формирования обучающего множества для задач классификации, отличающаяся тем, что для обеспечения максимального информационного разнообразия отбор объектов осуществляется на основе введенной в работе меры схожести. Использование данной методики позволяет повысить верность классификации, применяемой в информационных технологиях антивирусного анализа.
3. Предложен алгоритм формирования отсортированного перечня уникальных признаков при составлении обучающего множества, основанный на сортировке простыми вставками, отличающийся добавлением операции проверки уникальности вставляемого в отсортированную последовательность элемента. Это позволяет сократить время формирования отсортированной последовательности уникальных элементов, поскольку она формируется за одну итерацию.
Теоретическая значимость работы:
1. Введена мера схожести объектов, основанная на подсчете относительного количества их общих свойств.
2. Разработана методика формирования множества объектов для эффективного обучения классификаторов, в том числе классификаторов, используемых в информационных технологиях антивирусного анализа.
3. Предложена модификация алгоритма бинарного поиска для
формирования отсортированного перечня уникальных признаков объектов.
Практическая значимость диссертационного исследования заключается в повышении эффективности бинарной классификации в задачах информационных технологий антивирусного анализа. Созданы и зарегистрированы в «Реестре программ для ЭВМ» программные продукты: «Формирование обучающего множества для задач статического эвристического анализа» и «Расширенный бинарный поиск», реализующие предложенные методики и алгоритмы. Результаты диссертации внедрены в практическую деятельность ОАО «Security Stronghold», а также используются в Астраханском государственном университете при подготовке инженерных и научных кадров.
Научные положения, выносимые на защиту
1. Введение меры схожести различных объектов позволяет производить их попарное сравнение для дальнейшего отбора в обучающее множество.
2. Разработанная методика формирования обучающего множества объектов позволяет повысить верность классификации при решении задач информационных технологий антивирусного анализа.
3. Разработанный подход к модификации алгоритмов сортировки с целью получения отсортированного перечня уникальных значений позволяет уменьшить время обучения классификаторов, используемых в информационных технологиях антивирусного анализа.
Степень достоверности научных положений и выводов определяется корректным применением методов исследований, подтверждается вычислительными экспериментами, проверкой работоспособности методик, успешным внедрением результатов работы в практику компании «Security Stronghold", что отражено в соответствующих актах.
Апробация результатов. Основные положения и отдельные результаты диссертации докладывались и обсуждались на следующих международных и всероссийских конференциях: XXVIII Международной научной конференции «Математические методы в технике и технологиях» (Ярославль, 2015г.); VII Международной научно-практической конференции «Современные тенденции
развития науки и технологий» (Белгород, 2015г.); XVI Международной научной конференции «Современные проблемы проектирования, применения и безопасности информационных систем» (Кисловодск, 2015г.); XXIX-XXX Международной научной конференции «Математические методы в технике и технологиях» (Санкт-Петербург, 2016-17г.г.); VI Всероссийской научной конференции «Проблемы информационной безопасности» (Ростов-на-Дону, 2016г.); XXXV Всероссийской научно-технической конференции «Проблемы эффективности и безопасности функционирования сложных технических и информационных систем» (Серпухов, 2016г.); I Молодежной международной конференции «Информационные технологии и технологии коммуникаций: современные достижения» (Астрахань, 2017г); XXXVI Всероссийской научно-технической конференции «Проблемы эффективности и безопасности функционирования сложных технических и информационных систем» (Серпухов, 2017г.); II Международной научно-практической конференции «Приоритетные задачи и стратегии развития технических наук» (Тольятти, 2017г.); XXXII Международной научной конференции «Математические методы в технике и технологиях» (Санкт-Петербург, 2019г.).
Публикации. Основные результаты диссертационного исследования опубликованы в 16 печатных работах, из них: 5 статей в журналах из списка, рекомендованного ВАК РФ, 11 в материалах и трудах конференций; получено 2 свидетельства о государственной регистрации программ для ЭВМ.
Личный вклад автора в опубликованные в соавторстве работы и спроектированные программы для ЭВМ заключался в непосредственном участии на всех этапах теоретических и экспериментальных исследований.
Структура и объем работы. Работа состоит из введения, 4 глав, заключения, списка литературы из 109 наименований и 4 приложений. Основная часть работы изложена на 114 страницах машинописного текста, содержит 18 таблиц и 50 рисунков.
ГЛАВА 1. ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ БИНАРНОЙ КЛАССИФИКАЦИИ В ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ
АНТИВИРУСНОГО АНАЛИЗА
1.1 Роль бинарной классификации в информационных технологиях
Классификация является важной задачей машинного обучения и широко применяется в самых разнообразных областях информационных технологий: банковское дело, распознавание лиц, антивирусная эвристика. На сегодняшний день существует большое количество сервисов, библиотек, приложений, позволяющих построить обученный классификатор. Таким образом, задачи машинного обучения решаются не только в науке, на предприятиях или производстве, но и развлекательных, бытовых сферах.
При этом не существует универсального алгоритма как построить идеальный классификатор. Кроме того, эффективная методика обучения в одной задаче может быть непригодна в другой. Однако, существуют общие принципы, которые необходимо учитывать во всех случаях.
Рассмотрим применение бинарной классификации в сфере информационных технологий антивирусного анализа.
Основой информационных технологий антивирусного анализа [3, 6] (рисунок 1.1) является сигнатурный анализ, однако он не способен оградить пользователя от новых вирусов. Для распознавания вирусов, которых еще нет в базе данных сигнатур применяется эвристический анализ, который бывает динамическим и статическим. Динамический анализ запускает сканируемую программу в песочнице, но при этом затрачивается много ресурсов системы. От этого недостатка свободен статический эвристический анализ [98, 100, 102]. В ходе статического эвристического анализа определяется, содержит ли в себе сканируемый файл признаки вирусов. В основе такого анализа лежит задача бинарной классификации [93, 94, 96].
Рисунок 1.1 - Структура антивирусного анализа
Исследователи лаборатории Anti-malware сравнили различные антивирусы по эффективности эвристики [35]. В рамках данного исследования сравнивались эвристические компоненты антивирусных пакетов, при этом анализ системных событий, т.е. результат работы динамического эвристического анализа, во внимание не принимался. Фиксировалось количество обнаружения новых вирусов. Результаты показали, что процент корректно распознанных вирусов, еще не добавленных в базу данных сигнатур, [74] составляет 60-71%, при этом доля ложных срабатываний составила 0,01-2,4%.
Результаты исследования представлены в таблице 1.1 [35].
Таблица 1. 1 - Результаты теста эффективности антивирусных эвристических классификаторов лабораторией Anti-Malware
Антивирус Процент обнаруженных вирусов Процент ложных срабатываний Антивирус Процент обнаруженных вирусов Процент ложных срабатываний
F-Secure 68,50% 2,97% Trend Micro 43,40% 0,03%
AVG 64,90% 0,17% Avast 41% 0,03%
Avira 64,70% 2,16% Norton 39,10% 0,05%
Sophos 64,20% 0,84% Eset 38,70% 0,18%
G DATA 56,70% 0,13% PC Tools 38,60% 0,01%
BitDefender 54,10% 0,12% Dr. Web 37,70% 0,08%
Comodo 51,40% 0,69% VBA32 35,10% 0,55%
Kaspersky 48,10% 0,01% Panda Security 34,60% 0,04%
ZoneAlarm 44,40% 0,01% Agnitum 32,60% 0,11%
Microsoft 44,10% 0%
Графически результаты исследования представлены на рисунке 1.2.
80% - 3,5%
2
Тестируемый антивирус
Рисунок 1.2 - Результаты теста эффективности антивирусных эвристических классификаторов лабораторией Апй-Ма^аге
Таким образом, бинарная классификация занимает важное место среди задач машинного обучения и успешно применяется во многих областях. Одной из которых являются информационные технологии антивирусного анализа, который позволяет оградить пользователя от новых, еще неизвестных экспертам вирусов.
1.2 Общая схема классификации
Рассмотрим общую схему бинарной классификации.
Задача бинарной классификации состоит из двух этапов: обучения классификатора и выполнения распознавания с целью оценки качества обучения [52]. Обучение осуществляется «с учителем» и в общем случае происходит следующим образом.
«Учитель» каждому элементу обучающего множества присваивает метку, отражающую, к какому классу относится каждый объект. Из каждого объекта обучающего множества выделяются характеризующие его признаки, затем они добавляются в общий перечень признаков.
После формирования общего перечня признаков из них выделяются наиболее значимые (информативные) признаки, а избыточные и нерелевантные -
отбрасываются [64, 73]. Признак считается нерелевантными, если на его основе нельзя отличить объект одного класса от объекта другого класса. На основе выделенных из объектов обучающего множества релевантных признаков и с использованием различных моделей («наивного» Байесовского классификатора; алгоритма J48; деревьев решений; «случайного леса»; градиентного бустинга) строится классификатор [11, 60].
На этапе обнаружения из проверяемого объекта извлекаются его признаковые характеристики. Они сравниваются с характеристиками, выделенными в процессе обучения классификатора; определяется степень их соответствия признакам того или иного класса.
На этапе распознавания может быть выявлено, что проверяемый объект состоит на х% из признаков, свойственных объектам класса А, и на у% из признаков, свойственных объектам класса В. При этом, в зависимости от условий задачи и мнения учителя, устанавливается пороговое значение, при превышении которого объект считается отнесенным к тому или иному классу.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Алгоритмическое развитие Виола-Джонсовских детекторов для решения прикладных задач распознавания изображений2018 год, кандидат наук Усилин Сергей Александрович
Алгоритмы распознавания подвижных объектов для интеллектуальных систем охранного видеонаблюдения2014 год, кандидат наук Иванов, Юрий Сергеевич
Обнаружение аномальных сетевых соединений на основе гибридизации методов вычислительного интеллекта2018 год, кандидат наук Браницкий Александр Александрович
Модели оценки структурных решений по защите компьютерных сетей от вирусных атак2011 год, кандидат технических наук Бабанин, Дмитрий Владимирович
Модель и метод анализа схожести и определения авторства вредоносного кода2013 год, кандидат технических наук Стремоухов, Всеволод Дмитриевич
Список литературы диссертационного исследования кандидат наук Демина Раиса Юрьевна, 2019 год
СПИСОК ЛИТЕРАТУРЫ
1. Ажмухамедов, И.М. Повышение качества антивирусной классификации с помощью методики формирования обучающего множества / И.М. Ажмухамедов, Р.Ю. Демина// Проблемы эффективности и безопасности функционирования сложных технических и информационных систем/ XXXV Всероссийская научно-техническая конференция. - Серпухов: Издательство Военной академии РВСН имени Петра Великого, 2016. - Часть 5. - С. 11-14.
2. Ажмухамедов, И.М. Усовершенствованный метод фильтрации нежелательного трафика / И.М. Ажмухамедов, К.В. Запорожец // Вестник Астраханского государственного технического университета. Серия: управление, вычислительная техника и информатика. 2014. №1. С. 98-104.
3. Атамкулова, М.Т. Компьютерные вирусы и антивирусные программы / М.Т. Атамкулова, А.А. Саримсаков // Известия Ошского технологического университета. - 2016. - С. 136-140.
4. Бекбосынова, А.А. Тестирование и анализ эффективности и производительности антивирусов / А.А. Бекбосынова // Теория и практика современной науки. - 2015. - №5. - С. 53-56.
5. Беляков, И.А. Метод поддержки принятия решения о безопасности программного обеспечения: специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Беляков Игорь Александрович; Петербургский государственный университет путей и сообщений. - Санкт-Петербург, 2013. - 197 с.
6. Булатова, С.Н. Обзор вредоносного программного обеспечения в современном мире / С.Н. Булатова, А.Д. Христодуло // Академия педагогических идей новация. Серия: студенческий научный вестник. - 2017. - №5. - С. 50-61.
7. Ваганов, М.Ю. Гибридная искусственная иммунная система защиты компьютера от процессов с аномальной активностью: специальность 05.13.19 -«Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Ваганов Михаил
Юрьевич; Омский государственный университет им. Достоевского. - Омск, 2012. - 92 с.
8. Веретенников, А.Б. Эффективный полнотекстовый поиск с использованием дополнительных индексов часто встречающихся слов / А.Б. Веретенников // Системы управления и информационные технологии. - 2016. -№4. - С. 52-60.
9. Виллемер, А. Программирование на С++. / А. Виллемер // - Москва: Эксмо, 2013. - 528 с.
10. Вирт, Н. Алгоритмы и структуры данных. / Н. Вирт // - Москва: ДМК Пресс, 2016. - 272 с.
11. Вьюгин, В.В. Математические основы машинного обучения и прогнозирования. / В.В. Вьюгин // - Москва: МЦНМО, 2013. - 304 с.
12. Гильметдинов, А.Д. История компьютерных вирусов / А.Д. Гильметдинов // Аллея науки. - 2017. - №9. - С. 871-873.
13. Горобец, С.С. Компьютерная преступность: разработка компьютерных вирусов /С.С. Горобец // Аллея науки. - 2017. - №9. - С. 150-155.
14. Дайнеко, В.Ю. Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей: специальность 05.13.19 -«Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Дайнеко Вячеслав Юрьевич; НИУ ИТМУ - Санкт-Петербург, 2013. -130 с.
15. Дасгупта, С. Алгоритмы. / С. Дасгупта, Х. Пападимитриу, У. Вазирани // - Москва: МЦНМО, 2014. - 320 с.
16. Демина, Р.Ю. Повышение эффективности эвристического анализа в антивирусном пакете StrongholdAntimalware / Р.Ю. Демина, И.М. Ажмухамедов // Вестник ТГТУ. 2018. №1. С. 6-15.
17. Демина, Р.Ю. Особенности программной реализации алгоритмов методики формирования обучающего множества для бинарных классификаторов, используемых в антивирусном эвристическом статическом анализе / Р.Ю. Демина // Вестник АГТУ. - 2017. - №2. - С. 62-68.
18. Демина, Р.Ю. Проверка эффективности методики формирования обучающего множества в антивирусном пакете STRONGHOLDANTIMALWARE / Р.Ю. Демина // Информационные технологии и технологии коммуникаций: современные достижения. Сборник материалов I Молодежной международной конференции. - Астрахань: Сорокин Роман Васильевич, 2017. - С. 148.
19. Демина, Р.Ю. Формирование обучающего множества для статического эвристического антивирусного анализа / Р.Ю. Демина // Современные проблемы проектирования, применения и безопасности информационных систем: материалы XVI Международной научной конференции 19-21 октября 2015 г. в г. Кисловодске. - Ростов-на-Дону: Издательско-полиграфический комплекс РГЭУ (РИНХ), 2015. - С. 58-63.
20. Демина, Р.Ю. Зависимость эффективности обнаружения вредоносного программного обеспечения от качества обучающей выборки в алгоритмах классификации / Р.Ю. Демина, И.М. Ажмухамедов // Математические методы в технике и технологиях - ММТТ-28: сборник трудов XXVIII Международной научной конференции. - Саратов: Саратовский государственный технический университет имени Гагарина Ю.А., 2015. - Том 3. - С. 64-66.
21. Демина, Р.Ю. Проверка эффективности методики формирования множества файлов для обучения антивирусного эвристического классификатора / Р.Ю. Демина, И.М. Ажмухамедов // Проблемы эффективности и безопасности функционирования сложных технических и информационных систем / XXXVI Всероссийская научно-техническая конференция. - Серпухов: Военная академия РВСН имени Петра Великого, 2017. - С. 77-80.
22. Демина, Р.Ю. Повышение верности антивирусного эвристического анализа целенаправленным обучением классификатора / Р.Ю. Демина, И.М. Ажмухамедов, Н.В. Давидюк // Математические методы в технике и технологиях - ММТТ-30: сборник трудов XXX Международной научной конференции -Санкт-Петербург: Издательство Политехнического университета., 2017. - Том 3. -С. 103-107.
23. Демина, Р.Ю. Использование бинарного поиска для формирования отсортированного перечня уникальных элементов / Р.Ю. Демина, И.М. Ажмухамедов // Математические методы в технике и технологиях - ММТТ-27: сборник трудов XXVII Международной научной конференции: Секция 2. -Саратов: 2014. - Том 5.- С. 124-126.
24. Демина, Р.Ю. Методика формирования обучающего множества при использовании статических антивирусных методов эвристического анализа / Р.Ю. Демина, И.М. Ажмухамедов // Инженерный вестник Дона. - 2015. - №3. - ЦКЬ: http://ivdon.ru/ru/magazine/archive/n3y2015/3265 (дата обращения 21.01.2018г.).
25. Демина, Р.Ю. Метод сокращения времени обучения антивирусного эвристического классификатора, основанный на использовании алгоритма расширенного бинарного поиска / Р.Ю. Демина, И.М. Ажмухамедов, Т.Г. Гурская // Прикаспийский журнал: управление и высокие технологии. - 2017. - №1(37). - С. 15-23.
26. Демина, Р.Ю. Оценка степени вредоносности процессов, исполняемых операционной системой / Р.Ю. Демина, И.М. Ажмухамедов, Б.Р. Досмухамедов // Современные тенденции развития науки и технологий/ Сборник научных трудов по материалам VII Международной научно-практической конференции. - Белгород: ИП Ткачева Е.П., 2015. - № 7, часть III. - С. 49-53.
27. Демина, Р.Ю. Пример алгоритма расширенного бинарного поиска для обучения антивирусных классификаторов / Р.Ю. Демина, А.В. Суслов // Проблемы информационной безопасности: материалы VI Всероссийской научной конференции. - Ростов-на-Дону: Издательско-полиграфический комплекс РГЭУ (РИНХ), 2016. - С. 53-57.
28. Демина, Р.Ю. Нюансы программной реализации методики формирования обучающего множества для задачи бинарной классификации (на примере эвристического антивирусного анализа) / Р.Ю. Демина, А.А. Честнов, А.И. Меркулова // Приоритетные задачи и стратегии развития технических наук. / Сборник научных трудов по итогам международной научно-практической конференции. - Тольятти: Эвенсис, 2017. - Выпуск II. - С. 63-66.
29. Демина, Р.Ю. Оценка вычислительной эффективности алгоритма расширенного бинарного поиска / Р.Ю. Демина, М.М. Чудинов, Н.С. Полетаев // Математические методы в технике и технологиях - ММТТ-29: сбоник трудов XXIX Международной научной конференции - Саратов: Саратовский государственный технический университет имени Гагарина Ю.А., 2016. - Том 6. -С. 135-138.
30. Денисов, Д.В. Безопасность в интернете: защита от внешних угроз / Д.В. Денисов // Прикладная информатика. - 2016. - №2. - С. 57-64.
31. Дроботун, Е.Б. Оценка степени влияния антивирусных программных средств на качество функционирования информационно-вычислительных систем / Е.Б. Дроботун, Д.В. Козлов // Программные продукты и системы. - 2016. - №4. - С. 129-134.
32. Дружков, П. Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений / П. Н. Дружков, Н. Ю. Золотых, А. Н. Половинкин // Вестник ЮУрГУю - 2011 - № 37. - С. 82-89.
33. Еременко, С.П. Классификация вредоносных программ / С.П. Еременко, А.И. Сапелкин, С.Б. Хитов // Научно-аналитический журнал вестник Санкт-Петербургского университета государственной противопожарной службы МЧС России. - 2016. - №3. - С. 55-61.
34. Жуков, Г.П. Защита информации от руткитов / Г.П. Жуков, А.А. Гудков // Информационные технологии. радиоэлектроника. Телекоммуникации. - 2015. - №5-1. - С. 264-269.
35. Исследователи сравнили антивирусы по эффективности эвристики // SecurityLab: [сайт] - URL: https://www.securitylab.ru/news/369609.php (дата обращения: 21.01.2018).
36. Кабак, И.С. Аппаратно-программный способ борьбы с компьютерными вирусами / И.С. Кабак, Н.В. Суханова, С.Г. Шептунов // Вестник Брянского государственного технического университета. - 2017. - №4. - С. 115121.
37. Казачок, А.В. Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей: специальность 05.13.19 -«Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Казачок Александр Владимирович; Академия федеральной службы охраны Российской Федерации - Воронеж, 2012. - 151 с.
38. Керниган, Б. Язык программирования C. / Б. Керниган, Д. Ритчи // - 2 издание - МОСКВА: Вильямс, 2017. - 288 с.
39. Клейнберг, Дж. Алгоритмы. Разработка и применение. / Дж. Клейнберг, Е. Тардос // - Санкт-Петербург.: Питер, 2016. - 800 с.
40. Кнут, Д. Искусство программирования. Т. 3. Сортировка и поиск. / Д. Кнут // МОСКВА: Вильямс, 2012. 824 с.
41. Кормен, Т. Алгоритмы. Построение и анализ. / Т. Кормен, Ч. Лейзерсон, Р. Ривест // - МОСКВА: Вильямс, 2016. - 1328 с.
42. Котов, В.Д. Интеллектуальная система обнаружения вредоносных интернет-страниц на основе технологий машинного обучения: специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Котов Вадим Дмитриевич; Уфимский государственный авиационный технический университет - Уфа, 2013. - 120 с. - .
43. Лафоре, Р. Объектно-ориентированное программирование в С++. / Р. Лафоре // - 4 издание - Санкт-Петербург: Питер, 2015. - 928 с.
44. Максаков, А.В. Повышение релевантности периодического тематического поиска информации в WEB: специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Максаков Алексей Владимирович; Московский государственный университет им. Ломоносова-Москва, 2007. - 117 с.
45. Мартин, Р. Чистый код: Создание, анализ и рефакторинг. / Р.Мартин // Библиотека программиста. - Санкт-Петербург: Питер, 2017. - 464 с.
46. Медведев, В.В. Возможность выработки требований к системе защиты от вредоносных программ / В.В. Медведев // Прикладная информатика. -2015. - №3. - С. 76-87.
47. Минаев, А.А. Математическая модель распространения вредоносного программного обеспечения в сетях произвольной топологии / А.А. Минаев, А.В. Целоусов // Интеллектуальный потенциал XXI века: ступени познания. - 2015. -№27. - С. 139-142.
48. Михайлов, Д.М. Разработка системы защиты мобильных устройств от вредоносного программного обеспечения / Д.М. Михайлов // ИТ-Стандарт. -2015. - №3. - С. 24-30.
49. Мустафина, Н.М. Самые опасные компьютерные вирусы / Н.М. Мустафина, А.Г. Шарафутдинов // NOVAINFO.RU. - 2016. - №47. - С. 249-253.
50. Оценка количества уникальных элементов в большом списке // Blogerator.org :[сайт] - URL: http://blogerator.org/page/ocenka-kolichestva-unikalnyh-elementov-v-bolshom-spiske-element-spiska-algoritm-sortirovki (дата обращения: 21.01.2018).
51. Потапов, А. Автоматический анализ изображений и распознавание образов. /А. Потапов // LAP Lambert Academic Publishing, 2011. - 292 с.
52. Потапов, А.С. Распознавание образов и машинное восприятие. / А.С. Потапов // СПб.: Политехника, 2007. 552 с.
53. Путин, Е.О. Классификатор для статического обнаружения компьютерных вирусов, основанный на машинном обучении / Е.О. Путин, А.В. Тимофеев// International Journal "Information Technologies & Knowledge". - 2014. -№2. - С. 103-112.
54. Развитие информационных угроз в первом квартале 2017 года. Статистика // SecureList: [сайт]. - URL: https://securelist.ru/it-threat-evolution-q1-2017-statistics/30657/ (дата обращения: 21.01.2018).
55. Семыкина, Н.А. Математическое моделирование защиты компьютерной сети с помощью динамического карантина / Н.А. Семыкина //
Современная наука: актуальные проблемы теории и практики. серия: естественные и технические науки. - 2015. - №9-10. - С. 21-23.
56. Семыкина, Н.А. Математическая модель защиты компьютерной сети от вирусов /Н.А. Семыкина, И.В. Шавыкина // Программные продукты и системы. - 2016. - №4. - С. 125-128.
57. Стивенс, P. Алгоритмы. Теория и практическое применение. / P. Стивенс // - МОСКВА: Эксмо, 2017. - 544 с.
58. Стремоухов, В.Д. Модель и метод определения авторства вредоносного кода: специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Стремухов Всеволод Дмитриевич; НИУ ИТМО-Санкт-Петербург, 2013. - 94 с.
59. Эдель, Д.А. Способ повышения эффективности средств выявления зараженных файлов на основе использования скрытых марковских моделей: специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность» диссертация на соискание степени кандидата технических наук/ Эдель Дмитрий Александрович; ФГАНУ НИИ «Спецвузавтоматика» - Pостов-на-Дону, 2013. - 157 с.
60. Явтуховский, Е.Ю. Сравнение основных видов интеллектуальных технологий для использования в антивирусных программах / Е.Ю. Явтуховский // Молодой ученый. - 2016. - №11. - С. 254-255.
61. Alam, S. MARD: A Framework for Metamorphic Malware Analysis and Real-Time Detection / S. Alam, R. Horspool, I. Traore // Advanced Information Networking and Applications (AINA). - Victoria: IEEE. - 2014. - URL: http://ieeexplore.ieee.org/abstract/document/6838703/ (дата обращения 21.01.2018г.).
62. AVTEST The Independent IT-Security Institute // AVTEST: [сайт]. -URL: https://www.av-test.org/en/ (дата обращения: 21.01.2018).
63. Bala Krishna, G. Review of Contemporary Literature on Machine Learning based Malware Analysis and Detection Strategies / G. Bala Krishna, V. Radha, K. Venugopala Rao // Global Journal of Computer Science and Technology. -
2016. -№5 -E.- URL: https: //computerresearch. org/index.php/computer/article/view/1410 (дата обращения 21.01.2018г.).
64. Brink, H. Real-World Machine Learning / H. Brink, J. Richards, M. Fetherolf // Manning Publications, 2016. - 264 p.
65. Canfora, G. Static analysis for the detection of metamorphic computer viruses using repeated-instructions counting heuristics / G. Canfora, A. N. Iannaccone, C. A. Visaggio // Journal of Computer Virology and Hacking Techniques. - 2014. -№10. - P. 11-27.
66. Chen, L. Intelligent malware detection based on file relation graphs / L. Chen, T. Li, M. Abdulhayoglu, Y. Ye // The 9th International Conference on Semantic Computing. - IEEE. - 2015. - P. 85-92.
67. Chowdhury, M. Malware Analysis and Detection Using Data Mining and Machine Learning Classification / M. Chowdhury, A. Rahman, R. Islam // International Conference on Applications and Techniques in Cyber Security and Intelligence. -
ATCI. - 2017. - P. 266-274.
68. Defining Malware: FAQ // Microsoft TechNet: [сайт] - URL: https://technet.microsoft.com/library/dd632948.aspx (дата обращения: 21.01.2018).
69. Dhammi, A. Behavior analysis of malware using machine learning / A. Dhammi, M. Singh // Eighth International Conference on Contemporary Computing (IC3).- Noida:IEEE.-2017.-URL: http://ieeexplore.ieee.org/abstract/document/7346730/ (дата обращения 21.01.2018г.).
70. Domingos, P. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World / Domingos P.// Basic Books, 2015. - 352 p.
71. Fan, Y. Malicious sequential pattern mining for automatic malware detection / Y. Fan, Y. Ye, L. Chen // Expert Systems with Applications. - 2016. - №52. -P. 16-25.
72. Fang, Y. A New Malware Classification Approach Based on Malware Dynamic Analysis / Y. Fang, B. Yu, Y. Tang, L. Liu, Z. Lu, Y. Wang, Q. Yang //Information Security and Privacy. - Auckland: ACISP. - 2017. - P. 173-189.
73. Flach, P. Machine Learning. The Art and Scince of Algorithms that Make Sense of Data. / P. Flach // Cambrige university press, 2012. - 409 p.
74. Gandotra, E. Zero-day malware detection / E. Gandotra, D. Bansal, S. Sofat // Sixth International Symposium on Embedded Computing and System Design. -
IEEE. - 2016. - P. 171 - 175.
75. Grus, J. Data Science from Scratch. / J. Grus // O'Reilly Media, 2015. -
464 p.
76. Hardware heuristic-driven binary translation-based execution analysis for return-oriented programming malware detection // Google Patents: [сайт] - URL: https://patents.google.com/patent/US20170116418A1/en (дата обращения: 21.01.2018).
77. Harrington, P. Machine Learning in Action. / P. Harrington // Manning Publications Co, 2012. - 382 p.
78. Hassen, M. Scalable function call graph-based malware classification / M. Hassen, P. Chan // CODASPY 17 / Proceedings of the Seventh ACM on Conference on Data and Application Security and Privacy. - NY: ACM, 2017. - P. 239-248.
79. Heuristic botnet detection // Google Patents: [сайт] - URL: https://patents.google.com/patent/US9762596B2/en (дата обращения: 21.01.2018).
80. Johari, A. Hierarchical density-based clustering of malware behaviour / A. Johari, C. Navein // Journal of telecommunication electronic and computer engineering. - 2017. - №2-10. - P. 151-158.
81. Kelleher, J. Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies. / J. Kelleher, B. Namee, A. Archi // The MIT Pres, 2015. - 642 p.
82. Kim, Y. A software classification scheme using binary-level characteristics for efficient software filtering / Y. Kim, S. Cho, S. Han, I. You // Soft Computing. -2018. - №22. - P. 595-606.
83. Kolter, J.Z. Learning to Detect and Classify Malicious Executables in the Wild / J.Z. Kolter, M.A. Maloof // Journal of Machine Learning Research. - 2006. -№7. - С. 2721-2744.
84. Kumar, A. A learning model to detect maliciousness of portable executable using integrated feature set / A. Kumar, K.S. Kuppusamy, G. Aghila // Journal of King Saud University - Computer and Information Sciences. - King Saud University. - 2017. - URL: https://ac.els-cdn.com/S1319157817300149/1-s2.0-S1319157817300149-main.pdf?_tid=988e8e34-01fd-11 e8-af8d-
00000aab0f01 &acdnat=1516905113_cd9a000677e 1 c9be3 f913cbd99fc330b (дата обращения 21.01.2018г.).
85. Lantz, B. Machine Learning with R - Second Edition: Expert techniques for predictive modeling to solve all your data analysis problems. / B. Lantz // - 2 ed. Packt Publishing, 2015. - 452 p.
86. Li, P. Detecting Malware Based on Opcode N-Gram and Machine Learning / P. Li, Z. Chen, B. Cui // Advances on P2P, Parallel, Grid, Cloud and Internet Computing. - Springer International Publishing. - 2017. - P. 99-110.
87. Malware Detection Method // Google Patents: [сайт] - URL: https://patents.google.com/patent/US20160112444A1/en (дата обращения: 21.01.2018).
88. Malware statistic // AVTEST: [сайт] - URL: https://www.av-test.org/en/statistics/malware/ (дата обращения: 21.01.2018).
89. Markel, Z. Building a machine learning classifier for malware detection / A. Markel, M. Bilzor //Second Workshop on Anti-malware Testing Research (WATeR). - Canterbury: IEEE. - 2014. - URL: http://ieeexplore.ieee.org/abstract/document/7015757/ (дата обращения 21.01.2018г.).
90. Marsland, S. Machine Learning: An Algorithmic Perspective. / S. Marsland // Chapman and Hall/CRC, 2014. - 457 p.
91. Menahem, E. Improving Malware Detection by Applying Multi-Inducer Ensemble / E. Menahem, A. Shabtai, Rokach L., Elovici Y. // Computational Statistics & Data Analysis Journal. - Vol. 53. - 2009. - pp 1483-1494.
92. O'Kane, P. C. Detection of obfuscated malware / P.C. O'Kane // EThOS. -2014. - URL: http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.680235 (дата обращения 21.01.2018г.).
93. Patterson, J. Deep Learning: A Practitioner's Approach. / J. Patterson, A. Gibson // O'Reilly Media, 2017. - 532 с.
94. Pechaz, B. Malware detection using hidden Markov model based on Markov blanket feature selection method / B. Pechaz, M. V. Jahan, M. Jalali // International Congress on Technology, Communication and Knowledge. - ICTCK. -2015. - P. 558 - 563.
95. Phillips, A. Machine Learning: For Absolute Beginners. The Ultimate Beginners Guide for Algorithms, Neural Networks, Random Forests and Decision Trees. / A. Phillips // Unlimited, 2017. - 98 p.
96. Raschka, S. Python Machine Learning: Machine Learning and Deep Learning with Python. / S. Raschka, V. Mirjalili // - 2 ed. Packt Publishing, 2017. - 622 p.
97. Russel, S. Artificial Intelligence: A Modern Approach. / S. Russel, P. Norvig // - 3 ed. PE, 2015. - 1164 p.
98. Saini, A. Classification of PE Files using Static Analysis / A. Saini, E. Gandotra, D. Bansal, S. Sofat // The 7th International Conference on Security of Information and Networks. - SIN. - 2014. - P. 429.
99. SecurityStronghold: Безопасность - это просто // SecurityStronghold: [сайт] - URL: https://www.securitystronghold.com/ru/ (дата обращения: 21.01.2018).
100. Seideman, J. Malware biodiversity using static analysis / J. Seideman, B. Khan, A. C. Vargas // Future Network Systems and Security / International Conference on Future Network Systems and Security. - FNSS. - 2015. - P. 139-155.
101. Sharma, A. Evolution and Detection of Polymorphic and Metamorphic Malwares: A Survey / A. Sharma, S.K. Sahay // International Journal of Computer Applications. - 2014. - №2. - P. 7-11.
102. Shijo, P.V. Integrated Static and Dynamic Analysis for Malware Detection / P.V. Shijo, A. Salim // Procedia Computer Science. - 2015. - №46. - P. 804-811.
103. Stronghold AntiMalware // SecurityStronghold: [сайт] - URL: https://www. securitystronghold.com/ru/stronghold-antimalware/ (дата обращения: 21.01.2018).
104. Tahan, G. Mal-ID: Automatic Malware Detection Using Common Segment Analysis and Meta-Features / G. Tahan , L. Rokach, Y. Shahar // Journal of Machine Learning Research. - 2012. - №13. - С. 949-979.
105. Thi Anh Le Malware detection using genetic programming / Thi Anh Le, Thi Huong Chu, Quang Uy Nguyen,; Xuan Hoai Nguyen // Computational Intelligence for Security and Defense Applications (CISDA). - Hanoi: IEEE. - 2014. - URL: http://ieeexplore.ieee.org/abstract/document/7035623/ (дата обращения 21.01.2018г.).
106. VirusTotal: сайт // URL: https: //www.virustotal .com/ru/ (дата обращения: 21.01.2018).
107. Vxheaven: сайт //URL: https://www.vxheaven.org (дата обращения:
21.01.2017).
108. Warrender, С. Detecting intrusions using system calls: alternative data models / С. Warrender, S. Forrest, B.Pearlmutter // Proceedings of the 1999 IEEE Symposium on Security and Privacy. - Oakland: IEEE, 1999. - С. 133 - 145.
109. Weka 3: Data Mining Software in Java // WEKA The University of Waikato: [сайт] - URL: https://www.cs.waikato.ac.nz/ml/weka/ (дата обращения:
21.01.2018).
110. Wuchner, T. Malware detection with quantitative data flow graphs / T. Wuchner, M. Ochoa, A. Pretschner // The 9th ACM symposium on Information, computer and communications security. - Kyoto. - 2014. - P. 271-282.
Приложение А Результаты проверки различных обучающих множеств
Таблица А.1 - Результаты проверки для обучающих множеств 0-3
№ ОМ 0 1 2 3
Лег. п-граммы/ Вир. п-граммы 0/1000 694/306 602/398 712/288
Оптимальное пороговое значение 50% 60% 35% 50%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как 1ея как у1г как как уп как 1еи как уп как 1ея как уп
1 0 100 у1г 0 64 36 1еи 1 88 12 1еи 1 0 100 уп 0
2 0 100 у1г 0 54 46 1еи 1 80 20 1еи 1 0 100 уп 0
3 1ея 0 100 у1г 0 56 44 1еи 1 66 34 1еи 1 0 100 уп 0
4 1ея 0 100 у1г 0 45 55 1еи 1 69 31 1еи 1 0 100 уп 0
5 1ея 0 100 у1г 0 53 47 1еи 1 65 35 у1г 0 0 100 уп 0
6 1ея 0 100 у1г 0 43 57 1еи 1 61 39 у1г 0 0 100 уп 0
7 1ея 0 100 у1г 0 55 45 1еи 1 68 32 1еи 1 0 100 уп 0
8 1ея 0 100 у1г 0 43 57 1еи 1 67 33 1еи 1 0 100 уп 0
9 1ея 0 100 у1г 0 58 42 1еи 1 71 29 1еи 1 0 100 уп 0
10 1ея 0 100 у1г 0 54 46 1еи 1 69 31 1еи 1 0 100 уп 0
11 1ея 0 100 у1г 0 37 63 у1г 62 38 у1г 0 0 100 уп 0
12 1ея 0 100 у1г 0 54 46 1еи 1 64 36 у1г 0 0 100 уп 0
13 1ея 0 100 у1г 0 39 61 у1г 74 26 1еи 1 0 100 уп 0
14 1ея 0 100 у1г 0 49 51 1еи 1 73 27 1еи 1 0 100 уп 0
15 1ея 0 100 у1г 0 50 50 1еи 1 66 34 1еи 1 0 100 уп 0
16 1ея 0 100 у1г 0 62 38 1еи 1 71 29 1еи 1 0 100 уп 0
17 1ея 0 100 у1г 0 43 57 1еи 1 67 33 1еи 1 0 100 уп 0
18 1ея 0 100 у1г 0 46 54 1еи 1 70 30 1еи 1 0 100 уп 0
19 1ея 0 100 у1г 0 49 51 1еи 1 91 9 1еи 1 0 100 уп 0
20 1ея 0 100 у1г 0 57 43 1еи 1 72 28 1еи 1 0 100 уп 0
21 1ея 0 100 у1г 0 55 45 1еи 1 63 37 у1г 0 0 100 уп 0
22 1ея 0 100 у1г 0 55 45 1еи 1 71 29 1еи 1 0 100 уп 0
23 1ея 0 100 у1г 0 40 60 у1г 52 48 у1г 0 0 100 уп 0
24 1ея 0 100 у1г 0 40 60 у1г 50 50 у1г 0 0 100 уп 0
25 1ея 0 100 у1г 0 54 46 1еи 1 64 36 у1г 0 0 100 уп 0
26 1ея 0 100 у1г 0 51 49 1еи 1 61 39 у1г 0 0 100 уп 0
27 1ея 0 100 у1г 0 52 48 1еи 1 66 34 1еи 1 0 100 уп 0
28 1ея 0 100 у1г 0 48 52 1еи 1 60 40 у1г 0 0 100 уп 0
29 1ея 0 100 у1г 0 27 73 у1г 0 85 15 1еи 1 0 100 уп 0
30 1ея 0 100 у1г 0 47 53 1еи 1 68 32 1еи 1 0 100 уп 0
№ ОМ 0 1 2 3
Лег. п-
граммы/ Вир. п- 0/1000 694/306 602/398 712/288
граммы
Оптимальное
пороговое 50% 60% 35% 50%
значение
№ файла Ис. Расп. п-грамм (%) Оц. 0/1 Расп. п- грамм (%) Оц. 0/1 Расп. п- грамм (%) Оц. 0/1 Расп. п-грамм (%) Оц. 0/1
как 1ей как ук как ^ как у1г как 1е£ как ук как как ук
31 0 100 у1г 0 48 52 1 70 30 1ея 1 0 100 ук 0
32 0 100 у1г 0 48 52 1 74 26 1ея 1 0 100 ук 0
33 0 100 у1г 0 48 52 1 63 37 ук 0 100 ук 0
34 0 100 у1г 0 62 38 1 70 30 1ея 1 0 100 ук 0
35 0 100 у1г 0 58 42 1 71 29 1ея 1 0 100 ук 0
36 0 100 у1г 0 54 46 1 65 35 ук 0 100 ук 0
37 0 100 у1г 0 43 57 1 63 37 ук 0 100 ук 0
38 0 100 у1г 0 57 43 1 68 32 1ея 1 0 100 ук 0
39 0 100 у1г 0 57 43 1 68 32 1ея 1 0 100 ук 0
40 0 100 у1г 0 49 51 1 52 48 ук 0 100 ук 0
41 1еи 0 100 у1г 0 56 44 1 70 30 1ея 1 0 100 ук 0
42 1еи 0 100 у1г 0 52 48 1 71 29 1ея 1 0 100 ук 0
43 0 100 у1г 0 58 42 1 72 28 1ея 1 0 100 ук 0
44 1еи 0 100 у1г 0 44 56 1 63 37 ук 0 100 ук 0
45 1еи 0 100 у1г 0 55 45 1 73 27 1ея 1 0 100 ук 0
46 1еи 0 100 у1г 0 15 85 у1г 70 30 1ея 1 0 100 ук 0
47 1еи 0 100 у1г 0 56 44 1 66 34 1ея 1 0 100 ук 0
48 0 100 у1г 0 51 49 1 58 42 ук 0 100 ук 0
49 1еи 0 100 у1г 0 52 48 1 71 29 1ея 1 0 100 ук 0
50 1еи 0 100 у1г 0 59 41 1 79 21 1ея 1 0 100 ук 0
1 у1г 0 100 у1г 1 37 63 у1г 1 76 24 1ея 0 0 100 ук 1
2 у1г 0 100 у1г 1 40 60 у1г 1 64 36 ук 1 0 100 ук 1
3 у1г 0 100 у1г 1 50 50 0 66 34 1ея 0 0 100 ук 1
4 у1г 0 100 у1г 1 60 40 0 70 30 1ея 0 0 100 ук 1
5 у1г 0 100 у1г 1 58 42 0 71 29 1ея 0 0 100 ук 1
6 у1г 0 100 у1г 1 54 46 0 70 30 1ея 0 0 100 ук 1
7 у1г 0 100 у1г 1 52 48 1еи 0 63 37 ук 1 0 100 ук 1
8 у1г 0 100 у1г 1 64 36 1еи 0 64 36 ук 1 0 100 ук 1
9 у1г 0 100 у1г 1 1 99 у1г 1 1 99 ук 1 0 100 ук 1
10 у1г 0 100 у1г 1 1 99 у1г 1 1 99 ук 1 0 100 ук 1
11 у1г 0 100 у1г 1 48 52 1еи 0 65 35 ук 1 0 100 ук 1
12 у1г 0 100 у1г 1 49 51 1еи 0 66 34 1ея 0 0 100 ук 1
13 у1г 0 100 у1г 1 40 60 у1г 1 75 25 1ея 0 0 100 ук 1
14 у1г 0 100 у1г 1 59 41 0 68 32 1ея 0 0 100 ук 1
15 у1г 0 100 у1г 1 58 42 1еи 0 66 34 1ея 0 0 100 ук 1
№ ОМ 0 1 2 3
Лег. п-граммы/ Вир. п-граммы 0/1000 694/306 602/398 712/288
Оптимальное пороговое значение 50% 60% 35% 50%
№ файла Ис. Расп. п-грамм (%) Оц. м. 0/1 Расп. п- грамм (%) Оц. м. 0/1 Расп. п- грамм (%) Оц. м. 0/1 Расп. п- грамм (%) Оц. м. 0/1
как 1ед как vir как как у1г как 1ея как у1г как 1ей как у1г
16 уи- 0 100 у1г 1 23 77 у1г 1 81 19 1еи 0 0 100 у1г 1
17 уи- 0 100 уи- 1 36 64 у1г 1 77 23 1еи 0 0 100 уи- 1
18 уи- 0 100 уи- 1 52 48 1еи 0 63 37 у1г 1 0 100 уи- 1
19 уи- 0 100 уи- 1 52 48 1еи 0 64 36 у1г 1 0 100 уи- 1
20 уи- 0 100 уи- 1 60 40 1еи 0 68 32 1еи 0 0 100 уи- 1
21 уи- 0 100 уи- 1 54 46 1еи 0 66 34 1еи 0 0 100 уи- 1
22 уи- 0 100 уи- 1 58 42 1еи 0 68 32 1еи 0 0 100 уи- 1
23 уи- 0 100 уи- 1 69 31 1еи 0 69 31 1еи 0 0 100 уи- 1
24 уи- 0 100 уи- 1 58 42 1еи 0 63 37 у1г 1 0 100 уи- 1
25 уи- 0 100 уи- 1 57 43 1еи 0 61 39 у1г 1 0 100 уи- 1
26 уи- 0 100 уи- 1 37 63 у1г 1 77 23 1еи 0 0 100 уи- 1
27 уи- 0 100 уи- 1 34 66 у1г 1 79 21 1еи 0 0 100 уи- 1
28 уи- 0 100 уи- 1 37 63 у1г 1 75 25 1еи 0 0 100 уи- 1
29 уи- 0 100 уи- 1 36 64 у1г 1 76 24 1еи 0 0 100 уи- 1
30 уи- 0 100 уи- 1 47 53 1еи 0 48 52 у1г 1 0 100 уи- 1
31 уи- 0 100 уи- 1 38 62 у1г 1 76 24 1еи 0 0 100 уи- 1
32 уи- 0 100 уи- 1 20 80 у1г 1 71 29 1еи 0 0 100 уи- 1
33 уи- 0 100 уи- 1 47 53 1еи 0 61 39 у1г 1 0 100 уи- 1
34 уи- 0 100 уи- 1 64 36 1еи 0 65 35 у1г 1 0 100 уи- 1
35 уи- 0 100 уи- 1 51 49 1еи 0 63 37 у1г 1 0 100 уи- 1
36 уи- 0 100 уи- 1 53 47 1еи 0 62 38 у1г 1 0 100 уи- 1
37 уи- 0 100 уи- 1 14 86 у1г 1 91 9 1еи 0 0 100 уи- 1
38 уи- 0 100 уи- 1 50 50 1еи 0 69 31 1еи 0 0 100 уи- 1
39 уи- 0 100 уи- 1 23 77 у1г 1 79 21 1еи 0 0 100 уи- 1
40 уи- 0 100 уи- 1 55 45 1еи 0 59 41 у1г 1 0 100 уи- 1
41 уи- 0 100 уи- 1 14 86 у1г 1 14 86 у1г 1 0 100 уи- 1
42 уи- 0 100 уи- 1 27 73 у1г 1 72 28 1еи 0 0 100 уи- 1
43 уи- 0 100 уи- 1 53 47 1еи 0 54 46 у1г 1 0 100 уи- 1
44 уи- 0 100 уи- 1 62 38 1еи 0 67 33 1еи 0 0 100 уи- 1
45 уи- 0 100 уи- 1 35 65 у1г 1 73 27 1еи 0 0 100 уи- 1
46 уи- 0 100 уи- 1 10 90 у1г 1 10 90 у1г 1 0 100 уи- 1
47 уи- 0 100 уи- 1 30 70 у1г 1 32 68 у1г 1 0 100 уи- 1
48 уи- 0 100 уи- 1 42 58 1еи 0 74 26 1еи 0 0 100 уи- 1
49 у1г 0 100 у1г 1 59 41 1еи 0 59 41 у1г 1 0 100 у1г 1
№ ОМ 0 1 2 3
Лег. я-граммы/ Вир. п-граммы 0/1000 694/306 602/398 712/288
Оптимальное пороговое значение 50% 60% 35% 50%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как 1ея как у1г как 1ея как ук как 1еи как ук как 1ея как ук
50 у1г 0 100 у1г 1 33 67 ук 1 63 37 ук 1 0 100 ук 1
Правильно распознано легитимных файлов (шт) 0 44 34 0
Правильно распознано вредоносных файлов (шт) 50 21 22 50
Таблица А.2 - Результаты проверки для обучающих множеств 4-6
№ ОМ 4 5 6
Лег. я-граммы/ Вир. я-граммы 734/266 637/363 707/293
Оптимальное пороговое значение 40% 60% 40%
№ файла Ис. м. Расп. я-грамм (%) Оц. м. 0/1 Расп. я-грамм (%) Оц. м. 0/1 Расп. я-грамм (%) Оц. м. 0/1
как leg как vir как ^ как vir как ^ как vir
1 1ея 92 8 1еи 1 50 50 1ея 1 91 9 1еи 1
2 1ея 88 12 1еи 1 48 52 1ея 1 86 14 1еи 1
3 1ея 76 24 1еи 1 38 62 ук 72 28 1еи 1
4 1ея 79 21 1еи 1 49 51 1ея 1 76 24 1еи 1
5 1ея 74 26 1еи 1 45 55 1ея 1 71 29 1еи 1
6 1ея 73 27 1еи 1 42 58 1ея 1 67 33 1еи 1
7 1ея 81 19 1еи 1 37 63 ук 78 22 1еи 1
8 1ея 77 23 1еи 1 49 51 1ея 1 73 27 1еи 1
9 1ея 81 19 1еи 1 65 35 1ея 1 80 20 1еи 1
10 1ея 79 21 1еи 1 43 57 1ея 1 76 24 1еи 1
11 1ея 75 25 1еи 1 53 47 1ея 1 71 29 1еи 1
12 1ея 75 25 1еи 1 41 59 1ея 1 74 26 1еи 1
13 1ея 82 18 1еи 1 57 43 1ея 1 79 21 1еи 1
14 1ея 72 28 1еи 1 51 49 1ея 1 69 31 1еи 1
15 1ея 76 24 1еи 1 44 56 1ея 1 72 28 1еи 1
16 1ея 79 21 1еи 1 35 65 ук 76 24 1еи 1
17 1ея 77 23 1еи 1 54 46 1ея 1 74 26 1еи 1
18 1ея 78 22 1еи 1 50 50 1ея 1 75 25 1еи 1
19 1ея 100 0 1еи 1 65 35 1ея 1 96 4 1еи 1
20 1ея 83 17 1еи 1 43 57 1ея 1 80 20 1еи 1
№ ОМ 4 5 6
Лег. п-граммы/ Вир. п-граммы 734/266 637/363 707/293
Оптимальное пороговое значение 40% 60% 40%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как ^ как vir как ^ как vir как ^ как vir
21 1ея 75 25 1ея 1 39 61 ук 0 72 28 1ея 1
22 1ея 82 18 1 48 52 1ея 1 78 22 1ея 1
23 1ея 65 35 1ея 1 53 47 1ея 1 62 38 1еи 1
24 1ея 63 37 1ея 1 51 49 1ея 1 61 39 1еи 1
25 1ея 73 27 1ея 1 34 66 ук 0 71 29 1еи 1
26 1ея 74 26 1ея 1 34 66 ук 0 69 31 1еи 1
27 1ея 74 26 1ея 1 51 49 1ея 1 72 28 1еи 1
28 1ея 73 27 1ея 1 42 58 1ея 1 69 31 1еи 1
29 1ея 90 10 1ея 1 70 30 1ея 1 88 12 1еи 1
30 1ея 78 22 1ея 1 47 53 1ея 1 75 25 1еи 1
31 1ея 78 22 1ея 1 46 54 1ея 1 76 24 1еи 1
32 1ея 81 19 1ея 1 49 51 1ея 1 79 21 1еи 1
33 1ея 74 26 1ея 1 43 57 1ея 1 69 31 1еи 1
34 1ея 79 21 1ея 1 35 65 ук 0 75 25 1еи 1
35 1ея 79 21 1ея 1 53 47 1ея 1 77 23 1еи 1
36 1ея 79 21 1ея 1 39 61 ук 0 76 24 1еи 1
37 1ея 74 26 1ея 1 45 55 1ея 1 69 31 1еи 1
38 1ея 78 22 1ея 1 38 62 ук 0 75 25 1еи 1
39 1ея 77 23 1ея 1 43 57 1ея 1 75 25 1еи 1
40 1ея 66 34 1ея 1 35 65 ук 0 64 36 1еи 1
41 1ея 80 20 1ея 1 49 51 1ея 1 77 23 1еи 1
42 1ея 79 21 1ея 1 45 55 1ея 1 76 24 1еи 1
43 1ея 80 20 1ея 1 41 59 1ея 1 78 22 1еи 1
44 1ея 73 27 1ея 1 49 51 1ея 1 70 30 1еи 1
45 1ея 82 18 1ея 1 41 59 1ея 1 80 20 1еи 1
46 1ея 77 23 1ея 1 73 27 1ея 1 76 24 1еи 1
47 1ея 78 22 1ея 1 38 62 ук 0 75 25 1еи 1
48 1ея 68 32 1ея 1 39 61 ук 0 65 35 1еи 1
49 1ея 79 21 1ея 1 45 55 1ея 1 76 24 1еи 1
50 1ея 87 13 1ея 1 41 59 1ея 1 85 15 1еи 1
1 УП" 84 16 1ея 0 56 44 1ея 0 82 18 1еи 0
2 уц- 76 24 1ея 0 45 55 1ея 0 70 30 1еи 0
3 уп- 76 24 1ея 0 45 55 1ея 0 74 26 1еи 0
4 уп- 79 21 1ея 0 38 62 ук 1 76 24 1еи 0
5 уп- 82 18 1ея 0 40 60 ук 1 80 20 1еи 0
6 уп- 82 18 1ея 0 37 63 ук 1 80 20 1еи 0
7 уп- 75 25 1ея 0 39 61 ук 1 73 27 1еи 0
8 уп- 80 20 1ея 0 36 64 ук 1 77 23 1еи 0
№ ОМ 4 5 6
Лег. п-граммы/ Вир. п-граммы 734/266 637/363 707/293
Оптимальное пороговое значение 40% 60% 40%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как ^ как vir как ^ как vir как ^ как vir
9 ун- 1 99 у1г 1 1 99 у1г 1 1 99 ук 1
10 ун- 1 99 у1г 1 1 99 ук 1 1 99 ук 1
11 ун- 75 25 1ея 0 44 56 1ея 0 72 28 1ея 0
12 ун- 76 24 1ея 0 42 58 1ея 0 72 28 1ея 0
13 ун- 84 16 1ея 0 57 43 1ея 0 82 18 1еи 0
14 ун- 79 21 1ея 0 32 68 у1г 1 74 26 1еи 0
15 ун- 76 24 1ея 0 32 68 ук 1 73 27 1еи 0
16 ун- 87 13 1ея 0 73 27 1ея 0 86 14 1еи 0
17 ун- 87 13 1ея 0 65 35 1ея 0 84 16 1еи 0
18 ун- 72 28 1ея 0 54 46 1ея 0 71 29 1еи 0
19 ун- 74 26 1ея 0 54 46 1ея 0 73 27 1еи 0
20 ун- 76 24 1ея 0 32 68 у1г 1 73 27 1еи 0
21 ун- 76 24 1ея 0 39 61 ун- 1 73 27 1еи 0
22 ун- 80 20 1ея 0 35 65 ун- 1 74 26 1еи 0
23 ун- 88 12 1ея 0 39 61 ук 1 86 14 1еи 0
24 ун- 83 17 1ея 0 48 52 1ея 0 80 20 1еи 0
25 ун- 79 21 1ея 0 32 68 ук 1 75 25 1еи 0
26 ун- 83 17 1ея 0 74 26 1ея 0 82 18 1еи 0
27 ун- 85 15 1ея 0 76 24 1ея 0 84 16 1еи 0
28 ун- 82 18 1ея 0 73 27 1ея 0 80 20 1еи 0
29 ун- 84 16 1ея 0 75 25 1ея 0 83 17 1еи 0
30 ун- 98 2 1ея 0 59 41 1ея 0 97 3 1еи 0
31 ун- 83 17 1ея 0 58 42 1ея 0 81 19 1еи 0
32 ун- 79 21 1ея 0 64 36 1ея 0 76 24 1еи 0
33 ун- 75 25 1ея 0 40 60 ук 1 67 33 1еи 0
34 ун- 84 16 1ея 0 42 58 1ея 0 82 18 1еи 0
35 ун- 75 25 1ея 0 44 56 1ея 0 72 28 1еи 0
36 ун- 78 22 1ея 0 35 65 ук 1 75 25 1еи 0
37 ун- 94 6 1ея 0 86 14 1ея 0 93 7 1еи 0
38 ун- 86 14 1ея 0 49 51 1ея 0 82 18 1еи 0
39 ун- 89 11 1ея 0 74 26 1ея 0 87 13 1еи 0
40 ун- 77 23 1ея 0 32 68 ук 1 73 27 1еи 0
41 ун- 27 73 у1г 1 25 75 ук 1 25 75 ук 1
42 ун- 81 19 1ея 0 62 38 1ея 0 79 21 1еи 0
43 ун- 77 23 1ея 0 43 57 1ея 0 74 26 1еи 0
44 ун- 84 16 1ея 0 42 58 1ея 0 81 19 1еи 0
45 ун- 87 13 1ея 0 57 43 1ея 0 83 17 1еи 0
46 ун- 97 3 1ея 0 6 94 ук 1 12 88 ук 1
№ ОМ 4 5 6
Лег. п-граммы/ Вир. п-граммы 734/266 637/363 707/293
Оптимальное пороговое значение 40% 60% 40%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как ^ как vir как ^ как vir как ^ как vir
47 УП" 41 59 у1г 1 23 77 ук 1 40 60 ук 1
48 уц- 85 15 0 58 42 1ея 0 83 17 0
49 уп- 76 24 0 33 67 ук 1 74 26 0
50 уп- 75 25 1ея 0 55 45 1ея 0 72 28 1еи 0
Правильно распознано легитимных файлов (шт) 50 38 50
Правильно распознано вредоносных файлов (шт) 4 21 5
Таблица А.3 - Результаты проверки для обучающих множеств 7-9
№ ОМ 7 8 9
Лег. п-граммы/ Вир. п-граммы 649/351 710/290 710/290
Оптимальное пороговое значение 40% 40% 40%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как ^ как vir как ^ как vir как ^ как vir
1 1ея 87 13 1еи 1 87 13 1ея 1 92 8 1еи 1
2 1ея 79 21 1еи 1 79 21 1ея 1 88 12 1еи 1
3 1ея 64 36 1еи 1 65 35 1ея 1 76 24 1еи 1
4 1ея 68 32 1еи 1 68 32 1ея 1 79 21 1еи 1
5 1ея 64 36 1еи 1 64 36 1ея 1 74 26 1еи 1
6 1ея 60 40 ук 60 40 ук 74 26 1еи 1
7 1ея 66 34 1еи 1 67 33 1ея 1 82 18 1еи 1
8 1ея 65 35 1еи 1 65 35 1ея 1 77 23 1еи 1
9 1ея 71 29 1еи 1 69 31 1ея 1 81 19 1еи 1
10 1ея 68 32 1еи 1 68 32 1ея 1 79 21 1еи 1
11 1ея 61 39 1еи 1 61 39 1ея 1 75 25 1еи 1
12 1ея 64 36 1еи 1 63 37 1ея 1 75 25 1еи 1
13 1ея 73 27 1еи 1 73 27 1ея 1 82 18 1еи 1
14 1ея 61 39 1еи 1 62 38 1ея 1 72 28 1еи 1
15 1ея 61 39 1еи 1 65 35 1ея 1 76 24 1еи 1
№ ОМ 7 8 9
Лег. п-граммы/ Вир. п-граммы 649/351 710/290 710/290
Оптимальное пороговое значение 40% 40% 40%
№ файла Ис. м. Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1 Расп. п-грамм (%) Оц. м. 0/1
как ^ как vir как ^ как vir как ^ как vir
16 1ея 69 31 1ея 1 69 31 1ея 1 79 21 1ея 1
17 1ея 65 35 1ея 1 66 34 1ея 1 77 23 1ея 1
18 1ея 68 32 1ея 1 68 32 1ея 1 78 22 1еи 1
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.