Выявление каналов компрометации персональных данных пользователей мобильных устройств на основе интеллектуальных технологий тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Изергин Дмитрий Андреевич

  • Изергин Дмитрий Андреевич
  • кандидат науккандидат наук
  • 2023, ФГБОУ ВО «Петербургский государственный университет путей сообщения Императора Александра I»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 179
Изергин Дмитрий Андреевич. Выявление каналов компрометации персональных данных пользователей мобильных устройств на основе интеллектуальных технологий: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «Петербургский государственный университет путей сообщения Императора Александра I». 2023. 179 с.

Оглавление диссертации кандидат наук Изергин Дмитрий Андреевич

ВВЕДЕНИЕ

1 АНАЛИЗ МЕТОДОВ ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ МОБИЛЬНЫХ УСТРОЙСТВ

1.1 Анализ тенденций развития современных операционных систем

1.2 Исследование текущего состояния безопасности ОС Android

1.3 Определение видов персональных данных

1.4 Исследование актуальных способов воздействия на мобильные устройства и противодействия им

1.5 Анализ существующих систем защиты мобильных устройств

1.6 Исследование путей повышения уровня защищённости персональных данных пользователя на мобильных устройствах

1.7 Формулирование цели и задач диссертационного исследования

Выводы

2 МОДЕЛИ ПРЕДСТАВЛЕНИЯ ПРИЛОЖЕНИЙ, РАЗРАБОТЧИКОВ, ПОЛЬЗОВАТЕЛЕЙ ИНФОРМАЦИОННЫХ СЕРВИСОВ И КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ

2.1 Формирование экспериментального набора легальных и вредоносных образцов приложений

2.2 Разработка теоретико-множественной модели представления мобильного приложения

2.2.1 Исследование структуры мобильных приложения

2.2.2 Выявление признаков модели представления приложений

2.2.3 Построение теоретико-множественной модели представления мобильного приложения

2.3 Формализация задачи выявления аномального изменения структуры мобильных приложений

2.4 Разработка модели представления цифрового портрета пользователя информационных сервисов

2.5 Разработка теоретико-множественной модели разработчика информационных сервисов

2.6 Разработка концептуальной модели выявления каналов компрометации

персональных данных

Выводы

3 МЕТОДЫ ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ МОБИЛЬНЫХ УСТРОЙСТВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ

3.1 Исследование признаков в мобильных приложениях различных категорий

3.1.1 Идентификация особенностей в моделях легальных мобильных приложениях

3.1.2 Идентификация аномалий в моделях представления вредоносных мобильных приложений

3.2 Разработка метода обнаружения аномального изменения структуры мобильных приложений с использованием интеллектуальных технологий

3.2.1 Снижение размерности обучающей выборки

3.2.2 Кластеризация образцов исполняемых файлов

3.2.3 Определение гиперпараметров классических методов машинного обучения для решения задачи классификации обучающей выборки

3.2.4 Разработка архитектуры нейронной сети глубокого обучения

3.3 Разработка метода определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста

3.3.1 Анализ политики конфиденциальности использования сервисов

3.3.2 Формализация задачи выявления взаимосвязанности разработчиков информационных сервисов

3.3.3 Выявление взаимосвязанности сообществ разработчиков приложений

3.4 Автоматизированное выявление взаимосвязанности сообществ

разработчиков информационных сервисов

Выводы

4 ПРОГРАММНЫЙ КОМПЛЕКС ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ МОБИЛЬНЫХ УСТРОЙСТВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ

4.1 Разработка архитектуры программно-моделирующего комплекса выявления каналов компрометации персональных данных

4.2 Разработка модуля анализа исполняемых файлов

4.3 Разработка модуля определения взаимосвязанности сообществ разработчиков

4.4 Оценка уровни выявления полноты каналов компрометации персональных данных пользователей мобильных устройств

4.5 Рекомендации по построению перспективной архитектуры программного комплекса выявления каналов компрометации персональных данных пользователей мобильных устройств с применением интеллектуальных

технологий

Выводы

ЗАКЛЮЧЕНИЕ

СПИСОК СОКРАЩЕНИЙ И УСЛОВЫХ ОБОЗНАЧЕНИЙ

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ АВТОРОМ ПО ТЕМЕ ДИССЕРТАЦИИ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А

ПРИЛОЖЕНИЕ Б

176

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Выявление каналов компрометации персональных данных пользователей мобильных устройств на основе интеллектуальных технологий»

ВВЕДЕНИЕ

Одним из главных направлений развития информационных систем является повышение эффективности сбора, обработки и обмена информацией на основе внедрения современных технологий передачи данных и автоматизированного дистанционного мониторинга и управления. Краеугольным камнем данной концепции являются мобильные устройства, обеспечивающие высокий уровень быстродействия при работе с различной информацией. Повсеместное применение такого рода устройств с целью обработки персональной и банковской информации является причиной глобального профилирования клиентов информационных сервисов. Наличие качественных цифровых портретов владельцев устройств повышает вероятность успешного проведения целевых атак со стороны злоумышленников, а легальные сервисы значительно улучшают вероятность успешных воздействий с помощью контекстной рекламы и предоставляемой для просмотра информации. Высокая полнота цифрового профиля пользователя обеспечивается вычислительными мощностями крупных компаний, развитием методов интеллектуального анализа, созданием сложных архитектур глубоких нейронных сетей и наличием больших наборов данных. Масштабный сбор информации приводит к решению обратных задач в отношении владельца устройства - прогнозирование поведения и определение личности по телеметрии устройства и обрабатываемым данным.

Большие объёмы передаваемых данных и растущее количество информационных сервисов делают вопрос обеспечения требуемого уровня защищенности пользователя на мобильных устройствах наиболее важным. Проведенный анализ современных средств защиты мобильных устройств показал, что их основное предназначение заключаются в обеспечении работоспособного состояния системы и направлены на нейтрализацию возможного вредоносного воздействия, не учитывая возможности компрометации личности владельца устройства различными приложениями, либо набором сервисов.

Таким образом, на основе проведённого анализа возможно выделить следующие противоречия:

1. В практике между потребностью в выявлении каналов компрометации персональных данных информационными сервисами на мобильных устройствах и требованиями пользователей к обеспечению защиты персональных данных.

2. В науке между потребностью в обеспечении заданной полноты выявления каналов компрометации персональных данных и несовершенством существующих методов и алгоритмов выявления каналов утечек информации.

В качестве пути разрешения противоречий в диссертационном исследовании поставлена и решена научная задача разработки методов и моделей интеллектуального выявления каналов компрометации персональных данных пользователей мобильных устройств и обеспечении требуемого уровня защищенности. Полученные результаты могут быть использованы при создании механизмов обеспечения информационной безопасности мобильных устройств.

Степень разработанности темы исследования. Проблему выявления каналов компрометации персональных данных рассматривали такие российские учёные, как: Гамаюнов Д.Ю., Гвоздика Я.М., Еремеев М.А., Зегжда Д.П., Зегжда П.Д., Корниенко А.А., Котенко И.В., Красов А.В., Молдовян Н.А., Молдовян А.А., Саенко И.Б., Петренко С.А., Ломако А.Г., Овчаров В.А., а также зарубежные учёные: Evita Bakopoulou, Milad Asgari Mehrabadi, Nattanon Wongwiwatchai, Phannawhat Pongkham, Kunwadee Sripanidkulchai, Jinhong Yang, Md Mehedi Hassan Onik, Nam Yong Lee и др.

Анализ существующих научных подходов и практических решений данной тематики в работах [24,57,59,68,73,76,80] позволил выявить, что требуется решение ряда научно-технических задач, в частности:

- создание модели представления мобильного приложения;

- выявление аномального изменения структуры мобильных приложений на основе сравнения с аналогичными приложениями из представленной категории;

- автоматизированное выявление взаимосвязанности между разработчиками информационных сервисов на основе данных из открытых источников и исполняемых файлов;

- определение полноты формируемого цифрового портрета пользователя информационными сервисами.

Для решения перечисленных задач необходимо осуществить поиск новых научно-технических решений, позволяющих обеспечивать требуемый уровень защищенности пользователя мобильных устройств. Таким образом, данное исследование является востребованным и актуальным.

Целью диссертационной работы является обеспечение требуемого уровня защищённости пользователя мобильного устройства путем повышения полноты выявления каналов компрометации персональных данных.

Задачи исследования:

1. Анализ методов выявления каналов компрометации персональных данных на мобильных устройствах.

2. Разработка модели представления мобильного приложений.

3. Разработка модели представления разработчика информационного сервиса.

4. Разработка модели формирования цифрового портрета пользователя информационными сервисами.

5. Разработка метода выявления аномального изменения структуры мобильного приложения.

6. Разработка метода определения взаимосвязанности сообществ разработчиков мобильных приложений.

7. Построение архитектуры интеллектуальной системы выявления каналов компрометации персональных данных пользователей мобильных устройств с применением интеллектуальных технологий, проведение вычислительных экспериментов с целью оценки результатов предложенных методов.

8. Разработка рекомендаций по архитектуре программного комплекса выявления каналов компрометации персональных данных пользователей мобильных устройств с применением интеллектуальных технологий.

Объектом исследования являются процессы выявления каналов компрометации персональных данных при использовании мобильных устройств.

Предметом исследования являются методы и модели выявления каналов компрометации персональных данных при использовании мобильных устройств.

Методология и методы исследования. В качестве методической и теоретической основы в данном диссертационном исследовании использовались методы: теории вероятностей и математической статистики, машинного и глубокого обучения, поиска копий и дубликатов текста.

Для создания программной реализации разработанных методов использовались языки программирования Python, NodeJS, VueJS и Kotlin.

Разработка методов обнаружения аномального изменения структуры мобильных приложений на основе интеллектуальных технологий и определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста с целью повышения полноты выявления каналов компрометации персональных данных пользователей мобильных устройств определяет научную задачу исследования.

Научная новизна полученных при решении поставленных задач результатов, заключается в следующем:

1. Теоретико-множественная модель представления мобильного приложения отличается учетом функциональных возможностей доступа к ресурсам мобильного устройства и взаимодействия с удаленной инфраструктурой.

2. Модель формирования цифрового портрета пользователя информационных сервисов отличается учетом фактора возможной агрегации персональных данных из различных приложений.

3. Метод обнаружения аномального изменения структуры мобильных приложений на основе интеллектуальных технологий отличается выбором гиперпараметров используемых методами классического машинного обучения и построением архитектуры глубокой нейронной сети, соответствующих полученным по результатам обучения максимальным значениям вероятности правильной классификации.

4. Метод определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста отличается выделением наборов признаков владельцев сервисов и учетом полученного экспериментальным путем значения коэффициента сходства текста политик конфиденциальности.

5. Архитектура программного комплекса выявления каналов компрометации персональных данных пользователей мобильных устройств с применением интеллектуальных технологий отличается полнотой учета факторов, порождающих каналы утечки данных и отраженных в моделях, алгоритмической реализацией разработанных методов и возможностью оценивания выбранных показателей качества.

Теоретическая значимость работы заключается в разработке новых элементов научно-методического аппарата в рамках теории информационной безопасности, применяемых при защите персональных данных, а именно: теоретико-множественная модель представления приложения, модель формирования цифрового портрета пользователя информационных сервисов, метод обнаружения аномального изменения структуры мобильных приложений на основе интеллектуальных технологий и метод определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста.

Практическая значимость работы заключается в возможности применения модели формирования цифрового портрета пользователя информационных сервисов для определения качества портретов пользователя. Метод обнаружения аномального изменения структуры мобильных приложений на основе интеллектуальных технологий позволяет определять степень соответствия приложения заявленной категории с вероятностью правильной классификации 0,86. Метод определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста позволил выявить из 44 210 разработчиков 1 588 сообществ для платформ Google Play и App Store соответственно. Программный комплекс выявления

каналов компрометации персональных данных пользователей мобильных устройств позволил улучшить показатель полноты обнаружения каналов компрометации в среднем на 35%.

На защиту выносятся:

1. Метод обнаружения аномального изменения структуры мобильных приложений с использованием интеллектуальных технологий - методов классического машинного и глубокого обучения с выбранными гиперпараметрами и архитектурой.

2. Метод определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста.

3. Архитектура программного комплекса интеллектуального выявления каналов компрометации персональных данных пользователей мобильных устройств.

Научная специальность и отрасль науки, которым соответствует диссертация соответствует специальности 2.3.6 - «Методы и системы защиты информации, информационная безопасность» отрасли технических наук - пп. 3, 5, 7, 9 раздела 2 «Области исследований» паспорта специальности: «Методы, модели и средства выявления, идентификации и классификации угроз нарушения информационной безопасности объектов различного вида и класса», «Методы и средства (комплексы средств) информационного противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях, включая Интернет», «Анализ рисков нарушения информационной безопасности и уязвимости процессов переработки информации в информационных системах любого вида и области применения», «Модели и методы защищенности информации и информационной безопасности объекта».

Реализация результатов работы диссертационных исследований использовались при выполнении работ по гранту ИБ (при финансовой поддержке Минобрнауки России в рамках научного проекта № 40469-18/2021-К), в учебном процессе Института кибербезопасности и цифровых технологий «МИРЭА -Российский технологический университет» (г. Москва) при организации учебных

дисциплин «Технологии разработки мобильных приложений» и «Интеллектуальные мобильные приложения» в виде методических рекомендаций по проведению лекционных, практических и лабораторных занятий, а также при создании систем система защиты в коммерческих организациях ООО «Кьювуд» и ПАО «ЦНПО «Ленинец» (приложение А).

Обоснованность и достоверность полученных результатов исследования подтверждается анализом предшествующих научных работ данной тематики, полученными данными из проведенных экспериментов, апробацией результатов в научных публикациях и докладах на конференциях, их внутренней непротиворечивостью и адекватностью физическим представлениям об исследуемом процессе.

Апробация результатов работы. Основные положения, представленные в диссертационной работе, докладывались и обсуждались на следующих конференциях:

- II Международный научный форум по компьютерным и энергетическим наукам (WFCES 2021) / Risk assessment model of compromising personal data on mobile devices (с докладом), 2021 г.;

- VIII Международная научно-практическая конференция «ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И МАШИНОСТРОЕНИЕ» (ITE2022) / Модель детектирования аномального поведения мобильных приложений (с докладом), 2022 г.;

- III Международный научный форум по компьютерным и энергетическим наукам (WFCES 2022) / Модель детектирования аномального поведения мобильных приложений (с докладом), 2022 г.;

- III Международный научный форум по компьютерным и энергетическим наукам (WFCES 2022) / Метод определения связности разработчиков мобильных приложений (с докладом), 2022 г;

- II Всероссийская научная школа-семинар «Современные тенденции развития методов и технологий защиты информации» / Метод обнаружения

каналов компрометации персональных данных на основе интеллектуальных технологий при использовании мобильных устройств (с докладом), 2022 г.

Личный вклад. Результаты диссертационной работы, выносимые на защиту, получены автором лично. Автор под руководством научного руководителя принимал личное участие в постановке задачи исследования, формулировке основных целей, разработке метода на основе интеллектуальных технологий и научно обоснованных решений по повышению полноты обнаружения каналов компрометации персональных данных пользователей мобильных устройств, а также подготовке материалов для публикации совместно с соавторами.

Публикации. Основные результаты диссертационной работы отражены в 4 печатных работах, в том числе 3 публикации в рецензируемых журналах из перечня ВАК РФ, 1 публикация в изданиях из перечня Scopus и Web of Science, четыре свидетельства о регистрации программы для ЭВМ (приложение Б).

Структура и объем диссертационной работы. Научно-квалификационная работа состоит из введения, четырех глав, заключения, списка литературы (80 источников) и списка сокращений. Общий объем работы составляет 179 страницы, в том числе 91 рисунок и 25 таблиц.

Краткое содержание работы

Во введении обоснована актуальность темы исследования, поставлена цель и определена основная научная задача. Сформулированы основные научные результаты исследований и положения, выносимые на защиту. Описана научная новизна, теоретическая и практическая значимость полученных результатов. Представлены сведения по апробациям и публикациям по теме исследований. Приведена краткая аннотация содержания диссертации по главам. Рассмотрены возможности практического применения предложенных в работе подходов и методов.

В первой главе приведены результаты анализа исследуемой области. Рассмотрены встроенные механизмы обеспечения безопасности персональных данных в мобильных операционных системах и возможности антивирусных программ. Предложена классификация пользовательских данных по атрибуту

идентификации пользователя. Проведен анализ и систематизация современных исследований в области обеспечения защиты от утечек персональных данных. В результате анализа была сформулирована проблемная ситуация и актуальная цель исследования - повышение уровня защищённости персональных данных пользователя и обнаружения наличия каналов компрометации персональных данных. Для достижения поставленной цели проведена формализация научной задачи и ее декомпозиция на частные научные задачи. Научная задача: разработка методов и моделей интеллектуального выявления каналов компрометации персональных данных пользователей мобильных устройств и обеспечении требуемого уровня защищенности. Представлены ограничения, накладываемые на диссертационные исследования.

Во второй главе представлены разработанные модели, полученные в исследовательской работе и направленные на разрешение научной задачи исследования. С целью решения задачи построения теоретико-множественной модели представления приложений, используемой в методе обнаружения аномального изменения структуры мобильных приложений, представлена схема извлечения признаков. Сформированы наиболее важные признаки, учитываемые при формировании модели представления приложения, а также программная реализация методов, определяющих возможные факты обработки и передачи персональных данных. Представлена формализация задачи выявления аномального изменения структуры мобильных приложений, модель формирования цифрового портрета пользователя информационными сервисами с учетом функциональных возможностей мобильных приложений и связности между их владельцами и теоретико-множественная модель разработчика информационных сервисов. Данная модель учитывает запрашиваемые разрешения, программных реализаций доступа к персональным данным и информацию о разработчиках.

В третьей главе представлены методы обнаружения аномального изменения структуры мобильных приложений на основе интеллектуальных технологий и определения взаимосвязанности сообществ разработчиков приложений

с применением алгоритма нечеткого поиска дубликатов текста. Представлен способ выявления корреляции между признаками приложений на примере требующихся разрешений, а также построены графы связности каждой категории, с целью выделения сообществ требуемых привилегий. Представлен результаты обучения моделей с помощью методов классического машинного и глубокого обучения. В качестве обеспечения возможности выявления фактов агрегирования информации из различных приложений представлен метод определения взаимосвязанности сообществ разработчиков и представлены результаты применения данного метода.

В четвертой главе представлена архитектура программного комплекса выявления каналов компрометации персональных данных пользователей мобильных устройств с применением интеллектуальных технологий. Рассмотрены диаграммы компонентов и последовательности модулей обнаружения аномального изменения структуры мобильных приложений и определения взаимосвязанности сообществ разработчиков приложений, реализующих разработанные методы. Проведено соответствие между группами разрешений и персональными данными пользователя с целью определения количественного показателя формируемого цифрового портрета пользователя, а также определен способ представления уровня безопасности персональных данных на мобильном устройстве. Представлены рекомендации по формированию программного комплекса, содержащие наиболее значимый комплекс знаний, полученный в результате апробации комплекса

В заключении приведены основные результаты и выводы, полученные в ходе выполнения диссертационного исследования, а также определены перспективы дальнейших исследований.

1 АНАЛИЗ МЕТОДОВ ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ МОБИЛЬНЫХ

УСТРОЙСТВ

1.1 Анализ тенденций развития современных операционных систем

За последнее десятилетие рынок информационных технологий существенно изменился. Развитие мобильных ОС, а также техническая эволюция смартфонов и планшетов привели к значительному росту популярности мобильных устройств. Количественный показатель создаваемых сервисов, ориентированных на мобильные устройства, существенно превосходит аналогичный показатель для компьютеров. Согласно отчётам рейтингового агентства Statcounter на третий квартал 2022 года общее число устройств с установленной мобильной ОС составляет более 61% (рисунок 1.1), а ОС Android является наиболее распространенной в мире с результатом 43,6 % от общего количества установленных ОС [69].

Рисунок 1.1- Диаграмма доли рынка операционных систем Среди мобильных ОС, представленных на рисунке 1.2, рынок разделён между iOS-27.8% и Android-71.5 % [66].

Рисунок 1.2 - Диаграмма доли рынка мобильных операционных систем Мобильные устройства обладают широкими техническими возможностями, что позволяет выполнять обработку разнообразных пользовательских данных, в том числе осуществлять банковские транзакции, что делает их привлекательными для вредоносного воздействия со стороны киберпреступников. В связи с наибольшей распространённостью платформы Android диссертационные исследования в области повышения уровня защищённости персональных данных пользователей мобильных устройства были ограничены данной платформой.

1.2 Исследование текущего состояния безопасности ОС Android

Корпорация Google (далее Google) и производители мобильных устройств постоянно совершенствуют систему безопасности, но открытость исходного кода и обширная фрагментация платформы делает данную систему одной из самых уязвимых для вредоносного воздействия. Главной причиной фрагментации экосистемы Android является применяемая технология при создании мобильных устройств, основанная на системе кристалл/чип (system on a chip, SoC). SoC заключается в интегрировании на одном микрочипе центрального процессора, графического ускорителя, радио-модуля и различной датчиковой аппаратуры.

Данная концепция позволяет уменьшить физический размер устройства, понизить энергопотребление и повысить производительность за счет лучшей интеграции компонентов, но для взаимодействия всей системы требуется разработка специальных драйверов. Драйвера разрабатываются производителями различных чипов на кристалле и, как правило, являются проприетарными и уникальны для каждой модели. В результате, производители мобильных устройств внедряют полученные драйвера для SoC - системы в собственную сборку, что приводит к зависимости процедур обновления программного обеспечения от производителя. На рисунке 1.3 приведен алгоритм производства мобильных устройств на базе Android. Таким образом из-за большого количества производителей чипсетов и мобильных устройств (ODM - производитель, изделия которого создаются по оригинальному проекту, OEM - производитель, детали и оборудование которого могут быть проданы другим производителям) образуется высокая степень фрагментации платформы без возможности оперативного обеспечения актуальными обновлениями мобильных устройств.

Android

Qualcomm

MediaTek

HiSilicon Kirin

NVIDIA Tegra

Broadcom

Другие

OEMn

f 10:08

Исходный код

Производители чипсетов (десятки организаций)

Производители устройств (тысячи организаций)

Мобильное устройство

Рисунок 1.3 - Алгоритм производства Android устройств

Корпорацией Google проблема высокой фрагментации устройств решалась в несколько этапов:

1. В 2014 году был представлен программно-аппаратный стандарт Android One - программа поддержки OEM-производителей, направленная на мотивирование производить устройства без модификации ОС. Целью проекта является создание возможности компании Google управлять проектированием, разработкой и поддержкой данного типа устройств, в то время как производство осуществляется производителями оригинального оборудования. Таким образом, вопросы безопасности и обновления ОС является зоной ответственности Google, что позволяет повысить уровень защищенности системы. На текущий момент наиболее крупные производители устройств не поддержали концепцию «чистой» ОС, что привело к низкой эффективности в решении вопроса фрагментации экосистемы.

2. В 2017 году в архитектуру ОС Android добавлен слой абстракции «Project Treble», позволяющий отделить слой реализации аппаратного кода от кода операционной системы [62]. Данный шаг позволяет производить обновление кода операционной системы отдельно от драйверов, но получение новых версий программного обеспечения по-прежнему зависит от производителя, что качественно не улучшает ситуацию.

3. С 2018 года производители обязаны выпускать обновления ОС в течении минимум 2 лет для всех Android - устройств, количество которых превышает 100 000. Если партнёр не выполняет данное условие возможен отказ в лицензии на использование ОС [43].

Политика Google направлена на обеспечение обновлениями устройств не старше 2-3 лет, что приводит к достаточно серьезным вопросам безопасности отрасли в целом. Соответственно, устройства старше трех лет, требуется считать потенциально уязвимыми. В таблице 1.1 приведена краткая характеристика представленных на рынке версий Android и их статус поддержки.

Таблица 1.1 - Характеристика версий Android

Название версии Номер версии Версия ядра Дата выхода

Froyo 2.2 - 2.2.3 2.6.32 2010

Gingerbread 2.3 - 2.3.7 2.6.35 2010

Honeycomb 3.0 - 3.2.6 2.6.36 2011

Ice Cream Sandwich 4.0 - 4.0.4 3.0.1 2011

Jelly Bean 4.1 - 4.3.1 3.0.31, 3.4.39 2012

KitKat 4.4 -4.4.4 3.10 2013

Lollipop 5.0 - 5.1.1 3.16 2014

Marshmallow 6.0 - 6.0.1 3.18 2015

Nougat 7.0 - 7.1.2 4.4 2016

Oreo 8.0 - 8.1 4.10 2017

Pie 9.0 4.4-p, 4.9-p, 4.14-p 2018

Android 10 10 4.9-q, 4.14-q, 4.19-q 2019

Android 11 11 4.14, 4.19, 5.4 2020

Android 12 12 4.19, 5.4, 5.10 2021

Android 13 13 5.10, 5.15 2022

неподдерживаемая поддерживаемая версия версия актуальная версия

На основе анализа поддерживаемых версий и статистики распределений версий Android, представленной на рисунке 1.4, возможно вычислить оценку вероятности нахождения устройства в уязвимом состоянии на каждый год за последние 9 лет в условиях, при которых производители выполняют обновления устройств в течении трёх лет [44] по следующей формуле:

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Изергин Дмитрий Андреевич, 2023 год

Источник данных

Признаки

F

Кортеж разработчиков

V 3

Цифровой портрет

»

Отправка данных Извлечение признаков

Кодирование

Формирование портрета

{[PackageNamei,..., PackageName^] : Uappl,...,appn > • • • » [PackageNamen+1,..., PackageNamen+2] : Uappn+x,...,appn+2}}

Система принятия решения

Рисунок 2.20 - Концептуальная модель выявления каналов компрометации

персональных данных

Концептуальную модель возможно декомпозировать по функциональному признаку. В результате, задача повышения полноты выявления каналов компрометации персональных данных решается с помощью итеративного подхода, состоящего из трёх этапов. На первом этапе производится сравнительный анализ модели представления приложения с эталонной моделью определённой категории на основе методов машинного обучения с целью выявления аномального изменения структуры. Входными данными для интеллектуальной системы является модель представления мобильного приложения (формула 2.18). Результатом выполнения этапа является показатель соответствия категориям в диапазоне от 0 до 1 и количественный показатель объёма собираемой персональной информации приложением. На втором этапе производится определение взаимосвязанности сообществ разработчиков приложений, установленных на мобильное устройство. Результатом выполнения второго этапа является цифровой портрет пользователя информационными сервисами с учётом фактов агрегации данных. В результате выполнения третьего этапа производится определение полноты выявления каналов компрометации персональных данных в заданной конфигурации на основе результатов первого и второго этапа.

Выводы

Данная глава содержит следующие научные результаты:

1. С целью построения эталонов моделей представления приложений определённых категорий и дальнейшего проведения эксперимента сформирован набор легальных и вредоносных образцов приложений. Произведена категоризация исполняемых файлов.

2. Разработана теоретико-множественная модель представления приложения, позволяющая каждый образец приложения представить в качестве точки п-мерного пространства действительных чисел. Новизна представленной модели заключается в учете дополнительных наборов признаков, отличающихся от выделенных в работах [24, 47, 78, 80], таких как:

- структура исполняемого файла;

- информация о разработчике;

- извлечённые идентификаторы, позволяющие связывать сетевую инфраструктуру разработчиков и платёжные системы;

- программная реализация доступа к ресурсам мобильного устройства.

- программная реализацию методов взаимодействия с удаленной инфраструктурой.

3. Представлена формализованная запись задачи выявления аномального изменения структуры мобильных приложений в заявленных категориях.

4. Разработана теоретико-множественная модель разработчика информационных сервисов, отличающаяся учетом дополнительных наборов признаков, нерассмотренных в работе [68]: контактная информация со страницы каждого приложения и данные из пользовательского соглашения.

5. Сформировано 16-ть логических групп на основе 74-х разрешений из механизма безопасности по типу защищаемых данных. Проведено соответствие между группами разрешений и персональными данными пользователя с целью определения количественного показателя формируемого цифрового портрета пользователя.

6. Впервые предложена модель формирования цифрового портрета пользователя информационными сервисами, отличающаяся от существующих учётом фактов агрегации информации разработчиками различных приложений.

3 МЕТОДЫ ВЫЯВЛЕНИЯ КАНАЛОВ КОМПРОМЕТАЦИИ

ПЕРСОНАЛЬНЫХ ДАННЫХ ПОЛЬЗОВАТЕЛЕЙ МОБИЛЬНЫХ УСТРОЙСТВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ

В данной главе описывается решение частных научных задач: разработка методов обнаружения каналов утечек персональных данных при использовании мобильных устройств и определения взаимосвязанности сообществ разработчиков приложений с применением алгоритма нечеткого поиска дубликатов текста. Представленные в главе 2 модели представления приложений, разработчиков, пользователей информационных сервисов формируют набор знаний об устройстве пользователя, предназначенные для использования в методах. Разработка методов выявления каналов компрометации персональных данных пользователей мобильных устройств включает в себя решение следующие задачи:

- выявление особенностей в образцах исполняемых файлов;

- выполнение мероприятий по кластеризации наиболее схожих категорий с целью снижения количества классифицируемых категорий;

- проведение этапа обучения интеллектуальной системы с выявлением наиболее точной модели;

- определение вероятности соответствия образцов приложений выделенным классам;

- создание сообществ приложений на основе образцов приложений из различных категорий с целью снижения количества классов;

- определение полноты каналов утечек персональных данных.

- формирование и нормализация набора признаков разработчиков;

- исследование методов нечеткого поиска дубликатов текста;

- разработка метода определения взаимосвязанности сообществ разработчиков;

3.1 Исследование признаков в мобильных приложениях

различных категорий

Этап исследования особенностей в приложениях предназначен для определения возможности выявления аномального изменения структуры в исследуемых образцах.

3.1.1 Идентификация особенностей в моделях легальных мобильных приложениях

В качестве примера, с целью выявления типовых признаков приложений определенной категории был выбран признак «разрешение». В таблице 3.1 представлены вероятностные показатели наиболее распространённых разрешений в различных категориях. Названия столбцов соответствует названию категории приложения, а строки - выделенным на рисунке 2.13 значениям требуемых разрешений. Для определения аномального набора привилегий в определенной категории были проанализированы приложения соответствующих типов и на основе относительной частоты использования разрешения определены

вероятностные значения: Ш(р) = , где Р) = {0,1} - наличие определенного

типа разрешения в исследуемом приложении, п - количество приложений в категории. Отдельными цветами выделены наиболее часто используемые разрешения в изучаемой категории (красный - вероятность выше 0,5; желтый -от 0,3 до 0,5).

Таблица 3.1 - Вероятности использования выделенных разрешений в различных категориях приложений

Сокр ащ ённый идентификатор разрешения ART AND _DESIGN AUTO AND _VEHICLES BEAUTY BOOKS AND _REFERENCE BUSINESS COMICS COMMUNIC. DATING EDUCATION ENTERTAINM. EVENTS FINANCE FOOD AND _DRINK GAME_ACTION

access_coarse_location 0.116 0.545 0.181 0.145 0.433 0.139 0.369 0.484 0.194 0.178 0.35 0.341 0.505 0.105

access_fme_location 0.101 0.58 0.201 0.134 0.496 0.135 0.416 0.612 0.208 0.189 0.377 0.384 0.599 0.066

access_network_state 0.957 0.935 0.98 0.944 0.927 0.966 0.937 0.987 0.932 0.952 0.919 0.934 0.95 0.966

access_wifi_state 0.376 0.479 0.368 0.358 0.412 0.419 0.474 0.558 0.305 0.396 0.318 0.365 0.411 0.547

billing 0.232 0.194 0.125 0.176 0.086 0.426 0.185 0.595 0.192 0.152 0.085 0.086 0.09 0.709

camem 0.175 0.305 0.315 0.072 0.494 0.091 0.428 0.569 0.207 0.164 0.445 0.492 0.351 0.04

get_accounts 0.064 0.1 0.091 0.085 0.241 0.132 0.321 0.233 0.155 0.136 0.096 0.198 0.155 0.09

internet 0.981 0.982 0.998 0.99 0.992 0.993 0.987 1.0 0.987 0.99 0.99 0.987 0.998 0.997

iead_contacts 0.013 0.057 0.042 0.019 0.17 0.017 0.363 0.062 0.056 0.038 0.107 0.227 0.054 0.01

read_extemal_storage 0.461 0.442 0.453 0.254 0.554 0.48 0.545 0.665 0.386 0.344 0.47 0.428 0.427 0.274

iead_phone_state 0.119 0.295 0.134 0.117 0.344 0.209 0.415 0.278 0.217 0.223 0.179 0.353 0.242 0.201

receive_boot_completed 0.242 0.276 0.275 0.216 0.292 0.27 0.482 0.336 0.273 0.276 0.355 0.249 0.314 0.179

iecoid_andio 0.046 0.109 0.056 0.034 0.165 0.041 0.369 0.361 0.149 0.107 0.064 0.083 0.072 0.044

wake_lock 0.698 0.773 0.713 0.59 0.728 0.709 0.826 0.926 0.691 0.693 0.746 0.694 0.816 0.615

write_extemal_stoiage 0.801 0.683 0.748 0.519 0.8 0.709 0.749 0.858 0.605 0.664 0.672 0.697 0.62 0.505

writE_settings 0.122 0.161 0.215 0.072 0.169 0.152 0.27 0.302 0.124 0.18 0.242 0.126 0.193 0.095

Сокращённый идентификатор разрешения GAME _ADVENTURE GAME_ARCADE GAME_BOARD GAME_CARD GAME_CASINO GAME_CASUAL GAME _EDUCATIONAL GAME_MUSIC GAME_PUZZLE GAME_RACING GAME ROLE P LAYING GAME _SIMULATION GAME_SPORTS GAME _STRATEGY

access_network_state 0.951 0.944 0.951 0.958 0.984 0.964 0.896 0.985 0.964 0.984 0.951 0.972 0.977 0.967

access_wifi_statE 0.498 0.37 0.392 0.499 0.753 0.469 0.398 0.432 0.413 0.46 0.616 0.493 0.553 0.629

billing 0.597 0.483 0.534 0.6 0.818 0.498 0.455 0.549 0.538 0.694 0.844 0.678 0.735 0.827

internet 0.995 0.989 0.985 0.99 1.0 0.992 0.994 1.0 0.987 0.998 0.984 0.995 0.995 1.0

read_external_storage 0.331 0.209 0.274 0.344 0.429 0.288 0.227 0.35 0.193 0.277 0.371 0.304 0.321 0.363

read_phone_state 0.205 0.18 0.21 0.242 0.429 0.229 0.159 0.15 0.175 0.196 0.203 0.182 0.224 0.253

receive_boot_completed 0.179 0.083 0.175 0.198 0.315 0.149 0.083 0.199 0.161 0.175 0.194 0.179 0.202 0.202

wake_lock 0.681 0.544 0.737 0.751 0.843 0.628 0.618 0.718 0.63 0.636 0.773 0.653 0.737 0.73

write_external_storage 0.522 0.442 0.47 0.538 0.708 0.555 0.435 0.551 0.424 0.521 0.599 0.561 0.514 0.612

Сокращённый идентификатор разрешения GAME _TRIVIA GAME _WORD HEALTH AND FITN ESS HOUSE_AND_HOME LIBRARIES _AND_DEMO LIFESTYLE MAPS AND _NAVIGATION MUSIC_AND_AUDIO NEWS AND MAGAZINES PERSONALIZATION PHOTOGRAPHY PRODUCTIVITY SHOPPING SOCIAL

access_coarse_location 0.195 0.118 0.319 0.444 0.17 0.376 0.727 0.165 0.279 0.116 0.182 0.302 0.485 0.419

access_fine_location 0.168 0.087 0.389 0.494 0.184 0.427 0.868 0.165 0.283 0.111 0.191 0.326 0.571 0.47

access_network_state 0.982 0.984 0.932 0.958 0.824 0.959 0.939 0.953 0.972 0.953 0.953 0.9 0.951 0.957

access_wifi_state 0.424 0.501 0.337 0.514 0.352 0.447 0.442 0.458 0.471 0.482 0.418 0.348 0.453 0.457

billing 0.514 0.673 0.272 0.119 0.089 0.134 0.172 0.152 0.272 0.149 0.297 0.217 0.037 0.26

camera 0.063 0.026 0.325 0.4 0.21 0.298 0.275 0.072 0.136 0.088 0.549 0.353 0.527 0.484

internet 0.995 1.0 0.982 0.991 0.931 0.992 0.995 0.987 1.0 0.968 0.974 0.963 0.999 0.996

read_external_storage 0.308 0.314 0.42 0.464 0.38 0.404 0.394 0.371 0.412 0.414 0.727 0.487 0.549 0.623

read_phone_state 0.147 0.171 0.221 0.22 0.159 0.295 0.287 0.365 0.233 0.224 0.164 0.253 0.299 0.359

receive_boot_completed 0.199 0.224 0.45 0.33 0.216 0.343 0.295 0.282 0.376 0.419 0.246 0.353 0.387 0.386

iecoid_audio 0.024 0.03 0.107 0.18 0.104 0.1 0.099 0.207 0.065 0.035 0.159 0.139 0.095 0.314

wake_lock 0.757 0.803 0.779 0.788 0.568 0.777 0.733 0.8 0.859 0.654 0.71 0.684 0.863 0.837

write_extemal_storage 0.524 0.458 0.632 0.679 0.597 0.721 0.682 0.645 0.75 0.709 0.974 0.737 0.76 0.854

Сокращённый идентификатор разрешения SPORTS TOOLS TRAVEL _AND_LOCAL VIDEO _PLAYERS WEATHER

access_coarse_location 0.33 0.264 0.64 0.165 0.63

access_fine_location 0.365 0.278 0.75 0.149 0.84

access_network_state 0.946 0.88 0.95 0.953 0.97

access_wifi_state 0.399 0.389 0.49 0.574 0.52

billing 0.255 0.215 0.16 0.338 0.31

internet 0.993 0.938 0.997 0.991 0.999

read_external_storage 0.385 0.404 0.449 0.683 0.317

receive_boot_completed 0.323 0.307 0.307 0.335 0.581

wake_lock 0.802 0.65 0.773 0.847 0.8

write_external_storage 0.678 0.62 0.75 0.909 0.515

Анализ таблицы 3.1 позволил выявить наиболее используемые разрешения среди всех категорий: интернет, запись на внешнюю карту памяти (следовательно, получение доступа к общим файлам), механизм управления состоянием устройства (режим сна). Таким образом данные разрешения практически не будут влиять на выявление аномальной структуры исполняемых файлов по причине их применения во всех категориях. Однако, для примера, разрешение «record_audio» часто применяется всего в трех категориях, что может являться маркером безопасности. В соответствии с рисунком 2.13 и таблицей 3.1 возможно связать ICP и PII, составляющие цифровой портрет пользователя (таблица 3.2).

Таблица 3.2 - Вероятности использования ICP и PII в различных категориях приложений

Сокращённый идентификатор разрешения ART AND _DESIGN AUTO AND _VEHICLES BEAUTY D E S3 w OF OE M «, BUSINESS COMICS COMMUNICAT ION DATING EDUCATION ENTERTAINM ENT EVENTS FINANCE FOOD AND _DRINK GAME _ACTION

ФИО в аккаунтах устройств 0.1 0.174 0.13 0.128 0.384 0.247 0.608 0.312 0.234 0.188 0.143 0.31 0.239 0.121

S Домашний адрес из аккаунтов или приложений 0.1 0.174 0.13 0.128 0.384 0.247 0.608 0.312 0.234 0.188 0.143 0.31 0.239 0.121

Сокращённый идентификатор разрешения ART AND _DESIGN AUTO AND _VEHICLES BEAUTY D E $ H OF OE M «, BUSINESS COMICS COMMUNICAT ION DATING EDUCATION ENTERTAINM ENT EVENTS FINANCE FOOD AND _DRINK GAME _ACTION

Паспортные данные в приложениях или фотографиях 0.905 0.857 0.881 0.689 0.947 0.889 0.956 0.968 0.817 0.823 0.855 0.883 0.837 0.685

Отпечаток пальца 0.0 0.028 0.002 0.003 0.028 0.003 0.03 0.019 0.004 0.002 0.01 0.091 0.011 0.0

Сведения о радужной оболочке глаза 0.175 0.305 0.315 0.072 0.494 0.091 0.428 0.569 0.207 0.164 0.445 0.492 0.351 0.04

Сведения о банковских картах 0.308 0.334 0.239 0.281 0.437 0.567 0.68 0.722 0.381 0.312 0.215 0.37 0.307 0.744

ICP Номер телефона 0.208 0.419 0.247 0.23 0.597 0.404 0.777 0.504 0.4 0.369 0.297 0.554 0.423 0.297

Различные сообщения 0.895 0.837 0.863 0.646 0.919 0.853 0.922 0.954 0.766 0.784 0.834 0.849 0.79 0.643

Медиаданные 0.917 0.893 0.912 0.681 0.963 0.871 0.96 0.987 0.839 0.838 0.912 0.921 0.871 0.671

Геолокационные данные 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

Р- адрес 1.0 0.999 1.0 1.0 1.0 1.0 1.0 1.0 0.999 1.0 0.999 1.0 1.0 1.0

Учётные записи в приложениях 0.1 0.174 0.13 0.128 0.384 0.247 0.608 0.312 0.234 0.188 0.143 0.31 0.239 0.121

Показатели здоровья 0.025 0.068 0.032 0.023 0.088 0.007 0.072 0.047 0.058 0.027 0.14 0.038 0.064 0.013

Образование, работа и т.д. 0.106 0.197 0.149 0.143 0.425 0.247 0.625 0.324 0.272 0.2 0.253 0.327 0.263 0.124

Список контактов 0.022 0.072 0.064 0.032 0.231 0.017 0.495 0.073 0.07 0.051 0.169 0.257 0.06 0.01

Список вызовов 0.022 0.153 0.057 0.021 0.197 0.01 0.348 0.032 0.067 0.035 0.083 0.175 0.118 0.002

Для наиболее точного нахождения коррелирующих свойств объектов

в исследуемых категориях на основе сгенерированных тензоров на примере ТРегт (из формулы 2.15), формируется корреляционная матрица, позволяющая отобразить взаимосвязь между требуемыми разрешениями в интересующей категории. Мерой корреляции является матрица коэффициентов произведения моментов Пирсона. В качестве примера выполняется вычисление индекса корреляции между каждым разрешением для определенной категории:

г _ Т.1=1(Х1-Х)(У1-У)

ХУ ^Ъ-ф^СУгУ)2' (3Л)

где п - количество образцов приложений в определённой категории, хп,Уп - индивидуальные точки выборки, соответствующие вероятностям применения запрашиваемых разрешений в определённой категории из таблицы 3.1,

х = # £!=1 х) - среднее значение вероятности использования разрешения

_ 1

х в исследуемой категории, у = ^ Е!=1 Уь - среднее значение вероятности

использования разрешения у в исследуемой категории.

Таким образом, формируется тепловая карта, содержащая показатель корреляции для каждого значения атрибута. На рисунке 3.1 представлен пример карты с наиболее часто используемыми разрешениями категории «Знакомства».

access_background_location access_coa rse_l ocati on access_fine_location access_gps

s_location_extra_

access_mediaJocatl access_network_state access_wifi_stati activlty_reeognitioi authenticate_accounts|

bluetooth bluetooth admin call_phone

read_contacts read external storage read_internal_storage read_pbone_state read_profile receive_boot_completed receive_sms record audio send_sma use_blometrld use_credentials wake_lock write_calendar write_contacts| write_e*temal_storage wrlte_internal_storage write settings

Рисунок 3.1- Корреляционная тепловая карта требуемых разрешений категории

«Знакомства»

Для обеспечения большей наглядности в результате экспериментальных наблюдений значения показателя корреляции менее 0,4 не принимались

во внимание и были установлены в нулевое значение. Стоит отметить высокую степень зависимости между разрешениями «location_hardware» и «access_gps», означающую в случаях определения конкретной геозоны пользователя будет присутствовать функционал получения координат через спутники. Справа от тепловой карты находится цветовая шкала с соответствующими значениями меры корреляции исследуемых разрешений

В дополнение к определению показателей корреляции формируется граф связности, с целью выделения наиболее характерных групп значений характеристик для определенных категорий приложений. Данная цель достигается путем сравнения внутрикластерной плотности исходного графа с ожидаемой плотностью в нулевой модели (не обладающей структурой сообществ), называемой модульностью:

Q= -Рц'с.), (3.2)

где т - показатель количества рёбер в графе, А - матрица смежности графа, содержащая индикаторы наличия соединения между вершинами (разрешениями) I и }, А). - наличие связи между вершинами Ь и }, Р). - ожидаемое число рёбер между вершинами (разрешениями) £ и ] в графе, не имеющему структуру сообществ (в качестве нулевой модели применяется модель Ньюмана - Гирвана):

Рц = —, (3.3)

2т' 4 у

где й), — степень £ и / вершин, т.е. сумма значений в каждом ряде

(1, С) = С;

^Но, С) * ^ , (34)

где С), С;- - номер сообщества (группы, кластера), к которому принадлежит вершина i, j.

Выделение групп признаков реализовано с помощью алгоритма Блонделя. Данный алгоритм находит разбиение больших графов с высокой степенью модулярности за короткое время. Данный алгоритм разделен на два этапа, повторяющихся итеративно. На первом этапе каждый узел определяется как отдельная группа. Далее для каждого узла i рассматриваются соседние узлы j

с целью определения возможного увеличения показателя модулярности при исключении i из собственного сообщества и добавлении в сообщество вершины j. Таким образом, достигается максимальное положительное увеличение значения модулярности за счёт включения узла i в сообщество. При снижении показателя вершина i остается в исходном сообществе. В результате, для каждой вершины графа будет определено соответствующее сообщество. На втором этапе алгоритма строится новый граф, вершинами которого будут сообщества, выбранные на этапе идентификации. Размер узла устанавливается в зависимости от количества ссылок, и каждому цвету соответствует выделенное сообщество. На рисунке 3.2 представлен пример построенного графа требуемых разрешений категории «Знакомства».

Рисунок 3.2- Граф требуемых разрешений категории «Dating»

В таблице 3.3 представлены характеристики построенных графов для оставшихся категорий.

Таблица 3.3 - Характеристики графов PII - разрешений

Категория Кол-во узлов Кол-во рёбер Пороговое значение Модуляр ность Кол-во сообществ

ART_AND_DESIGN 40 612 0.7 0,409 8

AUTO_AND_VEHICLES 54 1005 0.3 0.458 17

BEAUTY 38 519 0.3 0.474 10

BOOKS_AND_REFERENCE 45 688 0.25 0.446 12

BUSINESS 60 1283 0.3 0.728 31

COMICS 34 442 0.3 0.502 7

COMMUNICATION 60 1375 0.3 0.351 7

DATING 39 575 0.3 0.598 7

EDUCATION 51 876 0.3 0.754 9

ENTERTAINMENT 49 814 0.25 0.805 10

EVENTS 45 612 0.28 0.711 7

FINANCE 56 1033 0.3 0.79 11

FOOD_AND_DRINK 50 810 0.25 0.707 6

HEALTH_AND_FITNESS 56 1067 0.28 0.515 5

HOUSE_AND_HOME 48 721 0.3 0.711 7

LIBRARIES_AND_DEMO 40 493 0.3 0.658 6

LIFESTYLE 60 1119 0.3 0.841 11

MAPS_AND_NAVIGATION 52 958 0.3 0.762 9

MEDICAL 52 820 0.3 0.811 10

MUSIC_AND_AUDIO 49 726 0.3 0.841 10

NEWS_AND_MAGAZINES 44 594 0.25 0.874 11

PARENTING 51 939 0.3 0.527 6

PERSONALIZATION 63 1547 0.35 0.432 6

PHOTOGRAPHY 48 758 0.3 0.768 10

PRODUCTIVITY 65 1474 0.3 0.742 8

SHOPPING 50 869 0.3 0.852 11

SOCIAL 59 1263 0.32 0.655 6

SPORTS 46 711 0.3 0.724 7

TOOLS 67 1881 0.32 0.641 6

TRAVEL_AND_LOCAL 56 1001 0.32 0.872 11

VIDEO_PLAYERS 54 1086 0.3 0.293 4

WEATHER 45 590 0.3 0.706 6

В таблице 3.3 значение количество узлов определяет количество уникальных

разрешений в изучаемой категории, а количество рёбер - количество корреляций между узлами не равные нулю. Выбор порогового значения корреляции для каждой категории производился экспериментальным путём для наиболее наглядного отображения графов на рисунке. Значение модулярности вычисляется по формуле 3.2. Стоит отметить, что чем выше количественный показатель выделенных сообществ в категории, тем более разнообразная структура приложений, что

в дальнейшем учитывается при определении соответствия заявленной категории приложения. На основе выделенных сообществ возможно отметить, что наибольшее количество разноплановых приложений имеются в категориях «BUSINESS» и «AUTO_AND_VEHICLES» 31 и 17 сообществ соответственно, что может привести к наименьшей точности определения соответствия изучаемого приложения модели категории. Стоит отметить, более выраженный набор привилегий у категорий VIDEO_PLAYERS и HEALTH_AND_FITNESS - 4 и 5 сообществ соответственно, что позволяет более точно выявлять аномальность поведения.

3.1.2 Идентификация аномалий в моделях представления вредоносных

мобильных приложений

На основе полученных образцов вредоносного программного обеспечения в пункте 2.1 удалось сформировать 11 категорий. В связи с отсутствием большого количества классифицированных образцов ВПО, был дополнительно произведен анализ не категорированных приложений относительно года обнаружения.

Таблица 3.4 - Вероятности использования выделенных разрешений в категориях вредоносных приложений

m ЧО 90 о ГЧ о ГЧ

E G ® ГЧ О ГЧ ® ГЧ О ГЧ ® ГЧ T

Сокращённый £ D A N I T _ _ _ _ _ _ S 2

идентификатор разрешения Й N A B О B WAL i L A M i L A M i L A M i L A M i L A M s S H о O R

access_coarse_location 0.511 0.128 0.294 0.301 0.333 0.946 0.524 0.461 0.27 0.085 0.059

access_fine_location 0.475 0.123 0.297 0.32 0.421 0.949 0.499 0.285 0.314 0.089 0.706

access_location_extra_co mmands 0.147 0.008 0.025 0.025 0.053 0.901 0.238 0.033 0.07 0.022 0.0

access_network_state 0.996 0.762 0.997 0.929 0.982 0.996 0.867 0.959 0.939 0.417 0.824

access_wifi_state 0.891 0.499 0.703 0.413 0.632 0.985 0.697 0.532 0.852 0.076 0.735

billing 0.004 0.015 0.003 0.189 0.456 0.004 0.03 0.005 0.096 0.0 0.0

bluetooth 0.06 0.022 0.008 0.08 0.123 0.018 0.085 0.097 0.276 0.037 0.618

bluetooth_admin 0.052 0.018 0.0 0.043 0.035 0.011 0.058 0.036 0.023 0.005 0.588

call_phone 0.058 0.537 0.966 0.096 0.123 0.915 0.31 0.232 0.265 0.179 0.059

camera 0.05 0.116 0.271 0.219 0.193 0.516 0.206 0.16 0.244 0.044 0.588

m ЧО 90 о гч

О ГЧ 1 ГЧ ГЧ ГЧ ГЧ ГЧ H

Сокращённый z M H СЛ 2

идентификатор разрешения £ о < Й Z < ой О 0й | n -J < ж n -J < ж n -J < ж n -J < ж n -J < ж S СЛ H о о ей

change_netwoik_state 0.076 0.247 0.254 0.053 0.053 0.94 0.464 0.214 0.265 0.137 0.088

change_wifi_state 0.325 0.382 0.251 0.087 0.105 0.948 0.53 0.392 0.564 0.067 0.735

get_accounts 0.029 0.1 0.008 0.427 0.491 0.931 0.322 0.176 0.247 0.147 0.588

get_tasks 0.714 0.578 0.04 0.176 0.246 0.963 0.582 0.356 0.483 0.015 0.706

internet 1.0 0.977 1.0 0.979 0.982 0.999 0.98 0.99 0.988 0.979 0.941

modify_phone_state 0.032 0.152 0.268 0.016 0.035 0.004 0.036 0.102 0.142 0.019 0.588

read_contacts 0.079 0.617 0.96 0.151 0.211 0.023 0.277 0.331 0.256 0.202 0.147

read_extemal_stoiage 0.229 0.085 0.008 0.18 0.316 0.956 0.519 0.361 0.558 0.05 0.059

read_intemal_stoiage 0.0 0.0 0.0 0.005 0.0 0.884 0.148 0.025 0.055 0.0 0.0

iead_phone_state 0.997 0.956 0.992 0.425 0.456 0.989 0.852 0.595 0.898 0.927 0.882

read_sms 0.092 0.689 0.989 0.039 0.053 0.933 0.507 0.356 0.474 0.611 0.088

receive_boot_completed 0.353 0.718 0.969 0.253 0.351 0.935 0.561 0.499 0.776 0.322 0.794

receive_mms 0.01 0.038 0.0 0.005 0.0 0.907 0.251 0.076 0.198 0.002 0.0

receive_sms 0.06 0.821 0.986 0.034 0.105 0.933 0.539 0.354 0.506 0.857 0.088

send_sms 0.062 0.792 0.96 0.025 0.07 0.936 0.566 0.293 0.52 0.991 0.147

wake_lock 0.424 0.527 0.743 0.5 0.754 0.57 0.597 0.435 0.852 0.468 0.765

write_apn_setting 0.025 0.037 0.698 0.002 0.0 0.885 0.149 0.076 0.067 0.001 0.647

write_contacts 0.019 0.26 0.944 0.046 0.07 0.014 0.077 0.117 0.055 0.02 0.118

write_exlemal_stoiage 0.994 0.748 0.322 0.772 0.789 0.992 0.882 0.936 0.927 0.755 0.382

write_intemal_stoiage 0.001 0.0 0.0 0.016 0.018 0.883 0.15 0.023 0.058 0.007 0.0

write_secure_settings 0.011 0.036 0.0 0.002 0.0 0.884 0.114 0.023 0.076 0.1 0.588

write_settings 0.12 0.321 0.271 0.112 0.14 0.931 0.428 0.224 0.201 0.303 0.735

write_sms 0.056 0.52 0.958 0.021 0.035 0.922 0.417 0.132 0.401 0.125 0.059

Анализ таблицы 3.4 показывает, что практически все исследуемые образцы требуют наличие интернета, считывание идентификаторов устройства, запись на карту памяти (соответственно чтение общих файлов), сбор информации о состоянии WiFi сетей и управление спящим режимом мобильного устройства. Также стоит обратить внимание на факт того, что количество запросов на сбор информации о точном местоположении устройства (access_fine_location) снизилось с 0,95 до 0,3. В соответствии с рисунком 2.13 таблицу 3.4 возможно связать с ICP и PII, составляющие цифровой портрет пользователя (таблица 3.5).

Таблица 3.5 - Вероятности использования PII с ICP в различных категориях вредоносных приложений

1 0 90 1 0 9\ 1 0 0 2 0

Сокращённый идентификатор разрешения ADWARE О Z 2 z BOT 2015 2016 W L W L W L W L SMS ROOTKIT

ФИО в аккаунтах устройств 0.039 0.254 0.017 0.579 0.702 0.932 0.43 0.272 0.29 0.153 0.588

Домашний адрес из аккаунтов или приложений 0.039 0.254 0.017 0.579 0.702 0.932 0.43 0.272 0.29 0.153 0.588

S Паспортные данные в приложениях или фотографиях 0.996 0.828 0.339 0.923 0.958 1 0.977 0.972 0.98 0.804 0.761

Отпечаток пальца 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

Сведения о радужной оболочке глаза 0.05 0.116 0.271 0.219 0.193 0.516 0.206 0.16 0.244 0.044 0.588

Сведения о банковских каргах 0.043 0.265 0.02 0.658 0.838 0.933 0.447 0.276 0.358 0.153 0.588

Номер телефона 0.997 0.972 0.994 0.761 0.844 0.999 0.919 0.735 0.938 0.939 0.98

Различные сообщения 0.997 0.999 1.0 0.838 0.892 1.0 0.998 0.991 0.998 1.0 0.612

Медиаданные 0.996 0.811 0.646 0.872 0.9 1.0 0.971 0.972 0.983 0.784 0.768

Геолокационные данные 1.0 0.999 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.993 1.0

ICP 1Р - адрес 1.0 0.999 1.0 0.999 1.0 1.0 1.0 1.0 1.0 0.991 1.0

Учётные записи в приложениях 0.039 0.254 0.017 0.579 0.702 0.932 0.43 0.272 0.29 0.153 0.588

Показатели здоровья 0.004 0.015 0.0 0.052 0.086 0.11 0.075 0.035 0.009 0.007 0.029

Образование, работа и т.д. 0.043 0.26 0.017 0.591 0.718 0.933 0.446 0.285 0.292 0.159 0.588

Список контактов 0.097 0.716 0.998 0.189 0.266 0.037 0.332 0.409 0.297 0.218 0.247

Список вызовов 0.07 0.625 0.966 0.137 0.168 0.917 0.447 0.436 0.323 0.192 0.059

В таблице 3.5 во всех имеющихся категориях отмечается высокий показатель

использования разрешений, направленных на получение информации о паспортных данных или фотографиях, номере телефона, СМС-сообщениях, медиаданных, геолокационных данных и 1Р-адресе пользователя.

В таблице 3.6 приведены характеристики сформированных графов ВПО.

Таблица 3.6 - Характеристики графов PII - разрешений

Категория Кол-во узлов Кол-во рёбер Min вес ребра Взвешенная мощность Модулярность Кол-во сообществ

Adware 47 725 0.3 1.5 0.629 6

Banking 53 1075 0.3 1.8 0.303 4

Bot 33 352 0.3 2.3 0.577 3

malware_2015 50 869 0.3 2.1 0.317 5

malware_2016 40 557 0.3 2.1 0.379 4

malware_2017 58 918 0.3 2.4 0.371 2

malware_2018 59 1369 0.3 2.28 0.472 2

Категория Кол-во узлов Кол-во рёбер Min вес ребра Взвешенная мощность Модулярность Кол-во сообществ

malware_2019 57 1224 0.3 2.1 0.36 3

malware_2020 54 1116 0.3 2.23 0.554 3

SMS 46 607 0.3 1.88 0.436 4

Rootkit 31 313 0.3 2.2 0.287 2

Стоит отметить небольшое количество выделенных сообществ в построенных графах, что говорит о ярко выраженном портрете вредоносных приложений. На рисунках 3.3-3.4 представлен пример корреляционной карты и графа категории «Bot».

Рисунок 3.3 - Тепловая карта разрешений Рисунок 3.4 - Граф разрешений категории «Bot» категории «Bot»

Таким образом, анализ исследуемых приложений показал, что каждая категория обладает характерным набором признаков, позволяющим выявлять аномальные структуры исследуемых приложений в заявленных категориях.

3.2 Разработка метода обнаружения аномального изменения структуры мобильных приложений с использованием интеллектуальных технологий

Технологии машинного обучения направлены на выявление правил решения задач обработки данных. Для применения методов машинного обучения используются три составляющих:

- контрольные входные данные, предназначенные для классификации или распознавания какого-либо объекта или класса. В рамках исследования используется модель представления мобильного приложения, описанная в п. 2.2.3;

- примеры ожидаемых результатов, к которым относится метка категории, заявленная разработчиком приложения;

- оценка качества работы алгоритма, требующаяся для определения показателя отклонения от значений, возвращаемых алгоритмом. Данная оценка используется в качестве сигнала обратной связи для корректировки работы алгоритма обучением интеллектуальной системы.

Решение задачи обнаружения аномального изменения структуры мобильных приложений и определения соответствия типичной модели категории основана на применении нейросетевых классификаторов и глубокого обучения. Решаемые с помощью машинного обучения задачи классифицируют по следующему принципу:

1. Задача регрессии. На основе выборки объектов с различными признаками производится прогноз значений вещественного числа, например прогнозируемое число выявленных уязвимостей в мобильных устройствах в будущем.

2. Задача классификации. Определение категориального ответа с конечным количеством ответов на основе набора признаков: относится ли объект к определенному типу и т.д.

3. Задача кластеризации. Производится разбиение множества объектов на несколько групп, для выявления наиболее схожих. Например, при наличии большого количества классов возможно их объединение с целью снижение количественного показателя по общим признакам.

4. Задача уменьшения размерности заключается в снижении количества признаков с целью возможного проведения визуализации (например, сжатие данных) или обучения другой модели машинного обучения.

5. Задача выявления аномалий предназначена для выявления случаев, отличных от стандартных, т.е. детектирование выбросов или новизны. Целевое назначение задачи совпадает с задачами классификации, однако аномалии

являются редким явлением, т.е. обучающих выборок, на которых возможно проводить обучение модели, недостаточно, соответственно методы классификации здесь не эффективны. Примером таких задач является: выявление подозрительных банковских операций, обнаружение вторжений, медицинская диагностика и т.д.

Запуск процесса обучения подразумевает настройку параметров или гиперпараметров алгоритмов машинного обучения перед процессом обучения. В различных методах машинного обучения к гиперпараметрам относятся:

1. Нейронные сети: коэффициент крутизны активационной функции, количественный показатель скрытых слоев, нейронов и эпох обучения, коэффициент скорости обучения, предельные значения уровня ошибок, блокирующих дальнейшее обучение.

2. «Деревья решений»: показатель максимальной глубины дерева, минимальное количество деление выборки и образцов на один лист, максимальное количество функций.

3. Методы кластеризации: число формируемых кластеров, стартовый радиус обучения, показатель скорости обучения.

4. Логистическая регрессия: параметр штрафования или неверной классификации, алгоритм обучения, функция регуляризации.

5. Ассоциативные правила: показатели уровня поддержки и достоверности правил.

Для выполнения задачи обучения модели по имеющемуся набору данных использовалась вычислительная мощность облачного сервиса Yandex DataSphere. Программная реализация производилась в Jupyter Notebook. В результате отбора только категорированных экземпляров приложений был сформирован набор данных размером 2 931 x 67 360 (количество признаков на количество приложений, рисунок 3.5).

1 all_df.info()

<class 1 pandas.core.frame.DataFrame'> Int64Index: 65298 entries, 0 to 67359 Columns: 2931 entries, activities to icp dtypes: float64(2), int64(2920), object(9) memory usage: 1.4+ GB

Рисунок 3.5 - Размер набора данных

Выявление аномального поведения приложений в каждой категории требует наличие модели каждой категории. На рисунке 3.6 представлен список всех извлеченных значений категорий в количестве 49 единиц.

[7] 1 y_all = all_df[ 'category' ] 2 y_all.unique()

array(['HOUSE_AND_HOME', 'AUTO_AND_VEHICLES', 'WEATHER',

'MAPS_AND_NAVIGATION' , 'SHOPPING', ' NEWS_AND_MAGAZINES ' , ' PARENTING ' , ' BEAUTY ' , ' TRAVEL_AND_LOCAL ' , ' MUSIC_AND_AUDIO ' , 'HEALTH_AND_FITNESS', 'PRODUCTIVITY', 'ART_AND_DESIGN', 'SOCIAL', 'VIDEO_PLAYERS', 'PERSONALIZATION', 'PHOTOGRAPHY', 'LIBRARIES_AND_DEMO', 'LIFESTYLE', 'TOOLS', 'SPORTS', 'MEDICAL', 'BOOKS_AND_REFERENCE', 'BUSINESS', 'COMMUNICATION', 'EDUCATION', 'GAME_ACTION', 'DATING', 'ENTERTAINMENT', 'GAME_ARCADE', 'FINANCE' 'FOOD_AND_DRINK', 'COMICS', 'GAME_ADVENTURE', 'EVENTS', ' GAME_BOARD' , ' GAME_CARD ' , ' GAME_CASUAL ' , ' GAME_CAS INO ' , ' GAME_EDUCATIONAL ' , ' GAME_MUSIC ' , ' GAME_PUZZLE ' , ' GAME_RACING' , ' GAME_ROLE_PLAYING' , ' GAME_S IMUL AT I ON' , ' GAME_SPORTS ' , 'GAME STRATEGY', 'GAME TRIVIA', 'GAME WORD'], dtype=object)

Рисунок 3.6 - Типы категорий легальных приложений

Оценка качества результатов применяемых классификаторов основывалось на использовании матрицы ошибок. Данная матрица является показателем качества классификации и содержит четыре характеристики:

1. Истинно позитивное предсказание (True Positive, сокр. TP). Верно определена категория приложения.

2. Истинно отрицательное предсказание (True Negative, TN). Верно определено несоответствие категории приложения.

3. Ложноположительное предсказание (ошибка типа I, False Positive, FN). Определена категория приложения, однако она не соответствует типу приложению.

4. Ложноотрицательное предсказание (ошибка типа II, False Negative, FN). Определено, что приложение вредоносное, однако это неверно.

Метрика «accuracy» предоставляет информацию об общем проценте правильных ответов:

. TP+TN

Accuracy =-, (3.5)

J TP+TN+FP+FN v '

где TP - истинно позитивное предсказание; TN - истинно отрицательное предсказание; FP - ложноположительное предсказание; FN - ложноотрицательное предсказание.

Стоит отметить, что данную метрику требуется использовать в контексте количественного баланса классов. Более показательными критериями являются

точность (Precision) и полнота (Recall). Критерий точности «Precision» определяет количество действительно положительных объектов:

TP

Precision =-, (3.6)

TP+FP v '

где TP - истинно позитивное предсказание; FP - ложноположительное предсказание.

Полнота «Recall» отображает положительную часть объектов:

TP

Recall =-TT—, (3.7)

TP+FN v '

где TP - истинно позитивное предсказание; FN - ложноотрицательное предсказание.

Метрика «fl-мера» является гармоническим средним значением полноты и точности. Оценка f1 рассчитывается по следующей формуле

= ( x(Precision х Recall) (3 g)

Precision + Recall '

где Precision - количество действительно положительных объектов; Recall - показатель положительной части объектов.

Метрика «support» показатель количества выборок истинного ответа, которое лежит в каждом классе целевых значений.

3.2.1 Снижение размерности обучающей выборки

Большая размерность имеющегося набора данных требовала высоких вычислительных мощностей. Сокращение количества признаков с целью решения оптимизационной задачи достигалось с помощью применения метода линейного снижения размерности пространства признаков РСА (англ. principal component analysis), который преобразует набор коррелирующих признаков в число некоррелированных переменных, называемых главными компонентами, сохраняя наибольшую дисперсию в исходном наборе данных. В первую очередь определяется показатель ковариации между значениями по отношению друг к другу от среднего. На основе этих данных формируется ковариационная матрица (Covariance Matrix). Выявление коэффициентов линейной парной корреляции рассчитывалось согласно формуле Пирсона:

г =

(3.9)

I [п Е, к2 - СЕ, к,)2] [п Е, у,2-СЕ, уО2]

где п - число уровней в ряду; ^ - уровень ряда X; у) - уровень ряда Y

Функционирования РСА подразумевает разложение многомерного набора признаков на набор последовательных ортогональных (главных) компонентов, объясняющие большую часть дисперсии. Главная компонента является новой сформированной переменной, состоящей из набора исходных признаков. Эти комбинации выполняются таким образом, что новые переменные (то есть главные компоненты) не коррелированы, и большая часть информации в исходных переменных помещается в первых компонентах. Объясненная дисперсия - главная статистическая мера того, насколько большое изменение в наборе данных может быть отнесено к каждому из главных компонентов (собственных векторов), сгенерированных методом РСА. Таким образом, чем больше дисперсия, объясняемая основным компонентом, тем важнее этот компонент. На рисунке 3.7 представлены значения объясненной дисперсии в зависимости от количества компонент.

5 1.0 о.

Ф с и X

Ч 0.8 в: та I

1 Ф

х 0.6 и

к ^

ю о

а: 0.4 га х с

>4

2 0.2 о

и

500 1000 1500 2000 Количество признаков

2500

3000

Рисунок 3.7 - График объяснённой дисперсии сгенерированных компонент Анализ 90, 95 и 99 процентов объяснённой дисперсии приведены на рисунке

3.8.

if п_сотропеп!5= 128, уаг1апсе=90.000000

if п_сотропеп!5= 239, уаг1апсе=95.020000

if п_сотропеп15= 809, уаг1апсе=99.000000

Рисунок 3.8 - Значения объяснённой дисперсии при количестве используемых

компонент

На рисунке 3.9 представлены значения совокупной объясненной дисперсии и индивидуальной у первых 239 компонент.

10° *

X

и

и

С

и

I 10-1 :

I-

г

V

з

£ ю-2 ■

о

'X

ъ г

X

и

5 Ю"3 1

о: Р Ю

О

0 50 100 150 200 250

Индекс компонента

Рисунок 3.9 - График объяснённой дисперсии для 239 компонент В качестве примера на рисунке 3.10 представлен график объяснённой дисперсии для первых десяти компонент, объясняющих 0.48% дисперсии.

Совокупная объясненная дисперсия Объясненный коэффициент дисперсии

О 0.176694 0.176694

1 0.257632 0.080937

2 0.300733 0.043102

3 0.339047 0.038313

4 0.366581 0.027534

Б 0.392556 0.025975

6 0.414422 0.021866

7 0.432694 0.018272

8 0.450718 0.018024

9 0.467231 0.016514

10 0.482177 0.014945

Рисунок 3.10 - График объяснённой дисперсии для первых десяти компонент На основе проведенного исследования выяснилось, что использование РСА для перехода от 2 921 к 239 компонентам позволяет объяснить 95% дисперсии данных. Оставшиеся 2 682 компонентов объясняют менее 5% дисперсии, что возможно исключить из обучающего набора данных.

1 Совокупная объясненная дисперсия Индивидуальная объясненная дисперсия

II III II || НШШши

3.2.2 Кластеризация образцов исполняемых файлов

Проведенные исследования показали, что модели представлений различных категорий достаточно схожи по структуре. Основное предназначение кластерного анализа заключается в формировании групп объектов или кластеров таким образом, чтобы внутри объекты были наиболее схожие по какому-либо критерию друг с другом. Стоит отметить, что количество экземпляров каждой категории значительно отличаются и для формирования сбалансированного обучающего набора применялся алгоритм балансировки классов SMOTE (Synthetic Minority Oversampling Technique) [77].

В первую очередь производилось обучение сети на неразмеченных данных, т.е. не учитывается категориальная принадлежность исследуемого файла. После формирования кластеров вычислялась наибольшая степень сходства между различными категориями с целью снижения количества меток. В данном исследовании применяется метод К-средних. Масштаб значений признаков в данном алгоритме является одним из определяющих факторов. Каждый элемент признака приложения стандартизуется по формуле:

^¿,станд. _ , (3.10)

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.