Доказуемая устойчивость нейронных сетей тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Паутов Михаил Александрович

  • Паутов Михаил Александрович
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 128
Паутов Михаил Александрович. Доказуемая устойчивость нейронных сетей: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2024. 128 с.

Оглавление диссертации кандидат наук Паутов Михаил Александрович

Введение

Глава 1. Состязательная атака на системы распознавания лиц

1.1 Введение

1.2 Суть состязательной атаки на системы распознавания лиц

1.3 Связанные работы

1.4 Метод физической атаки на системы распознавания лиц

1.4.1 Проективное преобразование и рисунок шахматной доски

1.5 Функция потерь и генерация состязательного патча

1.6 Эксперименты

1.6.1 Предобработка данных

1.6.2 Технические детали экспериментов

1.6.3 Локализация состязательных стикеров

1.6.4 Состязательный патч в форме наклейки на нос

1.7 Результаты

1.8 Выводы

Глава 2. Вероятностная сертификация нейронных сетей

2.1 Введение

2.2 Основные сведения

2.3 Метод вероятностной сертификации

2.3.1 Устойчивость нейронной сети и теория больших отклонений

2.3.2 Оценка хвоста распределения

2.3.3 Способы обучения модели

2.4 Эксперименты

2.4.1 Параметры экспериментов и вычислительная сложность

2.4.2 Рассмотренные преобразования

2.4.3 Иллюстрация протокола оценки

2.4.4 Сравнение с доверительными интервалами Клоппера-Пирсона

2.5 Выводы

Глава 3. Сертификация прототипических нейронных сетей к

аддитивным возмущениям

3.1 Введение

3.2 Постановка задачи

3.2.1 Условные обозначения

3.2.2 Обучение на малом количестве тренировочных примеров

3.3 Случайное сглаживание

3.3.1 Необходимые сведения

3.3.2 Случайное сглаживание для векторных функций

3.4 Протокол сертификации

3.4.1 Оценка предсказания сглаженного классификатора

3.4.2 Границы применимости метода

3.5 Эксперименты

3.5.1 Наборы данных

3.5.2 Технические детали экспериментов и вычислительная сложность метода

3.5.3 Результаты экспериментов

3.6 Ограничения предложенного метода

3.6.1 Оценка ошибки алгоритмов

3.6.2 Отказ алгоритмов от классификации

3.7 Выводы

Глава 4. Устойчивые водяные знаки для нейронных сетей

4.1 Введение

4.2 Обзор литературы

4.3 Постановка задачи

4.3.1 Цифровой водяной знак на основе набора триггеров

4.3.2 Атаки, направленные на кражу функциональности модели

4.4 Предложенный метод

4.4.1 Создание триггерного набора

4.4.2 Верификация набора триггеров

4.5 Эксперименты

4.5.1 Постановка экспериментов

4.5.2 Результаты экспериментов

4.6 Обсуждение результатов

4.6.1 Переносимость поведения на верифицировнном триггерном наборе на суррогатные модели

4.6.2 Достоверность предложенного метода

4.7 Выводы

Заключение

Список литературы

Список рисунков

Список таблиц

Приложение А. Вероятностная сертификация нейронных сетей

Приложение Б. Сертификация прототипических нейронных

сетей

Б.1 Доказательства

Б.2 Дополнительные эксперименты

Б.2.1 Распределение необходимого числа реализаций

случайного шума

Б.2.2 Эмпирическая устойчивость и эффект аугментации данных116 Б.2.3 Атака на сглаженную модель: РОБМ уэ РОЭ

Приложение В. Устойчивые водяные знаки для нейронных сетей

В.1 Другие виды атак, направленные на кражу функциональности и

снижение эффективности водяных знаков

В.1.1 Прунинг

В.1.2 Дообучение модели

В.2 Границы применимости предложенного метода

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Доказуемая устойчивость нейронных сетей»

Введение

Актуальность темы. Алгоритмы на основе нейронных сетей в последнее время достигли огромного успеха в решении практических задач из области компьютерного зрения. В задачах классификации изображений [1], сегментации [2], обнаружения [3] и локализации [4] объектов точность таких алгоритмов зачастую сравнима с точностью человека. Благодаря этому преимуществу они используются в беспилотных автомобилях [5], медицинской диагностике [6], компьютерной безопасности [7] и многих других приложениях. К сожалению, такое преимущество достигается за счет вычислительных затрат на обучение, численной нестабильности и уязвимости к различным видам возмущений входных данных. Некоторое время назад было обнаружено [8], что даже малая окрестность правильно классифицированного изображения заполнена (состязательными) изображениями, которые, хотя и неотличимы от исходного изображения, классифицируются нейронной сетью неправильно. Благодаря этому открытию был сформулирован важный вопрос: как можно проверить правильность предсказания нейронной сети, когда ее входные данные подвергаются преобразованию, не меняющему их семантику (например, добавлению шума ограниченной нормы или повороту изображения на несколько градусов)?

На данный момент в литературе по глубокому обучению предложено множество способов эксплуатации уязвимости нейронных сетей к незначительным изменениям входных данных [9—12]. Как следствие, появилось множество подходов, позволяющих сделать нейронные сети эмпирически более устойчивыми к таким возмущениям [13—15]. Такие методы, хотя и усложняют поиск преобразования входного сигнала, приводящего к неправильной работе нейронной сети, не дают гарантий корректного поведения последней в условии наличия различных преобразований входных данных. Чтобы заполнить этот пробел, появилась новая область теоретического глубокого обучения, названная доказуемой устойчивостью. Целью работ в этой области является предоставление гарантий того, что заданная нейронная сеть доказуемо устойчива к определенному типу преобразований входных данных, например, аддитивным возмущениям [16].

В таких приложениях нейронных сетей, как беспилотные автомобили и медицинская диагностика, достоверность предсказаний алгоритмов не менее

важна, чем точность. Например, если алгоритм компьютерного зрения обнаруживает пешехода и при дневном свете, и ночью, недостаточно доверить ему управление автомобилем: разработчик должен предоставить гарантии того, что пешеход будет обнаружен в разных условиях освещения и погоды.

С практической точки зрения кажется, что обеспечение таких гарантий - неразрешимая задача: требуется гарантировать устойчивость к несчетному множеству преобразованию входных данных. Тем не менее, возможно сформулировать гарантии устойчивости, используя математические свойства нейронной сети.

В области доказуемой устойчивости гарантии корректности поведения нейронных сетей часто обходятся дорогой ценой: либо корректность поведения последних доказывается в очень узком смысле, либо приводит к значительному снижению производительности сертифицированной сети. В связи с этим представляется актуальным разработка методов сертификации к широкому классу входных возмущений, таких, которые не оказывают сильного влияния на производительность моделей. Разработка и интеграция таких методов ведет к расширению спектра практических задач, решение которых можно доверить нейронным сетям.

Степень разработанности темы. Феномен уязвимости нейронных сетей к незначительным (аддитивным) возмущениям во входных данных впервые был описан в работах [8; 17].

В задаче классификации изображений было продемонстрировано, что добавление к правильно классифицируемому нейронной сетью / : ^ [1,... , К] объекту х возмущения, связанного с градиентом используемой при обучении классификатора функции потерь J, часто приводит к неправильной классификации полученного объекта. Именно,

/ (х) = / (х + 6), (1)

где

6 = £з1§п (Ух3(в,х,у)) (2)

при небольшом £. Добавки из уравнения (2) получили название состязательных возмущений. В дальнейших работах [9; 11; 18—20] были предложены различные

методы построения состязательных возмущений, в том числе, когда потенциальному злоумышленнику недоступно вычисление градиентов нейронной сети. Стоит отметить, что эксплуатация подобных уязвимостей нейронных сетей в физической области является существенно более сложной задачей, но, в то же время, представляющей настоящую угрозу безопасности, например, в таких задачах как распознавание лиц и детекция объектов.

Одни из первых результатов в задаче предоставления гарантий устойчивости классификационных нейронных сетей были описаны в работах [16; 21]. Используемые в данных работах алгоритмы основываются на подходе, называемом случайное сглаживание. Случайное сглаживание заключается в замене исходной модели / ее суррогатом, определенным как

д(х) = Е^с^/)/ (х + е). (3)

В указанных и дальнейших работах показана липшицевость сглаженной функции из уравнения (3) в случае ограниченности скалярной функции /. Данный подход получил развитие в работах [22; 23], где продемонстрирована липшицевость сглаженных моделей по параметру разрешимых преобразований [22].

Среди методов детектирования и противодействия атакам, направленным на кражу функциональности нейронных сетей, наиболее широко представлены подходы, основанные на встраивании цифровых водяных знаков [24]. Важно отметить, что встраивание таких знаков непосредственно в веса нейронной сети обладает серьезным недостатком: часто даже небольшое изменение (весов) модели может привести к потере водяного знака [25]. В последнее время наиболее эффективными методами являются те, что основаны на создании триггерного набора - определенного множества ^ = {(хг,уг)}г-=1, объектам которого модель / ставит в соответствие определенные (индикаторные) предсказания. Данные методы работают в предположении о том, что совпадение предсказаний некоторой подозрительной модели с предсказаниями модели / на наборе данных ^ является индикатором того, модель есть функциональная копия модели /.

Одним из способов создания триггерного множества может быть наложение текста на изображение с последующим присваиванием полученному объекту метки, отличной от корректной [26]. Важно, что такой подход требует дополнительного обучения исходной модели на новых данных, что, вероятно, может привести к снижению качества модели на исходных данных. Набор триггеров должен быть скрыт от потенциального злоумышленника, поскольку тот

может использовать его для того, чтобы добиться от суррогатной модели /' такого же поведения на нем, как и у исходной модели / [27]. Существуют и другие методы подтверждения права собственности, помимо использования цифровых водяных знаков. Существуют подходы, основывающиеся на наблюдении, что расстояние от тренировочных данных до границы принятия решения в среднем больше, чем от тестовых данных: отдельный классификатор может быть обучен для определения принадлежности того или иного объекта к обучающей выборке [28]. В работах [29; 30] состязательные примеры используются в качестве объектов триггерного множества. Стоит отметить, что водяные знаки, нанесенные описанными методами, часто оказываются неустойчивыми к атакам, направленным на кражу функциональности.

Данная работа посвящена проблемам устойчивости и конфиденциальности классификационных нейронных сетей.

Целью данной работы является разработка подходов к обеспечению надежности и конфиденциальности нейронных сетей без заметного снижения производительности последних.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Продемонстрировать уязвимости алгоритмов на основе нейронных сетей в наиболее распространенных практических приложениях.

2. Разработать метод вероятностной сертификации нейронных сетей к возмущениям входных данных произвольного типа.

3. Разработать метод сертификации прототипических нейронных сетей к аддитивным возмущениям ограниченной нормы.

4. Разработать метод на основе водяных знаков для определения кражи нейронной сети, развернутой в условиях "черного ящика".

Научная новизна:

1. Разработан градиентный метод генерации состязательных патчей для оценки уязвимости моделей распознавания лиц в физической области в реальном времени.

2. Разработан метод вероятностной сертификации нейронных сетей к произвольным возмущениям входных данных.

3. Разработан метод сертификации прототипических нейронных сетей к аддитивным преобразованиям входных данных ограниченной нормы в задаче обучения на малом количестве тренировочных примеров.

4. Разработан метод создания устойчивых водяных знаков для определения кражи нейронной сети, развернутой в условиях "черного ящика".

Теоретическая и практическая значимость. В работе предложен метод оценки вероятности больших уклонений ограниченной случайной величины на основе модификации неравенства Чернова-Крамера и продемонстрирована липшицевость сглаженных вектор-функций, параметризуемых прототипиче-скими нейронными сетями. Разработаны следующие методы тестирования устойчивости, сертификации и защиты приватности нейронных сетей:

1. Подход к созданию состязательных патчей, приводящих к некорректной работе нейронной сети в задаче распознавания лиц в реальном времени.

2. CC-Cert, метод вероятностной сертификации нейронных сетей к возмущениям входных данных произвольной природы.

3. Smoothed Embeddings, метод сертификации прототипических нейронных сетей к аддитивным преобразованиям входных данных ограниченной нормы в задаче обучения на малом количестве тренировочных примеров.

4. Метод создания устойчивых водяных знаков для определения кражи нейронной сети, развернутой в условиях "черного ящика".

Методология и методы исследования. Результаты диссертации были получены с использованием методов и моделей, применяемых при сертификации нейронных сетей к преобразованиям входных данных. Математическую основу данной работы составляют теория вероятностей, математическая статистика, линейная алгебра и математический анализ.

Основные положения, выносимые на защиту:

1. Градиентный подход к построению состязательных патчей, демонстрирующих уязвимость систем распознавания лиц в реальном времени в физической области.

2. Вероятностный подход к проверке устойчивости нейронных сетей к входным возмущениям произвольного типа без снижения производительности нейронной сети.

3. Подход к сертификации прототипических нейронных сетей к аддитивным преобразованиям входных данных ограниченной нормы в задаче обучения на малом количестве тренировочных примеров.

4. Метод генерации цифровых водяных знаков в качестве индикатора кражи нейронных сетей без ущерба для производительности исходной модели.

Достоверность результатов диссертации. Научные результаты, описанные в данной работе, являются математическими утверждениями, сопровождаемыми строгими доказательствами. Эффективность представленных в работе методов тестирования устойчивости, сертификации и защиты приватности нейронных сетей подтверждена экспериментально.

Апробация работы. Результаты работы докладывались на конференциях:

1. International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Октябрь, 2019. Тема: "On Adversarial Patches: Real-World Attack on ArcFace-100 Face Recognition System".

2. The Thirty-Sixth AAAI Conference on Artificial Intelligence, Февраль, 2022. Тема: "CC-Cert: A probabilistic approach to certify general robustness of neural networks".

3. The Thirty-sixth Annual Conference on Neural Information Processing Systems, Декабрь, 2022. Тема: "Smoothed Embeddings for Certified Few-Shot Learning".

4. Conference Fall into ML, Ноябрь, 2022. Тема: "Smoothed Embeddings for Certified Few-Shot Learning".

5. ISP RAS Open Conference, Декабрь, 2022. Тема: "Smoothed Embeddings for Certified Few-Shot Learning".

6. AIRI Seminar AIschnitsa, Декабрь, 2022. Тема: "Smoothed Embeddings for Certified Few-Shot Learning".

7. The 33rd International Joint Conference on Artificial Intelligence, Чеджу, Южная Корея, Август, 2024. Тема: "Probabilistically Robust Watermarking of Neural Networks".

Личный вклад. Вклад автора в исследования, описанные в данной диссертации, заключается в следующем:

1. В статье "On Adversarial Patches: Real-World Attack on ArcFace-100 Face Recognition System" [31] автор реализовал численную процедуру генерации состязательных патчей, приводящих к некорректным предсказаниям системы распознавания лиц в физической области в реальном времени. Автор провел эксперименты по оценке переноса пат-

чей из цифровой области в физическую, а также по интерпретации полученных результатов. Вместе с соавторами автор подготовил текст статьи.

2. В работе "CC-Cert: A probabilistic approach to certify general robustness of neural networks" [32] автор предложил подход к сертификации нейронных сетей к композициям преобразований в вероятностной постановке. Автором сформулированы и доказаны все теоретические результаты, а именно вероятностные гарантии на корректность предсказания нейронной сети при наличии определенных входных преобразований. Автор также разработал методику оценки предложенного метода, провел эксперименты и интерпретировал их результаты. Совместно с соавторами автор подготовил текст статьи.

3. В работе "Smoothed Embeddings for Certified Few-Shot Learning" [33] автор предложил подход к сертификации прототипических нейронных сетей к аддитивным возмущениям ограниченной нормы. Автор сформулировал и доказал теоретический результат, а именно детерминированную гарантию правильности предсказания нейронной сети при наличии аддитивных преобразований входного сигнала. Автор также разработал методику оценки предложенного подхода и участвовал в проведении экспериментов. Автор подготовил текст статьи и все его правки.

4. В препринте "Probabilistically Robust Watermarking of Neural Networks" [34] автор предложил методику генерации надежных цифровых водяных знаков для защиты нейронных сетей от атак, направленных на кражу функциональности. Автор разработал экспериментальную методику для оценки предложенного подхода и вместе с соавторами подготовил текст статьи.

Публикации.

Основные результаты по теме диссертации изложены в следующих работах:

1. Mikhail Pautov, Nurislam Tursynbek, Marina Munkhoeva, Nikita Muravev, Aleksandr Petiushko, Ivan Oseledets. "CC-Cert: A probabilistic approach to certify general robustness of neural networks" [32]. Работа опубликована в Proceedings of the AAAI Conference on Artificial Intelligence (Том 36, No. 7, стр. 7975-7983, 2022; рейтинг CORE A*).

2. Mikhail Pautov, Olesya Kuznetsova, Nurislam Tursynbek, Aleksandr Petiushko, Ivan Oseledets. "Smoothed Embeddings for Certified Few-Shot Learning" [33]. Работа опубликована в Advances in Neural Information Processing Systems (Том 35, стр. 24367-24379, 2022; рейтинг CORE A*).

3. Mikhail Pautov, Grigorii Melnikov, Edgar Kaziakhmedov, Klim Kireev, Aleksandr Petiushko. "On Adversarial Patches: Real-World Attack on ArcFace-100 Face Recognition System" [31]. Работа опубликована в Proceedings of 2019 International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON) (стр. 0391-0396, 2019; индексируется в Scopus).

4. Mikhail Pautov, Nikita Bogdanov, Stanislav Pyatkin, Oleg Rogov, Ivan Oseledets. "Probabilistically Robust Watermarking of Neural Networks" [34] (принята на конференцию 33rd International Joint Conference on Artificial Intelligence, рейтинг CORE A*).

Также отметим другие работы по теме диссертации, в подготовке которых участвовал автор:

1. Edgar Kaziakhmedov, Klim Kireev, Grigorii Melnikov, Mikhail Pautov, Aleksandr Petiushko. "Real-World Attack on MTCNN Face Detection System" [12]. Работа опубликована в Proceedings of 2019 International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON) (стр. 0422-0427, 2019; индексируется в Scopus).

2. Andrei Chertkov, Olga Tsymboi, Mikhail Pautov, Ivan Oseledets. "Translate Your Gibberish: Black-Box Adversarial Attack on Machine Translation Systems" [35]. Работа опубликована в Journal of Mathematical Sciences (Том 530, стр. 96-112, 2023).

Объем и структура работы. Диссертация состоит из введения, 4 глав, заключения и 3 приложений. Полный объём диссертации составляет 128 страниц, включая 39 рисунков и 15 таблиц. Список литературы содержит 121 наименование.

Глава 1. Состязательная атака на системы распознавания лиц

В этой главе обсуждается необходимость повышения устойчивости нейронных сетей. Чтобы подчеркнуть важность стабильных и надежных алгоритмов на основе нейронных сетей, демонстрируется уязвимость последних к состязательным возмущениям в одном из наиболее распространенных практических приложений - в распознавании лиц. Описывается простая процедуру генерации носимых атрибутов, которые способны обмануть алгоритмы распознавания лиц.

1.1 Введение

В последние годы было проведено много исследований в области атак на системы распознавания лиц. В настоящее время одной из наиболее надежных систем распознавания лиц для тестирования устойчивости является нейронная сеть с аддитивной угловой функцией потерь, ЛгеРаее [36]. Такая сеть сопоставляет входное изображение с единичным эмбеддингом так, что внутриклассовое расстояние между этими эмбеддингами стремится быть маленьким, а межклассовое расстояние остается большим. В оригинальной статье [36] отмечается, что точность в задачах классификации этой сети достаточно высока для практического применения.

Хотя глубокие нейронные сети эффективны в классификации изображений, они уязвимы к состязательным атакам [8]. Большинство работ в области устойчивости нейронных сетей посвящено эксплуатации таких уязвимостей путем создания незаметных аддитивных возмущений, ограниченных по норме. В данном сценарии потенциальный злоумышленник пытается добиться некорректной работы классификатора, но при этом сохраняет визуальное сходство между оригинальным и состязательным изображениями. Одной из первых работ, посвященных устойчивости классификаторов изображений к подобным атакам в физической области является [37]. Авторы предложили процедуру создания состязательного патча, который может быть помещен в любое место изображения для проведения атаки в реальном мире.

Напротив, атака на систему распознавания лиц является более сложной по сравнению с атакой на классификатор изображений. Давно известно, что различные области лица вносят различный вклад в итоговое предсказание системы распознавания лиц [38]. Таким образом, результат классификации фотографии с состязательным патчем зависит от области расположения последнего.

Авторы [39] исследовали возможность построения незаметной для человеческого глаза атаки. Им удалось провести атаку в физической области, используя очки в качестве носимого состязательного атрибута. Очки сконструированы таким образом, чтобы выдавать носящего их человека за другого, но рассчитаны на распознавание человека анфас.

В статье [40] авторы предложили состязательную атаку путем создания цветного патча, который может быть размещен на головном уборе и способен привести к некорректной работе сети в физической области.

В данной работе предлагается эффективный с точки зрения вычислений подход к созданию носимых атрибутов, приводящих к некорректной работе системы распознавания лиц. Следует отметить, что нейронная сеть, устойчивость которой тестируется в этой главе, доступна в сети Интернет, а подход к созданию состязательных патчей, используемый в описываемом методе, является хорошо известным, поэтому проведенное исследование не является противоправным.

Ниже кратко описан вклад текущего исследования:

— Предложена простая процедура создания состязательных патчей. Она может быть использования для создания аксессуаров, которые приводят к некорректному распознаванию носящего их человека.

— Получаемые состязательные атрибуты можно наносить на различные области лица распознаваемого человека.

— Экспериментально изучена эффективность состязательных патчей, размещенных на разных областях лица. Показано, что успех атаки на систему распознавания лиц сильно зависит от расположения патча.

— Используя предложенный метод, проведена атаку на одну из лучших публичных систем распознавания лиц.

1.2 Суть состязательной атаки на системы распознавания лиц

Состязательная атака на распознавание лиц - это техника, позволяющая обмануть систему распознавания путем изменения входных данных таким образом, что результат работы последней изменяется с правильного на неправильный. Несмотря на то, что атаку можно провести в цифровой области (где входные данные для классификатора могут быть изменены, например, попик-сельно), в физической области такую атаку построить гораздо сложнее. Однако в предыдущих работах ([39], [41]) было показано, что можно атаковать системы распознавания лиц в физической области с эффективностью, сопоставимой с таковой в цифровой области.

Аддитивная состязательная атака ограниченной нормы формулируется следующим образом. Предположим, что задана нейронная сеть / : ^ Ак, отображающая входные объекты в векторы вероятностей К классов, порог нормы возмущения £ и входной объект х. Тогда атакой является такое возмущение 6, что

а^тахг€[1,...Л] ¡г{х + 6) = а^тахг€[1г..Л] /¿(ж), ||6|| < £.

В настоящий момент в литературе описано несколько способов классификации состязательных атак на системы распознавания лиц (применимые, в том числе, и к состязательным атакам на алгоритмы классификации). В данной работе представлена классификация на основе двух характеристик - возможности вычисления численного градиента системы по входному объекту и желаемого изменения предсказания классификатора.

В зависимости от возможности вычисления градиента атакуемой системы, состязательные атаки классифицируются следующим образом:

— атака на "белый ящик" - потенциальному злоумышленнику доступно вычисление градиентов системы;

— атака на "черный ящик" - потенциальному злоумышленнику недоступно вычисление градиентов.

В зависимости от характера желаемого изменения предсказания классификатора, состязательные атаки классифицируются следующим образом:

— таргетированная атака - возмущение генерируется таким образом, чтобы добиться распознавания измененного объекта в качестве представителя заранее определенного класса;

— нетаргетированная атака - возмущение генерируется таким образом, чтобы добиться неправильного распознавания измененного объекта.

1.3 Связанные работы

В последние годы было проведено много исследований в области физических атак. В этом разделе описана лишь небольшая часть литературы.

В [17] был предложен один из наиболее простых подходов к построению состязательных возмущений - метод быстрого градиентного знака (РОБМ). Этот метод заключается в генерации примеров путем добавления к исходному изображению возмущения 6 вида

6 = £sign(VжJ (0,х,у)), (1.2)

где 0 - вектор параметров модели, х - входной объект, у - индекс класса объекта х, а 3(0,х,у) - функция потерь, используемая для обучения нейронной сети. Заметим, что в случае таргетированной атаки, у - это желаемый индекс класса и £ < 0, а в случае нетаргетированной атаки, у - это индекс произвольного неверного класса и £ > 0. Данный подход был расширен в [14], где его итеративный вариант (РОЭ) был использован для построения состязательных возмущений. Он основан на итерационном обновлении входных данных в форме

хг+1 = рГО>]5 (V + £tsign(VxJ (0, х, у))) , (1.3)

где хь и £ - вход и величина атаки на итерации £, соответственно, а рго^ - проекция на множество натуральных изображений 5. В работе [42] было обнаружено, что добавление компоненты импульса в итерационный процесс приводит к более устойчивой траектории оптимизации. Определено, что состязательные примеры, полученные итерационным методом с использованием импульса, более пригодны для атак на "белый ящик", чем примеры, полученные без использования импульса.

В работе [43] изучался вопрос устойчивости состязательных примеров к преобразованиям изображений в реальном мире и был предложен алгоритм

Expectation Over Transformation (EOT). Этот алгоритм позволяет создавать состязательный пример с учетом преобразований, которым подвергается последний при переводе из цифровой области в физическую. А именно, пусть X С R - пространство входных объектов, р : X х X ^ R - определенная на нем функция расстояния, £ - ограничение на расстояние между исходным и измененным объектом, Т - набор преобразований, х £ X - входной объект, а ya&v - желаемый индекс класса объекта х. Тогда подход EOT может быть рассмотрен как метод получения состязательного примера Xa^v как решения следующей задачи:

Xadv = argmaxEteT P(yadvlt(x + 6)) , (1.4)

где E£T [р(ж + 6, ж)] < £ и х + 6 £ [0,1]d. В этой формулировке 6 £ [0,1]^ является аддитивным шумом. Данный подход позволяет имитировать такие трансформации, как шум камеры или смещение точки обзора.

1.4 Метод физической атаки на системы распознавания лиц

Стоит отметить, что процесс распознавания лиц состоит их двух последовательных шагов. Сначала изображение обрабатывается отдельной нейронной сетью, детектирующей лицо на фотографии. Затем область изображения с лицом обрабатывается классификационной нейронной сетью (в представленном случае, моделью LResNet100E-Iг). Сегодня существует множество алгоритмов детектирования лиц на изображении. В данной работе используется каскадная сверточная нейронная сеть MTCNN, предложенная в работе [44].

В этом разделе описана предложенная схема создания состязательных патчей и дано подробное объяснение каждого этапа. Схема может быть представлена как последовательность следующих шагов:

1. Условный злоумышленник выбирает желаемое местоположение патча и его форму.

2. Далее макет патча с рисунком шахматной доски распечатывается и применяется как аксессуар.

3. Условный злоумышленник фотографирует лицо с наложенным патчем и получает фотографии с различными поворотами головы (для имитации смещения точки обзора).

4. Когда набор данных для создания патча готов, злоумышленник решает оптимизационную задачу из раздела 1.5 для проведения атаки в цифровом домене.

5. Наконец, полученный патч распечатывается и применяется в качестве носимого аксессуара в физической области.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Паутов Михаил Александрович, 2024 год

\ - —

\ 1=1 ]=П+1 /

и вычисляется доверительный интервал (1х^,их^) такой, что для уровня значимости

а п / 2—2 \ .

- = 2ехЫ - -- , (3.12)

V Е,=1(Ьг — а^2;

а ( 2г2—2

з ех4-Щь~-

популяционное среднее ) с большой вероятностью покрыто данным ин-

тервалом, или же, что эквивалентно, Р ^ Е(£х^) ^ их^ ^ 1 — а. Стоит отметить, что фактически используются три доверительных интервала для оценки трех слагаемых выражения (3.11) (одного квадратичного по количеству реализаций случайного шума и двух линейных по количеству реализаций случайного шума), что оправдывает множитель 1 в уравнении (3.12).

Заметим также, что популяционное среднее ) есть в точности ||д(х) —

2

Ск||2, так как

1 п 1 2п

Е(1х,к) = Е ( + и) — СкЕ № + — СЧ = (3.13)

— —

\ г=1 ]='п+1 /

п 2п

= Е (-Е +и)— Е +ъ} — (3.14)

г =1 _7=п+1

— Е( - ^ !(х + и), ск) — (3.15)

— =1 =1

— Е\ - Й !(х + Ч), сД + <ск, ск) = (3.16)

\ :?'=п+1 /

1 п 1 2п

= ( — ЕЕ(КХ + иЕ(/(х + е,)))

\ г=1 _7=п+1 /

1 п 1

- /> + и)Е(/(х + и)) ) — (3.17)

- и -

2=п+\

2 п

^2<Е(/(х + и)), ск) + <ск, ск) = (3.18)

- • 1 1

= <д(х), д(х)) — 2<д(х), ск) + <ск, ск) = ||д(х) — ск||2 (3.19)

в силу того, что /(х + и^)) и /(х + и есть независимые случайные величины при г = ]. Наконец, отметим, что доверительный интервал (,их^) для величины ||д(х) — Ск||2 подразумевает доверительный интервал

(\/Цк, /й^к) (3.20)

для величины \ \ д(х) — Ск\\2. Таким образом, процедуры TwoSidedConfInt и ЬомегСо^Вои^, описанные в алгоритмах, возвращают доверительный интервал из уравнения (3.20) и одностороннюю (нижнюю) границу доверительного интервала для случайной величины, оценивающей соответствующее расстояние.

3.5 Эксперименты

3.5.1 Наборы данных

Для оценки предложенного подхода используется несколько известных наборов данных для обучения классификационных моделей в формате few-shot learning. Cub-200-2011 [88] - это набор данных с 11788 изображений 200 видов птиц, где 5864 изображений 100 видов находятся в обучающем подмножестве, а 5924 изображений других 100 видов - в тестовом подмножестве. Примечательно, что многие виды птиц, представленных в этом наборе данных, имеют определенную степень визуального сходства, что делает их классификацию сложной задачей даже для человека. miniImageNet [89] - это подмножество изображений из набора данных ILSVRC 2015 [90] с 64 категориями изображений в обучающем подмножестве, 16 категориями в валидационном подмножестве и 20 категориями в тестовом подмножестве с 600 изображениями размером 84 х 84 в каждой категории. CIFAR FS [91] является подмножеством набора данных CIFAR 100 [60], содержащим 37800 изображений из 64 категорий в обучающем наборе и 11400 изображений из 20 категорий в тестовом наборе.

3.5.2 Технические детали экспериментов и вычислительная

сложность метода

Следуя протоколу из работы [16], в данной работе вычисляется сертифицированная точность сглаженной модели на тестовом наборе данных. Базовая модель, используемая в экспериментах - прототипическая нейронная сеть, предложенная в работе [85], основанная на архитектуре ConvNet-4 с добавленным полносвязным слоем для построения отображения исходных объектов в эмбеддинги размерности 512. Модель была обучена в форматах i) одного тренировочного примера на класс и ii) пяти тренировочных примеров на класс для задачи классификации на 5 классов.

Параметры экспериментов. Для аугментации данных в процессе обучения исходной модели был применен гауссовский шум с нулевым средним, единичной дисперсией и вероятностью применения аугментации р = 0.3. Для сертификации из каждого набора данных было выделено случайное подмножество размера 500 изображений со следующими стандартными (если не сказано иное) параметрами алгоритма 2: количество реализаций случайного шума п = 1000, уровень значимости а = 0.001, дисперсия случайного шума а = 1.0. Учитывая геометрию задачи, можно заметить, что значения величин (аг,Ьг) из уравнения (3.10) таковы, что Ьг — аг ^ 4; таким образом, используется соотношение Ьг — аг = 4. Максимальное количество реализаций случайного шума Т в алгоритме 2 есть Т = 5 х 105.

Вычислительная сложность метода. В таблице 4 представлено время сертификации для одного изображения при проведении вычислений на одном графическом ускорителе Tesla V100 GPU для набора данных Cub-200-2011.

Таблица 4 — Зависимость времени сертификации алгоритмом 3 от количества реализаций случайного шума п, набор данных Cub-200-2011.

n

103 104 105

t, сек 0.044 ± 0.030 0.509 ± 0.403 4.744 ± 2.730

3.5.3 Результаты экспериментов

В данной секции представлены результаты экспериментов. Для оценки эффективности предложенного подхода приведены значения сертифицированной точности алгоритма, CRA. Для данного набора объектов S, сглаженной прото-типической сети $(•) из теоремы 3.3.1 с соответствующим классификационным правилом h(x) = argmin^j!| | д(х) — |1 2, ограничения £ на /2—норму аддитивного возмущения и функции вычисления гарантии г = г(х) из теоремы 3.3.3, метрика CRA определяется как:

GRA(S, £) = К^) 6 S = £ & h(x) = у\ (3.21)

Иными словами, сглаженная модель д считается сертифицированной в точке х к аддитивным возмущениям нормы не больше, чем £, если объект х правильно классифицирован моделью д и значение сертифицированного радиуса г(х) > £.

Визуализация результатов. На рисунках 3.3-3.4 представлена зависимость сертифицированной точности от величины максимальной нормы аддитивного возмущения для различных сценариев обучения базовой модели (для случаев 1 и 5 обучающих примеров на класс). Значение переменной "Attack radius" соответствует ограничению £ из уравнения (3.21). Для набора данных CIFAR-FS на рисунке 3.5 представлена зависимость сертифицированной точности от количества реализаций случайного шума п.

3.6 Ограничения предложенного метода

В этой секции обсуждается ограничение предложенного метода, а именно вероятность неправильной работы алгоритмов 2-3, вызванная отказом алгоритма 2 от классификации.

3.6.1 Оценка ошибки алгоритмов

Отметим, что значение а в уравнении (3.12) есть вероятность того, что значение рх^ = ||д(х) — ||2 не было покрыто соответствующим доверительным интервалом из уравнения (3.20). Так, для данного объекта х процедура из алгоритма 2 возвращает два ближайших к эмбеддингу д(х) прототипа классов. Для определения двух соответствующих этим прототипам доверительных интервалов нужно гарантировать, что все расстояния рх^ расположены внутри своих доверительных интервалов. Тогда, учитывая независимость двух доверительных интервалов как случайных величин, верхняя грань вероятности ошибки определения ближайшего прототипа алгоритмом 2 есть д1 = К а, где К есть число классов. Аналогично, процедура из алгоритма 3 определяет нижнюю грань состязательного риска с вероятностью 1 — а и зависит от выхода алгоритма 2, и, таким образом, имеет верхнюю грань вероятности неправильной работы, равную д2 = 1 — (1 — а)(1 — К а) = а + К а — К а2 (что соответствует вычислению переоцененного состязательного риска из теоремы 3.3.2).

3.6.2 Отказ алгоритмов от классификации

Важно отметить, что процедуре из алгоритма 2 может потребоваться большое количество реализаций случайного шума - для определения двух ближайших прототипов классов. Как следствие, процедура может не выполниться до достижения максимального количества реализаций случайного шума Т. Таким образом, некоторые входные объекты могут быть не классифицированы, а сглаженная нейронная сеть - не сертифицирована в соответствующих точках. В данной секции приведена доля объектов, в которых алгоритм 2 не смог определить ближайший прототип (результаты представлены в таблицах 5-6).

Таблица 5 — Доля несертифицированных объектов, случай 1 тренировочного объекта на класс.

Набор данных а = 10-2 а = 10-3 а = 10-4

Cub-200-2011 1.6% 1.6% 1.6%

CIFAR-FS 2.2% 2.2% 2.4%

mini ImageNet 1.9% 2.2% 2.4%

Таблица 6 — Доля несертифицированных объектов, случай 5 тренировочных объектов на класс.

Набор данных

а = 10-2 а = 10-3 а =10

-4

Cub-200-2011 1.2% 1.2% 1.4%

CIFAR-FS 3.0% 3.4% 3.8%

miniImageNet 2.9% 2.9% 3.0%

3.7 Выводы

В данной главе описано обобщение случайного сглаживания как средства защиты от состязательных атак на случай классификации в пространстве эмбеддингов, привычного в сценариях few-shot learning. Проведен анализ липшицевости сглаженных прототипических нейронных сетей и получены теоретические гарантии устойчивости последних к состязательным атакам ограниченной /2—нормы. Теоретические результаты подтверждены экспериментально на нескольких наборах данных. Среди возможных направлений дальнейших исследований можно выделить обобщение предложенного подхода на другие типы возмущений входных данных, например, на семантические преобразования, и снижение вычислительной сложности процедуры сертификации.

0.5

u

03

и 0.3

и

оз

0.2

0.1

0.0

Attack radius

Cub-200-2011

0.35 0.30

>> u

оз 0.25

i—

13

u

и 0.20 оз

тз

.Si 0.15

CD 0.10 U

0.05 0.00

о = 0.25 о = 0.5

— —

"AV *Л \ - о = 1.0

\\ \ • * V • \

Ч \ % V

ч V ч \

Ч \

♦ , __

0.0

0.1

0.2 0.3

Attack radius

0.4

0.5

mini ImageNet

Рисунок 3.3 — Зависимость сертифицированной точности от порога £ для различных значений а, случай 1 тренировочного объекта на класс, п = 1000.

О.б

0.5

и

и

гс 0.3

и

ч—

■■Р 0.2 Ш

и

.... о = 0.25 о = 0.5

о* % \ - о = 1.0

♦ ф ч N ч

\ ч ч V N,

% Ч

* % V

0.1 0.2 0.3 0.4 0.5

Attack radius

CIFAR-FS

0.5

и 0.4 ru

13 u

U 0.3 ru

тз QJ

0.0

\ — о = 0.25

• *»» * ч - о = 0.5 о = 1.0

'СЧ__ ч \ » \

ч ч к

0.0

0.1

0.2 0.3

Attack radius

0.4

0.5

mini ImageNet

Рисунок 3.4 — Зависимость сертифицированной точности от порога е для различных значений а, случай 5 тренировочных объектов на класс, п = 1000.

0.6

0.5

> и

2 0.4 =з и и

0.3

тз

0J

£ 0.2 0J

и

0.1

0.0

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 Attack radius

Рисунок 3.5 — Зависимость сертифицированной точности от порога £ для различных значений количества реализаций случайного шума п, набор данных CIFAR-FS, случай 5 тренировочных объектов на класс. Стоит отметить, что даже небольшое количество реализаций случайного шума является достаточным для достижения удовлетворительной сертифицированной точности.

Глава 4. Устойчивые водяные знаки для нейронных сетей

В этой главе описан новый подход к созданию водяных знаков для нейронных сетей на основе триггерного набора, устойчивый к атакам, направленным на кражу функциональности модели, в частности, к атакам на основе извлечения информации и дистилляции. Предложенный подход не требует дополнительного обучения модели и применим к моделям любой архитектуры. Ключевая идея метода заключается в вычислении набора триггеров, поведение модели на котором с высокой вероятностью переносится между исходной моделью и набором прокси-моделей. В экспериментальном исследовании эффективности метода показано, что если вероятность переноса поведения на наборе триггеров на прокси-модели достаточно высока, то его можно использовать как индикатор факта кражи модели. Проведенная оценка эффективности метода показала, что он превосходит существующие современные методы генерации водяных знаков в задаче детектирования факта кражи функциональности нейронной сети.

4.1 Введение

Модели глубокого обучения достигли заметного успеха в решении практических задач из различных областей, таких как компьютерное зрение [1; 92], обработка естественного языка [93; 94] и мультимодальное обучение [95]. Они используются в медицинской диагностике [96; 97], внедряются в автономные транспортные средства [98; 99] и встраиваются в системы А^аБ-а-Бетсе [100; 101]. К сожалению, разработка, обучение и производство этих моделей обходятся дорого из-за высоких требований к объему и качеству обучающих данных, большого размера моделей и, следовательно, необходимости использования облачных вычислений и платформ для хранения данных. Это побуждает владельцев больших нейронных сетей предпринимать меры по предотвращению получения третьими лицами нелегальных копий своих моделей (таким образом, приобретающих мощные инструменты, не тратя много времени и средств на их разработку и обучение).

Среди методов защиты авторских прав на цифровые объекты интеллектуальной собственности наибольшее распространение получили техники нанесения цифровых водяных знаков [24]. Чтобы определить нарушение авторских прав, владелец интеллектуальной собственности внедряет в продукт специальную информацию, например, добавляет незаметный рисунок или цифровую подпись на изображение или в исходный код программы. При подозрении на нарушение эта информация может быть извлечена из интеллектуальной собственности, подтверждая незаконное получение последней. В последние годы методы нанесения водяных знаков были адаптированы для защиты прав собственности на модели глубокого обучения, развернутые по принципу "черного ящика". Для этого владелец модели может подготовить специальный (триг-герный) набор данных, поведение исходной модели на котором должно быть определено владельцем заранее: чем выше сходство предсказаний подозрительной модели на этом наборе с предсказаниями исходной модели, тем больше вероятность того, что исходная модель была скомпрометирована [25; 26; 102; 103].

На практике водяные знаки не устойчивы к атакам, направленным на кражу функциональности модели. В частности, атаки на основе дистилляции, дообучение и регуляризация моделей, как правило, влияют на переносимость поведения моделей на триггерных наборах [104]. Таким образом, исследователи заинтересованы в изучении устойчивости водяных знаков к атакам, направленным на кражу функциональности моделей.

В этой главе предложен новый подход, который повышает устойчивость водяных знаков на основе триггерных наборов к атакам, направленным на кражу функциональности моделей. Для исходной модели / строится параметрический набор £6)Т(/) прокси-моделей, которые имитируют набор суррогатных (или украденных) копий модели /. Предполагается, что при заданном параметрическом наборе прокси-моделей существует такой набор входных данных 5(/, 6, т), все объекты которого относятся моделями из $б,т(/) к одному и тому же классу. Если поведение исходной модели в этих точках заранее определено, они могут быть использованы в качестве триггерных точек для проверки факта кражи исходных моделей. Предложенный метод основан на предоставлении гарантий того, что все прокси-модели из множества $5,т(/) имеют такое же поведение на конкретном триггерном наборе данных, как и исходная модель. Иллюстрация предложенного метода представлена на Рисунке 4.1.

Г Л Hold-out Data Г Л Base Model Parametric Set of Proxy Models Proxy Models

Vh v J f L J B„,rU) /lj /21 •••■> fm с

V- 1 i

/-\

Trigger Set

Generation Procedure

T(f,vh)

f-\

Trigger Set Verification

s.t. Vi.Vj fi(x*j) = f(x*j)

Passed . mm

Rejected ь

Verified Trigger Set

Рисунок 4.1 — Иллюстрация предложенного метода генерации и верификации триггерных наборов, используемых в качестве водяных знаков. Для данной исходной модели / и отложенной выборки данных инициализируется параметрический набор прокси-моделей ) из уравнения (4.4) и генерируется т прокси-моделей /1,... ,/то из этого набора. Затем при помощи процедуры генерации триггерных точек Т = Т(/, Р^) вычисляются кандидаты ^ на включение в триггерный набор Р*. Объекты из множества кандидатов Р^, верифицированные прокси-моделями /1,..., /то, включаются в верифицированный триггерный набор Р*. Процедура генерации и верификации повторяется до тех пор, пока размер верифицированного триггерного набора не достигает п.

Ниже кратко описан вклад текущего исследования:

— Представлен новый подход для повышения устойчивости методов нанесения водяных знаков на основе триггерных наборов к атакам, направленным на кражу функциональности моделей, развернутых по принципу "черного ящика". Метод может быть применен для повышения устойчивости любого метода генерации триггерных наборов, что делает его универсальным.

— Проанализирована вероятность того, что поведение на данном наборе триггеров переносится на набор прокси-моделей, имитирующий множество украденных (суррогатных) моделей.

— Предложенный подход на оценен на нескольких наборах данных, показано, что он превосходит существующие методы нанесения водяных знаков на основе триггерных наборов во всех рассмотренных постановках экспериментов.

4.2 Обзор литературы

Процесс нанесения водяных знаков служит цели защиты интеллектуальной собственности [105].

Некоторые методы нанесения водяных знаков основаны на добавлении специальных (триггерных) объектов в обучающие данные. Например, метод из работы [106] основан на генерации п-битной цифровой подписи владельца модели и вставки ее в обучающие данные.

В статье [107] авторы предложили алгоритмы встраивания водяных знаков в нейронные сети, используемые для классификации изображений, развернутых по принципу "черного ящика". Одна из методик предполагает добавление в изображение из обучающего набора уникальной строки, например, названия компании, и присваивании модифицированному образцу метки другого класса.

Аналогичный подход, предложенный в [108], предусматривает смешивание обычных тренировочных данных с данными, на которые нанесены водяные знаки, и обучение модели отличать их друг от друга. Для сохранения сходства с исходными образцами используется автоэнкодер, а его дискриминатор обучается различать обычные обучающие объекты и образцы-триггеры, содержащие водяной знак.

Существуют исследования, посвященные некоторым недостаткам методов нанесения водяных знака на основе построения триггерного набора.

Во-первых, у этой категории методов есть ограничение, связанное с максимальным количеством объектов с водяными знаками, которые могут быть интегрированы в обучающую выборку нейронной сети. Есть работы, показывающие, что большое количество водяных знаков в обучающем наборе приводит к заметному снижению производительности исходной модели [25; 109].

Во-вторых, схемы нанесения водяных знаков, в которых отсутствует протокол проверки связи между нанесенным водяным знаком и законным владельцем модели, создают потенциальную возможность для злоумышленника подделать водяной знак [102; 106] для того, чтобы выдать себя за законного владельца модели. Наконец, использование состязательных примеров как водяных знаков [110—112] имеет существенные недостатки, включая недостаточную переносимость поведения на состязательных примерах на суррогатные модели

[25], потенциальную уязвимость к атакам типа дистилляции [113], дообучению и переобучению исходной модели.

4.3 Постановка задачи

В этом разделе описана постановка задачи и введены основные понятия.

4.3.1 Цифровой водяной знак на основе набора триггеров

В данной работе рассматривается задача классификации на К классов. А именно, для набора данных V = {(х{,у{)}!-=1, где хг Е ^ и у,, Е [1,..., К], обучается исходную модель путем минимизации эмпирического риска

1 М

Ь(Ъ) = ^Е^), Ш), (4.1)

г=1

где /(-,-) - кросс-энтропийная функция потерь.

Если исходная модель работает хорошо, потенциальный злоумышленник может попытаться украсть ее функциональность. А именно, можно обучить суррогатную модель /* на суррогатном наборе данных V, так, что она будет имитировать предсказания базовой модели. В общем случае архитектуры исходной и суррогатной моделей не обязательно должны быть одинаковыми. Также не требуется, чтобы исходный набор тренировочных данных был известен, что делает возможным кражу моделей, развернутых по принципу "черного ящика" [25; 109].

Чтобы иметь индикатор возможной кражи, владелец исходной модели может создать водяные знаки на основе триггерного набора. Например, подмножество Рз = {(х^, у1к )}^=1 исходного набора тренировочных данных V подвергается переворачиванию меток: каждая метка у¡к заменяется на другую метку у'{ = у^к, в результате чего получается триггерный набор ^ = {(х^, у\ )}1=1. Затем исходная модель обучается минимизировать эмпирический риск на измененном наборе данных V := и

Если поведение подозрительной модели f * на триггерном множестве Vt аналогично поведению исходной модели f на нем, то утверждается, что исходная модель скомпрометирована.

К сожалению, подходы к созданию водяных знаков на основе триггерных наборов имеют два существенных недостатка. Во-первых, размер п триггерного набора должен быть небольшим, чтобы не вызвать заметного снижения производительности. С другой стороны, размер п должен быть достаточно большим, чтобы сходство в поведении исходной и украденной моделей на этом наборе было статистически значимым. Во-вторых, поведение на триггерных наборах, как правило, плохо переносятся между исходной и украденной моделями [25].

В данной работе предложен эффективный подход к созданию триггерного набора Vt, поведение на котором с высокой вероятностью переносится между исходной моделью и ее суррогатными копиями, полученными в результате атак, нацеленных на кражу функциональности.

4.3.2 Атаки, направленные на кражу функциональности модели

В данной работе предполагается, что потенциальный злоумышленник пытается украсть исходную модель, применяя дистилляцию1 [113; 114].

Атака путем дистилляции модели происходит следующим образом. Объект Х{ из суррогатного набора данных V подается на вход исходной модели f для получения предсказания f (х{). Затем выполняется обучение новой модели f * путем минимизации дивергенции между ее предсказаниями и предсказаниями исходной модели на наборе данных Т>:

Lext(p) = -l £ DKh(f (х{), f *&)), (4.2)

1 1 £i eV

где Dkl - дивергенция Кульбака-Лейблера.

В данной работе рассматриваются атаки как на основе предсказанных меток классов, так и на основе выходных векторов вероятностей целиком, то есть f *(х{) может быть как меткой класса, так и вектором вероятностей классов.

Результаты экспериментов с другими видами атак представлены в техническом приложении.

4.4 Предложенный метод 4.4.1 Создание триггерного набора

В предложенном подходе используется процедура вычисления кандидатов на включение в триггерное множество ^ как выпуклых комбинаций пар точек из отложенного набора данных [115]. А именно, предположим, что исходная модель / обучена на наборе данных Т>. Пусть также дан отложенный набор данных : ПР = 0. Пусть пара точек (х^, у,1х), (х¡2, у¡2) из разных классов Уп и Уг2 = У1 выбрана случайно и равновероятно из Р^. Тогда кандидат на включение в триггерных набор имеет вид

х* = Лхч + (1 - Л)хп, (4.3)

где Л ~ и(0,1). Чтобы гарантировать нестандартное поведение модели / на кандидате, объект х* принимается в качестве кандидата только в том случае, если исходная модель предсказывает х* как образец из некоторого другого класса У** : У* = У'ч и у** = уг2. Процедура вычисления кандидатов в триггерное множество представлена в алгоритме 4. Процедура из Алгоритма 4 выполняется до тех пор, пока не будет создан набор кандидатов ^ = {(х*,у*)}^=1 размера п. Отметим, что описанная процедура не требует дополнительного обучения исходной модели.

4.4.2 Верификация набора триггеров

Основная идея предложенного метода заключается в том, чтобы обеспечить перенос поведения на триггерном наборе с исходной модели на украденные модели или, другими словами, проверить, что предсказания украденной модели на триггерном наборе аналогичны предсказаниям исходной модели. Для этого вводится параметрический набор моделей /), который имитирует набор украденных моделей. В проведенных экспериментах в основном рассмотрен случай, когда архитектура исходной модели известна потенциальному

Algorithm 4 Trigger set candidate

Ввод: Отложенная выборка данных V^, исходная модель f Вывод: Кандидат (х*,у*) 1: while True do

2: Генерируем (xhyi), (х2,У2) (Dh)

3: if У\ = У2 then

4: Генерируем Л (0,1)

5: X* = Лх1 + (1 - Л)х2

6: у* = f (X*)

7: if у* = У1 и у * = У2 then

8: return (х*,у*)

злоумышленнику. Таким образом, параметрическое множество прокси-моделей состоит из моделей f той же архитектуры, что и исходная f, таких, поведение которых на обучающем наборе данных V сравнимо с поведением исходной модели. А именно, если Q(f) - веса модели f, то параметрическое множество BbT(f) определяется следующим образом:

ВьМ)={f' : IW) - Q(f)||2 ^ 6 и

|acc(P,/) - acc(VJ)| ^ т}, .

где acc(V,f) - точность модели f на наборе данных V, 6 - порог весов и т -порог производительности.

Для верификации переносимости поведения на триггерном наборе случайно выбираются т прокси-моделей f1,..., fm из В6,т(f). Затем проверяется, все ли m прокси-моделей присваивают объекту из триггерного набора ту же метку класса, что и исходная модель f. Процедура верификации триггерного набора представлена в алгоритме 5. Метод вычисления верифицированного триггерного набора проиллюстрирован на рисунке 4.1.

Algorithm 5 Trigger set verification

Ввод: Отложенная выборка V^, исходная модель f, порог весов 6, порог производительности т, размер п

Вывод: Верицифированный триггерный набор Р* 1: Инициализируем В6,т( f) 2: Генерируем fm ~ Вь,т(Л

3: Пусть 1 = 0 4: Пусть V* = 0 5: while г < п do

6: (х*, у*) ^ TriggerSetCandidate(£^, f) 7: if h(X*) = f 2(х*) = ••• = fm(x*) = у* then

8: Р*^Р*и{(х*, У**)}

9: i + 1

10: return V*

4.5 Эксперименты 4.5.1 Постановка экспериментов Наборы данных и обучение

В проведенных экспериментах используются наборы данных CIFAR-10 и CIFAR-100 [60] в качестве обучающих наборов данных для исходной модели f. В качестве исходной модели используется сверточная нейронная сеть ResNet34 [1], которая обучается в течение 100 эпох для достижения высокой точности классификации (а именно, 91.0% для CIFAR-10 и 66.7% для CIFAR-100). При обучении используется SGD-оптимизатор с параметрами learning rate 0.1, weight decay 0.5 x 10-3 и momentum 0.9.

Параметрический набор прокси-моделей

После обучения исходной модели инициализируется параметрический набор прокси-моделей Bs,T(f). В проведенных экспериментах варьировались параметры набора прокси-моделей для достижения лучшей точности на триг-герном наборе данных. А именно, параметр 6 варьировался в диапазоне [0.5, 40], а т выбирался из набора {0.1,0.2,1.0}. Для проверки переносимости поведения исходной модели на триггерном наборе на множество прокси-моделей тестировалось различное количество прокси-моделей, отобранных из Bs,T(f). А именно, параметр т выбирался из множества {1,2,4,8,16,32,64,128,256}.

Атаки, направленные на кражу функциональности моделей

Следуя известным протоколам [25; 109], атаки, направленные на кражу функциональности, проводятся путем обучения суррогатной модели f * в следующих трех сценариях:

— Атака типа Soft-label. В этом случае обучающий набор данных V известен, выход f (х) исходной модели представляет собой вектор вероятностей классов. Суррогатная модель f * обучается путем минимизации функционала из уравнения (4.2).

— Атака типа Hard-label. В этом случае известен обучающий набор данных Т>, и выход f (х) исходной модели - это метка класса, присвоенная моделью f объекту х. Такая постановка соответствует обучению суррогатной модели на наборе данных V = {xi, f (xt)}f=1.

— Атака с регуляризацией. В работе [25] было предложено обучать суррогатную модель, минимизируя ошибку на обучающем наборе данных V и KL-дивергенцию между выходами исходной модели и суррогатной модели одновременно. Этот сценарий соответствует минимизации выпуклой комбинации функций потерь из уравнений (4.1) и (4.2) в виде

Lrgt(V, V, Y) = jLext(V) + (1 - y)L(V), (4.5)

где у Е [0,1] - коэффициент регуляризации. В проведенных экспериментах это самая сильная атака, направленная на кражу функциональности.

Конкурирующие подходы

Эффективность предложенного подхода оценена в сравнении со следующими методами.

— Запутанное встраивание водяного знака (EWE). В работе [109] было предложено встраивать водяные знаки, заставляя исходную модель запутывать представления для обычных тренировочных и водяных знаков.

— Случайное сглаживание для водяных знаков (RS). В работе [103] случайное сглаживание применяется к параметрам исходной модели, что дает гарантию того, что водяные знаки не могут быть удалены при небольшом изменении параметров модели.

— Водяные знаки на основе маржи (MB). В работе [25] было предложено обучать суррогатную модель, отодвигая границу принятия решения от образцов из триггерного набора так, чтобы их предсказанные метки не могли измениться без ущерба для точности исходной модели.

Стоит отметить, что все подходы, с которыми сравнивается предложенный метод, либо требуют модификации процедуры обучения исходной модели, либо делают ее предсказание вычислительно дорогой процедурой.

Протокол проверки метода

После того как верифицированный набор триггеров V* = {(х*, у*)}™=1 собран и получена суррогатная модель *, вычисляется точность

Л = ^ Е 1 ( {*(х*) = у*) (4.6) 1 *1

модели /* на наборе данных Р* для оценки эффективности предложенного подхода к созданию водяных знаков.

Ремарка 3. В дальнейшем при сравнении предложенного подхода с аналогичными работами обозначим триггерный набор как V*, чтобы подчеркнуть различия в процедурах создания триггерного набора.

Параметры экспериментов

Если не сказано иное, используются следующие значения гиперпараметров: размер верифицированного триггерного набора п = 100, уровень значимости а для теста Клоппера-Пирсона из уравнения (4.9) есть а = 0.05. В экспериментах мы обнаружили, что лучшая переносимость поведения на верифицированном наборе триггеров достигается при отсутствии ограничений на производительность прокси-моделей, поэтому пороговый параметр производительности был установлен на уровне т = 1.0.

4.5.2 Результаты экспериментов Знания, необходимые для кражи модели

В проведенных экспериментах предполагается, что либо архитектура исходной модели, либо ее обучающий набор данных известны потенциальному злоумышленнику. В таблице 8 приведены результаты для наиболее агрессивного сценария атаки, т.е. когда потенциальный злоумышленнику известна и архитектуру, и тренировочные данные исходной модели. В таблице 9 приведены результаты для случая, когда злоумышленнику неизвестна либо архитектура, либо набор обучающих данных. А именно, следуя протоколу из работы [25], атака на кражу функциональности проведена (1) с использованием суррогатного

набора данных БУЫК [116] и (п) с заменой архитектуры суррогатной модели на УСС11 [117].

В каждом эксперименте был обучен один экземпляр исходной модели / и проведено = 10 независимых атак, направленных на кражу функциональности модели. Для предложенного подхода и аналогичных работ приведена точность исходной модели / и суррогатных моделей /* на обучающем наборе данных V и триггерном наборе Т>*. Примечательно, что предложенный подход не только превосходит существующие методы по точности на триггерном наборе данных, но и не приводит к ухудшению производительности исходной модели.

Настройка параметров

Важно отметить, что параметры набора прокси-моделей $б,т(/) влияют не только на переносимость поведения на триггерном наборе, но и на время, необходимое для сбора самого триггерного набора. Действительно, чем больше значение 6 и чем больше прокси-моделей используется для проверки триггер-ного набора, тем чаще процедура из алгоритма 5 не принимает кандидатов в триггерный набор. Чтобы найти компромисс между точностью суррогатной модели на триггерном наборе и временем вычислений, была проведена настройка параметров. Оптимальные значения параметров т и 6 были определены в соответствии с разделом 4.5.1. Результаты эксперимента по определению оптимальных параметров представлены на рисунке 4.2.

В соответствии с настройкой параметров, были выбраны значения т = 64 и 6 = 40.0 в качестве параметров по умолчанию для набора прокси-моделей. В таблице 10 приведены значения параметров, которые использовались в каждом эксперименте.

Average Trigger set Accuracy

■ 0.49 0.47 0.52 0.59 0.60 0.69 0.75 0.81 0.82 0.81

0.50 0.56 0.49 0.55 0.68 0.80 0.82 0.88 0.86 0.86

0.51 0.54 0.51 0.55 0.67 0.80 0.81 0.88 0.91 0.91

0.51 0.52 0.49 0.63 0.67 0.80 0.87 0.92 0.91 0.93

0.5 2.5 5.0 10.0 15.0 25.0 28.0 33.0 35.0 40.0

s

а) Средняя точность суррогатных моделей f* на триггерном наборе данных. Тренировочный набор данных V есть CIFAR-10, архитектура моделей f* есть ResNet34.

Average Computation Time

0.5 2.5 5.0 10.0 15.0 25.0 28.0 33.0 35.0 40.0 6

б) Время в секундах, необходимое для верификации триггерного набора данных. Тренировочный набор данных V есть CIFAR-10, архитектура моделей f* есть ResNet34.

Рисунок 4.2 — Влияние гиперпараметров набора прокси-моделей на точность на триггерном наборе данных и на время, необходимое для его верификации.

0.9

0.8

0.7

0.6

0.5

400

300

200

100

V V Тип атаки 6

Soft 44.65 ± 0.04

CIFAR-10 CIFAR-10 Hard 54.79 ± 1.10

RGT 49.61 ± 0.36

Soft 82.03 ± 1.91

CIFAR-100 CIFAR-100 Hard 82.21 ± 3.52

RGT 82.29 ± 2.92

CIFAR-10 SVHN Soft 46.33 ± 0.07

Таблица 7 — Норма разности параметров исходной модели / и суррогатных моделей /* для различных типов атак, направленных на кражу функциональности. Архитектура исходной модели и суррогатных моделей есть КезКе134.

Суррогатные модели /* Soft-label Hard-label RGT

Метод

EWE [109] RS [103] MB [25] Ours

EWE [109] RS [103] MB [25] Ours

EWE [109] RS [103] MB [25] Ours

EWE [109] RS [103] MB [25] Ours

Метрика

CIFAR-10 acc. (%)

CIFAR-100 acc. (%)

f

86.10 ± 0.54 84.17 ± 1.01 87.81 ± 0.76 91.00 ±0.00

26.88 ± 8.32 95.67 ± 4.93 100.00 ± 0.00 100.00 0.00

55.11 ± 1.67 59.87 ± 2.78 62.13 ± 4.36 66.70 ± 0.00

68.14 ± 10.16 99.00 ± 1.00 100.00 ± 0.00 100.00 ± 0.00

83.97 ± 1.02 88.93 ± 1.18 91.17 ± 0.76 92.60 ± 0.91

51.01 ± 5.58 7.67 ± 4.04 82.00 ± 1.00 85.10 ± 6.33

53.00 ± 1.57 65.66 ± 1.53 67.66 ± 0.36

67.49 0.03

30.90 ± 11.34 2.67 ± 1.53 70.67 ± 7.57 78.80 ± 2.93

82.22 ± 0.50 89.62 ± 0.97 91.88 ± 0.40 94.87 ± 0.59

36.05 ± 6.48 6.33 ± 1.15 51.33 ± 4.93 73.70 4.65

46.78 ± 1.00

65.79 ± 0.39 70.65 ± 0.49

68.05 0.73

15.10 ± 5.64 4.33 ± 4.16 40.00 ± 8.89 74.70 ± 3.16

88.88 ± 0.35 90.14 ± 0.08 93.05 ± 0.20 99.42 0.02

1.64 ± 1.05 3.00 ± 0.00 72.67 ± 6.66 78.00 5.58

63.73 ± 0.40 64.99 ± 0.30 70.24 ± 0.46

67.85 0.04

5.73 ± 3.42 2.00 ± 1.00 62.66 ± 10.12 79.10 ± 2.77

Триггерный набор acc. (%)

Триггерный набор

acc. (%)

Таблица 8 — Показатели эффективности методов нанесения водяных знаков для разных методов атак, направленных на кражу функциональности. Лучшие показатели выделены жирным шрифтом.

Архитектура моделей f *

V

Метрика MB [25]

Ours

ResNet34

SVHN

acc(£>J) 87.81 ± 0.76 91.00 ± 0.00

acc(P*J) 100.0 ± 0.00 100.0 ± 0.00

acc(V,f *) 63.99 ± 3.90 73.01 ± 1.18

acc(£>*J *) 72.00 ± 6.08 77.70 ± 2.90

VGG11

CIFAR-10

acc(£>J) 87.81 ± 0.76 91.00 ± 0.00

acc(P*J) 100.0 ± 0.00 100.0 ± 0.00

acc(V,f *) 86.00 ± 2.17 89.24 ± 2.69

acc(£>*J *) 32.00 ± 7.21 80.10 ± 3.86

Таблица 9 — Сравнение подходов нанесения цифровых водяных знаков в сценарии, когда либо обучающая выборка, либо архитектура исходной модели неизвестна потенциальному злоумышленнику. Предложенный метод превосходит конкурентный метод как по точности исходной модели на обучающей выборке, так и по точности суррогатных моделей на триггерном наборе данных.

Суррогатная модель f * V V Метод атаки т b

Soft-label 64 40.0

Hard-label 64 40.0

RGT 256 40.0

Soft-label 256 40.0

Soft-label 64 40.0

Hard-label 64 40.0

RGT 64 40.0

VGG11 CIFAR-10 CIFAR-10 Обычное обучение 64 40.0

Таблица 10 — Значения параметров экспериментов. Размер триггерного набора п = 100, порог производительности т = 1.0. Для метода атаки RGT коэффициент регуляризации из уравнения (4.5) есть у = 0.3.

4.6 Обсуждение результатов

CIFAR-10 CIFAR"10

ResNet34 СЛ „тлт

SVHN

CIFAR-100 CIFAR-100

4.6.1 Переносимость поведения на верифицировнном триггерном

наборе на суррогатные модели

Предложенный метод работает в предположении о том, что для моделей из параметрического множества $б,т(/) существует некоторый неизвестный на-

бор общих точек 5(/, 6, т), такой, что предсказания на данной точке из набора общих точек одинаково для всех моделей из множества В6,т(/). Другими словами, если /(х) - это класс, присвоенный моделью / объекту х, то множество 5(/, 6, т) определяется следующим образом:

5(6, т) = {х : Дх) = /(х) V/ Вь,Ш. (4.7)

Если украденная модель принадлежит множеству прокси-моделей В6,т(/), то триггерный набор, построенный из точек множества 5(/, 6, т), будет хорошим индикатором кражи: предсказания исходной и украденной моделей будут идентичны на таком множестве по построению.

Поскольку невозможно гарантировать, что определенная точка принадлежит общему множеству 5 (/, 6, т), в предложенном методе проводится скрининг входного пространства в целях поиска кандидатов на принадлежность к ^(6, т).

А именно, проверка кандидата х проводится путем проверки предсказаний на нем т случайно выбранных прокси-моделей ¡\,..., /т из В6,т(/). Объект х считается потенциально принадлежащим ко множеству 5 (/, 6, т) только если все т моделей имеют одинаковое предсказание на нем. Процесс выбора таких точек можно представить как подбрасывание монеты: проверка предсказаний т прокси-моделей представляет собой подбрасывание т монет. Точки из входного пространства нейронной сети представляют собой нечестные монеты, то есть имеющие разные вероятности выпадения орлов и решек. Если входная точка х и индекс прокси-модели % фиксированы, то такой эксперимент А{ = А^(х) является испытанием Бернулли:

1 _ью« ,4.8,

0 с вероятностью 1 — р(х).

Пусть успех испытания Бернулли из уравнения (4.8) соответствует согласию в предсказаниях исходной модели / и ¿—ой прокси-модели /¿. Таким образом, скрининг сводится к поиску объектов х с наибольшей вероятностью ( х).

В проведенных экспериментах параметр р(х) соответствующей случайной величины оценивался на основании результатов т экспериментов А1(х),..., Ато(х). Использовалась интервальная оценку для р(х) в виде теста Клоппера-Пирсона [63]:

P (p(x) ^ В ,t,m - t + 1 ^ 1 - a.

(4.9)

В уравнении 4.9 р(х) = В — Ь + 1) есть квантиль Бета распределения,

количество успехов £ есть £ = т.

В данной работе значение р(х) рассматривается как нижнюю границу для неизвестного параметра р(х); чем больше значение р(х), тем выше вероятность того, что определенный объект х принадлежит общему множеству 5(/, 6, т).

В большинстве экспериментов использовались т = 64 прокси-моделей для проверки набора триггеров.

Однако, согласно проведенным экспериментам, суррогатные модели /* не обязательно должны принадлежать множеству прокси-моделей $6,т(/). Следовательно, не гарантируется, что суррогатные модели имеют тот же общий набор 5(/,6,т), что и прокси-модели. В таблице 7 приведены нормы разности параметров моделей между исходной и суррогатной моделями. Примечательно, что суррогатные модели не принадлежат к прокси-набору $6,т(/). Несмотря на это, предложенный подход позволяет получить триггерные наборы, предсказание на которых на практике переносятся за пределы множества прокси-моделей.

Следует отметить, что метод создания цифровых водяных знаков не только не должен негативно влиять на производительность исходной модели, но также должен обладать свойством достоверности: нейронные сети, не подверженные нанесению цифровых водяных знаков (независимые), не должны определяться как сети с нанесенными водяными знаками.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.