Априорное распределение параметров в задачах выбора моделей глубокого обучения тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Грабовой Андрей Валериевич

  • Грабовой Андрей Валериевич
  • кандидат науккандидат наук
  • 2022, ФГУ «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 124
Грабовой Андрей Валериевич. Априорное распределение параметров в задачах выбора моделей глубокого обучения: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГУ «Федеральный исследовательский центр «Информатика и управление» Российской академии наук». 2022. 124 с.

Оглавление диссертации кандидат наук Грабовой Андрей Валериевич

Введение

Глава 1. Априорное распределения параметров моделей

1.1. Привилегированное обучение Вапника и дистилляция Хинтона

1.2. Релевантность параметров моделей глубокого обучения

1.3. Смесь экспертов для аппроксимации мультимодальной выборки

Глава 2. Модели привилегированного обучения и дистилляции

2.1. Обобщенная вероятностная постановка задачи дистилляции

2.2. Подход дистилляции модели учителя в модель ученика

2.3. Анализ вероятностного подхода к дистилляции линейных моделей

Глава 3. Байесовская дистилляция моделей глубокого обучения

3.1. Постановка задачи дистилляции в терминах байесовского подхода

3.2. Выравнивание априорного распределения параметров ученика на основе параметров учителя

3.3. Последовательность выравнивающих преобразований

3.4. Анализ байесовской дистилляции полносвязных нейронных сетей

Глава 4. Априорные распределения параметров смеси экспертов

4.1. Локальные модели в задаче построения смеси экспертов

4.2. Вероятностное обоснование смеси экспертов

4.3. Априорное распределение для аппроксимации кривых второго порядка на изображении

4.4. Анализ качества аппроксимации смесью экспертов

Глава 5. Введение отношения порядка на множестве параметров аппроксимирующих моделей

5.1. Задача упорядочивания параметров аппроксимирующих моделей

5.2. Определение релеватности на основе метода Белсли

5.3. Анализ разных подходов к определению релевантности

5.4. Вычислительный эксперимент по упорядочиванию параметров

Глава 6. Анализ прикладных задач выбора моделей машинного обучения

6.1. Постановка задачи определения достаточного размера выборки

6.2. Байесовский подход к определению достаточного размера выборки

6.3. Анализ методов определения достаточного размера выборки

6.4. Кластеризация точек квазипериодических временных рядов

6.5. Анализ фазовых траекторий в задаче кластеризации

Заключение

Список основных обозначений

Список иллюстраций

Список таблиц

Список литературы

Введение

Актуальность темы. Построение и выбор оптимальной структуры нейронной сети является вычислительно сложной процедурой [1], которая значимо влияет на итоговое качество модели. При этом большинство параметров модели перестают значимо изменяться уже после небольшого числа итераций алгоритма оптимизации [2]. Своевременное определение начала сходимости параметров существенно снижает вычислительные затраты на обучение моделей с большим числом параметров. Примерами таких моделей являются AlexNet [3], VGGNet [4], ResNet [5], BERT [6, 7], mT5 [8], GPT3 [9]. Рост числа параметров моделей глубокого обучения влечет снижение интерпретируемости ответов этих моделей [10]. Проблема с неинтерпретируемыми моделями рассматривается в классе задач по состязательным атакам [11].

Проблемой моделей с большим числом параметров является увеличение вычислительной сложности. Использование избыточно сложных моделей с большим числом неинформативных параметров является препятствием для использования глубоких сетей на мобильных устройствах в режиме реального времени. Сложность модели определяется числом настраиваемых параметров модели. Для снижения числа параметров в литературе рассматривается метод дистилляции модели на основе предсказаний модели учителя [12, 13, 14]. Сложная модель с большим числом параметров называется учитель. Модель учителя дистиллируется в менее сложную модель с малым числом параметров, которая называется ученик. Методы дистилляции моделей глубокого обучения введены в работах Дж. Е. Хинтона и В. Н. Вапника [12, 13, 14]. Предлагается использовать предсказания модели учителя для повышения качества ученика. В [13] В. Н. Вапником вводится понятие привилегированной информации. Работа [14] объединяет идеи дистилляции [12] с идеями привилегированного обучения [13]. В ней предлагается метод дистилляции учителя в модель ученика в случае, когда признаковое описания объектов не совпадает. В [14] решается двухэтап-ная задача. На первом этапе строится модель учителя с расширенным признаковым описанием. На втором этапе при помощи дистилляции [12] обучается ученик в исходном признаковом описании. В работе Дж. Е. Хинтона [12] поставлены эксперименты по дистилляции моделей глубокого обучения для задачи классификации. Первый эксперимент анализирует выборку MNIST [15]. Он показывает, что предложенный метод дистилляции позволяет построить ней-росетевую модель меньшей сложности на основе модели большей сложности. Второй эксперимент анализирует метод дистилляции ансамбля моделей в одну нейросетевую модель для решения задачи распознания речи. В работе [12] проводится сравнение дистилляции с моделью смеси экспертов. Дальнейшие работы по дистилляции моделей глубокого обучения исследуют методы, использующие значения параметров модели учителя, для оптимизации параметров модели ученика. В [16] предлагается метод передачи селективности [17] нейрона, минимизирующий специальную функцию потерь. Эта функция основывается

на максимизация среднего описания между выходами слоев модели учителя и модели ученика. В рамках вычислительного эксперимента сравнивалось качество базовой дистилляции с предложенным методом на выборках О1РЛН, [18] и 1ша§бШ [19].

Дистилляция моделей глубокого обучения предполагает, что архитектура модели ученика уже известна. Для выбора архитектуры модели ученика предлагается использовать методы прореживания нейросетевых моделей. В работах [20, 21] предлагается использовать алгоритм градиентного спуска для оптимизации сети. В [22] используются байесовские методы [23] оптимизации параметров нейронных сетей. Существуют методы поиска оптимальной структуры используя удаления параметров сложной модели [24, 25, 26]. В работе [24] предлагается удалять наименее релевантные параметры на основе значений первой и второй производных функции ошибки. В [27] предложен метод определения релевантности параметров аппроксимирующих моделей при помощи метода Белсли. Релевантность параметров в работе [27] определяется на основе ковариационной матрицы параметров модели. Другими примерами задания порядка на множестве параметров служат ^-регуляризация [28] и регуляризация Е1аз11еКб1 [29] для линейных моделей. Порядок, заданный на множестве значений коэффициентов регуляризации, индуцирует порядок на множестве признаковых описаний и указывает на важность признаков. В случае нейро-сетей для регуляризации параметров используется метод исключения параметров [30, 22]. Он также задает порядок на множестве параметров модели.

Порядок на множестве параметров нейросети используется не только для удаления наименее релевантных параметров, а и для фиксации параметров в процессе их оптимизации. Работа [31] посвящена оптимизации структуры нейронной сети, а также выбору параметров, которые фиксируются после некоторой итерации градиентного метода.

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Априорное распределение параметров в задачах выбора моделей глубокого обучения»

Цели работы.

1. Предложить байесовский метод выбора моделей с использованием модели учителя с привилегированной и накопленной информацией.

2. Предложить метод назначения априорного распределения параметров модели ученика с использованием апостериорного распределения параметров модели учителя.

3. Предложить вероятностную интерпретацию дистилляции моделей глубокого обучения.

4. Предложить метод использования экспертной информации о решаемой задаче прогнозирования при построении априорного распределения параметров.

5. Предложить метод назначения релевантности параметров моделей глубокого обучения для выбора модели машинного обучения.

Методы исследования. Для достижения поставленных целей используются методы вариационного байесовского вывода [32, 33], вероятностные [34] методы анализа моделей глубокого обучения, статистические методы [35, 33] анализа распределений параметров моделей глубокого обучения.

Основные положения, выносимые на защиту.

1. Предложен байесовский метод выбора моделей с использованием модели учителя с привилегированной и накопленной информацией.

2. Доказаны теоремы о свойствах дистилляции,

— теоремы об эквивалентности для дистилляции моделей в случае задачи регрессии и классификации,

— теоремы о виде априорного распределения параметров модели ученика в байесовской дистилляции.

3. Предложен метод выравнивания вероятностных пространств параметров. Предложен метод выбора априорного распределения параметров модели ученика с использованием апостериорного распределения параметров модели учителя для случаев

— различных размерностей пространств параметров отдельных слоев,

— различного числа слоев нескольких моделей.

4. Предложены методы задания порядка на множестве параметров моделей

— на основе корреляции параметров,

— на основе оценки скорости сходимости параметров.

5. Предложена вероятностная интерпретации дистилляции моделей глубокого обучения. Исследованы свойства дистилляции моделей глубокого обучения.

Научная новизна. Разработаны новые подходы к назначению априорного распределения параметров моделей. Предложен метод назначения априорного распределения используя экспертную информацию о задаче. Предложены методы задания порядка на множестве параметров нейросетевых моделей на основе анализа мультиколлиниорности параметров и скорости их сходимости. Предложено вероятностное обобщение дистилляции моделей. Предложено байесовское обобщение дистилляции моделей глубокого обобщения.

Теоретическая значимость. Диссертационная работа носит теоретический характер. В работе проводится теоретический анализ методов снижения размерности пространства параметров нейросетевых моделей. Доказаны теоремы об эквивалентности для дистилляции моделей в случае задачи регрессии и классификации. Доказаны теоремы об априорном распределения модели для байесовской дистилляции.

Практическая значимость. Предложенные в работе методы предназначены для построения моделей глубокого обучения в прикладных задачах регрессии и классификации; снижения пространства параметров моделей глубокого обучения; использования экспертной информации для построения моделей; дистилляции параметрических моделей на основе выравнивания архитектур.

Степень достоверности и апробация работы. Достоверность результатов подтверждена математическими доказательствами, экспериментальной проверкой полученных методов на реальных задачах выбора моделей глубокого обучения; публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК. Результаты работы докладывались и обсуждались на следующих научных конференциях.

1. Задача обучения с экспертом для построения интерпретируемых моделей машинного обучения, Международная конференция «Интеллектуализация обработки информации», 2020.

2. Привилегированная информация и дистилляция моделей, Всероссийская конференция «63-я научная конференция МФТИ», 2020.

3. Введение отношения порядка на множестве параметров нейронной сети, Всероссийская конференция «Математические методы распознавания образов ММРО», 2019.

4. Анализ априорных распределений в задаче смеси экспертов, Всероссийская конференция «62-я научная конференция МФТИ», 2019.

5. Поиск оптимальной модели при помощи алгоритмов прореживания, Всероссийская конференция «61-я научная конференция МФТИ», 2018.

6. Автоматическое определение релевантности параметров нейросети, Международная конференция «Интеллектуализация обработки информации», 2018.

Работа поддержана грантами Российского фонда фундаментальных исследований:

1) 19-07-00875, Развитие методов автоматического построения и выбора вероятностных моделей субоптимальной сложности в задачах глубокого обучения,

2) 19-07-01155, Развитие теории порождения моделей локальной аппроксимации для классификации сигналов носимых устройств,

3) 19-07-00885, Выбор моделей в задачах декодирования временных рядов высокой размерности.

Публикации по теме диссертации. Основные результаты по теме диссертации изложены в 6 печатных изданиях в журналах, рекомендованных ВАК.

1. Грабовой А.В., Стрижов В.В. Байесовская дистилляция моделей глубокого обучения // Автоматика и телемеханика — 2021. — Т. 11. — С. 16-29.

2. Грабовой А.В., Стрижов В.В. Анализ выбора априорного распределения для смеси экспертов // Журнал вычислительной математики и математической физики - 2021. - Т. 61, № 7. - С. 1149-1161.

3. Grabovoy A., Strijov V. Quasi-periodic time series clustering for human // Lobachevskii Journal of Mathematics — 2020. Vol. 41. — Pp. 333-339.

4. Грабовой А.В., Бахтеев О.Ю., Стрижов В.В. Введение отношения порядка на множестве параметров аппроксимирующих моделей // Информатика и ее применения — 2020. — Т. 14, № 2. — С. 58-65.

5. Грабовой А.В., Бахтеев О.Ю., Стрижов В.В. Определение релевантности параметров нейросети // Информатика и ее применения — 2019. — Т. 13, № 2. — С. 62-70.

6. Грабовой А.В., Стрижов В.В. Вероятностная интерпретация задачи дистилляции // Автоматика и телемеханика — 2022. — Т. 1. — С. 150-168.

Личный вклад. Все приведенные результаты, кроме отдельно оговоренных случаев, получены диссертантом лично при научном руководстве д.ф.-м.н. В. В. Стрижова.

Структура и объем работы. Диссертация состоит из оглавления, введения, шести разделов, заключения, списка иллюстраций, списка таблиц, перечня основных обозначений и списка литературы из 99 наименований. Основной текст занимает 124 страницы.

Краткое содержание работы по главам. В главе 1 вводятся основные понятия, поставлены задачи выбора априорного распределения параметров моделей машинного обучения. Проанализированы методы дистилляции и привилегированного обучения предложенные Владимиром Наумовичем Вапником и Джефри Хинтоном. Анализируются существующие методы задания порядка на множестве параметров нейросетевых моделей.

В главе 2 предложены методы обобщения дистилляции и привилегированного обучения на основе вероятностного подхода.

В главе 3 предложен байесовский подход для дистилляции моделей глубокого обучения на основе вариационного вывода.

В главе 4 предложены методы задания априорного распределения параметров локальных моделей в задаче обучения смеси экспертов.

В главе 5 предложены методы введения отношения порядка на множестве параметров аппроксимирующих моделей.

В главе 6 проведен анализ прикладных задач, которые используют экспертную информацию.

Глава 1

Априорное распределения параметров моделей

Повышение точности аппроксимации в задачах машинного обучения влечет повышение сложности моделей и снижает их интерпретируемость. Примеры моделей с повышенной сложностью являются AlexNet [3], VGGNet [4], ResNet [5], BERT [6, 7], mT5 [8], GPT3 [9], а также ансамбли этих моделей. Табл. 1.1 описывает глубокие модели машинного обучения. Число параметров моделей машинного обучения с годами растет. Это влечет снижение интерпретируемости моделей. Данная проблема рассматривается в специальном классе задач по состязательным атакам (англ. adversarial attack) [11].

Таблица 1.1: Анализ роста числа параметров при развитии моделей глубокого обучения

Название AlexNet VGGNet ResNet BERT mT5 GPT3

Год 2012 2014 2015 2018 2020 2020

Тип данных изображение изображение изображение текст текст текст

Число параметров, млрд 0,06 0,13 0,06 0,34 13 175

При построении модели машинного обучения оптимизируются два критерия: сложность модели и точность аппроксимации модели. Определение 1. Сложность модели (структурная сложность) — число обучаемых параметров, используемых предсказтельнной моделью.

Модель, которая имеет меньшую сложность при фиксированной точности, является более предпочтительной [36]. Для снижения сложности рассматривается метод дистилляции моделей глубокого обучения. Он строит новые модели на основе ранее обученных моделей.

Определение 2. Дистилляция модели — снижение сложности модели путем выбора модели в множестве более простых моделей на основе анализа пространства параметров и предсказаний целевой переменной более сложной фиксированной модели.

Исследуется проблема снижения числа обучаемых параметров моделей машинного обучения. Большое число параметров требует больших вычислительных ресурсов. Из-за этого данные модели не могут быть использованы в мобильных устройствах. Идея дистилляции предложена в работах Дж. Е. Хинтона и В. Н. Вапником [12, 13, 14]. В этих работах предлагается использовать ответы учителя в качестве целевой переменной для обучения модели ученика. Для снижения числа параметров предложен метод дистилляции модели [12, 13, 14].

Дистиллируемая модель с большим числом параметров называется учитель, а модель получаемая путем дистилляции называется ученик. При оптимизации параметров модели ученика используется модель учителя с фиксированными параметрами.

В работе [12] Дж. Е. Хинтоном предлагается метод дистилляции моделей машинного обучения для задачи классификации и проведены эксперименты дистилляции моделей. Проведен эксперимент на выборке MNIST [15], в котором нейросеть с избыточным числом параметров дистиллирована в нейросеть меньшей сложности. Эксперимент по распознаванию речи, в котором ансамбль моделей дистиллирован в одну модель. Проведен эксперимент по обучению экспертных моделей на основе одной большой модели.

Определение 3. Привилегированная информация — множество признаков, доступных только при выборе модели, но не в при тестировании.

В работе [13] В. Н. Вапником введено понятие привилегированной информации. В работе [14] метод дистилляции [12] используется вместе с привилегированным обучением [13]. На первом этапе обучается модель учителя в пространстве привилегированной информации. На втором этапе обучается модель ученика в исходном признаковом пространстве используя дистилляцию [12]. Для обучения строится функция ошибки специального вида, которая подробно анализируется во 2й главе. Эта функция состоит из нескольких слагаемых. Она включает ошибку учителя, ученика и регуляризирующие элементы. Первый вариант этой функции ошибки предложен А. Г. Ивахненко [10]. Определение 4. Учитель — фиксированная модель, ответы которой используются при выборе модели ученика.

Определение 5. Ученик — модель, которая выбирается согласно заданного критерия качества использующего учителя.

Поставлен ряд экспериментов, в которых проводилась дистилляция моделей для задачи классификации машинного обучения. Базовый эксперимент на выборке MNIST [15] показал применимость метода для дистилляции избыточно сложной модели в модель меньшей сложности. Эксперимент по дистилляции ансамбля моделей в одну модель для решения задачи распознания речи. Также в работе [12] проведен эксперимент по обучению экспертных моделей на основе одной модели с большим числом параметров при помощи предложенного метода дистилляции на ответах учителя.

В работе [16] предложен метод передачи селективности нейронов (англ. neuron selectivity transfer) основаный на минимизации специальной функции потерь основаной на максимальном среднем отклонении (англ. maximum mean discrepancy) между выходами всех слоев модели учителя и ученика. Вычислительный эксперимент показал эффективность данного метода для задачи классификации изображений на примере выборок CIFAR [18] и ImageNet [19].

Важным свойством дистиллированных является то, что избыточная сложность модели учителя заключается в большом числе не релевантных параметров.

Определение 6. Релевантность параметров — численная характеристика описывающая влияние параметров на предсказания моделей.

Предлагается удалять наименее релевантные параметры модели. Под релевантностью [24] подразумевается то, насколько параметр влияет на функцию ошибки. Малая релевантность указывает на то, что удаление этого параметра не влечет значимого изменения функции ошибки. Метод предлагает построение исходной избыточной сложности нейросети с большим количеством избыточных параметров.

В работах предлагается [24, 26] метод введения отношения порядка на множестве параметров сложных параметрических моделей, таких как нейросеть. Рассматривается порядок, заданный при помощи ковариационной матрицы градиентов функции ошибки по параметрам модели [37]. В работе [2] предложен итерационный алгоритм для поиска ковариационной матрицы градиентов. Данный итерационный алгоритм интегрируется в градиентный алгоритм оптимизации Adam [38].

1.1. Привилегированное обучение Вапника и дистилляция Хинтона

Задано множество объектов ^ и множество целевых переменных ¥. Множество ¥ = {1,...,Я} для задачи классификации, где Я число классов, множество ¥ = К для задачи регрессии. Для каждого объекта из ! 2 ^ задана целевая переменная у^ = у(и). Множество целевых переменных для всех объектов обозначим V. Для множества ^ задано отображение в некоторое признаковое пространство

' : П ! \П\ = т,

где п размерность признакового пространства, а т количество объектов в множестве Отображение ' отображает объект и 2 ^ в соответствующий ему вектор признаков х^ = '(и). Пусть для объектов С ^ задана привилегированная информация:

'* : ! Кта*, \П*\ = т*,

где т* < т — число объектов с привилегированной информацией, п* — число признаков в пространстве привилегированной информации. Отображение '* отображает объект и 2 в соответствующий ему вектор признаков х* =

Множество индексов объектов с известной привилегированной информацией обозначим I:

I = {1 < г < т\для ¿-го объекта задана привилегированная информация},

а множество индексов объектов с не известной привилегированной информацией обозначим {1,..., т} \1 = I

Пусть на множестве привилегированных признаков задана функция учителя f (х*):

*

f : ^ ¥*,

где Y* = Y для задачи регрессии и Y* является единичным симплексом Sr в пространстве размерности R для задачи классификации. Модель учителя f ставит объекты X* в соответствие объектам S, то есть f (x*) = s». Требуется выбрать модель ученика g(x) из множества:

б = {g|g : ! Y*} , (1.1)

например для задачи классификации множество б может быть параметрическим семейством функций линейных моделей:

Giin,ci = {g(W,x)|g(W,x) = softmax(Wx), W 2 RnxR} .

Рассмотрим описание метода предложеного в работах [12, 14]. В рамках данных работ предполагается, что для всех данных доступна привилегированная информация I = {1, 2,... , m}. В работе [12] решается задача классификации вида:

D = {(x^)}™!, x» 2 Rn, уг 2 Y = {1,..., R},

где yi — это класс объекта, также обозначим у» вектором вероятности для класса у».

В постановке Хинтона рассматривается параметрическое семейство функций:

6d = {g|g = softmax(z(x)/T), z : Rn ! Rr} , (1.2)

где z — это дифференцируемая параметрическая функция заданной структуры, T — параметр температуры. В качестве модели учителя f рассматривается функция из множества Fci:

Fd = {f|f = softmax(v(x)/T), v : Rn ! Rr} , (1.3)

где v — это дифференцируемая параметрическая функция заданной структуры, T — параметр температуры. Параметр температуры T имеет свойства:

1. при T ! 0 получаем вектор, в котором один из классов имеет единичную вероятность;

2. при T получаем равновероятные классы.

Функция потерь L учитывает перенос информации от модели учителя f к модели ученика g имеет вид:

m R

,r

II Ш и I V ■ I ,

IT =1

cä g) = - XX yr log g (x0

i=1 r=1

s/

исходная функция потерь

m R

=To l0g g(xi) It=T0,

(1.4)

XX fM |T=To log gfc)

i=1 r=1

слагаемое дистилляция 12

1-v-'

где _ обозначает, что параметр температуры Т в предыдущей функции равняется £.

Получаем оптимизационную задачу:

¿* = а^тт ^. (1.5)

ё2©с1

Работа [14] обобщает метод предложенный в работе [12]. Решение задачи оптимизации (1.5) зависит только от вектора ответов модели учителя f. Следовательно признаковые пространства учителя и ученика могут различаться. Получаем постановку задачи:

© = {(хг, х*,уг)}Г_! , хг 2 х* 2 ^, уг 2{1,...,Я},

где хг это информация доступна на этапах обучения и контроля, а х* это информация доступна только на этапе обучения. Модель учителя принадлежит множеству моделей :

= {f\f = БОЙшах^*(х*)/Т), V* : ! } , (1.6)

где V* — это дифференцируемая параметрическая функция заданной структуры, Т — параметр температуры. Множество моделей отличается от множества моделей из выражения (1.3). В множестве модели используют пространство исходных признаков, а в множестве модели используют пространство привилегированных признаков. Функция потерь (1.4) в случае модели учителя f 2 принимает вид:

т К т К

И = - XX УГ ^ g(xi) \т_1 - XX f (х*) 1т=То ^ g(xi)\т_т0, (1.7)

г_1 г_1 1=1 г_ 1

где _ обозначает, что параметр температуры Т в предыдущей функции равняется £.

Требуется построить модель, которая использует привилегированную информацию х* при обучении. Для этого рассмотрим двухэтапную модель обучения предложенную в работе [14]:

1. выбираем оптимальную модель учителя f 2 ;

2. выбираем оптимальную модель ученика g 2 0С1 используя дистилляцию [12].

Модель ученика — это функция минимизирующая (1.7). Модель учителя — это функция минимизирующая кросс-энтропийную функции ошибки:

т К

^) = - XX уг ^ f (х*)

г_1 г_1

1.2. Релевантность параметров моделей глубокого обучения

Задана выборка

D = {хг,уг},^ = 1 ,... , N,

где xi 2 Rm, yi 2 {1,... , Y}, Y — число классов. Рассмотрим модель f (x, w) : Rm x Rn ! {1 ,..., Y}, где w 2 Rn — пространство параметров модели,

f (x w) = softmax(fi(f2(...(fi(x, w)),

где fi(x,w) = tanh(wTx), l — число слоев нейронной сети, i 2 {1. ..l}. Параметр Wj модели f называется активным, если wj = 0. Множество индексов активных параметров обозначим A С J = {1,...,n}. Задано пространство параметров модели:

Wa = {w 2 Rn|Wj = 0,j 2 A},

Для модели f с множеством индексов активных параметров A и соответствующего ей вектора параметров w 2 Wa определим логарифмическую функцию правдоподобия выборки:

Ld(D, A, w) = log p(D|A, w), (1.8)

гдеp(D|A, w) — апостериорная вероятность выборки D при заданных w, A. Оптимальные значения w, A находятся из минимизации — La(D, A) — логарифма правдоподобия модели:

La(D,A) = logp(D|A) = log / p(D|w)p(w|A)dw, (1.9)

Jw2Wj

где p(w|A) — априорная вероятность вектора параметров в пространстве Wj.

Так как вычисление интеграла (1.9) является вычислительно сложной задачей, рассмотрим вариационный подход [33] для решения этой задачи. Пусть задано распределение q:

q(w) ^(m. A—s1)

где m, A-1 — вектор средних и матрица ковариации, аппроксимирующее неизвестное апостериорное распределение p(w|D, A):

p(w|A) ~ A-r1),

где A-1 — вектор средних и матрица ковариации. Приблизим интеграл (1.9) методом из [33]:

A) = log p(D|A) =

= f q(w) log p(D,w|A) dw — [ q(w)log p(w|D'A) dw « Jwgwj q(w) iweWj q(w)

f p(D, w|A)

« q(w) log-—г— dw =

JweWj q(w)

= / q(w) log p(w|A) dw + f q(w)logp(D|A, w)dw = JweWj q(w) JweWj

= Lw(D, A, w) + Le (D, A).

(1.10)

Первое слагаемое формулы (1.10) — это сложность модели. Оно определяется расстоянием Кульбака-Лейблера:

Lw(D, A, w) = —DKL(q(w)||p(w|A)).

Второе слагаемое формулы (1.10) является матожиданием правдоподобия выборки Ld(D, A, w), рассматриваемое в качестве функции ошибки:

Le (D, A) = ew~q L®(y, D, A, w).

Требуется найти параметры, доставляющие минимум суммарному функционалу потерь La(D, A, w) из (1.10):

w = arg min — Ca(D,A, w) =

Ac J ,w2Wa (111)

= arg min D^biq (w)||p(w|A)) — Ld(D, A, w).

AcJ ,w2Wa

Случайное удаление. Метод случайного удаления заключается в том, что случайным образом удаляется некоторый параметр w£ из множества активных параметров сети. Индекс параметра £ из равномерного распределения случайная величина, предположительно доставляющая оптимум в (1.11).

£ ~U(A).

Оптимальное прореживание. Метод оптимального прореживания [24] использует вторую производную целевой функции (1.8) по параметрам для определения нерелевантных параметров. Рассмотрим функцию потерь L (1.8) разложенную в ряд Тейлора в некоторой окрестности вектора параметров w:

ÖL = X9jöw? + 1 X hijÖwiÖwj + O(||Öw||3), (1.12)

2

j eA i,jeA

где Öwj — компоненты вектора Öw, g — компоненты вектора градиента VL, а hij — компоненты гессиана H:

_@Lh_ @ 2 L

gj dwj, ij dwidwj 15

Задача является вычислительно сложной в силу размерности матрицы Н. Введем предположение [24], о том что удаление нескольких параметров приводит к такому же изменению функции потерь С, как и суммарное изменение при индивидуальном удалении:

ьс = X ь С,

3 2 А

где А — множество активных параметров, ЬСу — изменение функции потерь, при удалении одного параметра .

В силу данного предположения рассматриваются только диагональные элементы матрицы Н. После введенного предположения, выражение (1.12) принимает вид

= 2 X 3 И2'

32А

Получаем задачу оптимизации:

2

£ = а^тт ^ —'

где £ — индекс наименее релевантного, удаляемого параметра, предположительно доставляющая оптимум в (1.11).

Удаление неинформативных параметров с помощью вариационного вывода. Для удаления параметров в работе [26] предлагается удалить параметры, которые имеют максимальное отношение плотности р^|А) априорной вероятности в нуле к плотности вероятности априорной вероятности в математическом ожидании параметра.

Для гауссовского распределения с диагональной матрицей ковариации получаем:

РМА)(ж) = -^ехр(-(Х-Ч3) ).

2<х| 3

Разделив плотность вероятности в нуле к плотности в математическом ожидание

РзМА)(0) , ч2

= ехр(^£32 )'

Рз МА)^) 20-2

Получаем задачу оптимизации:

£ = а^ шт

32А

Чз

°з

где £ — индекс наименее релевантного, удаляемого параметра.

1.3. Смесь экспертов для аппроксимации мультимодальной выборки

Исследуется проблема построения смеси экспертов. Смесь экспертов является мультимоделью, состоящей из набора локальных моделей и шлюзовой функции. Локальные модели называются экспертами. Смесь экспертов использует шлюзовую функцию для взвешивания прогнозов каждого эксперта. Весовые коэффициенты шлюзовую функции зависят от объекта, для которого производится прогноз. Примерами мультимоделей являются бэггинг, градиентный бустинг [39] и случайный лес [40]. В статье [41] предполагается, что вклад каждого эксперта в ответ зависит от объекта из набора данных.

Большое количество работ в области построения смеси экспертов посвящены выбору шлюзовой функции: используется эойтах, процесс Дирихле [42], нейронная сеть [43] с функцией эойтах на последнем слое. Ряд работ посвящены выбору моделей в качестве отдельных экспертов. В работах [44, 45] в качестве модели эксперта рассматривается линейная модель. Работы [46, 47] рассматриваю модель БУМ в качестве модели эксперта. В работе [41] представлен обзор методов и моделей в задачах смеси экспертов.

Смеси экспертов имеют приложения в прикладных задачах. Работы [48, 49, 50] посвящены применению смеси экспертов в задачах прогнозирования временных рядов. В работе [51] предложен метод распознавания рукописных цифр. Метод распознания текстов при помощи смеси экспертов иследуется в работах [52], распознание речи [53, 54, 55]. В работе [52] решается задача классификации текстов. В работах [49, 50, 47, 53, 56, 55, 48], используется смесь экспертов для прогнозировании временных рядов при распознавания человеческой речи, повседневной деятельности человека и прогнозирования стоимости ценных бумаг. В работе [51] смесь экспертов применяется для решения задачи распознавания рукописных чисел на изображениях. В работе [56] исследуется смесь экспертов для задачи распознавания трехмерных движений человека. В [57] описаны работы по исследованию обнаружения радужки глаза на изображении. В работах [58, 59] в частности описаны методы выделения границ радужки и зрачка.

Глава 2

Модели привилегированного обучения и дистилляции

Раздел посвящен методам понижения сложности аппроксимирующих моделей. Предлагается вероятностное обоснование методов дистилляции и привилегированного обучения. В данной главе рассматривается вероятностный подход к решению задачи дистилляции модели и задачи привилегированного обучения. Проанализирована задача обучения модели ученика с помощью модели учителя. Исследован метод дистилляции и привилегированного обучения. Предложено вероятностное обоснование дистилляции.

Приведены общие выводы для произвольной параметрической функции с наперед заданной структурой. Приводится теоретическое обоснование для частных случаев: линейной и логистической регрессии. Подход обобщается на случай, когда привилегированная информация доступна не для всех объектов из обучающей выборки. В рамках вероятностного подхода предлагается анализ и обобщение функции ошибки [12, 14]. Рассматриваются частные задачи классификации и регрессии [10].

В главе введены вероятностные предположения, описывающие дистилляцию моделей. В рамках данных вероятностных предположений анализируются модели для задачи классификации и регрессии. Результат анализа сформулирован в виде теорем 1 и 2. Теорема 2 показала, что обучение линейной регрессии с учителем эквивалентно замене обучающей выборки и вероятностных предположений о распределении истинных ответов. Для задачи классификации ответы учителя дают дополнительную информацию в виде распределения классов для каждого объекта из обучающей выборки. Данная информация не может быть представлена в виде классической задачи классификации. Требуется ввести распределение, которое представлено в теореме 1.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Грабовой Андрей Валериевич, 2022 год

Список литературы

1. Sutskever I., Vinyals O, Le Q. Sequence to Sequence Learning with Neural Networks // Advances in Neural Information Processing Systems. — Vol. 27.

— Curran Associates, Inc., 2014.

2. Preconditioned stochastic gradient Langevin dynamics for deep neural networks / C. Li, C. Chen, D. Carlson, L. Carin // AAAI. — 2016. — Pp. 17881794.

3. Krizhevsky A., Sutskever I., Hinton G. ImageNet Classification with Deep Con-volutional Neural Networks // Advances in Neural Information Processing Systems. — Vol. 25. — Curran Associates, Inc., 2012.

4. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // ICLR. — 2015.

5. Deep Residual Learning for Image Recognition / K. He, X. Zhang, S. Ren, J. Sun // IEEE Conference on Computer Vision and Pattern Recognition. — 2016. — Pp. 770-778.

6. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M. Chang, K. Lee, K. Toutanova // NAACL-HLT. — Vol. 1. — Association for Computational Linguistics, 2019. — Pp. 4171-4186.

7. Attention is All you Need / A. Vaswani, N. Shazeer, N. Parmar et al. // Advances in Neural Information Processing Systems. — Vol. 30. — Curran Associates, Inc., 2017.

8. Xue L., Constant N., Roberts A. et al. mT5: A massively multilingual pre-trained text-to-text transformer. — 2021.

9. Language Models are Few-Shot Learners / T. Brown, B. Mann, N. Ryder et al. // Advances in Neural Information Processing Systems. — Vol. 33. — Curran Associates, Inc., 2020. — Pp. 1877-1901.

10. Madala H., A. Ivakhnenko. Inductive Learning Algorithms for Complex Systems Modeling. — Boca Raton: CRC Press, 1993. — 380 pp.

11. Adversarial Attacks and Defenses in Deep Learning / K. Ren, T. Zheng, Z. Qin, X. Liu // Engineering. — 2020. — Vol. 6, no. 3. — Pp. 346-360.

12. Hinton G., Vinyals O., Dean J. Distilling the Knowledge in a Neural Network // NIPS Deep Learning and Representation Learning Workshop. — 2015.

13. Vapnik V., Izmailov R. Learning Using Privileged Information: Similarity Control and Knowledge Transfer // J. Mach. Learn. Res. — 2015. — Vol. 16, no. 1.

— Pp. 2023-2049.

14. Unifying distillation and privileged information / D. Lopez-Paz, L. Bottou, B. Scholkopf, V. Vapnik // ICLR. — 2016.

15. LeCun Y, Cortes C. MNIST handwritten digit database. — http://yann.lecun.com/exdb/mnist/. — 2010. http://yann.lecun.com/ exdb/mnist/.

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

Huang Z, Wang N. Like What You Like: Knowledge Distill via Neuron Selectivity Transfer. — 2017.

Татарчук А. Байесовские методы опорных векторов для обучения распознаванию образов с управляемой селективностью отбора признаков: Ph.D. thesis / Вычислительный центр РАН. — 2014.

Krizhevsky A., Nair V., Hinton G. CIFAR-10 (Canadian Institute for Advanced Research). — https://www.cs.toronto.edu/ kriz/cifar.html. https://www.cs. toronto.edu/~kriz/cifar.html.

ImageNet: A large-scale hierarchical image database. / J. Deng, W. Dong, R. Socher et al. // CVPR. — IEEE Computer Society, 2009. — Pp. 248-255. Maclaurin D., Duvenaud D., Adams R. Gradient-based Hyperparameter Optimization through Reversible Learning // Proceedings of the 32nd International Conference on Machine Learning. — JMLR Workshop and Conference Proceedings, 2015. — Pp. 2113-2122.

Scalable Gradient-Based Tuning of Continuous Regularization Hyperparameters / J. Luketina, T. Raiko, M. Berglund, K. Greff // Proceedings of the 33nd International Conference on Machine Learning. — Vol. 48. — JMLR.org, 2016. — Pp. 2952-2960.

Molchanov D., Ashukha A., Vetrov D. Variational Dropout Sparsifies Deep Neural Networks // Proceedings of the 34th International Conference on Machine Learning. — Vol. 70. — JMLR.org, 2017. — Pp. 2498-2507. Neal R. Bayesian Learning for Neural Networks. — Berlin, Heidelberg: SpringerVerlag, 1996. — 289 pp.

LeCun Y, Denker J., Solla S. Optimal Brain Damage // Advances in Neural Information Processing Systems. — Vol. 2. — Morgan-Kaufmann, 1990. Louizos C, Ullrich K., Welling M. Bayesian compression for deep learning // Advances in Neural Information Processing Systems. — 2017. — Pp. 3290-3300. Graves A. Practical Variational Inference for Neural Networks // Advances in Neural Information Processing Systems. — Vol. 24. — Curran Associates, Inc., 2011.

Грабовой А. В., Бахтеев О. Ю., Стрижов В. В. Определение релевантности параметров нейросети // Информ. и её примен. — 2019. — Vol. 13, no. 2. — Pp. 62-70.

Tibshirani R. Regression Shrinkage and Selection Via the Lasso // Journal of the Royal Statistical Society. — 1994. — Vol. 58. — Pp. 267-288. Zou H, Hastie T. Regularization and variable selection via the Elastic Net // Journal of the Royal Statistical Society. — 2005. — Vol. 67. — Pp. 301-320. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / N. Sri-vastava, G. Hinton, A. Krizhevsky et al. // J. Mach. Learn. Res. — 2014. — Vol. 15, no. 1. — Pp. 1929-1958.

31. Грабовой А. В., Бахтеев О. Ю., Стрижов В. В. Введение отношения порядка на множестве параметров аппроксимирующих моделей / / Информ. и её примен. — 2020. — Vol. 14, no. 2. — Pp. 58-65.

32. MacKay D. Information Theory, Inference & Learning Algorithms. — New York, NY, USA: Cambridge University Press, 2002. — 392 pp.

33. Bishop C. Pattern Recognition and Machine Learning (Information Science and Statistics). — Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.

— 416 pp.

34. Ширяев А. Н. Вероятность. — М.: Наука, 1980. — 640 pp.

35. Кобзарь А. И. Прикладная математическая статистика: для инженеров и научных работников. — М.: Физматлит, 2012. — 813 pp.

36. Бахтеев О. Ю., Стрижов В. В. Выбор моделей глубокого обучения субоптимальной сложности // Автомат. и телемех. — 2018. — Vol. 79, no. 8. — Pp. 129-147.

37. Mandt S., Hoffman M., Blei D. Stochastic Gradient Descent as Approximate Bayesian Inference // J. Mach. Learn. Res. — 2017. — Vol. 18, no. 1. — Pp. 4873-4907.

38. Kingma D., Ba J. Adam: A Method for Stochastic Optimization // ICLR. — 2015.

39. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. — New York, NY, USA: Association for Computing Machinery, 2016. — Pp. 785-794.

40. Chen X., Ishwaran H. Random forests for genomic data analysis // Genomics.

— 2012. — Vol. 99, no. 6. — Pp. 323-329.

41. Yuksel S., Wilson J., Gader P. Twenty Years of Mixture of Experts // IEEE Transactions on Neural Networks and Learning Systems. — 2012. — Vol. 23, no. 8. — Pp. 1177-1193.

42. Rasmussen C., Ghahramani Z. Infinite Mixtures of Gaussian Process Experts // Advances in Neural Information Processing Systems. — Vol. 14. — MIT Press, 2002.

43. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer / N. Shazeer, A. Mirhoseini, K. Maziarz et al. // 5th International Conference on Learning Representations. — OpenReview.net, 2017.

44. Jordan M., Jacobs R. Hierarchical mixtures of experts and the EM algorithm // Proceedings of 1993 International Conference on Neural Networks (IJCNN-93-Nagoya, Japan). — Vol. 2. — 1993. — Pp. 1339-1344.

45. Jordan M., Jacobs R. Hierarchies of Adaptive Experts // Proceedings of the 4th International Conference on Neural Information Processing Systems. — San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1991. — Pp. 985-992.

46. Lima C., Coelho A., Von Zuben F. Hybridizing Mixtures of Experts with Support Vector Machines: Investigation into Nonlinear Dynamic Systems Identification // Inf. Sci. - 2007. - Vol. 177, no. 10. - Pp. 2049-2074.

47. Cao L. Support vector machines experts for time series forecasting // Neurocomputing. - 2003. - Vol. 51. - Pp. 321-339.

48. YUmlU M, Gurgen F., Okay N. Financial Time Series Prediction Using Mixture of Experts // Lecture Notes in Computer Science. - Vol. 2869. - Springer, 2003. - Pp. 553-560.

49. Cheung Y, Leung W, Xu L. Application of Mixture of Experts Model to Financial Time Series Forecasting // Series Forecasting, submitted to International Conference on Neural Networks and Signal Processing. - 1995.

50. Weigend A., Shi S. Predicting Daily Probability Distributions of S&P500 Returns // J. Forecast. - 2000. - Vol. 19, no. 4. - Pp. 375-392.

51. Recognition of Persian handwritten digits using characterization Loci and mixture of experts / R. Ebrahimpour, M. Moradian, A. Esmkhani, F. Jafarlou // International Journal of Digital Content.Technology and its Applications. -Vol. 3. - 2009.

52. Estabrooks A., Japkowicz N. A mixture-of-experts framework for text classification // Proceedings of the ACL 2001 Workshop on Computational Natural Language Learning (ConLL). - 2001.

53. A bayesian hierarchical mixture of experts approach to estimate speech quality / S. Mossavat, O. Amft, B. de Vries et al. // 2010 Second International Workshop on Quality of Multimedia Experience (QoMEX). - 2010. - Pp. 200-205.

54. Peng F., Jacobs R., M. Tanner. Bayesian Inference in Mixtures-of-Experts and Hierarchical Mixtures-of-Experts Models with an Application to Speech Recognition // Journal of the American Statistical Association. - 1996. -Vol. 91, no. 435. - Pp. 953-960.

55. Tuerk A. The State Based Mixture of Expert HMM with Applications to the Recognition of Spontaneous Speech: Ph.D. thesis / University of Cambridge. -2001.

56. Sminchisescu C., Kanaujia A., Metaxas D. BM3E : Discriminative Density Propagation for Visual Tracking // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - Vol. 29, no. 11. - Pp. 2030-2044.

57. Bowyer K., Hollingsworth K., Flynn P. A Survey of Iris Biometrics Research: 2008-2010. - London: Springer, 2013. - 410 pp.

58. Matveev I. Detection of Iris in image by Interrelated Maxima of Brightness Gradient Projections // Appl.Comput. Math. - Vol. 9. - 2010. - Pp. 252257.

59. Matveev I., Simonenko I. Detecting precise iris boundaries by circular shortest path method // Pattern Recognition and Image Analysis. - 2014. - Vol. 24. - Pp. 304-309.

60. Xiao H., Rasul K., Vollgraf R. Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. — 2017. https://arxiv.org/ abs/1708.07747.

61. SemEval-2013 Task 2: Sentiment Analysis in Twitter / P. Nakov, S. Rosenthal, Z. Kozareva et al. // Proceedings of the 7th International Workshop on Semantic Evaluation. — The Association for Computer Linguistics, 2013. — Pp. 312-320.

62. Backpropagation Applied to Handwritten Zip Code Recognition / Y. LeCun, B. Boser, J. S. Denker et al. // Neural Comput. — 1989. — Vol. 1, no. 4. — Pp. 541-551.

63. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. — 1997. — Vol. 9, no. 8. — Pp. 1735-1780.

64. Deep Generative Models for Fast Shower Simulation in ATLAS / D. Salamani, S. Gadatsch, T. Golling et al. // 2018 IEEE 14th International Conference on e-Science (e-Science). — 2018. — Pp. 348-348.

65. Dempster A., Laird N., Rubin D. Maximum likelihood from incomplete data via the EM algorithm // Journal of the Royal Statistical Society. — 1977. — Vol. 39. — Pp. 1-38.

66. Neychev R., Katrutsa A., Strijov V. Robust selection of multicollinear features in forecasting // Factory Laboratory. — 2016. — Vol. 82(3). — Pp. 68-74.

67. Aeberhard S. Wine Dataset. — https://archive.ics.uci.edu/ml/datasets/Wine.

68. Harrison D., Rubinfeld D. Hedonic housing prices and the demand for clean air // Journal of environmental economics and management. — 1978. — Vol. 5, no. 1. — Pp. 81-102.

69. Self S., Mauritsen R. Power sample size calculations for generalized linear models // Biometrics. — 1988. — Vol. 44. — Pp. 79-86.

70. Self S., Mauritsen R., Ohara J. Power calculations for likelihood ratio tests in generalized linear models // Biometrics. — 1992. — Vol. 48. — Pp. 31-39.

71. Shieh G. On power and sample size calculations for likelihood ratio tests in generalized linear models // Biometrics. — 2000. — Vol. 56. — Pp. 1192-1196.

72. Demidenko E. Sample size determination for logistic regression revisited // Statistics in medicine. — 2006. — Vol. 26. — Pp. 3385-97.

73. Shieh G. On power and sample size calculations for Wald tests in generalized linear models // Journal of Statistical Planning and Inference. — 2005. — Vol. 128. — Pp. 43-59.

74. Motrenko A., Strijov V., Weber G. Sample Size Determination for Logistic Regression // J. Comput. Appl. Math. — 2014. — Vol. 255, no. C. — Pp. 743752.

75. Qumsiyeh M. Using the bootstrap for estimation the sample size in statistical experiments // Journal of modern applied statistical methods. — 2013. — Vol. 8. — Pp. 305-321.

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

Lawrence J., Wolfson D., Berger R. Sample Size Calculations for Binomial Proportions Via Highest Posterior Density Intervals // Statistician. — 1995. — Vol. 44. — Pp. 143-154.

Joseph L., Berger R., Bélisle P. Bayesian and mixed Bayesian/likelihood criteria for sample size determination // Statistician. — 1997. — Vol. 16, no. 7.

— Pp. 769-781.

Lindley D. The choice of sample size // Statistician. — 1997. — Vol. 46. — Pp. 129-138.

Kloek T. Note on a large-sample result in specification analysis // Economet-rica. — 1975. — Vol. 43. — Pp. 933-936.

Rubin D., Stern H. Sample size determination using posterior predictive distributions // Sankhya: The Indian Journal of Statistics Special Issue on Bayesian Analysis. — 1998. — Vol. 60. — Pp. 161-175.

Wang F., Gelfand A. A Simulation-based Approach to Bayesian Sample Size Determination for Performance under a Given Model and for Separating Models // Statistical Science. — 2002. — Vol. 17. — Pp. 193-208. Quinlan J. Learning With Continuous Classes. — World Scientific, 1992. — Pp. 343-348.

Kwapisz J., Weiss G., Moore S. Activity recognition using cell phone accelerom-eters // ACM SigKDD Explorations Newsletter. — 2011. — Vol. 12, no. 2. — Pp. 74-82.

Revisiting Optimal Delaunay Triangulation for 3D Graded Mesh Generation / Z. Chen, W. Wang, B. Levy et al. // SIAM Journal on Scientific Computing.

— 2014. — Pp. 930-954.

Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single tri-axial accelerometer // Multim. Tools Appl. — 2016. — Vol. 75, no. 12. — Pp. 7257-7270.

Detection of (In)activity Periods in Human Body Motion Using Inertial Sensors: A Comparative Study / A. Olivares, J. Ramirez, J. Gorriz et al. // Sensors. — 2012. — Vol. 12, no. 5. — Pp. 5791-5814.

Period-aware content attention RNNs for time series forecasting with missing values / Y. Cinar, H. Mirisaee, P. Goswami et al. // Neurocomputing. — 2018.

— Vol. 312. — Pp. 177-186.

Motrenko A., Strijov V. Extracting Fundamental Periods to Segment Biomedical Signals // IEEE journal of biomedical and health informatics. — 2015. — Vol. 20.

Данилова Д. Л., Жигловский А. А. Главные компоненты временных рядов: метод "Гусеница". — Санкт-Петербург: Санкт-Петербурскиий университет, 1997. — 218 pp.

Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — Москва: Финансы и статистика, 2003. — 416 pp.

91. Ивкин И. П., Кузнецов М. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. — 2015. — Vol. 1, no. 11. — Pp. 1471— 1483.

92. Katrutsa A., Strijov V. Stress test procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems. — 2015. — Vol. 142. — Pp. 172-183.

93. Borg I., Groenen P. Modern Multidimensional Scaling: Theory and Applications. — Springer, 2005. — 380 pp.

94. Grabovoy A., Strijov V. Quasi-Periodic Time Series Clustering for Human Activity Recognition // Lobachevskii Journal of Mathematics. — 2020. — Vol. 41, no. 3. — Pp. 333-339.

95. Grabovoy A., Strijov V. Prior Distribution Selection for a Mixture of Experts // Computational Mathematics and Mathematical Physics. — 2021. — Vol. 61, no. 7. — Pp. 1140-1152.

96. Akhtar N., Mian A. Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey // IEEE Access. — 2018. — Vol. 6. — Pp. 14410-14430.

97. Adversarial Attacks and Defenses in Images, Graphs and Text: A Review / H. Xu, Y. Ma, H. Liu et al. // International Journal of Automation and Computing. — 2020. — Vol. 17, no. 2. — Pp. 151-178.

98. Ribeiro M, Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. — New York, NY, USA: Association for Computing Machinery, 2016. — Pp. 1135-1144.

99. TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing / Z. Yang, Y. Cui, Z. Chen et al. // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. — Association for Computational Linguistics, 2020. — Pp. 9-16.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.