Модели, алгоритмы и программное обеспечение для выбора персонализированных предложений в сети интернет в режиме реального времени тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Федоренко Юрий Сергеевич

  • Федоренко Юрий Сергеевич
  • кандидат науккандидат наук
  • 2021, ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 170
Федоренко Юрий Сергеевич. Модели, алгоритмы и программное обеспечение для выбора персонализированных предложений в сети интернет в режиме реального времени: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)». 2021. 170 с.

Оглавление диссертации кандидат наук Федоренко Юрий Сергеевич

Введение

Глава 1. Методы извлечения и отбора признаков применительно к системе выбора

персонализированных предложений

1.1. Структурная схема системы выбора персонализированных предложений

1.2. Признаковое описание

1.3. Методы извлечения и отбора признаков

1.3.1. Понятие релевантного признака

1.3.2. Фильтрация признаков

1.3.3. Методы перебора подмножеств признаков

1.3.4. Методы понижения размерности

1.3.5. Самоорганизующиеся нейронные сети

1.3.6. Глубокие нейронные сети

1.4. Проблема высокой нагрузки в системе выбора персонализированных предложений

1.5. Возможные методы прогнозирования частоты кликов

1.5.1. Линейные модели

1.5.2. Глубокие нейросети

1.5.3. Деревья решений

1.6. Постановка задачи

1.7. Выводы по Главе

Глава 2. Разработка метода прогнозирования частоты кликов по рекламному объявлению без ручного

конструирования признаков

2.1. Модель процесса подбора рекламных баннеров

2.2. Проблема выбора комбинаций первичных признаков

2.3. Обоснование независимой оценки частоты клика для каждого баннера

Стр.

2.4. Описание предложенной нейросетевой модели со специализированной архитектурой

2.4.1. Общая идея

2.4.2. Архитектура

2.4.3. Обучение

2.5. Моделирование системы выбора персонализированных предложений как системы массового обслуживания

2.6. Проблема выключения нейронов

2.6.1. Пути решения

2.7. Методика статистического тестирования результатов экспериментов

2.7.1. Описание проблемы

2.7.2. Предложенная методика

2.7.3. Упрощенная методика

2.7.4. Оценка стоимости предложенной методики по сравнению

с кросс-валидацией

2.8. Выводы по Главе

Глава 3. Программная реализация предложенной нейросетевой

модели со специализированной архитектурой

3.1. Реализация двухслойного персептрона с попарными связями

3.1.1. Структуры данных

3.1.2. Обработка примеров нейросетью

3.2. Замеры скорости обработки примеров нейросетью

3.3. Проектирование программной реализации

3.4. Поддержка параллельной работы с реализованной нейросетью

3.5. Выводы по Главе

Глава 4. Эксперименты с предложенной нейросетевой моделью

со специализированной архитектурой

4.1. Используемые метрики

4.1.1. Логистическая функция потерь (бинарная кросс-энтропия)

4.1.2. ИОС-кривая

4.2. План проведения экспериментов

Стр.

4.3. Обучение на основе простого SGD

4.3.1. Однопроходное обучение

4.3.2. Многопроходное обучение

4.4. Обучение на основе градиентных методов оптимизации (RMSprop)109

4.4.1. Однопроходное обучение

4.4.2. Многопроходное обучение

4.5. Обучение на основе градиентных методов оптимизации (Adam)

4.6. Выбор наилучшего режима обучения моделей

4.7. Проблема умирающих нейронов

4.8. Сравнение различных конфигураций нейросетей

4.9. Статистический анализ результатов экспериментов

4.9.1. Анализ однопроходного обучения на основе RMSprop

4.9.2. Анализ обучения с ранним остановом на основе RMSprop

4.9.3. Анализ обучения на основе RMSprop с ранним остановом

и методикой решения проблемы умирающих нейронов

4.9.4. Анализ сравнения различных конфигураций нейросетей

4.10. Сравнение с полносвязной нейросетью

4.11. Расчет системы выбора персонализированных предложений как системы массового обслуживания

4.12. Пример формирования сложных признаков для последующего использования предложенной нейронной сетью

4.13. Выводы по Главе

Общие выводы и заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Приложение

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели, алгоритмы и программное обеспечение для выбора персонализированных предложений в сети интернет в режиме реального времени»

Введение

Актуальность работы. Задача построения программных систем для выбора персонализированных предложений в интернете особенно актуальна в связи с проникновением интернета во все сферы жизни, включая деловую сферу, покупки, развлечения и т.д. Одним из ярких подтверждений этому является динамика оборота рынка интернет-рекламы в России. Например, в 2017 году рынок интернет рекламы в России вырос на 22% по сравнению с предыдущим годом [1], а до 2021 года в данной сфере ожидается ежегодный рост оборота на уровне 12% [2]. Стоит отметить и рост академического интереса к данной задаче. Согласно данным системы цитирования Google Scholar за последние 5 лет было сделано более 15 тысяч [3] публикаций по теме CTR prediction (прогнозирование частоты клика по рекламному объявлению в интернете - важнейшая задача, решаемая любой системой выбора персонализированных предложений). При этом более половины публикаций были сделаны после 2016 года. Продолжающийся академический интерес к данной области свидетельствует о том, что проблема является одновременно важной и окончательно не проработанной.

Ещё одним подтверждением актуальности выбранной темы является её важность для общества в целом, что подтверждается указом Президента РФ от 09.05.2017 г. № 203 о стратегии развития информационного общества в Российской Федерации на 2017 - 2030 годы. В п. 10 данного указа отмечено, что «информационные и коммуникационные технологии оказывают существенное влияние на развитие традиционных отраслей экономики. Объем реализации товаров и услуг россиянам с использованием сети интернет в 2015 году достиг эквивалента 2,3 процента валового внутреннего продукта и имеет тенденцию к росту» [4]. При этом искусственный интеллект и обработка больших объемов данных отнесены к основным направлениям развития российских информационных и телекоммуникационных технологий. Также была принята стратегия развития искусственного интеллекта [5], что подтверждает важность исследований в данном направлении.

Выбор персонализированных объявлений для пользователей интернета (т.е. таких объявлений, на которые они будут кликать наиболее часто), является задачей машинного обучения, в которой на основании исторических данных о пользователе (и похожих на него пользователей) требуется подобрать оче-

редную рекламную выдачу. Как известно, успешное решение задач машинного обучения во многом определяется используемым признаковым описанием входных данных.

На сегодняшний день существует множество методов извлечения, конструирования и отбора признаков, как внешних по отношению к алгоритмам машинного обучения, так и встроенных в них. Однако сложности возникают при применении этих методов к задачам онлайнового (динамического) обучения, где нужно не только обучаться на исторических данных, поступающих в реальном времени, но и параллельно обрабатывать множество запросов, укладываясь в жесткие ограничения по времени отклика. Именно такая задача возникает при построении системы выбора персонализированных предложений в интернете.

Для подготовки признакового описания в рассматриваемых системах также могут использоваться различные существующие методы, однако все они обладают рядом недостатков. Так, отбор признаков на основе прироста информации или критерия хи-квадрат рассматривает признаки независимо друг от друга. Как следствие, для проведения полноценного отбора необходимо перебрать все наборы, что приводит к экспоненциальной сложности от количества признаков. Кроме того, из-за большой изменчивости данных в системе выбора персонализированных объявлений (интересы пользователей постоянно меняются) к задаче отбора признаков может потребоваться регулярно возвращаться.

В настоящее время активно развиваются методы, в которых подготовка признакового описания совмещена с алгоритмом машинного обучения, например, алгоритмы градиентного бустинга над решающими деревьями или глубокие нейронные сети. Однако деревья решений с трудом способны обучаться в режиме реального времени. Популярны на сегодняшний день глубокие нейросе-ти, которые обучаются представлениям (representation learning), что помогает им достигать высоких результатов в прикладных задачах. В процессе обучения на скрытых слоях формируются высокоуровневые признаки, благодаря чему линейно неразделимые классы во входных признаках могут стать линейно разделимыми в скрытых слоях. Глубокие нейронные сети действительно успешно применяются в ряде практических задач со сложным признаковым описанием, таких как распознавание изображений и речи, классификация текстовых документов, машинный перевод и т.д. Однако такие модели имеют много параметров, восстанавливают сложные функции с большим количеством локальных минимумов и, как следствие, ведут себя не всегда стабильно. В системах выбо-

pa персонализированных предложений требуется постоянно дообучать модели в режиме реального времени, что при использовании глубоких нейросетей является сложной процедурой, которую необходимо тщательно контролировать. Кроме того, данные модели вычислительно сложны, что делает их с трудом применимыми в подобных высоконагруженных системах, где требуется быстро получать ответ на множество постоянно поступающих запросов.

В результате при построении систем выбора персонализированных предложений популярным подходом остается применение линейных моделей (например, логистической регрессии), которые хорошо подходят для задач динамического обучения. Однако при использовании исходных признаков данные модели показывают слабые результаты, поскольку их работа подразумевает проведение разделяющей гиперплоскости, в то время как данные редко оказываются линейно разделимыми. По этой причине требуется переходить в другое признаковое пространство, хешируя комбинации исходных признаков (данный подход можно считать разновидностью конструирования признаков feature construction). Недостаток такой схемы заключается в необходимости отбирать нужные комбинации исходных (первичных) признаков вручную, что является трудоемким процессом. Кроме того, к задаче может потребоваться регулярно возвращаться, если данные быстро изменяются с течением времени. Данное диссертационное исследование направлено на разработку алгоритмического и программного обеспечения, позволяющего в системах выбора персонализированных предложений автоматически находить нужные комбинации признаков, обновляя их по мере поступления новых данных.

Целью диссертационного исследования является разработка моделей, алгоритмов и программного обеспечения для выбора персонализированных предложений в сети интернет без ручного конструирования признаков, что позволяет сократить объем работы, выполняемый экспертами предметной области. Для достижения поставленной цели решаются следующие задачи:

1. Разработка нейросетевой модели со специализированной архитектурой с поддержкой конструирования признаков при обучении в режиме реального времени. Создание метода прогнозирования частоты кликов пользователя по рекламному объявлению в интернете без ручного конструирования признаков на базе разработанной нейросети.

2. Моделирование системы выбора персонализированных предложений как системы массового обслуживания для выбора наилучшей конфигурации нейросетп в рамках предложенной архитектуры.

3. Разработка алгоритмов для обеспечения работы предложенной нейро-сетевой модели со специализированной архитектурой с учетом заданных временных ограничений. Проектирование и создание программного обеспечения на базе разработанных алгоритмов.

4. Разработка методики статистического тестирования для сравнения качества работы моделей машинного обучения на фиксированной тестовой выборке и её применение для анализа качества работы предложенного метода прогнозирования частоты кликов пользователя.

5. Апробация разработанных моделей и алгоритмов для выбора персонализированных предложений в интернете.

Таким образом, Объектом исследования является программная система выбора персонализированных предложений в сети интернет. Предметом исследования являются модели и алгоритмы для выбора персонализированных предложений в сети интернет.

Научная новизна работы определяется следующими особенностями:

1. Разработана нейросетевая модель со специализированной архитектурой, позволяющая осуществлять конструирование комбинаций первичных признаков при обучении в режиме реального времени. Предложен метод прогнозирования частоты кликов пользователя по рекламному объявлению в интернете без ручного конструирования признаков на базе разработанной модели.

2. Предложена аналитическая модель системы выбора персонализированных предложений, позволяющая найти наилучшую конфигурацию ней-росетевой модели со специализированной архитектурой с учетом характеристик и требований к конкретной системе.

3. Разработана методика статистического тестирования для сравнения качества работы моделей на фиксированной тестовой выборке.

Практическая ценность:

1. Разработана программная реализация предложенной модели прогнозирования частоты кликов пользователя по рекламному объявлению в интернете, превосходящая в плане быстродействия (время обучения на одном примере и время прогнозирования) аналогичные реализации на

базе нейросетевых фреймворков. Данная программная реализация может быть использована в системах выбора персонализированных предложений.

2. Проведены преобразования аналитической модели системы выбора персонализированных предложений, решающие проблему переполнения чисел при реализации программы для расчета модели.

3. На базе предложенной методики статистического тестирования описана упрощенная процедура сравнения значений аддитивных метрик на тестовой выборке с заданным уровнем значимости, которая вычислительно менее затратна по сравнению с традиционной кросс-валидаци-ей.

4. Проведена апробация предложенной модели и алгоритмов прогнозирования частоты кликов пользователя по рекламному объявлению в интернете в проекте My Target компании Mail.Ru Group. При этом достигнуто аналогичное качество работы по сравнению с моделями, использующими вручную сконструированные комбинации первичных признаков.

Метод исследования. В диссертационной работе используются методы интеллектуального анализа данных, такие как искусственные нейронные сети. Также применяется теория оптимизации, теория вероятностей и математической статистики, теория массового обслуживания.

Положения, выносимые на защиту:

1. Метод прогнозирования частоты кликов пользователя по рекламному объявлению в интернете в режиме реального времени, который не требует ручного построения производных признаков.

2. Нейросетевая модель со специализированной архитектурой с поддержкой конструирования признаков при обучении в режиме реального времени, особенности её обучения и методика регуляризации.

3. Аналитическая модель системы выбора персонализированных предложений как системы массового обслуживания, позволяющая найти наилучшую конфигурацию нейросетевой модели со специализированной архитектурой с учетом характеристик и требований к конкретной системе.

4. Алгоритмы программной реализации предложенной нейросетевой модели со специализированной архитектурой, позволяющие увеличить в

несколько раз производительность по сравнению с реализациями на базе нейросетевых фреймворков.

5. Методика статистического тестирования для сравнения моделей машинного обучения с заданным уровнем значимости на основе значений аддитивных метрик на тестовой выборке, которая менее затратна в вычислительном плане, чем традиционная кросс-валидация по к блокам.

Диссертационное исследование соответствует следующим пунктам паспорта специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей (05.13.11)»:

1 - «Модели, методы и алгоритмы проектирования и анализа программ и программных систем, их эквивалентных преобразований, верификации и тестирования»,

3 - «Модели, методы, алгоритмы, языки и программные инструменты для организации взаимодействия программ и программных систем»

Личный вклад. Основные результаты диссертационной работы получены автором лично, что подтверждено личными публикациями и отражено в совместных статьях. Программное обеспечение разработано автором лично, и на него получено свидетельство о государственной регистрации программы для ЭВМ «Библиотека для работы с разреженной нейронной сетью со специализированной архитектурой (CustomSparseNN)».

Достоверность полученных результатов следует из применяемых строгих математических методов теории вероятностей, математической статистики и теории оптимизаций. Теоретические результаты подтверждаются экспериментальными исследованиями. Разработанные программные реализации показали свою эффективность в практических задачах.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

1. XXII Международная конференция «Нейроинформатика», онлайн, 2020;

2. XXI Международная конференция «Нейроинформатика», Долгопрудный (МО), МФТИ, 2019;

3. 16th International Symposium on Neural Networks, Москва (Сколково), 2019;

и

4. IX Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления», Коломна (МО), 2019;

5. XVIII, XIX и XX Международная конференция «Нейроинформатика», Москва (МИФИ), 2016, 2017, 2018;

6. Научный семинар в Научно-исследовательском институте Системных Исследований (НИИСИ) РАН;

7. Междисциплинарный научный семинар «Экобионика» в МГТУ им. Н.Э.Баумана.

Внедрение результатов работы. Разработанные автором модели и предложенные алгоритмы были использованы в научно-производственной деятельности компании Mail Ru Group для решения задачи прогнозирования частоты кликов пользователей по рекламным баннерам в интернете. Предложенная нейросетевая модель внедрена в разработанную в Mail Ru Group систему для анализа значимости новых признаков, что подтверждено актом о внедрении. Теоретические результаты использованы в учебном процессе в МГТУ им. Н.Э. Баумана, что также подтверждено соответствующим актом.

Публикации. Всего опубликовано 9 научных работ (из них 4 входят в перечень ВАК РФ и 5 индексируются в SCOPUS ) общим объемом 3,5 п.л.

Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения. Объём диссертации составляет 170 страниц, включая 64 рисунка и 9 таблиц. Список литературы содержит 127 наименований.

Краткий обзор по главам. Глава 1 посвящена критическому обзору существующих методов извлечения признаков и анализу их применимости в системе выбора персонализированных предложений. Для этого указаны особенности задачи прогнозирования частоты кликов в системе выбора персонализированных предложений, в частности высокая кардинальность категориальных признаков, большое количество поступающих запросов в единицу времени, необходимость обучаться в режиме реального времени. В конце главы приведена постановка задачи прогнозирования частоты кликов.

Глава 2 приведена модель процесса выбора рекламных баннеров. Подробно рассмотрена проблема ручного конструирования комбинаций первичных признаков. Представлена нейросетевая модель со специализированной архитектурой, позволяющая формировать нужные комбинации первичных признаков автоматически, обучаясь по поступающим в режиме реального времени исто-

рическим данным. Описана процедура обучения предложенной архитектуры, рассмотрены пути решения возникающих в процессе обучения проблем. Приведена аналитическая модель системы выбора персонализированных предложений, позволяющая выбрать конфигурацию нейросетевой архитектуры. Предложена методика статистического тестирования, позволяющая сравнивать значения метрик на тестовой выборке, полученных различными моделями, с заданным уровнем значимости.

Глава 3 посвящена разработке алгоритмов и программного обеспечения для реализации предложенной нейросетевой модели со специализированной архитектурой. Описаны применяемые структуры данных и алгоритмы. Уделено внимание проектированию программного обеспечения с учетом потребностей пользователей и требованиям по обеспечению параллельной работы с нейронной сетью. Приведены бенчмарки, сравнивающие разработанную реализацию с реализациями на базе нейросетевых фреймворков.

Глава 4 посвящена экспериментальному сравнению предложенной нейросетевой модели со специализированной архитектурой с другими возможными моделями в задаче прогнозирования частоты кликов. Обоснованы используемые метрики. Описаны серии экспериментов и проведен их статистический анализ. Показано, что результаты работы предложенной нейросетевой модели без ручного конструирования признаков сопоставимы с результатами работы модели, использующей вручную подобранные комбинации признаков. Проведен расчет аналитической модели системы выбора персонализированных предложений для заданных входных параметров, на основе полученных результатов выбрана конфигурация предложенной нейросетевой модели со специализированной архитектурой.

Глава 1. Методы извлечения и отбора признаков применительно к системе выбора персонализированных предложений

1.1. Структурная схема системы выбора персонализированных

предложений

Цель работы информационной системы выбора персонализированных предложений заключается в подборе рекламных объявлений для каждого пользователя интернета, просмотрев которые пользователь с наибольшей частотой переходит на целевой сайт (кликает по баннеру). Подбор персонализированных предложений частично достигается путем использования таргетингов, подразумевающих, что рекламодатель сам задает, какой группе пользователей будут показываться его объявления. Классическим примером таргетинга является настройка показа баннера людям определенного пола, возраста и региона. Например, можно задать, чтобы баннеры показывались мужчинам в возрасте 30-40 лет из Санкт-Петербурга. Могут использоваться более сложные таргетинги, настраивающие показ баннера в определенное время суток или года (например, за неделю до дня рождения человеку может быть показана реклама праздничных блюд на заказ или проведения торжественных вечеров).

Однако показ рекламы через таргетинги не учитывает поведение отдельных пользователей в интернете, их текущие интересы, посещаемые за последнее время сайты и т.д. Кроме того, в ряде случаев пол, возраст, дата рождения пользователя неизвестны (или же неверны, т.к. иногда пользователи указывают неправильные данные). Поэтому более тонкий подбор рекламной выдачи осуществляет специализированная модель, которая в режиме обучения на основании исторического поведения пользователя (и похожих на него пользователей в рамках выбранного признакового описания) оценивает частоту его кликов по рекламным баннерам (частотой кликов будем называть отношение числа кликов по баннеру к сумме числа показов и кликов, т.е. ,. ,с1кк1—). Затем в режи-

^ ' смскя+яЬтия' 1

ме работы данная модель прогнозирует частоту кликов для новых комбинаций <пользователь, баннер>. Баннеры, получившие наибольший прогноз частоты, показываются пользователю. На Рисунке 1.1 изображена структурная схема системы выбора персонализированных предложений (рекламной системы).

Рисунок 1.1. Структурная схема системы выбора персонализированных

предложений

Зарегистрированные пользователи системы (рекламодатели) через интерфейс создают рекламные кампании, задают их настройки (таргетинги, цена за клик, ограничения на количество показов и т.д.) и загружают рекламные объявления (баннеры). Изображения баннеров хранятся на отдельных серверах. При формировании html кода выдаваемой пользователю страницы ссылки на изображения выбранных баннеров подставляются в необходимые места, и браузер пользователя их отображает. Также заданная рекламодателем информация заносится в БД, откуда потом она читается сервером подбора рекламы. Кроме того, имеется база данных в оперативной памяти (in-memory database), в которой хранятся отображения из идентификатора пользователя в специализированные признаки (например, списки или темы посещенных сайтов за последнюю неделю). Данное хранилище заполняется отдельными компонентами системы, ответственными за формирование пользовательских признаков.

Когда пользователь заходит на сайт, отправляется запрос на показ рекламы. Данный запрос обрабатывается сервером подбора рекламы. При обработке запроса определяются баннеры, которые могут быть показаны пользователю. Затем получаются признаки пользователя. Количество различных

пользователей велико. Согласно одному из последних исследований [15] компании Mediascope месячная аудитория крупнейших интернет-холдингов России Mail.Ru Group и Яндекс составляет 85 и 80 млн. человек соответственно. По этой причине хранение пользовательских признаков в памяти одного сервера невозможно и требует разнесения по отдельным хранилищам. Затем при помощи специализированной модели прогнозируется частота кликов для каждой пары <пользователь, бампер . после чего выбираются баннеры, для которых полученная величина максимальна. Информация о совершенных показах и кликах записывается в логи, которые потом используются сервером обучения модели прогнозирования частоты кликов.

Данное диссертационное исследование посвящено разработке метода и модели машинного обучения для прогнозирования частоты кликов в рамках системы выбора персонализированных предложений. В режиме реального времени на отдельном сервере по логам производится обучение модели, а используется она в серверах подбора рекламы.

1.2. Признаковое описание

Модель прогнозирования частоты кликов использует фиксированный набор признаков (назовем их первичными), который, однако, неоднократно меняется в процессе развития системы выбора персонализированных предложений. Стоит отметить, что многие признаки являются категориальными, и для их представления необходимо применять бинарное кодирование (dummy-encoding) [16]. Например, рассмотрим признак «регион», принимающий 3 значения: Москва, республика Алтай и Приморский край. При представлении этих значений в виде трех чисел 1,2,3 при вычислении расстояния получится, что Москва ближе к республике Алтай и дальше от Приморского края. Однако если важны не расстояния между регионами, а просто регион как характеристика пользователя, такой подход не подойдет. Требуется представить признаки таким образом, чтобы все регионы были равноправны между собой. Для этого необходимо выделить под каждый регион отдельный бит, закодировав признак в виде 001, 010 и 100. Графически это представлено на Рисунке 1.2

Москва Приморский Республика

Рисунок 1.2. Бинарное кодирование

Первичный признак, представленный с помощью бинарного кодирования будем называть закодированным признаком. Особенность заключается в том, что наличие первичных признаков с большим количеством разных значений (кардинальность) приводит к высокой размерности закодированных признаков.

Используемые в модели прогнозирования частоты кликов первичные признаки можно разделить на 3 большие группы: признаки баннера, признаки пользователя и признаки места, где была показана реклама.

Признаки баннера характеризуют рекламное объявление. В качестве простейших признаков данной группы можно использовать информацию, введенную самим рекламодателем или назначенную системой. Сюда относятся всевозможные идентификаторы: баннера, рекламной кампании, идентификатор рекламируемого сайта и т.д. Недостаток таких признаков заключается в высокой кардинальности. Размерность таких признаков в закодированном виде может составлять несколько сотен тысяч. Наличие десятка таких признаков приводит к размерности в миллионы элементов. Это существенно усложняет вычисления, ограничивает спектр применимых моделей и приводит к проклятию размерности. По этой причине большую ценность представляют признаки баннера, которые строятся на основе его содержимого: изображения, текста, содержания рекламируемого ресурса. При их подготовке возникает много степеней свободы (выбор и настройки алгоритма, обучение с учителем или без учителя и т.д.). Множество различных вариантов построения таких первичных признаков приводит к необходимости их частой экспериментальной проверки в модели прогнозирования частоты кликов. В параграфе 4.12 приведен пример построения такого признака для изображений баннеров.

Вторая группа первичных признаков характеризует пользователя. Использование идентификаторов пользователей в качестве признаков смысла не имеет, поскольку у них слишком высокая кардинальность. К простейшим признакам данной группы относятся возраст, пол, регион пользователя. Могут использоваться более сложные признаки, такие как список посещенных сайтов за последнюю неделю. Однако большую практическую ценность представляют признаки, характеризующие интересы пользователя. Данные признаки также можно формировать по-разному, привлекая ту или иную доступную информацию. Регулярное появление новых признаков в данной группе также требует их частой проверки в модели прогнозирования частоты кликов.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Федоренко Юрий Сергеевич, 2021 год

Список литературы

1. Оборот рынка интернет-рекламы в 2017 году вырос на 22 процента до 166.3 млрд. рублей. 2018. URL: https://ррс.world/news/oborot-rynka-internet- reklamy- v- 2017-godu- vyros- na- 22- do-1663- mlrd- rubley (дата обр. 04.09.2019).

2. К 2021 рынок интернет-рекламы в РФ достигнет 3.2 млрд. долларов. -исследование PwC. 2018. URL: https ://ррс. world/news/к-2021-rynok-internet-reklamy-dostignet-32-mlrd (дата обр. 04.09.2019).

3. Список статей, посвященных предсказанию CTR по данным Google Scholar. 2018. URL: https://scholar.google.ru/scholar?q=ctr+prediction% 5C&hl=ru%5C&as%5C_sdt=0%5C%2C5%5C&as%5C_ylo=2014%5C& as%5C_yhi=2018 (дата обр. 03.09.2019).

4. Указ Президента Российской Федерации от 09.05.2017 г. №203. 2017. URL: http://kremlin.ru/acts/bank/41919 (дата обр. 04.07.2019).

5. Указ Президента РФ от 10 октября 2019 г. № 490 О развитии искусственного интеллекта в Российской Федерации. 2019. URL: http://kremlin.ru/ acts/bank/41919 (дата обр. 04.12.2019).

6. Федоренко Ю. С. Методика статистического тестирования для сравнения качества работы моделей машинного обучения // Вестник компьютерных и информационных технологий. 2019. № 12. С. 10-17.

7. Федоренко Ю. С. Проектирование быстрой программной реализации специализированной нейросетевой архитектуры с разреженными связями // Программные продукты и системы. 2019. № 4. С. 639—649.

8. Федоренко Ю. С., Гапанюк Ю. Е. Кластеризация данных на основе самоорганизующихся растущих нейронных сетей и марковского алгоритма кластеризации // Нейрокомпьютеры: разработка, применение. 2016. № 4. С. 3-13.

9. Федоренко Ю. С., Гапанюк Ю. Е. Анализ особенностей глубоких нейронных сетей на примере задачи распознавания цифр // Нейрокомпьютеры: разработка, применение. 2017. № 2. С. 24—30.

10. Fedorenko Y. S. Using a Sparse Neural Network to Predict Clicks Probabilities in Online Advertising // Advances in Neural Computation, Machine Learning, and Cognitive Research IV. 2020. Vol. 925. (Springer, Cham). P. 276^282.

11. Fedorenko Y. S., Chernenkiy V. M., Gapanyuk Y. E. The Neural Network for Online Learning Task Without Manual Feature Extraction // Advances in Neural Networks. 2019. Vol. 11554. (Springer, Cham). P. 67^77.

12. Fedorenko Y. S., Gapanyuk Y. E. The Neural Network with Automatic Feature Selection for Solving Problems with Categorical Variables // Advances in Neural Computation, Machine Learning, and Cognitive Research. 2018. Vol. 799. (Springer, Cham). P. 129^135.

13. Fedorenko Y. S., Gapanyuk Y. E., Minakova S. V. The Analysis of Regularization in Deep Neural Networks Using Metagraph Approach // Advances in Neural Computation, Machine Learning, and Cognitive Research. 2017. Vol. 736. (Springer, Cham). P. 3^9.

14. Fedorenko Y. S., Gapanyuk Y. E. Multilevel neural net adaptive models using the metagraph approach // Optical Memory and Neural Networks. 2016. Vol. 25. Issue 4.. C. 228 235.

15. Mediascope расширила измерения мобильного интернета до всей России. 2019. URL: https : / / mediascope . net / news / 1067271 / ?fbclid = IwAR2TIxIDIiXB8Y - r8xzp2zHStOPlqm - 3sgynoOab6ziyuUkkvdiD _ w _ sh6Y (дата обр. 24.11.2019).

16. Дьяконов А. Г. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. 2014. № 46. С. 103^127.

17. Gradient-Based Learning Applied to Document Recognition / Y. LeCun [et al.] // Proceedings of the IEEE. 1998. Nov. Vol. 86, no. 11. P. 2278 2324.

18. Motoda H., Liu H. Feature selection, extraction and construction // Communication of IICM (Institute of Information and Computing Machinery, Taiwan). 2002. Jan. Vol. 5. P. 67^72.

19. Feature Extraction: Foundations and Applications / I. Guyon [et al.]. Springer Berlin Heidelberg, 2008. 778 p. (Studies in Fuzziness and Soft Computing).

20. Blum A., Pat L. Selection of relevant features and examples in machine learning // Artificial Intelligence. 1997. Vol. 97. P. 245 271.

21. Liu H., Motoda H. Feature selection for knowledge discovery and data mining. Norwell, MA, USA : Kluwer Academic Publishers, 1998. 215 p.

22. Jain A. K., Duin R., Mao J. Statistical Pattern Recognition: A Review // IEEE Trans. Pattern Anal. Mach. Intell. Washington, DC, USA, 2000. Vol. 22, no. 1. P. 4 37.

23. Hall M. A. Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning // Proceedings of the Seventeenth International Conference on Machine Learning. San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 2000. P. 359-366. (ICML '00).

24. Manning C. D., Raghavan P., Schutze H. Introduction to Information Retrieval. New York, NY, USA : Cambridge University Press, 2008. 544 p.

25. Lei Y., Huan L. Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution // Proceedings of the 20th International Conference on Machine Learning (ICML-03). 2003. P. 856-863.

26. Kira K., Rendell L. A. A Practical Approach to Feature Selection // Proceedings of the Ninth International Workshop on Machine Learning. San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1992. P. 249 256.

27. Kononenko I. Estimating Attributes: Analysis and Extensions of RELIEF // Proceedings of the European Conference on Machine Learning on Machine Learning. Secaucus, NJ, USA : Springer-Verlag New York, Inc., 1994. P. 171—182.

28. Robnik-Sikonja M., Kononenko I. An Adaptation of Relief for Attribute Estimation in Regression // Proceedings of the Fourteenth International Conference on Machine Learning. San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1997. P. 296 304. (ICML '97).

29. Peng H., Long F., Ding C. Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy // IEEE Trans. Pattern Anal. Mach. Intell. Washington, DC, USA, 2005. Vol. 27, no. 8. P. 1226-1238.

30. Vipin K., Sonajharia M. Feature Selection: A literature Review // Smart CR. 2014. Vol. 4, no. 3. P. 211-229.

31. Liu H., Setiono R. A probabilistic approach to feature selection - A filter solution // 13th International Conference on Machine Learning. 1996. P. 319-327.

32. Gonzalez F.. Belanche L. A Thermodynamical Search Algorithm for Feature Subset Selection // Neural Information Processing. 2008. P. 683—692.

33. Principal Manifolds for Data Visualization and Dimension Reduction / A. N. Gorban [et al.]. 1st. Springer Publishing Company, Incorporated, 2007. 340 p.

34. Rajaraman A., Ullman J. Mining of Massive Datasets. New York, NY, USA : Cambridge University Press, 2011. 495 p.

35. Feature Hashing for Large Scale Multitask Learning / K. Weinberger [et al] // Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada : ACM, 2009. P. 1113-1120. (ICML '09).

36. Kane D. M., Nelson J. Sparser Johnson-Lindenstrauss Transforms //J. ACM. New York, NY, USA, 2014. Vol. 61, no. 1. P. 1-23.

37. Ailon N., Chazelle B. The Fast Johnson-Lindenstrauss Transform and Approximate Nearest Neighbors // SIAM J. Computing. Philadelphia, PA, USA, 2009. Vol. 39, no. 1. P. 302-322.

38. Chen J., Zhang Q. Bias-aware Sketches // Proc. VLDB Endow. 2017. Vol. 10, no. 9. P. 961-972.

39. Li P., Church K. W., Hastie T. J. Conditional Random Sampling: A Sketch-based Sampling Technique for Sparse Data // Proceedings of the 19th International Conference on Neural Information Processing Systems. Canada : MIT Press, 2006. P. 873-880. (NIPS'06).

40. Francesco M. Feature Selection with Kohonen Self Organizing Classification Algorithm // International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2008. Vol. 2. P. 2882—2887.

41. Кохонен Т. Самоорганизующиеся карты: пер. с англ. В. Агеева. М.: БИНОМ, Лаборатория знаний, 2008. 624 с.

42. Горбаченко В. И. Сети и карты Кохонена. 2010. URL: http://gorbachenko. self - organization . ru / articles / Self - organizing _ map . pdf (дата обр. 12.05.2018).

43. Bullinaria J. Self-Organizing Maps: Fundamentals. 2004. URL: lif t}): www. cs.bham.ac.uk/~jxb/NN/116.pdf (visited on 05/13/2018).

44. Qin A. K., Suganthan P. N. Robust Growing Neural Gas Algorithm with Application in Cluster Analysis // Neural Networks. Oxford, UK, 2004. Vol. 17, no. 8/9. P. 1135—1148.

45. Воронцов К. В. Математические методы обучения по прецедентам, курс лекций. 2013. URL: http://www.machinelearning.ru/wiki/images/6/6d/ Voron-ML-l.pdf (дата обр. 19.05.2018).

46. Gutierrez-Osuna R. Kernel density estimation. URL: http://research.cs. tamu.edu/prism/lectures/pr/pr_17.pdf (visited on 05/19/2018).

47. Duda R. O., Hart P. E., Stork D. G. Pattern Classification (2nd Edition). New York, NY, USA : Wiley-Interscience, 2000. 680 p.

48. Furao S., Hasegawa O. An Incremental Network for On-line Unsupervised Classification and Topology Learning // Neural Networks. Oxford, UK, 2006. Vol. 19, no. 1. P. 90^106.

49. Furao S., Ogura Т., Hasegawa O. An Enhanced Self-organizing Incremental Neural Network for Online Unsupervised Learning // Neural Networks. Oxford, UK, 2007. Vol. 20, no. 8. P. 893-903.

50. Xiao X., Zhang H., Hasegawa O. Density Estimation Method Based on Self-Organizing Incremental Neural Network and Error Estimation // Proceedings of the Neural Information Processing: 20 th International Conference, ICONIP. Daegu, Korea : Springer, 2013. P. 43-50.

51. Федореfiко Ю. С. Анализ данных на основе алгоритмов класса SOINN. URL: http://ainsnt.ru/doc/777163.html (дата обр. 19.05.2018).

52. Hinton G. Е., Osindero S., Teh Y. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. Cambridge, MA, USA, 2006. Vol. 18, no. 7. P. 1527-1554.

53. Greedy Layer-wise Training of Deep Networks / Y. Bengio [et al.] // Proceedings of the 19th International Conference on Neural Information Processing Systems. Canada : MIT Press, 2006. P. 153-160.

54. Hornik K., Stinchcombe M., White H. Multilayer Feedforward Networks Are Universal Approximators // Neural Networks. Oxford, UK, 1989. Vol. 2, no. 5. P. 359-366.

55. Moshe L., Shimon S. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function // Neural Networks. Oxford, UK, 1993. Vol. 6. P. 861^867.

56. On the Number of Linear Regions of Deep Neural Networks / G. Montu-far [et al.] // Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada : MIT Press, 2014. P. 2924-2932.

57. Hill F., Cho K., Korhonen A. Learning Distributed Representations of Sentences from Unlabelled Data // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California : Association for Computational Linguistics, 2016. P. 1367—1377.

58. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks //In Proceedings of the International Conference on Artificial Intelligence and Statistics (AISTATS'10). Society for Artificial Intelligence, Statistics, 2010. P. 249 256.

59. Martens J. Deep learning via Hessian-free optimization // Proceedings of the 27th International Conference on Machine Learning (ICML-10), June 21-24, 2010, Haifa, Israel. 2010. P. 735-742.

60. Lecun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. May. Vol. 521. P. 436-444.

61. Practical Lessons from Predicting Clicks on Ads at Facebook / X. He [et al.] // Proceedings of the Eighth International Workshop on Data Mining for Online Advertising. New York, NY, USA : ACM, 2014. P. 1-9. (ADKDD'14).

62. M. B. Banner ads have 99 problems and a click ain't one. 2018. URL: https: / / marketinginsidergroup. com / content - marketing / banners - 99- problems/ (visited on 05/21/2018).

63. Canziani A., Paszke A., Culurciello E. An Analysis of Deep Neural Network Models for Practical Applications. URL: https://arxiv.org/pdf/1605.07678. pdf (visited on 05/21/2018).

64. Online Deep Learning: Learning Deep Neural Networks on the Fly / S. Doyen [et al.] // Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, IJCAI-18. International Joint Conferences on Artificial Intelligence Organization, 07/2018. P. 2660—2666.

65. Lifelong Learning with Dynamically Expandable Networks / J. Yoon [et al.]. URL: https://arxiv.org/pdf/1605.07678.pdf (visited on 06/21/2019).

66. CatBoost: Unbiased Boosting with Categorical Features / L. Prokhorenkova [et al.] // Proceedings of the 32Nd International Conference on Neural Information Processing Systems. Montreal, Canada : Curran Associates Inc., 2018. P. 6639-6649. (NIPS'18).

67. Scikit-Learn Documentation. Decision Trees. URL: https://scikit-learn.org/ stable/modules/tree.html (visited on 11/21/2019).

68. Rosset C. A Review of Online Decision Tree Learning Algorithms. 2015. URL: http://corbyrosset.com/files/OnlineDecisionTreeReview.pdf (visited on 11/21/2019).

69. XGBoost Documentation. URL: https://xgboost.readthedocs.io/en/latest/ index.html (visited on 11/21/2019).

70. Welcome to LightGBM's documentation! URL: https : / / lightgbm . readthedocs.io/en/latest/index.html (visited on 11/21/2019).

71. Какой CTR в контекстной рекламе считается хорошим. 2019. URL: https: / / www. rookee. ru / learn / kakoj - ctr - v - kontekstnoj - reklame- schitaetsya-horoshim/ (дата обр. 04.07.2019).

72. Блохин Ю. M. Разработка интеллектуальной программной среды для построения интегрированных экспертных систем: дис. ... к.т.н. Москва, 2017. 166 с.

73. Чувиков Д. А. Применение экспертного моделирования в получении новых знаний человеком // Радиопромышленность. 2017. Т. 2. С. 72 80.

74. Кормен Т., Лейзерсон Ч., Рональд Р. Алгоритмы: построение и анализ. 3-е изд. М.: Вильяме, 2013. 1328 с.

75. Intel. Спецификации продукции. Процессоры. Процессор Intel® Хеоп® Gold 6230. URL: https://ark.intel.com/content/www/ru/ru/ark/products/ 192437/intel-xeon-gold-6230-processor- 27- 5m-cache- 2-10-ghz.html (дата обр. 21.11.2019).

76. Montavon G., Samek W., Muller K. Methods for interpreting and understanding deep neural networks // Digital Signal Processing: A Review Journal. 2018. Feb. Vol. 73. P. 1-15.

77. Binary Relevance for Multi-label Learning: An Overview / M. Zhang [и др.] // Front. Comput. Sci. Secaucus, NJ, USA, 2018. T. 12, № 2. C. 191-202.

78. Vinor N., Hinton G. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on International Conference on Machine Learning. Haifa, Israel : Omnipress, 2010. P. 807-814. (ICML'10).

79. Трофимов И. E. Разработка и обоснование методов параллельного покоординатного спуска для обучения обобщенных линейных моделей с регуляризацией: дис. ... к.ф.-м.н. Москва, 2018. 116 с.

80. Duchi J., Hazan Е., Singer Y. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization // Journal of Machine Learning Research. 2011. July. Vol. 12. P. 2121—2159.

81. Ruder S. An overview of gradient descent optimization algorithms. URL: https://arxiv.org/abs/1609.04747 (visited on 10/21/2018).

82. Аюпов П. P. Параметрический метод обучения нейронной сети при решении задач прогнозирования: дис. ... к.т.н. Москва, 2015. 93 с.

83. Волков И. К., Зуев С., Цветкова Г. Случайные процессы: учеб. для вузов. -3-е изд., испр.; под ред. Зарубина B.C., Крищенко А.П. М.: Изд-во МГТУ им. Н.Э. Баумана, 2006. 448 с.

84. Каштанов В. А., Ивченко Г. П., Коваленко И. Н. Теория массового обслуживания: Учебное пособие (издание 2-е, испр. и доп). Книжный дом ЛИБРОКОМ, Москва, 2012. 304 с.

85. Печинкин А. В., Тескин О. И., Цветкова Г. М. Теория вероятностей: учеб. для вузов. - 3-е изд., испр.; под ред. Зарубина B.C., Крищенко А.П. М.: Изд-во МГТУ им. Н.Э. Баумана, 2004. 456 с.

86. Тихонов В., Миронов М. Марковские процессы. Советское радио, 1977. 485 с.

87. Maas A., Hannun A., Ng A. Rectifier Nonlinearities Improve Neural Network Acoustic Models // Proceedings of the 30 th International Conference on Machine Learning. Vol. 28. Atlanta, Georgia, 2013. P. 9-12. (ICML'13).

88. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification / K. He [et al.] // Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Washington, DC, USA : IEEE Computer Society, 2015. P. 1026-1034. (ICCV '15).

89. Improving neural networks by preventing co-adaptation of feature detectors / G. Hinton [et al.]. URL: https://arxiv.org/abs/1207.0580 (visited on 08/21/2019).

90. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / N. Sri-vastava [et al.] // Journal of Machine Learning Research. 2014. Jan. Vol. 15, no. 1. P. 1929-1958.

91. Wang S., Manning C. Fast dropout training // Proceedings of the 30th International Conference on Machine Learning, ICML 2013, Atlanta, GA, USA, 16-21 June 2013. 2013. P. 118-126.

92. Kohavi R. A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection // Proceedings of the 14th International Joint Conference on Artificial Intelligence - Volume 2. Montreal, Quebec, Canada : Morgan Kaufmann Publishers Inc., 1995. P. 1137-1143. (IJCAI'95).

93. Dietterich T. Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms // Neural Computations. Cambridge, MA, USA, 1998. Vol. 10, no. 7. P. 1895^1923.

94. Fay M. Exact McNemar's Test and Matching Confidence Intervals. 2019. URL: https : / / cran . rstudio . com / web / packages / exact2x2 / vignettes / exactMcNemar.pdf (visited on 05/29/2019).

95. Janez D. Statistical Comparisons of Classifiers over Multiple Data Sets // Journal of Machine Learning Research. 2006. Vol. 7. P. 1—30.

96. Shapiro S. S., Wilk M. B. An Analysis of Variance Test for Normality (Complete Samples) // Biometrika. 1965. Dec. Vol. 52. P. 591—611.

97. Razali N., Yap B. Power Comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling Tests // Journal of Statistic Models Analytics. 2011. Янв. Т. 2. С. 21-33.

98. Royston P. A Remark on Algorithm AS181:The W-test for Normality // Journal of the Royal Statistical Society. 1995. Vol. 44. P. 547—551.

99. Belanger A., D'Agostino R. A Suggestion for Using Powerful and Informative Tests of Normality // The American Statistician. 1990. Nov. Vol. 44. P. 316-321.

100. Горяинов В. В., Павлов И. В., Цветкова Г. М. Математическая статистика: учеб. для вузов; под ред. Зарубина B.C. and Крищенко А.П. М.: Изд-во МГТУ им. Н.Э. Баумана, 2001. 424 с.

101. Chambers J. Graphical Methods for Data Analysis. Chapman, Hall/Cole Publishing Company, 1983. 410 p.

102. When Population Variances Are Not Equal. 2019. URL: https : / / newonlinecourses . science . psu . edu / stat414 / node / 275/ (visited on 05/02/2019).

103. MurmurHash. By Austin Appleby. 2019. URL: https://sites.google.com/ site/murmurhash/ (visited on 11/02/2019).

104. PyTorch. From research to production. 2018. URL: https://pytorch.org (visited on 09/29/2018).

105. TensorFlow. An open source machine learning framework for everyone. 2018. URL: https://www.tensorflow.org/ (visited on 09/29/2018).

106. Lasagne 0.2.devl documentation. 2016. URL: https://lasagne.readthedocs. io/en/latest/user/installation.html (visited on 04/28/2019).

107. Booch G., Rumbaugh J., Jacobson I. Unified Modeling Language User Guide, The 2nd Edition. Addison-Wesley Professional, 2005. 496 p.

108. Дерюгина О. А. Программно-математические средства рефакторинга UML-диаграмм классов с учётом заданных критериев качества: дис. ... к.т.н. Москва, 2018. 162 с.

109. Приемы объектно-ориентированного проектирования. Паттерны проектирования / Э. Гамма [и др.]. Спб.: Питер, 2019. 368 с.

110. Данилов И. Г. Метод и средства бесконфликтного доступа многопоточных приложений к распределенной памяти кластерных МВС: дне. ... к.т.н. Таганрог, 2014. 186 с.

111. Башлыкова А. А. Методики, алгоритмы и программные средства оценки качества сетевого программного обеспечения корпоративных информационных систем: дис. ... к.т.н. Москва, 2015. 214 с.

112. Storage class specifiers. 2019. URL: https://en.cppreference.cOm/w/cpp/ language/storage_duration (visited on 12/04/2019).

113. Boost С++ libraries. Thread Local Storage. 2019. URL: https://www. boost. org / doc / libs /1 _ 70 _ 0 / doc / html / thread / thread _ local _ storage. html (visited on 12/04/2019).

114. Применение логистической регрессии в медицине и скоринге. 2012. URL: https: / /basegroup. ru/community/articles/logis- medic - scoring (дата обр. 04.01.2020).

115. Obuchowski N., Bullen J. Receiver operating characteristic (ROC) curves: review of methods with applications in diagnostic medicine // Physics in Medicine and Biology. 2018. Vol. 63, no. 7. P. 7-13.

116. Сервер STSS Flagman QX420. 2019. URL: http://www.stss.ru/products/ legacy/server_STSS_Flagman/QX420.html?config= (дата обр. 07.12.2019).

117. Karpathy A. Convolutional Neural Networks for Visual Recognition. URL: https://cs231n.github.io/transfer-learning/ (visited on 04/10/2019).

118. Karen S., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. URL: https: / / arxiv. org / abs / 1409.1556 (visited on 11/10/2018).

119. Deep Residual Learning for Image Recognition / K. He [et al.] // IEEE Conference on Computer Vision and Pattern Recognition, CVPR, Las Vegas, NV, USA. 2016. P. 770-778.

120. Szegedy C., Vanhoucke V., Ioffe S. Rethinking the Inception Architecture for Computer Vision // IEEE Conference on Computer Vision and Pattern Recognition, CVPR, Las Vegas, NV, USA. 2016. P. 2818-2826.

121. Smith L. Cyclical Learning Rates for Training Neural Networks // IEEE Winter Conference on Applications of Computer Vision, WACV, New Jersey, USA. 2017. P. 464-472.

122. Gupta A. Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates. URL: https://towardsdatascience.com/https-medium-com-super-convergence-very-fast-training-of-neural-networks-using-Iarge-learning-rates-decb689b9eb0 (visited on 04/10/2019).

123. Loshchilov I., Hutter F. Decoupled Weight Decay Regularization. URL: https://arxiv.org/abs/1711.05101 (visited on 04/12/2019).

124. Reddi S., Kale S., Kumar S. On the Convergence of Adam and Beyond // ICLR, Vancouver, ВС, Canada. Abs/1904.09237. 2018. P. 186-208.

125. Fedorenko Y. S. The Simple Approach to Multi-label Image Classification Using Transfer Learning // Advances in Neural Computation, Machine Learning, and Cognitive Research III. 2019. Vol. 856. (Springer, Cham). P. 207-213.

126. Ayhan M., Berens P. Test-time data augmentation for estimation of het-eroscedastic aleatoric uncertainty in deep neural networks // Medical Imaging with Deep Learing Conference, MIDL, Amsterdam, Netherlands. 2018. P. 278-286.

127. Новая философская энциклопедия в 4-х томах, 2-е изд., испр. и допол. / В. С. Стёпин [и др.]. М.: Мысль, 2010. 3870 с.

Приложение П.

ПЛ. Результаты дополнительных экспериментов из Главы 4

Результаты эксперимента с использованием алгоритма оптимизации ЯМБргор и усреднением градиента по мини-пакету из 100 событий:

(а) Кривая обучения (логистическая функция потерь)

(б) Реальные и ожидаемые значения вероятности клика

(г) ГЮС-кривые па тестовой выборке

(в) Логистическая функция потерь па тестовой выборке

Рисунок ПЛ. Обучение моделей 1 проходным онлайновым ЯМБргор с

использованием мини-пакета

Результаты эксперимента с использованием алгоритма оптимизации ЯМБргор в многопроходном режиме без регуляризации:

(а) Кривые обучения (логистическая функция потерь)

5 051

— реальный (0.44334) -•- 1г-||апс1сга№ (0.29327)

-»- пп-ге -»- пп-Саг (0.37693) И (0.40511

м

\

1 г л N

\

(б) Реальные и ожидаемые значения частоты кликов

(в) Логистическая функция потерь на

г (г) ГЮС-кривые на тестовой выборке

тестовой выборке \ у ± ±

Рисунок П.2. Обучение моделей многопроходным онлайновым ЯМБргор до

сходимости

Результаты эксперимента с использованием алгоритма оптимизации ЯМБргор в многопроходном режиме с Ь2 регуляризацией (значение коэффициента регуляризации 0,001):

(а) Кривые обучения (логистическая функция потерь)

Адекватность прогноза

\ — гИапЬсгаЯ: (0.40501) реальный (0.44334) г-51тр1е-Геа(:иге5 (0,5186) пп-ге1и (0.46745) пп-1ап11 (0.46542)

V —

\

10-25 00 03

06

09 12 15 Время суток

18

21

(б) Реальные и ожидаемые значения частоты кликов

1.0

о.а

: 0.6

! 0.4

0.2

0.0

РОС кривые

-а 1

/

/

1- - 1г-Ьапйсга№ (0.7В611) 1г-ятр1е-Геа1иге5 (0.83035) - пп ге1и (0.81037) - пп^апИ (0.В2941) —1-1- 1

о.о

0.2 0.4 0.6 о.а 1 - Специфичность

1.0

(г) ГЮС-кривые па тестовой выборке

(в) Логистическая функция потерь па тестовой выборке

Рисунок П.З. Обучение моделей многопроходным онлайновым ЯМБргор с

использованием Ь2 регуляризации

Результаты экспериментов с модификациями предложенной сети с функцией активации ЯеЬи, решающими проблему «умирающих» нейронов для метода обучения БСБ (многопроходный режим с использованием раннего останова):

(а) Кривые обучения (логистическая функция потерь)

(б) Реальные и ожидаемые значения частоты кликов

(г) ROC-кривые на тестовой выборке

(в) Логистическая функция потерь на тестовой выборке

Рисунок П.4. Обучение моделей с функцией активации Leaky ReLU и стратегией «выбивания» неактивных нейронов многопроходным онлайновым

SGD с ранним остановом

Таблица 8.

Результат сравнения средних значений метрик моделей на тестовой выборке на основе теста Уэлча (однопроходное обучение на основе БСО)

Модель 1 Модель2 p_value Модель 1 Модель2 p_value

lr_handcraft lr_ simple 0,011 lr_ handcraft nn_relu 0,069

lr_handcraft nn tanh 0,16 lr_simple nn_relu 0,0

lr_simple nn tanh 0,0 nn_relu nn tanh 0,681

lr-handcraft

0.7 0.6 0.5

;0.4

i.

0.3 0.2 0.1 0.0

Тест Шапиро-Уилка - Тест Д'Агостино-Пирсона

— Тест Колмогорова-Смирнова

10

Колиме!

ю3

э примеров в одно)

(a) lr-handcraft

(б) lr^simple

nn-tanh

0.8 0.7 0.6 0.5 1 0.4 0.3 0.2 0.1 0.0

10

Кол:

103

примеров в одно)

ю4

Тест Шапиро-Уилка Тест Д'Агостино-Пирсона

-

- Тест Колмогоров а-Смирнова

(в) nn^relu (г) nn^tanh

Рисунок П.5. р_value в тестах на нормальность значений logloss для разных моделей в зависимости от размера частей разбиения (однопроходное обучение

на основе SGD)

(a) lr_handcraft

(б) lr_simplo

(в) nn_relu (г) nn_tanh

Рисунок П.6. Графики «квантиль-квантиль» значений logloss по блокам для различных моделей при разбиении на 100 блоков размера 105 (однопроходное

обучение на основе SGD)

Рисунок П.7. Доверительный интервал для модели lr_handcraft (однопроходное обучение на основе SGD)

Таблица 9.

Результат сравнения средних значений метрик моделей на тестовой выборке на основе теста Уэлча (обучение с ранним остановом на основе БСО)

Модель 1 Модель2 р_уа1ие Модель 1 Модель2 р_уа1ие

1г_Ьапс1сгай 1г_н1тр1е 0,015 1г_Ьапс1сгай пп_ге1и 0,942

1г_Ьапс1сгай пи 1,апЬ 0,525 1г_н1тр1е пп_ге1и 0,016

1г_н1тр1е пи 1,апЬ 0,076 пп_ге1и пи 1,апЬ 0,565

(а) 1г_Ьапс1сгаЙ

пп-ге1и

ю2 ю3 ю"

Количество примеров в одном блоке

Тест Шапиро-Уилка

— Тест Д'Агостино-Тест Колмогоров 1ирсона

0.8

0.0

1г-51тр1е^еа1:иге£

— Гест Шапиро-Уилка Тест Д'Агости н о- П и рсон а Тест Колмогорова-Смирнова

ю2 м3 ю4

Количество примеров Б одном блоке

(б) 1г_8Ш1р1е

(в) пп_ге1и (г) пп^апЬ

Рисунок П.8. р_уа1ие в тестах на нормальность значений к^1онн для разных моделей в зависимости от размера частей разбиения (обучение с ранним

остановом на основе БСО)

П.2. Свидетельство о государственной регистрации программы для ЭВМ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.