Комбинированные нейросетевые модели для классификации специфичных изображений тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Самарин Алексей Владимирович
- Специальность ВАК РФ00.00.00
- Количество страниц 92
Оглавление диссертации кандидат наук Самарин Алексей Владимирович
Введение
Глава 1. Обзор предметной области
1.1 Базовые нейросетевые архитекутры
1.2 Глубокие нейросетевые классификаторы изображений общего
плана
1.3 Детектирование текста
1.4 Оптическое распознавание текста
1.5 Комбинированные нейросетевые архитектуры
Глава 2. Комбинированная нейросетевая архитектура для распознавания изображений без получения явного
текстового представления
2.1 Архитектура, принципы построения и функционирования комбинированной нейросетевой модели УОЛ
2.2 Кодировщики для извлечения классифицирующих признаков
2.3 Автокодировщик для выделения характерных особенностей контуров
2.4 Адаптация регуляризации согласованности
2.5 Реализация УОЛ для решения задачи классификации документов
2.6 Эксперименты
2.7 Выводы
Глава 3. Комбинированная нейросетевая архитектура для
распознавания изображений с явным использованием
текстовой информации
3.1 Постановка задачи
3.2 Предварительная обработка изображений
3.3 Архитектура ОО1Т с ОСЯ-модулем
3.4 Архитектура СС1Т с визуальными дескрипторами
3.4.1 Дескриптор типа Л
3.4.2 Дескриптор типа Б
3.4.3 Дескриптор типа С
3.5 Система распознавания фотографий фасадов коммерческих строений с рекламными вывесками
3.6 Эксперименты
3.7 Выводы
Заключение
Список литературы
Список рисунков
Список таблиц
Приложение А. Акты о внедрении
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Эффективные алгоритмы поиска по большим коллекциям изображений2017 год, кандидат наук Бабенко, Артем Валерьевич
Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов2022 год, кандидат наук Никитин Андрей Дмитриевич
Автоматизированные системы научных исследований угроз безопасности личности2023 год, кандидат наук Бабичева Маргарита Вадимовна
Исследование мультимодальных алгоритмов биометрической идентификации на основе методов цифровой обработки речевых сигналов и изображений2022 год, кандидат наук Стефаниди Антон Федорович
Исследование и разработка методов и алгоритмов повышения быстродействия обработки больших объемов видеоданных, полученных с БПЛА2024 год, кандидат наук Хейн Хтет Зо
Введение диссертации (часть автореферата) на тему «Комбинированные нейросетевые модели для классификации специфичных изображений»
Введение
Актуальность темы. В настоящее время в области компьютерного зрения актуален целый ряд задач, связанных с классификацией изображений в сложных условиях. В частности, во многих Интернет-сервисах — от платежных систем до служб восстановления доступа к учетным записям в социальных сетях — активно используются средства распознавания и анализа документов. Например, в таких системах, как портал «Госуслуги»1 и платежная система «Webmoney»2, документы обрабатываются для получения персональной информации о клиенте. В случае, когда документом является отсканированный паспорт, из него извлекается фамилия, имя, отчество владельца, а также серия и номер, место и дата выдачи, код подразделения и так далее. Кроме извлечения непосредственной информации важно также установить подлинность документа или присутствие факта его модификации (с помощью Adobe Photoshop и других подобных инструментов).
Следует отметить, что подобные сервисы основываются, как правило, на анализе фрагментов персональных данных, водяных знаков и пр., принимая во внимание их взаимное расположение на странице документа. Вся эта информация размещена в кадре строго определенным образом, позволяя упростить задачу автоматического распознавания. Поэтому к фотографиям документов предъявляются строгие требования. Например, на едином портале государственных услуг3 регламентированы ракурс, условия освещения и другие параметры, обуславливающие качество распознавания надписей (таких как «Tesseract»4). Вместе с тем в социальной сети «ВКонтакте»5 для восстановления доступа пользователя к учетной записи не требуется вся персональная информация, указанная на странице документа, удостоверяющего личность. В большинстве случаев для этого достаточно проверить изображение определенной части представленного документа, которая должна полностью содержать фотографию пользователя, а также его имя и фамилию.
1https://www.gosuslugi.ru
2https://www.webmoney.ru
3М1р8://51.мвд.рфДоЫег/2411299
4https://github.com/tesseract-ocr/tesseract
5https://vk.com/
Таким образом можно выделить группу подходов к распознаванию документов, которые извлекают семантическую информацию из значимых областей изображения (фотографий человека, ключевых надписей, водяных знаков) и их взаимного расположения [1—4]. Однако данные методы неприменимы для решения задачи анализа участков изображений документов в окрестности фотографий пользователей при допущении различных условий освещения и искусственных модификаций исходных изображений, деформирующих часть персональных данных. Также следует отметить, что в контексте задачи распознавания требуются лишь та информация, которая необходима для подтверждения подлинности документа, удостоверяющего личности.
Еще одним примером задачи распознавания изображений в сложных условиях является классификация фотографий фасадов коммерческих зданий по типу предоставляемых услуг [5—10]. В общем виде данную задачу трудно решить в виду присутствия на фотографиях уникальных шрифтов, цветов текста, размеров и стилей оформления рекламных вывесок. Также на качество распознавания влияют условия съемки. Следует отметить, что решение о принадлежности образца к той или иной категории может быть принято на основе информации, полученной из текста рекламной вывески, но также с использованием визуальных признаков, без вычленения текстовой информации — последнее требует значительных ресурсов и затруднено в виду большого разнообразия визуальных атрибутов надписей на рекламных плакатах.
На данный момент существует множество общих подходов к решению задачи классификации изображений [11]. Однако их применение затруднено в случае классификации изображений в сложных и нестандартных условиях, что хорошо известно на примере задачи классификации фасадов зданий на основе анализа рекламных вывесок [6; 12—14]. Важной характерной особенностью рекламных плакатов, существенно усложняющей их классификацию, является отсутствие выпуклых элементов и присутствие печатного текста.
Степень разработанности темы. Весомый вклад в развитие теории и практики решения задач классификации изображений внесли K. He, X. Zhang, S. Ren и J. Sun [15], K. Simonyan and A. Zisserman [16], M. Sandler, A. Howard, M. Zhu, A. Zhmoginov и L. Chen [17], M. Tan и Q. Le [18]. Также следует отметить вклад в решение задачи локазизации объектов на изображении J. Redmon, S. Divvala, R. Girshick и A. Farhadi [19], W. Liu, D. Anguelov, D. Erhan, C. Szegedy и
S. Reed [20]. При рассмотрении специфичных детекторов текста следует упомянуть работы M. Liao, B. Shi, X. Bai, X. Wang и W. Liu [21], Z. Tian, W. Huang, H. Tong, P. He and Y. Qiao [22], X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He и J. Liang [23]. Большой вклад в области разработки дескрипторов изображений был внесен T. Dittimi и C. Suen [24], J. Sun, Z. Shisong и W. Xiaosheng [25], С. Huang и J.Huang [26].
Отметим, что задачи анализа изображений с текстовыми фрагментами очень специфичны, что во многом исключает возможность повторного использования предлагаемых механизмов для решения более широкого класса задач. Также, как будет показано в данной диссертационной работе, методы классификации изображения общего плана оказываются неэффективными при решении задач классификации изображений с текстом, так как большая часть значимой информации может содержаться именно в тексте. Более того, методы, основанные только на оптическом распознавании текста, также не могут обеспечить полный охват всех характеризующих признаков. Имеется ряд исследований, посвященный этой тематике, например, T. Intasuwan, J. Kaewthong и S. Vittayakorn [5], а также T. Tsai, W. Cheng, C. You, M. Hu, A. W. Tsui и H. Chi [8].
В данной работе продемонстрирована эффективность применения комбинированных моделей по сравнению с классическими нейросетевыми методами компьютерного зрения при решении рассматриваемых задач.
Постановка задачи. Основной целью данной работы является разработка и реализация механизмов классификации изображений с текстовыми фрагментами в сложных и нестандартных условиях: варьирование ракурса съемки, различные условия освещения, смена масштаба, присутствие засветов и затенений, а также наличие в изображениях различных артефактов.
Для достижения поставленной цели были сформулированы следующие задачи:
— провести анализ современных методов классификации изображений, а также методов оптического распознавания текста и извлечения разноплановых дескрипторов, включая анализ конструктивных составляющих глубоких нейросетевых классификаторов, применимых для решения задач анализа изображений с визуальными представлениями текста;
— разработать и реализовать нейросетевую архитектуру для классификации изображений с присутствием текста на сцене в условиях, когда явное выполнение оптического распознавания текста невозможно;
— разработать и реализовать нейросетевую архитектуру для классификации изображений с присутствием текста на сцене в условиях, позволяющих использовать технологии оптического распознавания текста;
— выполнить экспериментальное исследование предложенных нейросете-вых архитектур для оценки качества классификации.
Положения, выносимые на защиту.
— Комбинированная нейросетевая архитектура VCA (VGG Combined with Autoencoders) для классификации изображении, не выполняющая явное распознавание текстовой информации. Предложенная архитектура была использована для решения задачи определения пригодности изображения документа, подтверждающего личности, при условии варьирования условии съемки.
— Комбинированная нейросетевая архитектура CCIT (Combined Classifier of Images with Text) для классификации изображении с явным распознаванием текстовой информации. Также был разработан ряд дополнительных дескрипторов для извлечения из текста характеристик стиля и деталей визуального оформления, что существенно улучшило качество распознования изображений. Предложенные подходы использованы при решении задачи классификации фотографии фасадов коммерческих зданий по типу оказываемых услуг.
— Экспериментальное исследование качества классификации разработанных архитектур по сравнению с современными методами классификации изображений общего плана в контексте рассматриваемых задач.
Предмет и объект исследования. Предметом исследования даннои диссертационнои работы являются задачи классификации изображений с фрагментами текста. Объектом исследования является совокупность подходов, методов, моделеи и инструментов для классификации изображений.
Методология и методы исследования. Методология, используемая в данной диссертации, является традиционной для исследований в области машинного обучения и компьютерного зрения. Также в работе применялись различные принципы построения нейросетевых архитектур, численные методы ре-
шения задач оптимизации, теория алгоритмов и математическая статистика, средства программнои инженерии.
Соответствие диссертации паспорту научной специальности. Содержание диссертационного исследования соответствует паспорту научнои специальности 2.3.5 (математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетеи):
— пункту 4 (интеллектуальные системы машинного обучения, управления базами данных и знаний, инструментальные средства разработки цифровых продуктов), поскольку в диссертации предложены средства построения интеллектуальных систем (нейросетевых архитектур) для решения задач классификации некоторых специфичных типов изображений;
— пункту 7 (модели, методы, архитектуры, алгоритмы, форматы, протоколы и программные средства человеко-машинных интерфейсов, компьютерной графики, визуализации, обработки изображений и видеоданных, систем виртуальной реальности, многомодального взаимодействия в социокиберфизических системах), поскольку в рамках данной работы предложены новые системы обработки изображений, включая модели, архитектуры и алгоритмы для их обработки.
Научная новизна. В рамках данной работы решена задача классификации изображений с ограничениями на качество съёмки, а также способами обработки текстовой информации, включенной в изображения. Предложена новая нейросетевая архитектура для случая, когда не выполняется оптическое распознование текстов в изображениях. Новая архитектура использует совмещение нескольких дескрипторов изображений — промежуточных представлений некоторых глубоких нейросетевых кодировщиков, работающих с исходным изображением, и результаты работы глубоких кодировщиков на изображениях, получаемых из исходных путем специальных методов предобработки. Данный вид предобработки основан на модифицированной идее автокодировщика.
Также в рамках данной диссертационной работы была предложена новая нейросетевая архитектура классификации изображений с оптическим распознаванием текста. Архитектура основывается на специальной комбинаторной схеме, использующей дескрипторы текстовых областей изображений.
Теоретическая и практическая значимость работы. Теоретическая ценность данной работы заключается в предложении новых нейросетевых архитектур для узких классов задач, с которыми не справляются общие методы классификации изображений. Эти архитектуры сформулированы в максимально общем виде и могут использоваться для создания новых нейросетевых моделей, нацеленных на решение конкретных задач. Важным теоретическим результатом, установленным в работе, является доказательство линейности от размеров изображения и используемых гиперпараметров времени построения дескрипторов изображений для архитектуры CCIT.
Практическая значимость работы заключается в использовании предложенных архитектур для создания моделей и целевых программных сервисов, решающих конкретные практические задачи: распознавание документов при восстановлении прав доступа, а также распознавание вывесок коммерческих зданий.
Апробация работы. Результаты диссертации докладывались на ряде следующих международных научных конференции: 8-ая международная конференция «Analysis of Images, Social Networks and Texts, AIST», (17-19 июля 2019 г., Казань, Россия). 5-ая конференция «Software Engineering and Information Management, SEIM», (16 мая 2020 г., Санкт-Петербург, Россия), 14-ая международная конференция «Baltic Conference on Databases and Information Systems, DBIS»,(16-19 июня 2020 г., Таллин, Эстония), 9-ая международная конференция «Analysis of Images, Social Networks and Texts,AIST», (15-16 октября 2020 г.), международная конференция «Science and Artificial Intelligence conference, SAIence», (14-15 ноября 2020 г., Новосибирск, Россия), 25-ая международная конференция «International Conference on Pattern Recognition, ICPR» (10-15 января 2021 г., Милан, Италия), 8-ая международная конференция «Image Mining. Theory and Applications, IMTA» (21—25 августа 2022 г., Монреаль Квебек, Канада), 14-ая международная конференция "International Conference on Data Analytics and Management in Data Intensive Domains, DAMDID/RCDL" (4-7 октября 2022 г., Санкт-Петербург, Россия).
Разработанные в ходе выполнения диссертационной работы нейросетевые архитектуры были реализованы в виде конкретных моделей, интегрированы и успешно работают в составе сервисов российской социальной сети «ВКонтакте», что подтверждается актами о внедрении.
Публикации по теме диссертации. Результаты диссертации опубликованы в 11-ти работах, из них 1 публикация [27] представлена в журнале, входящем в перечень рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученои степени кандидата наук; 10 статей [6; 12; 13; 28—34] опубликованы в зарубежных изданиях, индексируемых наукометрической системой Scopus. Статьи [6; 12; 13; 27—34] написаны в соавторстве.
Личный вклад автора в данных публикациях заключается в следующем. В статье [27] автор разработал комбинированную нейросетевую модель для распознавания фотографий удостоверений личности в сложных условиях съемки, разработал план исследования и схему экспериментов, самостоятельно реализовал модели классификаторов на основе VCA, произвел их интеграцию в систему восстановления доступа и другие внутренние алгоритмы социальной сети «ВКонтакте», провел запланированные эксперименты по оценке качества классификации. Cоавторы участвовали в написании и корректировке текста статьи, организовывали сбор и разметку наборов данных для экспериментов. В статьях [6; 12; 13; 28—34] автор предложил глубокую нейросетевую архитектуру CCIT с OCR-модулем и различными модификациями с помощью дескрипторов. Автор выполнил реализацию инфраструктуры обучения и тестирования, развертывания моделей врамках данной архитектуры, предложил специальные методы предобработки изображений, адаптацию техник обучения модели, реализацию базовой версии архитектуры CCIT и разработку интерфейсов для подключения дополнительных функциональных блоков, а также разработку алгоритмов построения специальных дескрипторов типа A, B, C. Соавторы выполнили программную реализацию предложенных алгоритмов вычисления дескрипторов, подключение механизмов OCR и векторизации текстовых представлений, обеспечили сбор и разметку наборов данных, участвовали в постановке экспериментов и написании текста статей.
Объем и структура диссертации. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы и приложения. Общии объем работы составляет 92 страниц. Список литературы содержит 108 наименований.
В первой главе приводится описание наиболее эффективных и часто используемых современных подходов к классификации изображений общего
плана, методов распознавания текста, а также способов получения дескрипторов изображений. Данные решения являются составляющими комбинированных нейросетевых классификаторов. Также в данной главе приводится описание задач классификации изображений с фрагментами текста в сложных условиях. Наибольшее внимание уделяется задаче классификации удостоверений личности в контексте системы восстановления доступа к учетным записям социальной сети «ВКонтакте» и задаче определения типа предоставляемых услуг по фотографиям фасадов коммерческих зданий.
Во второй главе представлено описание нейросетевой архитектуры VCA. Описаны основные принципы построения и функционирования VCA, используемые кодировщики для извлечения классифицирующих признаков (включая мотивацию и рассмотренные альтернативные варианты). Описан также автокодировщик для выделения характерных особенностей контуров и адаптация регуляризации согласованности.В главе также кратко представлена реализация архитектуры VCA для решения задачи классификации документов. В заключении главы приведено экспериментальное исследование созданной архитектуры, показавшее её превосходство над аналогами по метрике Precision на основном (смешанном) наборе данных.
Третья глава содержит описание архитектуры CCIT. Представлена детальная постановка задачи и процедура предварительной обработки изображений, а также OCR-модуль. Описаны алгоритмы построения дескрипторов изображений типа А, В и С, доказаны свойства линейности времени построения этих дескрипторов от величины изображения и гиперпараметров. Описана реализация архитектуры CCIT в виде модели для классификации рекламных вывесок коммерческих зданий. Наконец, представлено экспериментальное исследование архитектуры CCIT, показавшее её превосходство над аналогами на рассматриваемом классе задач.
В заключении перечислены результаты выполненного исследования, а также освещены перспективы дальнеишеи работы.
В приложение представлены акты о внедрении методов, разработанных в рамках данной диссертационной работы.
Глава 1. Обзор предметной области
В данном исследовании мы будем использовать три разных, но близких по значению термина. Термин нейросеть мы будем использовать во вводных или общих описаниях. Термином модель будем обозначать конкретную нейросеть, имеющую реализацию и готовую для использования. При этом у модели могут варьироваться параметры настройки. С помощью термина архитектура мы будем обозначать некоторое семейство модели — фактически, архитектура обеспечивает определенный абстрактный взгляд (View Point) на набор разных нейросетей (существующих или реализуемых в перспективе), в рамках которого выделены определенные конструктивные элементы, механизмы и принципы работы нейросети, общие для всех моделей с данной архитектурой, а остальные составляющие этих моделей, быть может, также существенные для реализации, опущены и, следовательно, могут различаться у этих моделей. При создании конкретных моделей возможно совмещение различных архитектур. Наконец, мы будем использовать термин классификатор, обозначая так нейросетевые архитекткры, предназначенные для классификации изображений.
Для обучения всех упомянутых далее нейросетевых моделей используется метод стохастического градиентного спуска [35] и его многочисленные модификации [36—41]. В настоящее время, данная группа алгоритмов фактически является единственной и безальтернативной группой методов для оптимизации весов глубоких нейросетей. Все эти методы являются развитием базового метода [42] градиентного спуска, реализующие различные эвристики, улучшающие процесс сходимости. В частности, алгоритм стохастического градиентного спуска[35] анализирует на каждом шаге алгоритма не все многообразие, заданное набором данных, а лишь поверхность, заданную некоторой подвыборкой (обучение по многообразию, заданному всей обучающей выборкой, на практике невозможно из-за ограниченности ресурсов). Алгоритмы, основанные на методе моментов [40; 41], используют эвристику инерции, которая позволяет отделять важные частности или же наоборот игнорировать шумы при выборе направления оптимизации. Хорошие результаты при решении широкого класса задач, демонстрируют методы оптимизации, использующие накопление истории изменений и нормализацию, такие как [36—39]. Для обучения всех моделей, пред-
ставленных в настоящей работе, использовалась модификация стохастического градиентного спуска [36].
1.1 Базовые нейросетевые архитекутры
В настоящее время наиболее эффективные методы классификации изображений основаны на глубоких нейросетях [15; 18; 43—45], которые используют следующие важные концепции: свертку, внимание, совмещение различных модальностей, а также различные техники ансамблирования. Далее в главе мы рассмотрим основные конструктивные компоненты глубоких нейросетей, которые были использованы в рамках данной работы для построения архитектур моделей классификации изображений.
Нейроны, слои и блоки. Искусственный нейрон (далее — нейрон) является атомарным элементом нейросети. Конструктивно, искусственный нейрон крайне прост и имеет естественное биологическое основание, так как в некотором приближении моделирует работу одного нейрона из нервной системы человека. Принцип работы нейрона представлен на рис. 1.1.
Рисунок 1.1 — Принцип работы искусственного нейрона.
Каждая компонента входного сигнала нейрона домножается на соответствующий ей вес, после чего к результату скалярного произведения входного вектора и вектора весов применяется функция активации, значение которой передается дальше в качестве результата обработки нейроном входного вектора. Веса в данном случае являются обучаемыми параметрами нейрона.
Полносвязные слои (далее —слои) и полносвязные блоки (далее — блоки) применяются в глубоких нейросетевых архитектурах в качестве конструктивных элементов [46—49].
Слои — следующий за нейроном уровень организации нейросети, содержащий набор нейронов. Блок — это набор слоев и дополнительных связей между слоями. Полносвязный слой — это слой, в котором все нейроны независимы и при соединении двух полносвязных слоев (это соединение является направленным) на вход каждого нейрона из второго полносвязного слоя подается выход каждого нейрона из предыдущего полносвязного слоя (см. рис. 1.2). Полносвязный блок — это группа поносвязных слоев. Нейросеть, составленная из полносвязных слоев, называется многослойным перцептроном (Multilayer Perceptron, MLP).
¡-1 I
Рисунок 1.2 — Связь полносвязных слоев.
Функции активации [50] применяются внутри нейрона, как указывалось выше, а также на выходах блоков и слоев. Основное назначение таких функций — преобразование диапазонов значений. Например, исходный диапазон может быть от минус бесконечности до плюс бесконечности, а выходной — от 0 до 1, и такое преобразование бывает полезно для предсказывания различных вероятностей.
Далее рассмотрим наиболее распространенные функции активации, используемые при построении архитектур глубоких нейросетей — логистическую функцию, гиперболический тангенс, ЯеЬИ (линейный выпрямитель), БойМах.
Логистическая функция задается следующим образом [51; 52]:
Ф) =
1 + е-
Она монотонно возрастает, усиливая слабые сигналы и насыщаясь от сильных, представляя собой гладкий аппроксиматор ступенчатой функции (см. рис. 1.3).
Рисунок 1.3 — График логистической функции.
В глубоких нейросетях логистическая функция используется, в основном, в качестве активации для полносвязных слоев на выходах модели. Её обычно не применяют для активации в глубоких свёрточных блоках, так как это ведёт к проблеме затухающих градиентов из-за склонности к быстрому насыщению при отдалении от начала координат. Появление такой проблемы связано с деградацией абсолютного значения производной и эффекта композиции, которые в совокупности препятствуют существенной корректировке обучаемых параметров а глубоких нейросетях. Такие свойства препятствуют успешному применению градиентного спуска для оптимизации значений обучаемых параметров.
Логистическая функция имеет ограниченную область значений (в интервале от 0 до 1) и удобна для использования в качестве функции активации выходов глубокой модели при решении задачи классификации. Также удобным свойством логистической функции является возможность выражать значение производной через значение самой функции, что позволяет экономить вычислительные ресурсы при оптимизации модели:
1
а'(г) = а(г) * (1 — а(г)).
Гиперболический тангенс [51; 52] по свойствам схож с логистической функцией:
tanh(z) =
ez — е z
ег + е-г
Значение его производной также выражается через значение исходной функции:
) = 1 — 1апЬ2(^).
Гиперболический тангенс, также как логистическая регрессия, склонен усиливать слабые сигналы и насыщаться от больших по модулю входных значений (см. рис. 1.4).
Рисунок 1.4 — График функции гиперболического тангенса.
Однако, безусловным преимуществом гиперболического тангенса перед логистической функцией является центрированность относительно нуля, которая позволяет градиентам принимать как положительные, так и отрицательные значения в процессе оптимизации весов модели, препятствуя возникновению нежелательного зигзагообразного эффекта при обучении.
В сверточных слоях и блоках в глубоких нейросетях часто используется функция активации ReLU [51; 52] (Rectified Linear Unit - линейный выпрямитель):
ReLU(z) = max(0, z).
При использовании ReLU отпадает потребность тратить ресурсы на нахождение численного значения производных при обучении нейросети, что значительно ускоряет процесс оптимизации. Но при всей простоте самой функции, ReLU обладает свойством нелинейности (см. рис. 1.5), что позволяет строить
более мощные аппроксиматоры, чем при использовании функций линейной активации.
10 -5 0 5 10
Рисунок 1.5 — График функции ReLU.
Недостатком ReLU является неограниченность функции сверху, что влечет за собой отсутствие насыщения и, как следствие, проблему взрывающихся градиентов. Помимо этого, при отрицательных значениях градиент не корректируется (такая проблема называется деградацией).
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Высокопроизводительные нейронные сети глубокого обучения для устройств с низкими вычислительными ресурсами2024 год, кандидат наук Гончаренко Александр Игоревич
Многозадачный перенос знаний для диалоговых задач2023 год, кандидат наук Карпов Дмитрий Александрович
Математическое моделирование и исследование алгоритмов обучения и выбора гиперпараметров искусственных нейронных сетей для классификации объектов на цифровых изображениях2023 год, кандидат наук Толстых Андрей Андреевич
Модель сознательного внимания и биоподобного анализа изображений на базе ансамбля АРТ-нейросетей2010 год, кандидат физико-математических наук Мищенко, Алесь Викторович
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Список литературы диссертационного исследования кандидат наук Самарин Алексей Владимирович, 2024 год
Список литературы
1. Javidi B., L. Horner J. Optical pattern recognition for validation and security verification // Optical Engineering (OPT ENG). — Т. 33(6). — C. 224-230. — 1994. — DOI: 10.1117/12.170736.
2. Vizilter Y, Zheltov S., A. Lukin A. Development of OCR system for portable passport and visa reader // Proceedings of SPIE - The International Society for Optical Engineering. — Т. 3651. — C. 194-199. — 1999. — DOI: 10.1117/ 12.335817.
3. Slant rectification in Russian passport OCR system using fast Hough transform / E. Limonova [и др.] // International Conference on Machine Vision. — Т. 10341. — С. 127-131. — 2017. — DOI: 10.1117/12.2268725.
4. Kim K., Oh A., Woo Y. PCA-Based Face Verification and Passport Code Recognition Using Improved FKCN Algorithm // Eighth International Conference on Intelligent Systems Design and Applications. — Т. 2. — C. 51-57. — 2008. — DOI: 10.1109/ISDA.2008.247.
5. Intasuwan T., Kaewthong J., Vittayakorn S. Text and Object Detection on Billboards // 10th International Conference on Information Technology and Electrical Engineering (ICITEE) — С. 6-11. — 2018. — DOI: 10 . 1109/ ICITEED.2018.8534879.
6. Malykh V., Samarin A. Combined Advertising Sign Classifier // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) — Т. 11832. — C. 179-185. — 2019. — DOI: 10.1007/978-3-030-37334-4_16.
7. Zhou J., McGuinness K., O'Connor N. E. A Text Recognition and Retrieval System for e-Business Image Management // MultiMedia Modeling. — C. 23-35. — 2018.
8. Learning and Recognition of On-Premise Signs From Weakly Labeled Street View Images / T. Tsai [и др.] // Transactions on Image Processing. — T. 23(3). — C. 1047-1059. — 2014. — DOI: 10.1109/TIP.2014.2298982.
9. Chacra D. A., Zelek J. Road Segmentation in Street View Images Using Texture Information // 13th Conference on Computer and Robot Vision (CRV). — C. 424-431. — 2016. — DOI: 10.1109/CRV.2016.47.
10. Chattopadhyay T, Sinha A. Recognition of trademarks from sports videos for channel hyperlinking in consumer end // 13th International Symposium on Consumer Electronics. — C. 943-947. — 2009. — DOI: 10. 1109/ISCE. 2009.5156881.
11. ImageNet: A Large-Scale Hierarchical Image Database / J. Deng [h gp.] // IEEE Conference on Computer Vision and Pattern Recognition — C. 248-255. — 2009.
12. Samarin A., Malykh V., Muravyov S. Specialized Image Descriptors for Signboard Photographs Classification // Communications in Computer and Information Science . — T. 1243 — C. 122-129. — 2020. — DOI: 10.1007/978-3-030-57672-1_10.
13. Samarin A., Malykh V. Worm-like image descriptor for signboard classification // CEUR Workshop Proceedings, — T. 2691 — C. 30-33. — 2020. — DOI: 10.1007/978-3-030-57672-1_10.
14. Xue C, Lu S., Zhan F. Accurate Scene Text Detection Through Border Semantics Awareness and Bootstrapping // Computer Vision - ECCV. — C. 370-387. — 2018.
15. Deep Residual Learning for Image Recognition / K. He [h gp.] // Conference on Computer Vision and Pattern Recognition (CVPR). — C. 770-778. — 2016. — DOI: 10.1109/CVPR.2016.90.
16. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // CoRR. — 2014.
17. MobileNetV2: Inverted Residuals and Linear Bottlenecks / M. Sandler [h gp.] // CVF Conference on Computer Vision and Pattern Recognition. — C. 4510-4520. — 2018.
18. Tan M., Le Q. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks // International conference on machine learning — C. 6105-6114. — 2019.
19. You Only Look Once: Unified, Real-Time Object Detection / J. Redmon [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — С. 779-788. — 2015.
20. SSD: Single Shot MultiBox Detector / W. Liu [и др.] // Proceedings, Part I 14. — Springer International Publishing. - С. 21-37. — 2015.
21. TextBoxes: A Fast Text Detector with a Single Deep Neural Network / M. Liao [и др.] // Proceedings of the AAAI conference on artificial intelligence
— Т. 31. — 201б.
22. Detecting Text in Natural Image with Connectionist Text Proposal Network / Z. Tian [и др.] // Computer Vision-ECCV 201б: 14th European Conference, Amsterdam Proceedings, Part VIII 14. — С. 5б-72. — 201б.
23. EAST: An Efficient and Accurate Scene Text Detector / X. Zhou [и др.] // Conference on Computer Vision and Pattern Recognition (CVPR).
— С. 2б42-2б51. — 2017. — DOI: 10.1109/CVPR.2017.283.
24. Dittimi T., Suen C. Modified HOG Descriptor-Based Banknote Recognition System // Advances in Science, Technology and Engineering Systems Journal.
— Т. 3.(5).—С. 354-3б4. — 2018. — DOI: 10.25046/aj030541.
25. Sun J., Shisong Z, Xiaosheng W. Image retrieval based on an improved CS-LBP descriptor // Information Management and Engineering (ICIME).
— С. 115-117. — 2010. — DOI: 10.1109/ICIME.2010.5477432.
26. Huang C., Huang J. A Fast HOG Descriptor Using Lookup Table and Integral Image // CoRR. — 2017.
27. A.B. Самарин B.A. Малых П. К. Метод верификации изображений удостоверений личности по ограниченному фрагменту изображения // Труды Института системного анализа РАН. — Т. 70(1) — С. 15-23. — 2020. — DOI: 10.14357/20790279200102.
28. Samarin A., Malykh V. Ensemble-Based Commercial Buildings Facades Photographs Classifier // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). — Т. 12б02 — С. 257-2б5. — 2021. — DOI: 10.1007/978-3-030-72610-2_19.
29. Tatanov O, Samarin A. LFIEM: Lightweight Filter-based Image Enhancement Model // 25th International Conference on Pattern Recognition (ICPR). — C. 873-878. — 2021. — DOI: 10.1109/ICPR48806.2021.9413138.
30. Samarin A., Savelev A., Malykh V. Two-Staged Self-Attention Based Neural Model For Lung Cancer Recognition // Science and Artificial Intelligence conference (S.A.I.ence). — C. 50-53. — 2020. — DOI: 10 . 1109/S .A.I. ence50533.2020.9303206.
31. Trainable Agents Movement Strategies for Advertising Sign Visual Descriptors / A. Samarin [h gp.] // Pattern Recognition and Image Analysis. — T. 32(3) — C. 651-657. — 2022.
32. One-Staged Attention-Based Neoplasms Recognition Method for SingleChannel Monochrome Computer Tomography Snapshots / A. Samarin [h gp.] // Pattern Recognition and Image Analysis. — T. 32(3) — C. 645—650. — 2022.
33. Predictors Based on Convolutional Neural Networks for the Movement Strategy of Trainable Agents for Building Customized Image Descriptors / A. Samarin [h gp.] // Pattern Recognition and Image Analysis — T. 33. — C. 139-146. — 2023.
34. One-Stage Classifiers Based on U-Net and Autoencoder with Attention for Recognition of Neoplasms from Single-Channel Monochrome Computed Tomography Images / A. Samarin [h gp.] // Pattern Recognition and Image Analysis — T. 33 — C. 132-138. — 2023.
35. Loshchilov I., Hutter F. SGDR: Stochastic Gradient Descent with Restarts // CoRR. — 2016.
36. Lowe D. Adam: A Method for Stochastic Optimization // CoRR. — 2014.
37. Reddi S. J., Kale S., Kumar S. On the Convergence of Adam and Beyond // CoRR. — 2019.
38. Zeiler M. D. ADADELTA: An Adaptive Learning Rate Method // CoRR. — 2012.
39. RMSProp and equilibrated adaptive learning rates for non-convex optimization / Y. N. Dauphin [h gp.] // CoRR. — 2015.
40. Liu C., Belkin M. MaSS: an Accelerated Stochastic Method for Over-parametrized Learning // CoRR. — 2018.
41. Botev A., Lever G., Barber D. Nesterov's Accelerated Gradient and Momentum as approximations to Regularised Update Descent // International Joint Conference on Neural Networks (IJCNN)s, IEEE, — C. 1899-1903. — 2016.
42. Ruder S. An overview of gradient descent optimization algorithms // CoRR. — 2016.
43. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications / A. G. Howard [h gp.] // CoRR. — 2017.
44. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation / J. Li [h gp.] // CoRR. — 2022.
45. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models / J. Li [h gp.] // CoRR. — 2023.
46. GUlcU A., Ku§ Z. Hyper-Parameter Selection in Convolutional Neural Networks Using Microcanonical Optimization Algorithm // IEEE Access — T. 8. — C. 52528-52540. — 2020. — DOI: 10.1109/ACCESS.2020.2981141.
47. Atmaja B. T., Akagi M. Deep Multilayer Perceptrons for Dimensional Speech Emotion Recognition // Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). — C. 325-331. — 2020.
48. Rocha M, Cortez P., Neves J. Simultaneous Evolution of Neural Network Topologies and Weights for Classification and Regression // International Work-Conference on Artificial Neural Networks. — C. 59-66. — 2005. — DOI: 10.1007/11494669_8.
49. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain. // Psychological review — T. 65(6) — C. 386-408. — 1958.
50. Dubey S. R., Singh S. K., Chaudhuri B. B. A Comprehensive Survey and Performance Analysis of Activation Functions in Deep Learning // CoRR. — 2021.
51. Activation Functions: Comparison of trends in Practice and Research for Deep Learning / C. Nwankpa [h gp.] // CoRR. — 2020.
52. Szandala T. Review and Comparison of Commonly Used Activation Functions for Deep Neural Networks // CoRR. — 2020.
53. Hancock J., Khoshgoftaar T. Survey on categorical data for neural networks // Journal of Big Data — T. 7. — C. 1-41. — 2020. — DOI: 10 . 1186/s40537-020-00305-w.
54. Spatially supervised recurrent convolutional neural networks for visual object tracking / G. Ning [h gp.] // International Symposium on Circuits and Systems (ISCAS). — C. 1-4. — 2017. — DOI: 10.1109/ISCAS.2017.8050867.
55. Sherstinsky A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network // Physica D: Nonlinear Phenomena — T. 404. — C. 132306. — 2020. — DOI: 10.1016/j.physd.2019.132306.
56. Schmidt R. M. Recurrent Neural Networks (RNNs): A gentle Introduction and Overview // CoRR. — 2019.
57. Hochreiter S., Schmidhuber J. Long Short-term Memory // Neural computation. — T. 9(8) — C. 1735-1780. — 1997. — DOI: 10. 1162/neco. 1997.9.8.1735.
58. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling / J. Chung [h gp.] // CoRR. — 2014.
59. Implementation of Training Convolutional Neural Networks / T. Liu [h gp.] // CoRR. — 2015.
60. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / N. Srivastava [h gp.] // Journal of Machine Learning Research. — T. 15(1)— C. 1929-1958. — 2014.
61. CBAM: Convolutional Block Attention Module / S. Woo [h gp.] // Proceedings of the European Conference on Computer Vision (ECCV) — C. 3-19. — 2018.
62. Non-Local Neural Networks / X. Wang [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — C. 7794-7803. — 2018.
63. Self-Attention Generative Adversarial Networks / H. Zhang [h gp.] // CoRR. — 2018.
64. Learning better deep features for the prediction of occult invasive disease in ductal carcinoma in situ through transfer learning / B. Shi [h gp.] // Progress in Biomedical Optics and Imaging - Proceedings of SPIE. — C. 98. — 2018. — DOI: 10.1117/12.2293594.
65. Going deeper with convolutions / C. Szegedy [h gp.] // Conference on Computer Vision and Pattern Recognition (CVPR). — C. 1-9. — 2015. — DOI: 10.1109/CVPR.2015.7298594.
66. Chemception: A Deep Neural Network with Minimal Chemistry Knowledge Matches the Performance of Expert-developed QSAR/QSPR Models / G. Goh [h gp.] // CoRR. — 2017.
67. Rethinking the Inception Architecture for Computer Vision / C. Szegedy [h gp.] // Conference on Computer Vision and Pattern Recognition (CVPR). — C. 2818-2826. — 2015.
68. 1D convolutional neural networks and applications: A survey / S. Kiranyaz [h gp.] // Mechanical Systems and Signal Processing — T. 151. — C. 107398. — 2021. — DOI: 10.1016/j.ymssp.2020.107398.
69. ResNet-like Architecture with Low Hardware Requirements / E. Limonova [h gp.] // CoRR. — 2020.
70. Big Transfer (BiT): General Visual Representation Learning / A. Kolesnikov [h gp.] // European Conference on Computer Vision. — C. 491-507. — 2020. — DOI: 10.1007/978-3-030-58558-7_29.
71. Fixing the train-test resolution discrepancy / H. Touvron [h gp.] // CoRR. — 2019.
72. Scene Segmentation With Dual Relation-Aware Attention Network / J. Fu [h gp.] // Transactions on Neural Networks and Learning Systems. — T. 32(6) — C. 1-14. — 2020. — DOI: 10.1109/TNNLS.2020.3006524.
73. CAA : Channelized Axial Attention for Semantic Segmentation / Y. Huang [h gp.] // CoRR. — 2021.
74. Real-Time Food Intake Monitoring Using Wearable Egocnetric Camera / M. Imtiaz [h gp.] // 42nd Annual International Conference of the IEEE Engineering in Medicine Biology Society (EMBC). — C. 4191-4195. — 2020. — DOI: 10.1109/EMBC44109.2020.9175497.
75. Hoang V.-T., Jo K.-H. Practical Analysis on Architecture of EfficientNet // 14th International Conference on Human System Interaction (HSI). — C. 1-4. — 2021. — DOI: 10.1109/HSI52170.2021.9538782.
76. Zhang P., Yang L., Li D. EfficientNet-B4-Ranger: A novel method for greenhouse cucumber disease recognition under natural complex environment // Computers and Electronics in Agriculture — T. 176. — C. 105652. — 2020. — DOI: 10.1016/j.compag.2020.105652.
77. CoAtNet: Marrying Convolution and Attention for All Data Sizes / Z. Dai [h gp.] // CoRR. — 2021.
78. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale / A. Dosovitskiy [h gp.] // CoRR. — 2020.
79. Ruan B., Shuai H.-H, Cheng W.-H. Vision Transformers: State of the Art and Research Challenges // CoRR. — 2022.
80. Attention Is All You Need / A. Vaswani [h gp.] // CoRR. — 2017.
81. Learning Transferable Visual Models From Natural Language Supervision / A. Radford [h gp.] // International conference on machine learning — C. 8748-8763. — 2021.
82. Zeng W, Meng Q., Zhang S. Natural Scene Chinese Character Text Detection Method Based on Improved CTPN // Journal of Physics: Conference Series — T. 1314. — C. 12200. — 2019. — DOI: 10.1088/1742-6596/1314/1/012200.
83. Character Region Awareness for Text Detection / Y. Baek [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — C. 9357-9366. — 2019. — DOI: 10.1109/CVPR.2019.00959.
84. Sang D., Cuong L. Improving CRNN with EfficientNet-like feature extractor and multi-head attention for text recognition // Proceedings of the 10th International Symposium on Information and Communication Technology. — C. 285-290. — 2019. — DOI: 10.1145/3368926.3369689.
85. Tesseract (инструмент OCR). — URL: https://github.com/tesseract-ocr/tesseract.
86. Smith R. An Overview of the Tesseract OCR Engine // Ninth International Conference on Document Analysis and Recognition. — С. 629-633. — 2007. — DOI: 10.1109/ICDAR.2007.4376991.
87. Effectiveness of Modern Text Recognition Solutions and Tools for Common Data Sources / K. Smelyakov [и др.] // COLINS — С. 154-165. — 2021.
88. Xiang J., Zhu G. Joint Face Detection and Facial Expression Recognition with MTCNN // 4th International Conference on Information Science and Control Engineering (ICISCE). — С. 424-427. — 2017. — DOI: 10 .1109/ ICISCE.2017.95.
89. Kim K.-B., Kim S. A passport recognition and face verification using enhanced fuzzy ART based RBF network and PCA algorithm // Neurocomputing. — Т. 71(6-18) — С. 3964. — 2009. — DOI: 10 . 1016/j . neucom.2009.07.001.
90. Hinton G., Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks // Science. — T. 313. — C. 504-507. — 2006. — DOI: 10.1126/science.1127647.
91. Gupta S., Mazumdar S. G. Sobel Edge Detection Algorithm // International Journal of Computer Science and Management Research. — T. 2. — C. 1578-1583. — 2013.
92. Elboher E., Werman M. Efficient and accurate Gaussian image filtering using running sums // 12th International Conference on Intelligent Systems Design and Applications (ISDA). — С. 897-902. — 2012.
93. Image quality assessment: from error visibility to structural similarity / Z. Wang [и др.] // IEEE transactions on image processing. — T. 12(4). — C. 600-612. — 2004.
94. OpenCV. — URL: https://opencv.org.
95. Dlib. — URL: http://dlib.net.
96. Pillow (PIL Fork). — URL: https://python-pillow.org.
97. Tensorflow. — URL: https://www.tensorflow.org.
98. Comparing published multi-label classifier performance measures to the ones obtained by a simple multi-label baseline classifier / J. Metz [h gp.] // CoRR. — 2015.
99. Microsoft COCO: Common Objects in Context / T.-Y. Lin [h gp.] // Computer Vision - ECCV. — C. 740-755. — 2014.
100. Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models / B. A. Plummer [h gp.] // CoRR. — 2015.
101. Vasiliev R., Koznov D., Chernishev G. TraceSim: A Method for Calculating Stack Trace Similarity // Proceedings of the 4th ACM SIGSOFT International Workshop on Machine-Learning Techniques for Software-Quality Evaluation — C. 25-30. — 2020.
102. On-premise signs detection and recognition using fully convolutional networks / Y. Wang [h gp.] // International Conference on Multimedia and Expo (ICME). — C. 1-6. — 2016. — DOI: 10.1109/ICME.2016.7552923.
103. Malykh V. Robust word vectors for Russian language // Proceedings of Artificial Intelligence and Natural Language AINL FRUCT Conference. — C. 10-12. — 2016.
104. Densely Connected Convolutional Networks / G. Huang [h gp.] // Conference on Computer Vision and Pattern Recognition (CVPR). — C. 2261-2269. — 2017.
105. Bachchan A., Gorai A., Gupta P. Automatic License Plate Recognition Using Local Binary Pattern and Histogram Matching // Intelligent Computing Theories and Application: 13th International Conference, ICIC — C. 22-34. — 2017. — DOI: 10.1007/978-3-319-63312-1_3.
106. Lowe D. Object recognition from local scale-invariant features // Proceedings of the Seventh IEEE International Conference on Computer Vision — T. 2. — C. 1150-1157. — 1999.
107. Google Street View Dataset. — URL: https : //github . com/daminiR/ GoogleStreetViewDatasetBias.
108. Flickr. — URL: https://www.flickr.com.
Список рисунков
1.1 Принцип работы искусственного нейрона............................13
1.2 Связь полносвязных слоев..............................................14
1.3 График логистической функции........................................15
1.4 График функции гиперболического тангенса..........................16
1.5 График функции ReLU..................................................17
1.6 График функции Leaky ReLU..........................................17
1.7 Устройство простейшей рекуррентного слоя........................19
1.8 Устройство LSTM......................................................19
1.9 Устройство GRU.......................................................20
1.10 Иллюстрация операции свертки........................................21
1.11 Иллюстрация операции пулинга........................................21
1.12 Иллюстрация операции дропаута......................................22
1.13 Блок вычисления весов для механизма канального внимания [61]. 22
1.14 Блок вычисления весов для механизма пространственного внимания [61]............................................................23
1.15 Пример адаптации блока самовнимания [63] для обработки изображений..............................................................23
1.16 Архитектура VGG-16 [64]..............................................24
1.17 Конструкция различных вариаций Inception блоков [66]............25
1.18 Остаточные связи в архитектуре ResNet [15]......................26
1.19 Depthwise свертки [74]..................................................26
1.20 Изменение параметров тензоров в архитектурах
EfficientNet [76]..........................................................27
1.21 Архитектура CLIP [81]................................................29
1.22 Архитектура CTPN [82]................................................30
1.23 Архитектура EAST [23]................................................31
1.24 Аффинные преобразования регионов в EAST [23]....................31
1.25 Архитектура CRAFT [83]..............................................32
1.26 Примеры регионов, успешно детектируемых архитектурой CRAFT [83]..............................................................33
2.1 Примеры изображений удостоверения личности: а)
изображение, не содержащее искажений; б) изображение, содержащее допустимые пользовательские дополнения, скрывающие часть персональных данных; в) изображение, содержащее проективные искажения, возникшие вследствие
варьирования ракурсов съемки; г) изображение, содержащее
артефакты, возникшие при варьировании условий
освещенности (блики)......................... 36
2.2 Архитектура VCA........................... 39
2.3 Оригинальная архитектура VGG [16] и её отдельные компоненты............................... 41
2.4 Подбор порога активации для классификатора в условиях ограничений на Precision....................... 49
3.1 Общая архитектура CCIT с явным распознаванием текстовой информации............................... 59
3.2 Схема комбинированной архитектуры................. 59
3.3 CCIT-архитектура с визуальными дескрипторами.......... 60
3.4 Траектории передвижения агентов для построения дескриптора типа А (исходные символы изображения
обозначены черным цветом): а) пример горизонтального следа
(обозначен синим цветом); б) пример вертикального следа (обозначен красным цветом)...................... 61
3.5 Иллюстрация следа агентов со стратегией перемещения, характерной для дескрипторов типа В: а,б) траектории с горизонтальным приоритетным направлением; в,г) траектории с вертикальным приоритетным направлением перемещения............................... 66
3.6 Следы агента при построении дескриптора типа С: а,б) при движении с приоритетным горизонтальным направлением; в,г) при движении с приоритетным вертикальным направлением.............................. 69
3.7 Иллюстрация элементов из набора данных БОБ: а)
фотография фасада отеля; б) фотография фасада магазина; в) изображение фасада ресторана с рекламной вывеской; г) фотография с табличкой, не принадлежащая к определённым ранее категориям (класс 'другое')................... 72
Список таблиц
1 Результаты работы моделей на тестовом наборе фотографий общего плана 1ша§еКе1 ........................ 40
2 Результаты экспериментов ...................... 50
3 Значения ^ на тестовых выборках для различных конфигураций БОЭ..................
74
Приложение А Акты о внедрении
Акт
о внедрении о производство результатов диссертационной работы Самарина Алексея Владимировича, «Комбинированные нсйросстеиыс классификаторы специфичны* изображений»
Результаты л^сссртацунзнной работы Самарина Алексей Владимирове «Комбинированные нейросстеиые классификаторы специфлчмых иэображ«™^, прсдстэ¡111>1С комбинированной нейроссп ивой моделью классификации изображений с явным распознаванием 1екстеюй информации, внедрены и используются и коммерческой деятельности ООО -в Копокпс- ДЛЯ классификации изображений, содержащих тексювую информацию, что заметно повьиюет уроьспь автоматизации задач различного плана. Таким образом, представленные результаты имеют значительную практическую цениость.
| о!****!*«* ООО -й ««тмо-.
Швец А. Р.
Л -марта* 2023 г.
Акт
о внедрении в производство результатов диссертационной работы Самаринэ Алексея Владимировича, (.Комбинированные нейросетевые классификаторы специфичных изображений»
Результаты диссертационной работы Самарина Алексея Владимировича «Комбинированные нейросетевые классификаторы специфичны* изображений-, представленные комбмнирпданной нейросетевой моделью классификации изображений без явного распознавания текстовой информации, внедрена и »используются в коммерческой деятельности ООО -В Контакте- е системе восстановления доступа К учетном записям пользователей социальной сети «ВКонтакте-. Результаты имехзт значительную практическую ценность, так ке* го&ытают эффективность системы восстановлении доступа е 2 раза путей автоматической вали-дации фотографий удостоверанлй личности, предоставляемы* в заявка* пользователей.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.