Разработка алгоритмов и программных средств кластеризации и ранжирования изображений на основе самообучающейся сверточной нейронной сети тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Воробжанский Никита Николаевич
- Специальность ВАК РФ05.13.01
- Количество страниц 149
Оглавление диссертации кандидат наук Воробжанский Никита Николаевич
1.1 Поиск изображений по содержанию
1.2 Подходы к извлечению свойств изображений и их сравнительный анализ
1.3 Особенности методов кластеризации изображений из семейства ^-средних
1.4 Системы электронной коммерции как сфера приложений методов обработки изображений
1.5 Цель и задачи исследования
Выводы по первой главе
ГЛАВА РАЗРАБОТКА АЛГОРИТМИЧЕСКОЙ ОСНОВЫ ДЛЯ
2 КЛАСТЕРИЗАЦИИ И РАНЖИРОВАНИЯ ИЗОБРАЖЕНИЙ
2.1 Анализ архитектуры основных типов нейронных сетей
2.1.1 Логистическая регрессия как нейронная сеть
2.1.2 Неглубокая нейронная сеть
2.1.3 Глубокая нейронная сеть
2.1.4 Сверточные нейронные сети
2.2 Настройка гиперпараметров
2.3 Модификация и настройка параметров метода градиентного спуска
2.4 Метод опорных векторов
2.5 Нечеткий гиперграф в задаче классификации
Изображений
Выводы по второй главе
ГЛАВА РАЗРАБОТКА САМООБУЧАЮЩЕЙСЯ НЕЙРОННОЙ
3 СЕТИ ДЛЯ КЛАСТЕРИЗАЦИИ ИЗОБРАЖЕНИЙ
3.1 Выбор и оптимизация архитектуры
3.2 Совместное обучение признакам и кластеризация
3.2.1 Подбор значения К в алгоритме К-средних
3.2.2 Кластеризация и обучение представлениям на основе мини-пакетного метода ^-средних
3.2.3 Инициализация и настройка нейронной сети
3.3 Система обучения представлениям
3.4 Алгоритм совмещенного обучения представлениям и кластеризации
3.5 Ранжирование изображений
Выводы по третьей главе
ГЛАВА ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ 4 КЛАСТЕРИЗАЦИИ И РАНЖИРОВАНИЯ
ИЗОБРАЖЕНИЙ
4.1 Разработка информационной структуры
4.1.1 Разработка программной среды обучения представлениям, кластеризации и ранжирования
4.1.2 Разработка подсистемы таргетированной контекстной рекламы
4.2 Оценка эффективности алгоритмов совместного обучения
и кластеризации
4.3 Оценка эффективности алгоритма ранжирования
Выводы по четвертой главе
Заключение
Список используемых источников
Приложения
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическое моделирование и исследование алгоритмов обучения и выбора гиперпараметров искусственных нейронных сетей для классификации объектов на цифровых изображениях2023 год, кандидат наук Толстых Андрей Андреевич
Обнаружение объектов видеоряда на основе технологии машинного обучения (на примере лесных пожаров)2023 год, кандидат наук Лаптев Никита Витальевич
Алгоритмы нейросетевого детектирования и распознавания символов на сложном фоне2016 год, кандидат наук Друки Алексей Алексеевич
Методы восстановления параметров сцены для решения проблемы реалистичной визуализации в системах смешанной реальности2021 год, кандидат наук Сорокин Максим Игоревич
Разработка алгоритмов распознавания объектов воздушной съемки на основе свёрточных нейронных сетей c иерархическим классификатором2022 год, кандидат наук Нгуен Ван Чонг
Введение диссертации (часть автореферата) на тему «Разработка алгоритмов и программных средств кластеризации и ранжирования изображений на основе самообучающейся сверточной нейронной сети»
ВВЕДЕНИЕ
Актуальность. Обработка изображений является одним из основных направлений обработки информации в современных информационных системах различного назначения и имеет широкий спектр потенциальных областей применения, таких как поисковые системы (в том числе, в сети Интернет); каталогизация изображений предметов искусства; анализ результатов медицинских исследований; контроль над содержимым графической информации; приложения в военной сфере, в исследованиях Земли и космоса, в электронной коммерции. Однако следует заметить, что на данный момент наиболее значимые успехи достигнуты в узких областях, когда изначально имеется представление о виде и структуре объектов, связанных с изображением. Поэтому на сегодняшний день так популярны и успешны сервисы распознавания лиц и различных объектов, прослеживается успех в анализе томографических снимков и клеточного строения организмов, активно развиваются системы электронной коммерции, включающие в свою архитектуру подсистемы категоризации (каталогизации) товаров. Во многом такая ситуация сложилась по той причине, что чрезвычайно сложно придумать методику, которая бы позволяла машинным способом добиться распознавания произвольных образов. Эту проблему исследователи объясняют наличием семантического разрыва между настоящим восприятием образа человеком и вычислительной методикой построения этого восприятия. Человек воспринимает окружающий мир через систему понятий и представлений. Понятия (лингвистическое описание) описывают, отражают представления (визуальные объекты). Человеческое мышление позволяет отвлечься от несущественных сторон объекта и выделить из него наиболее важные признаки. Результатом является появление абстрактных понятий - цвет, кривизна, форма, красота и другие. Наличие системы понятий позволяет систематизировать представления, разбить их по разным категориям с учетом степени сходства. Для определения сходства изображений в машинном
анализе вводится понятие меры расстояния в пространстве изображений, параметрами которого являются цвет, текстура и форма. В зависимости от значений расстояния принимается решение о сходстве/несходстве двух изображений. В пространстве изображений можно ввести дополнительные характеристики, которые позволят с ещё большей точностью определять сходство изображений. Тогда можно провести явную параллель между пространством изображений и многомерным пространством признаков. Такое соответствие позволяет применять к обработке изображений математический аппарат, имитирующий способ восприятия информации человеком. В частности, таким аппаратом являются нейронные сети, которые приближают машинный анализ изображения к человеческому. Без их применения пришлось бы иметь дело только с низкоуровневой визуальной информацией. Как бы ни были совершенны методики анализа подобной информации, они не смогут отразить механизмы человеческого восприятия, что крайне важно для поисковой системы. Существует значительное количество моделей и методов, широко применяемых в области поиска изображений по содержанию, среди которых отметим следующие подходы:
• спектральная кластеризация на графах;
• категоризации и ранжирования изображений на основе вероятностных гиперграфов;
• модель обобщения результатов, основанная на методе опорных векторов;
• аддитивные нечеткие системы и нечеткие классификаторы;
• двумерный кратномасштабный анализ, построенный на скрытых цепях Маркова;
• сверточные нейронные сети.
Разработка новых и совершенствование существующих математических моделей анализа изображений является ключом к достижению максимальной эффективности таких связанных с обработкой изображений областей как поиск изображений по содержанию, классификация и кластеризация, при этом
использование нейросетевых технологий обработки графической информации способствует снижению семантического разрыва между ожиданиями пользователя и машинным анализом.
Обработка изображений является одним из направлений развития информационных технологий применительно к прикладным системам различного назначения, в том числе, системам компьютерного зрения. При решении задач компьютерного зрения, как правило, возникает вопрос об эффективном и быстром распределении изображений по группам (классам, кластерам) на основе визуальных признаков.
В последнее десятилетие особых успехов удалось достичь в цифровизации коммерческого сектора экономики, в результате чего появилась новая сфера -электронная коммерция, включающая финансовые и торговые транзакции, выполняемые при помощи компьютерных сетей, и бизнес-процессы, связанные с проведением таких транзакций. Системы электронной коммерции позволяют совершенствовать технологии коммуникации, создавая новые способы поиска ниши на рынке для предприятия и целевой аудитории для продавца; эффективно формировать потребительские предпочтения в обществе; снижать риски выхода на рынок товаров и услуг, не пользующихся спросом у населения.
В настоящее время электронная коммерция стала одним из самых перспективных направлений бизнеса не только за рубежом (amazon.com, aliexpress.com, buy.com), но и в России. В связи с увеличением числа онлайн-пользователей компании, предоставляющие услуги в сфере электронной коммерции, сталкиваются с проблемами обработки информации (анализ и систематизация информации, сопоставление данных и организация поиска, формирование рекламной выдачи, категоризация товаров и услуг и др.), решение которых позволит не только улучшить качество и расширить спектр предоставляемых услуг, но и повысить эффективность онлайн-торговли.
Актуальность темы исследования обусловлена необходимостью совершенствования существующих и разработки новых методов обработки
изображений в больших базах данных, связанных с решением задачи кластеризации изображений по содержанию, а также их ранжированию.
Степень разработанности темы исследования.
При решении задач компьютерного зрения, как правило, возникает вопрос об эффективном и быстром распределении изображений по группам (классам, кластерам) на основе визуальных признаков или их упорядочении. Примерами прикладных систем, основанных на кластеризации и ранжировании изображений, являются системы диагностики и мониторинга состояний объектов, поисковые системы, системы видеонаблюдения, системы автоматизации документооборота и др. Среди ученых, внесших значительный вклад в решение перечисленных задач, отметим следующих: S. Panda, J.R. Smith , R. Torres, J.C. Wang, C. Wang, J. Yang и др. В работах A. Krizhevsky, I. Sutskaver, A.S. Razavian, а также Г.И. Рудого, А.М. Терешкова, А.А. Сироты для кластеризации изображений используются нейросетевые технологии и получены результаты, которые обеспечивают эффективность соответствующих информационных систем, в которых имеются подсистемы для обработки изображений.
Одним из путей повышения эффективности систем электронной коммерции является совершенствование механизмов обработки изображений и визуализация сред работы сервисов. Значительный вклад в развитие систем электронной коммерции и смежных областей, связанных с обработкой информации, внесли следующие ученые: А.Н. Агафонова, В.А. Горбачев, М.А. Деднев, Д.В. Дыльнов, Д.Н. Душкин, Д.В. Ефремов, А.Ю. Ефанов, И.И. Исмагилов, И.В. Исаева, М.Г. Лужецкий, Ю.А. Маркарьян, Р.В. Мещеряков, В.В. Царев, D. Jannach, J.A. Konstan, F. Ricci, M.P. Robillard, W. Vorhies и др.
Диссертационная работа выполнена в рамках одного из основных научных направлений Воронежского государственного университета «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение к фундаментальным исследованиям в естественных науках».
Цель и задачи исследования. Цель диссертационной работы заключается в создании интеллектуальных программных модулей компьютерного зрения на основе построения глубокой нейронной сети с самообучающейся архитектурой, способной повысить эффективность кластеризации в базах, содержащих большое количество изображений.
Для достижения поставленной цели предполагается решение следующих задач:
1. Анализ и формирование алгоритмической базы для повышения качества и эффективности кластеризации изображений на больших данных.
2. Разработка подходов, основанных на методиках поиска изображений по содержанию, для формирования ранжирования изображений.
3. Разработка архитектуры самообучающейся сверточной нейронной сети с совмещенными процедурами обучения представлениям и кластеризации, при этом в качестве учителя используется метод кластеризации К-средних.
4. Создание программного комплекса компьютерного зрения для решения задач категоризации и таргетированной рекламы в информационной системе электронной торговли.
Научная новизна. В диссертационной работе получены следующие результаты, характеризующиеся научной новизной:
- архитектура самообучающейся сверточной нейронной сети на основе нейронной сети AlexNet, дополненной адаптационными слоями, отличающаяся совмещенным обучением представлениям на основе нейронной сети, модифицированного алгоритма К-средних и метода опорных векторов;
- способ вычисления начальных К-центров масс в алгоритме К-средних, основанный на мини-пакетной кластеризации и позволяющий сократить количество итераций для получения оптимального разбиения;
- алгоритм компенсации плавающего признака, появляющегося при последовательных итерациях на разных мини-пакетах, для предотвращения
деградации эффективности кластеризации, основанный на применении бэктрекинга;
- способ корректировки результатов кластеризации методом опорных векторов для перенастройки параметров нейронной сети с целью повышения качества кластеризации;
- алгоритм ранжирования изображений внутри кластера, основанный на использовании нечеткого гиперграфа для минимизации потери информации при установлении соответствия;
- структура информационной системы автоматической категоризации изображений товаров и формирования таргетированной рекламы, отличающаяся использованием принципа совмещенного обучения признакам на основе сверточной нейронной сети и процедуры кластеризации, которая способна обрабатывать большие объемы данных (изображений) за счет использования мини-пакетной оптимизации.
Содержание диссертации соответствует следующим пунктам Паспорта специальности 05.13.01 - «Системный анализ, управление и обработка информации»: п.1 «Теоретические основы и методы системного анализа, оптимизации, управления, принятия решений и обработки информации», п.4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации»; п.5. «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации».
Теоретическая и практическая значимость работы.
Развиваемая теоретическая база и результаты, полученные на основе вычислительного эксперимента, создают основу универсальной методики для разработки подсистем категоризации товаров и выдачи таргетированной рекламы в системах электронной коммерции. Предложенная архитектура сверточной нейронной сети в комбинации с улучшенными алгоритмами кластеризации позволят улучшить качество программных решений в сфере
онлайн-торговли. Использование разработанной информационной системы в онлайн-торговле позволит снизить вероятность ошибок при заполнении поставщиками проформ продукции, в частности, нивелирует ошибки категоризации товаров, а также повысит эффективность рекламы, сделав ее таргетированной за счет применения разработанных методик ранжирования гиперграфа для товаров, к которым пользователь онлайн-платформы проявлял интерес, и которые прошли категоризацию. Результаты диссертационной работы используются в учебном процессе ФГБОУ ВО «Воронежский государственный университет».
Методология и методы исследования основаны на использовании нейросетевых технологий, теории графов, методов оптимизации и принятий решений, методов кластерного анализа, методов компьютерного зрения и обработки изображений. При разработке программного комплекса использовались современные технологии программирования.
Положения, выносимые на защиту:
1) архитектура самообучающейся сверточной нейронной сети для автоматической категоризации товаров на основе их изображений;
2) метод выбора значения параметра - количества кластеров для алгоритма ^-средних;
3) алгоритм компенсации плавающего признака, появляющегося при последовательных итерациях на разных мини-пакетах;
4) способ ранжирования изображений внутри кластера на основе использования нечеткого гиперграфа в системе выдачи релевантной рекламы товаров;
5) алгоритм совмещенного обучения представлениям и кластеризации на основе сверточной нейронной сети, метода кластеризации ^-средних и метода опорных векторов;
6) структура информационной системы автоматической категоризации товаров и формирования таргетированной рекламы.
Степень достоверности и апробация результатов. Достоверность результатов диссертационной работы основана на корректном использовании математического аппарата, теоретические положения подтверждены результатами вычислительного эксперимента. Основные результаты диссертационного исследования докладывались и обсуждались на следующих международных и всероссийских конференциях: «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2016-2019); LXXII Международная научно-практическая конференция «Научная дискуссия: инновации в современном мире» (Москва, 2017); I Международная научно-практическая конференция «Системы управления, математическое моделирование, автоматизация и энергоэффективность SUMMA 2019» (Липецк, 2019); ежегодные научные сессии Воронежского государственного университета.
Публикации. Основные результаты диссертации опубликованы в 9 научных работах, в том числе 3 - в изданиях, рекомендованных ВАК РФ и 1 работа - в Scopus.
Объём и структура работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка использованных источников, включающего 86 наименований, и приложения. Основная часть работы изложена на 149 страницах, содержит 56 рисунков и 6 таблиц.
ГЛАВА 1
ОСНОВНЫЕ НАПРАВЛЕНИЯ РАЗВИТИЯ ИССЛЕДОВАНИЙ В
ОБЛАСТИ ОБРАБОТКИ ИЗОБРАЖЕНИЙ
В данной главе рассмотрены основные подходы к созданию систем интеллектуального анализа изображений, технологии их построения и архитектура. Представлены методики извлечения данных из изображений, проведен их сравнительный анализ, подробно разобраны методы кластеризации изображений и выдвинуты актуальные задачи, требующие новых подходов к их решению.
1.1 Поиск изображений по содержанию
В настоящее время одним из востребованных и активно развивающихся направлений обработки информации является обработка изображений. Объемы архивов изображений в сети Интернет ежедневно пополняются с невероятной скоростью. Этому способствует появление цифровых камер, компьютеров и других носителей, способных хранить гигабайты информации. По данным отчетов 2020 года приложение, предоставляющее пользователям возможность делиться фотографиями, посещали 1 млрд пользователей ежемесячно, при этом количество фотографий составило около 7 млрд. Для хранения такого количества фотографий нужны огромные базы данных изображений. А для быстрой обработки нужны быстрые системы анализа, поиска и индексирования изображений.
Можно выделить несколько основных направлений, связанных с обработкой изображений [1,2]:
- геометрические преобразования и цветовая коррекция;
- восстановление и реконструкция изображений, фильтрация для подавления различных шумов на изображениях;
- предобработка с целью улучшения качества изображения, выявление границ объектов;
- разработка и совершенствование критериев оценки визуального качества изображений;
- сжатие изображений;
- распознавание изображений (формирование описания заданного изображения или отнесение изображения к определенному классу).
Обработка изображений является одним из направлений развития информационных технологий применительно к прикладным системам различного назначения, в том числе, системам компьютерного зрения. При решении задач компьютерного зрения, как правило, возникает вопрос об эффективном и быстром распределении изображений по группам (классам, кластерам) на основе визуальных признаков.
К основным классам прикладных систем обработки изображений относятся следующие:
- системы компьютерного зрения для технологических процессов;
- системы диагностики и мониторинга состояний объектов;
- системы поиска и распознавания объектов (для обработки медицинских изображений, изображений карт земной поверхности; фотоснимков и других сложных изображений);
- системы видеонаблюдения;
- технологии автоматизации документооборота (системы обработки изображений документов; системы оптического распознавания символов).
Важнейшими областями приложения методов обработки изображений являются компьютерное моделирование, автоматизированные системы управления различными процессами и системы автоматизации (научных исследований, проектирования, конструирования, производства), электронная коммерция, цифровая обработка изображений в космическом исследованиях и дистанционном зондировании, средства массовой информации и издательские системы, искусство и мультимедиа.
Поиск изображений по содержанию - это раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание в большом наборе цифровых изображений [3]. "По содержанию" означает, что поиск анализирует содержимое изображения, а не метаданные, такие как: ключевые слова, теги или описания, ассоциированные с изображением. К содержанию изображения можно отнести цвет, форму, текстуру и другую информацию, которая может быть извлечена из изображения.
Системы поиска изображений по содержанию (CBIR) решают проблему получения желаемых для пользователя изображений из цифровой библиотеки. В своей основе система поиска изображений - это компьютерная система вместе с необходимой аппаратной частью и программным обеспечением, целью которой является поиск в достаточно большой цифровой базе данных изображений или библиотеке и получение результатов, похожих на изображение-запрос пользователя.
База данных изображений - это коллекция изображений, разбитых на отдельные ассоциативные группы.
Первым термин CBIR ввел в употребление исследователь Като [4] в 1992 году для описания эксперимента автоматического поиска цифровых изображений путем сравнения цвета изображения и характеристик формы каждого изображения из базы данных с цветом и характеристиками формы входного изображения. С тех пор этот термин был перенесен на все похожие методологии и процессы поиска изображений из базы данных, использующие общие характерные свойства такие, как цвета, формы, текстуры и т.д. Ранние CBIR-системы обычно полагались на извлечение характеристик из изображения и стратегии сопоставления для поиска релевантных изображений в базе данных. К примеру, компания IBM [5] внедрила систему QBIC в 1995, система VIRAGE [6] появилась в 1997, а NEC AMORE [7] в 1999. Это были первые CBIR-системы, предназначенные для коммерческого использования. В то же время другие исследователи изобретали CBIR-системы для
академических целей такие, как MIT Photobook [8], Columbia VisualSEEK и WebSEEK [9], UCSB NeTra [10] и Stanford WBIIS [11].
CBIR методики являются жизнеспособными решениями для нахождения требуемых изображений в цифровых библиотеках. В простейшей CBIR-системе, все цифровые изображения в библиотеке представлены визуальными характеристиками. Типичные визуальные характеристики включают в себя цвета, формы, границы и текстуры для представления изображения. Изначально эти визуальные характеристики извлекаются из каждого изображения и сохраняются в базе данных свойств изображений, соответствующую цифровой библиотеке изображений, для упрощения дальнейшего использования. Затем применяется метод соответствия для определения сходства между визуальными характеристиками изображения-запроса и визуальными характеристиками всех цифровых изображений в базе данных изображений. Только изображения, имеющие наиболее высокие значения сходства, возвращаются конечному пользователю в качестве результатов. На рис. 1 изображена высокоуровневая схема устройства простейшей CBIR системы.
Рис. 1. Схема CBIR.
Как видно из рис. 1, система поиска изображений должна поддерживать следующие функции:
• извлечение характеристик из изображений;
• поиск изображений по характеристикам;
• обеспечение эффективного хранения изображений.
Рассмотрим подробнее первую функцию из списка, вторая функция является по сути производной из первой, для реализации последней функции используются готовые решения такие, как ImageNet [12] или ProductNet [13].
Как можно было убедиться, извлечение характеристик из изображений является важнейшей частью CBIR, так как без этого модуля системы невозможно организовать сопоставление изображений.
Сопоставление - операция сравнения двух и более объектов с целью определения степени их сходства.
Получение надежного сопоставления пары изображений - это трудная задача, для ее решения было изобретено множество методик, но ни одна из них не является универсальной. Выбор подходящей методики для решения задачи сопоставления во многом зависит от типа сопоставляемых изображений и различий между изображением и его парой по нескольким параметрам, таким, как:
- масштаб (англ. scale): по крайней мере два элемента внутри пары изображений имеют разный масштаб;
- окклюзия (англ. occlusion): концепция того, что два объекта, пространственно разделенные в трехмерном мире, могут накладываться друг на друга в двухмерном;
- ориентация (англ. orientation): изображения в паре повернуты друг относительно друга;
- аффинное преобразование: объект плоский, текстурированный (присутствие объемных геометрических паттернов) или с выделенными границами;
- размывание (англ. blurring): размытие быстро двигающихся объектов в неподвижном изображении;
- освещение (англ. illumination): разница в освещении объектов представляет типичную проблему для точного сопоставления характеристик изображений [18, 19].
1.2 Подходы к извлечению свойств изображений
и их сравнительный анализ
Рассмотрим известные подходы к извлечению свойств и приведем их сравнительный анализ.
Цветовая гистограмма
Цветовая гистограмма (также график уровней или просто уровни) - это гистограмма уровней насыщенности изображения (суммарной или разделенной по цветовым каналам), является представлением распределения разных цветов в изображении. Цветовая гистограмма позволяет оценить количество и разнообразие оттенков изображения, а также общий уровень яркости изображения. Цветовые гистограммы представляют собой гибкую конструкцию, которая может быть построена из изображений в различных цветовых пространствах, будь то RGB или любое другое цветовое пространство любого измерения [16]. Основной недостаток гистограмм для классификации заключается в том, что представление зависит от цвета изучаемого объекта, а его форма и текстура при этом не учитываются. Цветовые гистограммы могут оказаться идентичными для двух изображений с разным содержанием, но похожей цветовой информацией. И наоборот, без пространственной информации или информации о форме похожие объекты разного цвета могут быть определены методикой как разные только на основе сравнения цветовых гистограмм. Невозможно отличить красно-белую чашку от красно-белой тарелки. Иными словами, алгоритмы, основанные на гистограмме, не оперируют такими представлениями, как, например, "чашка", а знание о представлении красно-белой чашки бесполезно, если ей противопоставлена другая идентичная сине-белая чашка.
FAST (детектор углов)
Алгоритм FAST [17] (англ. Features from Accelerated Segment Test) - это алгоритм на основе углового критерия SUSAN (англ. Smallest Univalue Segment Assimilating Nucleus) [18], [19]. Для обнаружения признаков SUSAN
помещает круглую маску над проверяемым пикселем (ядром). Область маски - М, и пиксель в этой маске обозначен как т, и каждый пиксель сравнивается с ядром, используя функцию сравнения следующего вида:
где t обозначает радиус, а значение показателя степени было определено эмпирически. Площадь SUSAN определяется формулой
С появлением FAST предпочтение стало отдаваться методике обнаружения углов, а не методике обнаружения границ, так как утверждалось, что углы являются одним из наиболее интуитивных типов признаков, которые показывают сильное изменение интенсивности в двух измерениях, и, следовательно, хорошо отличаются от соседних точек. Согласно сравнительному исследованию существующих угловых детекторов, основанных на вышеуказанных критериях (согласованность, точность и скорость), было обнаружено, что большинство из этих детекторов удовлетворяют одному из критериев, но не работают в других [19].
SIFT детектор
SIFT (масштабно-инвариантная трансформация признаков) [20,21] состоит из четырех основных этапов:
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Методы и алгоритмы анализа статических и динамических зрительных сцен на основе сверточных нейронных сетей2019 год, кандидат наук Гаранин Олег Игоревич
Методы и алгоритмы детектирования объектов на основе нейронной сети с полносвязным ядром свертки2019 год, кандидат наук Алексеев Алексей Алексеевич
НЕЙРОСЕТЕВОЕ МОДЕЛИРОВАНИЕ РАСПОЗНАВАНИЯ МНОГОПАРАМЕТРИЧЕСКИХ ОБЪЕКТОВ2016 год, кандидат наук Лагунов Никита Алексеевич
Методы и алгоритмы распознавания и классификации поверхностных дефектов листового проката на основе машинного обучения2023 год, кандидат наук Евстафьев Олег Александрович
Модели и алгоритмы сегментации и распознавания объектов на медицинских изображениях световой микроскопии низкого пространственного разрешения2022 год, кандидат наук Шеломенцева Инга Георгиевна
Список литературы диссертационного исследования кандидат наук Воробжанский Никита Николаевич, 2021 год
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Блохина Т. Особенности исследования алгоритмов обработки изображений // СОВРЕМЕННЫЕ НАУКОЕМКИЕ ТЕХНОЛОГИИ. - 2014. -№ 5(2). - С. 3-31.
2. Круглов В.Н. ЦИФРОВАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ // Успехи современного естествознания. - 2011. - № 10. - С. 88-89.
3. Torres R.D.S. Content-Based Image Retrieval: Theory and Applications / R.D.S. Torres, A.X. Falcao // Rev. Informática Teórica e Apl. RITA. - 2006. - Vol. 13. - № 2. - P.161-185.
4. Kato T. Database architecture for content-based image retrieval / T. Kato // Image Storage and Retrieval Systems. - 1992. - Vol. 1662.- P. 112-123.
5. Flickner M. Query by Image and Video Content: The QBIC System / M. Flickner [et al.] // Computer (Long. Beach. Calif). - 1995. - Vol. 28. - № 9. - P. 23-32.
6. Hampapur A. Virage video engine / A. Hampapur [et al.] // Storage and Retrieval for Image and Video Databases V. - 1997. - Vol. 3022. - P. 188-198.
7. Mukherjea S. AMORE: A World-Wide Web image retrieval engine / S. Mukherjea, K. Hirata , Y. Hara // Conference on Human Factors in Computing Systems - Proceedings. - 1999. - P. 17-18.
8. Pentland A. Photobook: Content-based manipulation of image databases / A. Pentland, R.W. Picard, S. Sclaroff // Int. J. Comput. Vis. - 1996. - Vol. 18. - № 3. - P. 233-254.
9. Smith J.R. VisualSEEk: A fully automated content-based image query system / J.R. Smith, S.F. Chang // Proceedings of the 4th ACM International Conference on Multimedia, MULTIMEDIA 1996. - 1997. - P. 87-98.
10. Ma W.Y. NeTra: A toolbox for navigating large image databases / W.Y. Ma, B.S. Manjunath // Multimedia System. - 1999. - Vol. 7. - № 3. - P. 184-198.
11. Wang J.Z. Content-based image indexing and searching using Daubechies' wavelets / J.Z. Wang [et al.] // Int. J. Digit. Libr. - 1997. - Vol. 1. - № 4. - P. 311-
12. Krizhevsky A. ImageNet Classification with Deep Convolutional Neural Networks/ A. Krizhevsky, I. Sutskever, E.H. Geoffrey // Neural Information Processing Systems. 25. - 2012. - P. 1106-1114.
13. Wang C. ProductNet: A collection of high-quality datasets for product representation learning / C. Wang [et al.] // The Web Conference 2019 - Companion of the World Wide Web Conference, WWW 2019. - 2019. - P. 411-414.
14. Mikolajczyk K. A performance evaluation of local descriptors / K. Mikolajczyk, C. Schmid // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2005. - Vol. 27. - № 10. - P. 1615-1630.
15. Yong S.H. Illumination and camera invariant stereo matching / S.H. Yong, M.L. Kyoung, U.L. Sang // 26th IEEE Conference on Computer Vision and Pattern Recognition, CVPR. - 2008. - P. 1-8.
16. Stokman H. Selection and fusion of color models for image feature detection / H. Stokman, T. Gevers // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - P. 371-381.
17. Шеломенцева И.Г. Выбор алгоритма сегментации для определения областей интересов изображений анализов мокроты, содержащих микобактерии туберкулеза // Инженерный вестник Дона. - 2017. - № 2(45). -С. 80.
18. Viswanathan D. Features from Accelerated Segment Test (FAST) // Homepages.Inf.Ed.Ac.Uk. 2009.
19. Rosten E. Faster and better: A machine learning approach to corner detection / E. Rosten, R. Porter, T. Drummond // IEEE Trans. Pattern Anal. Mach. Intell. - 2010. - P. 105-119.
20. Веричев А.В., Федосеев В.А. Система встраивания цифровых водяных знаков на триангуляционной сетке опорных точек изображения // Компьютерная оптика. - 2014. - № 3(38). - С. 555-563.
21. Vedaldi A. An implementation of SIFT detector and descriptor // Int. J. 2008.
22. Bundy A. Difference of Gaussians / A. Bundy, L. Wallen // Catalogue of Artificial Intelligence Tools. - 1984. - P. 30-35.
23. Lowe D.G. Distinctive image features from scale-invariant keypoints / D.G. Lowe // Int. J. Comput. Vis. - 2004. - P. 91-110.
24. Wang X.Y. Robust image retrieval based on color histogram of local feature regions / X.Y. Wang, J.F. Wu, H.Y. Yang // Multimed. Tools Appl. - 2010.
- P. 323-345.
25. Takacs G. Unified real-time tracking and recognition with rotationinvariant fast features / Takacs G. [et al.] // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2010. - P. 934941.
26. Ke Y. PCA-SIFT: A more distinctive representation for local image descriptors / Y. Ke, R. Sukthankar // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - 2004. - Vol. 2. - P. 506-513.
27. Zhan-Long Y. Image mosaic based on sift / Y. Zhan-Long, G. Bao-Long // Proceedings - 2008 4th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2008. - 2008. - P. 1422-1425.
28. Wagner D. Pose tracking from natural features on mobile phones / D. Wagner [et al.] // Proceedings - 7th IEEE International Symposium on Mixed and Augmented Reality 2008, ISMAR 2008. - 2008. - Vol. 2 - P. 125-134.
29. Schinke T. Visualization of off-screen objects in mobile augmented reality / T. Schinke , N. Henze, S. Boll // ACM International Conference Proceeding Series.
- 2010. - P. 313-316.
30. Panda S. A Performance Study of SIFT, SIFT-PCA and SIFT-LDA for Face Recognition / S. Panda [et al.] // Int. J. Soft Comput. Eng. - 2015. - № 3. - P. 66-72.
31. Liu Y. A survey of content-based image retrieval with high-level semantics / Y. Liu [et al.] // Pattern Recognit. - 2007. - P. 262-282.
32. Михайлов И.Ф. Человеческий мозг и сознание: биология или
вычисления? // Философские проблемы информационных технологий и киберпространства, 2018. - 2018. - № 2(15). - С. 92-110.
33. McCulloch W.S. A logical calculus of the ideas immanent in nervous activity / W.S. McCulloch, W. Pitts // Bull. Math. Biophys. - 1943. - Vol. 5 - P. 115-133.
34. LeCun Y. Backpropagation Applied to Handwritten Zip Code Recognition / Y. LeCun [et al.] // Neural Comput. - 1989. - Vol. 1. - № 4. - P. 541-551.
35. LeCun Y. et al. Backpropagation applied to digit recognition // Neural computation. 1989.
36. Srivastava N. Dropout: A simple way to prevent neural networks from overfitting / N. Srivastava [et al.] // J. Mach. Learn. Res. - 2014. - Vol. 15. - P. 1929-1958.
37. Rumelhart D.E. Learning Internal Representations by Error Propagation / D.E. Rumelhart, G.E. Hinton, R.J. Williams // Readings in Cognitive Science: A Perspective from Psychology and Artificial Intelligence. - 2013. - P. 399-421.
38. Рудой Г.И. Выбор функции активации при прогнозировании нейронными сетями // Машинное обучение и анализ данных, 2011. - №2 1(1). -С. 16-39.
39. Razavian A.S. CNN features off-the-shelf: An astounding baseline for recognition / A.S. Razavian [et al.] // IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. - 2014. - P. 512-519.
40. Athiwaratkun B., Kang K. Feature Representation in Convolutional Neural Networks. 2015.
41. Kalantari K. On information-theoretic privacy with general distortion cost functions / K. Kalantari, L. Sankar, O. Kosut // IEEE International Symposium on Information Theory - Proceedings. - 2017. - P. 2865-2869.
42. Celebi M.E. A comparative study of efficient initialization methods for the k-means clustering algorithm / M.E. Celebi, H.A. Kingravi, P.A. Vela // Expert Syst. Appl. - 2013. - Vol. 40. - P. 200-210.
43. Arthur D. How slow is the k-means method? / D. Arthur, S. Vassilvitskii //
Proceedings of the Annual Symposium on Computational Geometry. - 2006. - P. 144-153.
44. Фролов В.В., Слипченко С.Е., Приходько О.Ю. МЕТОД РАСЧЕТА ЧИСЛА КЛАСТЕРОВ ДЛЯ АЛГОРИТМА K-MEANS // Экономика. Информатика, 2020. - № 1(47). - С. 213-225.
45. Al-Daoud M.B. New methods for the initialisation of clusters / M.B. Al-Daoud, S.A. Roberts // Pattern Recognit. Lett. - 1996. - Vol. 17. - № 5. - P. 451455.
46. Neuristique L.B. Convergence Properties of the K-Means Algorithms / L.B. Neuristique, Y. Bengio // Adv. Neural Inf. Process. Syst. - 1995. - P. 585-592.
47. Du Q. Numerical studies of MacQueen's k-means algorithm for computing the centroidal Voronoi tessellations / Q. Du, T.W. Wong // Comput. Math. with Appl. - 2002. - V. 44. - № 3-4. - P. 511-523.
48. Estivill-Castro V. Why so many clustering algorithms / V. Estivill-Castro // ACM SIGKDD Explor. Newsl. - 2002. - Vol. 4. - № 1. - P. 65-75.
49. Hamerly G. Alternatives to the k-means algorithm that find better clusterings / G. Hamerly, C. Elkan // International Conference on Information and Knowledge Management, Proceedings. - 2002. - P. 600-607.
50. Estivill-Castro V. Fast and robust general purpose clustering algorithms / V. Estivill-Castro, J. Yang // Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). - 2000. - Vol. 1886. - P. 208-218.
51. Kanungo T. An efficient k-means clustering algorithms: Analysis and implementation / T. Kanungo [et al.] // IEEE Trans. Pattern Anal. Mach. Intell. -2002. - Vol. 24. - № 7. - P. 881-892.
52. Pelleg D. Accelerating exact k -means algorithms with geometric reasoning / D. Pelleg, A. Moore // Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '99. - 1999. - P. 277281.
53. Peña J.M. An empirical comparison of four initialization methods for the K-Means algorithm / J.M. Peña, J.A. Lozano, P. Larrañaga // Pattern Recognit. Lett.
- 1999. - Vol. 20. - № 10. - P. 1027-1040.
54. Ishioka T. Extended K-means with an efficient estimation of the number of clusters / T. Ishioka // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). -2000. - Vol. 1983. - P. 17-22.
55. Cairney P. Doing Statistics with SPSS // J. Reprod. Infant Psychol. 2003.
56. Kothari R. On finding the number of clusters / R. Kothari, D. Pitts // Pattern Recognit. Lett. - 1999. - Vol. 20. - № 4. - P. 405-416.
57. Lindeberg T. Scale-Space Theory in Computer Vision / T. Lindeberg -Springer, 1994. - 436 p.
58. Старцев М.В. Электронная коммерция как способ интенсификации бизнес-процессов / М.В. Старцев // Социально-экономические явления и процессы. - 2011. - № 5(6). - С. 212 -215.
59. Data Insight: электронная торговля в России 2020 - 2024. Datainsight.ru [Электронный ресурс]. URL: https://datainsight.ru/DI_eCommerce2020_2024/ (дата обращения 25.02.2021). [Electronic resource]. [Electronic resource].
60. McKinsey: цифровая Россия: новая реальность 2017 [Электронный ресурс]. URL: https://www.mckinsey.com/~/media/mckmsey/locations/europe%20and%20middl e%20east/russia/our%20insights/digital%20russia/digital-russia-report.ashx/ (дата обращения 02.02.2020). [Electronic resource].
61. Dave K., Varma V. Computational advertising: Techniques for targeting relevant ads // Found. Trends Inf. Retr. 2014. P. 22-42.
62. Goldfarb A., Tucker C. Online display advertising: Targeting and obtrusiveness // Mark. Sci. 2011. - 2011. - Vol. 30. - № 3. - P. 389-404.
63. Zachary J.M., Iyengar S.S. Content based image retrieval systems // Proceedings - 1999 IEEE Symposium on Application-Specific Systems and Software Engineering and Technology, ASSET 1999. 1999.
64. Терешков А.М. Однородная многослойная нейронная сеть прямого распространения с локальными связями с условно-рефлекторным механизмом
обучения на основе двухпороговых равновесных нейроподобных элементов // Известия Томского политехнического университета, 2007. - №2 1. - С. 206-211.
65. Зуев В.Н., Кемайкин В.К. Модифицированный алгоритм обучения нейронных сетей // Программные продукты и системы, 2019. - № 2. - С. 258262.
66. Бахчевников В.В., Деркачев В.А., Бакуменко А.Н. СПОСОБ ИСПОЛЬЗОВАНИЯ СРЕДСТВ БЫСТРОГО ПРОТОТИПИРОВАНИЯ ДЛЯ РЕАЛИЗАЦИИ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ НА ПЛИС // Известия Южного федерального университета. Технические науки, 2020. - № 3(213). -С. 146-156.
67. Кузьмицкий Н.Н. Сверточная нейросетевая модель в задаче классификации изображений изолированных цифр // Доклады Белорусского государственного университета информатики и радиоэлектроники, 2012. - № 7(69). - С. 65-71.
68. Друки А.А. Применение сверточных нейронных сетей для выделения и распознавания автомобильных номерных знаков на изображениях со сложным фоном // Известия Томского политехнического университета, 2014. - № 5(324). - С. 85-92.
69. Агафонов А.Д., Стонякин Ф.С. Градиентные методы для задач оптимизации, допускающие существование неточной сильно выпуклой модели целевой функции // Труды Московского физико-технического института, 2019. - № 3(43). - С. 4-19.
70. Афанасьев Г.И., Абулкасимов М.М., Сурикова О.В. Алгоритмы оптимизации, используемые в нейронных сетях, и градиентный спуск // Аспирант и соискатель, 2019. - № 6(114). - С. 81-86.
71. Китова О.В., Колмаков И.Б., Пеньков И.А. Метод машин опорных векторов для прогнозирования показателей инвестиций // Экономика, статистика и информатика. Вестник УМО, 2016. - № 4. - С. 27-30.
72. Воробжанский Н.Н. Использование метода опорных векторов в классификации изображений // Перспективы науки, 2017. - № 5(92). - С. 11 -
73. Hsu C.W. A comparison of methods for multiclass support vector machines / C.W. Hsu, C.J. Lin // IEEE Trans. Neural Networks. - 2002. - Vol. 13. - № 2.- P. 415-425.
74. Зыков А.А. Гиперграфы / А.А. Зыков // Успехи математических наук.
- 1974. - № 6. - С. 89-154.
75. Емеличев В. А. Лекции по теории графов. Глава XI: Гиперграфы / В. А. Емеличев, О. И. Мельников, В. И. Сарванов. - М.: Наука, 1990. - 384 c.
76. Тепляков С.М. О многоцветных раскрасках гиперграфов // Труды Московского физико-технического института, 2017. - № 1(33). - С. 22 - 38.
77. Гурченков А.А., Костяной Д.С., Мокряков А.В. Редукционные методы восстановления некоторого класса гиперграфов // Инженерный журнал наука и инновации. 2014. - № 6(30). - С. 1-8.
78. Воробжанский Н.Н. Алгоритмы поиска изображений по содержанию с использованием нечеткого гиперграфа // Вестник ВГУ. Серия: ^стем^й анализ и информационные технологии, 2016. - №2. - С. 85 - 91.
79. Vorobzhanskiy N. Efficient SVM-based approach for CBIR // Proceedings
- 2019 1st International Conference on Control Systems, Mathematical Modelling, Automation and Energy Efficiency, SUMMA. 2019. - P. 552-555.
80. Воробжанский Н.Н. Сверточная кластеризация методом k-средних // Международный научно-исследовательский журнал, 2021. - № 1 (103). -Часть 1. - С. 52-56.
81. Ding J. Stochastic gradient descent based K-means algorithm on large scale data clustering / J. Ding [et al.] // Applied Mechanics and Materials. Trans Tech Publications Ltd. - 2014. - Vol. 687-691. - P. 1342-1345.
82. Krizhevsky A. ImageNet classification with deep convolutional neural networks / A. Krizhevsky, I. Sutskever, G.E. Hinton // Commun. ACM. - 2017. -Vol. 60. - № 6. - P. 84-90.
83. Arthur D., Vassilvitskii S. K-means++: The advantages of careful seeding // Proceedings of the Annual ACM-SIAM Symposium on Discrete Algorithms. -
2007. - P. 1027-1035.
84. Avrithis Y., Kalantidis Y., Anagnostopoulos E., Emiris I. Web-scale image clustering revisited // Proceedings of the IEEE International Conference on Computer Vision, 2015. - 2015. - P. 1502-1510.
85. Yang J., Parikh D., Batra D. Joint unsupervised learning of deep representations and image clusters // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016. - 2016. - P. 51475156.
86. Oquab M., Bottou L., Laptev I., Sivic J. Is object localization for free? -Weakly-supervised learning with convolutional neural networks // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015. - 2015. - P. 685-694.
147
ПРИЛОЖЕНИЯ
Копия акта о внедрении результатов диссертационного исследования
«УТВЕРЖДАЮ»
Первый проректор - проректор по учебной работе Воронежского государственного университета __Чупандина Е.Е.
«_»_2021 г.
АКТ
о внедрении в учебный процесс ФГБОУ ВО «Воронежский государственный университет» научных разработок соискателя ученой степени кандидата технических наук Воробжанского Н.Н.
Название диссертации: Разработка алгоритмов и программных средств
кластеризации и ранжирования изображений на основе самообучающейся
сверточной нейронной сети.
Соискатель: Воробжанский Никита Николаевич.
Научный руководитель: д.т.н., проф. Леденева Татьяна Михайловна.
Работа выполнена в ФГБОУ ВО «Воронежский государственный университет» на кафедре вычислительной математики и прикладных информационных технологий в рамках одного из основных научных направлений «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение к фундаментальным исследованиям в естественных науках». Результаты работы внедрены в учебный процесс на основании решения кафедры Вычислительной математики и прикладных информационных технологий от 5 февраля 2021 г.. протокол №6.
1. Вид результатов внедрения в учебный процесс: модель информационной системы, программная среда на базе сверточной нейронной сети и алгоритма К-средних для совместного обучения признакам и кластеризации изображений.
2. Область применения: применяется в рамках основных образовательных программ высшего образования: по направлению 02.04.02 «Фундаментальные информатика и информационные технологии» (магистратура), дисциплина «Интеллектуальные информационные системы и технологии их разработки»; по направлению 01.04.02 «Прикладная математика и информатика» (магистратура), дисциплина «Обработка изображений»
3. Вид учебных занятий - лекция и лабораторная работа.
4 Форма внедрения: раздел в курсе лекций и лабораторная работа.
5. Технический уровень (государственное или общественное признание): нет.
6. Основные публикации по теме диссертации:
Публикации в изданиях, рекомендованных ВАК РФ:
• Воробжанский Н.Н. Алгоритмы поиска изображений по содержанию с
использованием нечеткого гиперграфа II Вестник ВГУ. Серия: Системный
анализ и информационные технологии, 2016. - №2. - С. 85-91.
• Воробжанский Н Н. Использование метода опорных векторов в классификации изображений // Перспективы науки, 2017. - № 5(92). - С.11 -18.
• Воробжанский Н.Н. Сверточная кластеризация методом k-средних // Международный научно-исследовательский журнал. 2021. - № 1 (103). - Часть 1.-С. 52-56.
Публикации, индексируемые в Web of Science и Scopus:
• Vorobzhanskiy N «Efficient SVM-based approach for CBIR» / 1st International Conference on Control Systems, Mathematical Modelling, Automation and Energy Efficiency (SUMMA), Lipetsk, Russia, 2019. - P. 552-555, doi:10.1109/SUMMA48161.2019.8947528.
7 Яффект от внедрения, повышение качества образования повышение качества знаний обучающихся в области разработки информационных систем различного назначения, включающих подсистемы обработки изображений с использованием нейросетевых технологий и усовершенствованных методов кластеризации.
Соискатель
Научный руководитель Зав. кафедрой вычислительной математики и прикладных информационных технологий Воронежского государственного университета, д.т.н., профессор
Декан факультета прикладной математики, информатики и механики Воронежского государственного университета, д.ф.-м.н., профессор
Копия свидетельства о государственной регистрации программы
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.