Разработка методов и алгоритмов сопровождения объектов в  системах машинного зрения

Гиля-Зетинов Александр Александрович

Разработка методов и алгоритмов сопровождения объектов в системах машинного зрения тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Гиля-Зетинов Александр Александрович

Гиля-Зетинов Александр Александрович
кандидат наук
2022

Специальность ВАК РФ00.00.00

Количество страниц 115

Гиля-Зетинов Александр Александрович. Разработка методов и алгоритмов сопровождения объектов в системах машинного зрения: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 115 с.

Оглавление диссертации кандидат наук Гиля-Зетинов Александр Александрович

Введение

Глава 1. Задача отслеживания множества объектов

Глава 2. Алгоритмы распознавания объектов

2.1 Нейронные сети в задаче обработки изображений

2.2 Общий обзор уровня техники

2.3 Обнаружение объектов с помощью алгоритмов YOLO

2.4 Подход к решению задачи распознавания позы

Глава 3. Метод отслеживания Pose-Based Bipartite Matching

3.1 Существующий уровень техники для задачи сопровождения объектов

3.2 Постановка задачи отслеживания объектов

3.3 Общая модель задачи

3.4 Двудольное сопоставление

3.5 Модели движения объекта

3.6 Предлагаемый метод

3.7 Вычислительные эксперименты

3.8 Выводы

Глава 4. Метод отслеживания Monte-Carlo Trajectory

Optimization

4.1 Существующий уровень техники для стохастического подхода отслеживания объектов

4.2 Предлагаемый метод

4.3 Способ оптимизации

4.4 Модификации алгоритма

4.5 Вычислительные эксперименты

4.6 Выводы

Глава 5. Программный комплекс

5.1 Входные данные

5.2 Конфигурация

5.3 Алгоритм перевода систем координат

5.4 Требования к вычислительным ресурсам

Глава 6. Прикладные применения и эксперименты

6.1 Применение к задаче мониторинга очередей

6.2 Применение для анализа спортивных матчей

6.3 Применение для обнаружения нештатных ситуаций при движении на эскалаторе

Заключение

Список литературы

Список рисунков

Список таблиц

Введение

В данной работе описывается ряд новых подходов к задаче отслеживания фигур людей , возникающей при разработке и применении систем машинного зрения для анализа тактических сцен с большим количеством участников. Такие системы в последние годы активно применяются в различных областях. Примерами могут служить системы общественной и промышленной безопасности, решения для автоматического анализа спортивных трансляций, различные решения в составе систем "Умный город".

Введение диссертации (часть автореферата) на тему «Разработка методов и алгоритмов сопровождения объектов в системах машинного зрения»

Актуальность темы исследования.

Одним из важных этапов анализа видео сцены с большим количеством участников является переход от набора обнаруженных в каждом кадре участников к построению траекторий движения участников в пространстве изображения и пространстве сцены. Различные вариации задачи сопровождения, также именуемой задачей множественного отслеживания объектов (MOT — multiple object tracking), известны давно. Но в связи с распространением нейронных сетей как основного алгоритма в машинном зрении, данная задача вновь стала вызывать повышенный интерес у исследователей. Это связано с несколькими факторами.

Во-первых, существует множество дополнительных данных, которые может предоставить нейросетевой алгоритм помимо предполагаемых координат объекта и которые можно использовать для увеличения качества отслеживания.

Примером таких данных, формируемых нейросетью, может послужить вектор, описывающий позу человека, визуальные характеристики или предполагаемое направление движения.

Во-вторых, вывод нейронной сети имеет свою специфику ошибок, отличающихся от классических моделей — а используемая модель ошибок играет важную роль в разработке алгоритма.

В-третьих, в последнее время распространены исследования о применимости нейронных сетей в роли алгоритмов отслеживания. К этому привело появление новых архитектур сетей — графовых нейронных сетей, а также сетей, основанных на операции внимания.

Таким образом, задача разработки новых подходов к решению проблемы МОТ, предназначенных для совместного использования с нейросетевыми алгоритмами обнаружения отметок, является актуальной.

Целью данной работы является разработка и реализация методов решения ряда промежуточных задач в системах машинного зрения, связанных с построением траекторий объектов - людей в высоконагруженных сценах. Для ее достижения решаются следующие задачи:

1. Выбор и реализация алгоритма анализа одиночного изображения для поиска людей и координат их скелетной модели, для получения исходных данных для дальнейшей обработки.

2. Разработка модели для решения задачи множественного отслеживания объектов - фигур людей в сценах с большим количеством объектов и нейросетевыми технологиями формирования отметок (обнаружений) в отдельных кадрах.

3. Разработка алгоритмов отслеживания для объектов в пространстве координат кадра, представленных скелетной моделью.

4. Разработка алгоритма перевода координат наблюдаемых объектов из пространства кадра в пространство сцены, с учетом оптических искажений камер.

5. Разработка стохастического алгоритма отслеживания объектов с сопутствующей фильтрацией координат и построением траектории в высоко-нагруженных сценах.

6. Оценка качества и скорости работы реализованных алгоритмов отслеживания в зависимости от значений их параметров с использованием размеченных наборов данных.

7. Практическое применение разработанных алгоритмов и их программных реализаций для систем общественной и промышленной безопасности, решений для автоматического анализа спортивных трансляций, различных решений в составе систем "Умный город".

Основные положения, выносимые на защиту:

1. Модель для решения задачи отслеживания объектов - фигур людей в сценах с большим количеством объектов и нейросетевыми технологиями формирования отметок (обнаружений) в отдельных кадрах [1; 2];

2. Новый метод отслеживания объектов, представленных скелетной моделью, на основе поиска максимального парасочетания в двудольном графе (PBBM - Pose-Based Bipartite Matching) [3].

3. Новый метод отслеживания и фильтрации траекторий объектов в пространстве координат сцены с использованием метода Монте-Карло (MCTO - Monte-Carlo Trajectory Optimization) [4].

4. Программная компонента для выделения и отслеживания людей в пространствах координат и сцены по видеоряду на основе вышеперечисленных методов [5; 6].

Научная новизна:

1. Впервые предложен метод отслеживания представленных скелетной моделью объектов, на основе метода двудольного сопоставления с одновременным учетом линейной модели движения, координат суставов и внешних признаков (PBBM - Pose-Based Bipartite Matching).

2. Впервые предложен метод отслеживания и фильтрации траектории в задаче множественного отслеживания объектов на основе поиска набора наиболее правдоподобных управляющих векторов путем стохастической оптимизации в скользящем окне (MCTO - Monte-Carlo Trajectory Optimization).

Научная и практическая значимость . В работе предлагается два новых метода отслеживания с разными областями применимости. Метод отслеживания по скелетной модели PBBM относится к широко распространенной и используемой на практике группе методов, основанных на двудольном сопоставлении. Отличием от других методов в этой группе является вид оптимизируемой функции для весов ребер, использующей одновременно предсказание будущего местоположения, информацию о скелете и цветовую информацию изображения. Интерес данный метод представляет в тех задачах, где уже требуется расчет позы для прикладного применения.

Среди ключевых особенностей, отличающих предложенный стохастический метод MCTO от других методов можно перечислить:

1. промежуточное положение между методами покадровой оптимизации, имеющими нулевую задержку, и глобальными методами, обрабатывающие видео целиком и неприменимые в реальном времени. Это достигается за счет оконной обработки и наличия фиксированной задержки

(как правило, порядка нескольких секунд, но это может быть изменено в зависимости от области применения алгоритма), наличие которой позволяет более точно разрешать окклюзии и восстанавливать продолжительные пропуски.

2. работу в пространстве сцены, а не кадра.

3. оптимизируемая функция может не ограничивается независимыми слагаемыми для пар "трек — обнаружение", а значит, позволяет более точно учесть специфику обнаружений нейронных сетей.

Некоторые параллели возможно провести с методом объединенного фильтра ассоциации вероятностных данных (MC-JPDAF) — оба этих алгоритма относятся к стохастическим, но имеют разный подход к представлению оптимизируемого пространства.

Научная значимость заключается в разработке данных методов, а также в результатах численных экспериментов на размеченных данных, показывающих качество отслеживания в зависимости от значений параметров.

Практическая значимость подтверждается применимостью комплекса программ, разработанного на основе этих методов на практике. В том числе, практическим применением разработанного комплекса программ при решении задачи мониторинга времени обслуживания авиапассажиров в очередях на территории Московского Аэропорта Шереметьево.

Степень достоверности полученных результатов обеспечивается расчетом метрик качества на размеченных реальных данных, полученных из открытых источников, а также использованием алгоритмов в прикладных применениях. Результаты находятся в соответствии с результатами, полученными другими авторами.

Апробация работы. Основные результаты работы докладывались на:

1. 4th International Conference on Electrical, Control and Instrumentation engineering (ICECIE), Kuala-Lumpur, Malaysia, 2022

2. Международной конференции Computing Conference 2021, Лондон, Великобритания, 15 июля 2021;

3. XXII Международной конференции «Цифровая обработка сигналов и ее применение DSPA-2020» ИПУ им.Трапезникова";

4. Международной конференция Intelligent Systems Conference (IntelliSys 2020), май 2020, Амстердам, Нидерланды;

5. Международной конференции International Conference on Technology and Entrepreneurship (ICTE), Болонья, Италия, 20-21 апреля 2020

Личный вклад. Разработка алнгоритмов и программная реализация методов отслеживания, выносимых на защиту, а также реализация программного комплекса, были совершены лично автором.

Публикации. Основные результаты по теме диссертации изложены в 5 печатных изданиях, 4 из которых цитируются системой Scopus и рекомендованы ВАК [1—3; 5], 1 — в сборнике докладов рекомендованном ВАК [6]. Еще одна статья принята к публикации в сборнике докладов 4th International Conference on Electrical, Control and Instrumentation engineering (ICECIE), Kuala-Lumpur, Malaysia, 2022 [4].

Объем и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объём диссертации составляет 115 страниц с 40 рисунками и 9 таблицами. Список литературы содержит 76 наименований.

Глава 1. Задача отслеживания множества объектов

Как указано во Введении, целью данной работы является разработка и реализация методов решения ряда промежуточных задач в системах машинного зрения, связанных с построением траекторий объектов - людей в высоконагру-женных сценах.

В данной главе приводятся наиболее общие сведения о существующих подходах к решению задачи отслеживания множества объектов (МОТ). Описывается место двух новых разработанных автором методов, предлагаемых в данной работе на фоне существующих подходов.

Рисунок 1.1 — Дерево методов решения задачи множественного отслеживания

объектов.

Дерево на рисунке 1.1 отображает возможную структуризацию методов МОТ.

По наличию либо отсутствию базового алгоритма обнаружения объектов все методы можно разделить на две группы: [7; 8]

1. методы, решающие задачу MOT на основе объектов, обнаруженных некоторым другим алгоритмом (tracking-by-detection либо Detection-Based Tracking, DBT)

2. методы, выполняющие отслеживание без использования алгоритма выделения объектов в каждом кадре. (Detection-Free Tracking, DFT).

Методы из группы DFT, как правило, включают в себя два этапа: этап инициализации объектов и этап отслеживания.

Поиск объекта в кадре происходит только на этапе инициализации (например, на основе выделения заднего фона), а само отслеживание происходит на основе различных вычисленных признаков объекта, таких как цветовые гистограммы либо ключевые точки. Примером может послужить метод, описанный в статье [9].

Методы из группы DBT полагаются в своей работе на данные о существующих объектах для каждого кадра, вычисленные некоторым другим алгоритмом. Распространение эффективных алгоритмов обнаружения объектов применимых в реальном времени, таких как нейронные сети, привело к повышенной популярности методов данной группы в последнее время.

В главе 2 приведено подробное описание нейронных сетей, как источника обнаруженных объектов для методов этой группы.

Среди алгоритмов DBT можно выделить очень широкое подмножество алгоритмов, использующих следующий порядок:

1. построение связей между обнаруженными объектами, и объектами, отслеживаемыми на данный момент (data association);

2. уточнение параметров отслеживаемых объектов по построенным связям.

Для уточнения параметров объектов по измерениям наиболее распространенными способами являются вариации фильтра Калмана и фильтр частиц.

При этом связи являются объектом оптимизации, проводимой различным образом в зависимости от метода, а правдоподобность построенных связей оценивается с помощью модели движения и обнаружения объекта.

Группа методов на основе двудольного сопоставления (bipartite matching, BM) отличается тем, что оптимизация происходит с глубиной анализа в 1 кадр.

Название Предсказание Координата Поза Внешний вид

SORT [10] Фильтр Калмана — —

DeepSORT [11] Фильтр Калмана — CNN

Karunasekera et. al. [12] Линейное L2 + IoU — LBPH

Detect-and-Track [13] — — PCKh CNN

Shin-Yi Wen et. al. [14] По разности IoU PCKh CNN

Bin Xiao et. al. [15] — IoU PCKh, OKS CNN

PBBM Линейное L2 OKS Цвет. стат.

Таблица 1 — Сравнение методов на основе двудольного сопоставления по структуре весовой функции.

Другими словами, на каждом новом кадре для каждого отслеживаемого объекта строится лишь наиболее вероятное продолжение его траектории. В таком случае задача поиска наиболее вероятного обнаружения для объекта (оптимизации связей) сводится к паросочетанию в двудольном графе, которая может быть решена точно Венгерским алгоритмом, либо приблизительно жадным. Методы внутри этой группы отличаются видом весовой функции ребер в графе. Например SORT (Simple Online Realtime Tracking) [10] использует фильтр Калмана и данные о размере ограничивающей рамки для определения веса. DeepSORT также использует визуальные признаки, оцененные с помощью вспомогательной нейронной сети для сравнения внешнего вида объектов. [11]

Несмотря на свою простоту, методы на основе двудольного сопоставления достаточно эффективно решают задачу при хорошем качестве обнаруживаемых объектов. В данной работе предлагается новый метод отслеживания этой группы, получивший название PBBM — Pose-Based Bipartite Matching, и предназначенный для применения совместно с алгоритмами оценки позы. Использование дополнительной информации о позе позволяет более точно разрешать неоднозначные ситуации при пересечении объектов, а также устанавливать сходство визуальных признаков без использования дополнительных нейросетей. Метод подробно описан в главе 3.

Сравнительный анализ методов на основе BM приведен в таблице 1. Основные критерии сравнения: наличие алгоритма предсказания будущего местоположения объекта (отсутствует, по разности координат с прошедшим кадром,

линейная регрессия, фильтр Калмана), способ сравнения местоположения, позы и внешнего вида. Предложенный метод PBBM отличается от других методов одновременным использование алгоритма предсказания местоположения с учетом сходства позы, а также применением нового способа определения схожести внешнего вида по цветовой статистике в окрестности суставов. В наиболее близком методе Shin-Yi Wen et. al. [14] метод предсказания на основе разности координат в последнем кадре неприменим для восстановления серии пропусков длиной более одного кадра.

Метод MHT (множественное отслеживание гипотез, Multiple Hypothesis Tracking) является одним из наиболее старых способов решения задачи MOT [16]. Поиск набора оптимальных связей происходит путем построения дерева возможных вариантов с ранним отсечением за счет техник стробирования (gating) и обрезки (pruning).

Метод MCMCDA (Monte-Carlo Markov Chain Data Association) использует для оптимизации марковскую цепь, где элементами являются возможные установленные связи. При этом равновесное распределение совпадает с наиболее вероятным сочетанием для используемой модели наблюдений. [17]

Группа JPDAF отличается от вышеперечисленных методов тем, что связи между обнаружениями и объектами имеют некоторый вес, а одному объекту может соответствовать множество обнаружений. Состояние объекта в следующем кадре ищется при помощи минимизации среднеквадратичной ошибки (MMSE). Так как при этом негауссовость полученных состояний может быть существенна, данный метод был скомбинирован с фильтром частиц в методе MC-JPDAF (Monte-Carlo Joint Probabilistic Data Association Filter)

В главе 4 данной работы предлагается новый метод отслеживания Monte-Carlo Trajectory Optimization (MCTO), главным отличием которого от методов с ассоциацией данных является объект оптимизации. Вместо поиска оптимальных связей, максимизирующих правдоподобность обнаруженных объектов, предлагается параметризовать траектории движения объектов, а после чего искать максимизировать правдоподобность наблюдений варьируя эти параметры.

Детальные обзоры детерминированных методов MHT и двудольного сопоставления приведены в главе 3, а стохастических MCMCDA и MC-JPDAF в главе 4.

Подход на основе случайных конечных множеств (RFS, Random Finite Set) заключается в представлении множества наблюдаемых объектов как случайного набора, и построению алгоритмов решения задачи MOT методом вероятностного вывода. При применении к используемым на практике моделям обнаружений и движения получаемые модели, как правило, не могут быть явно вычислены.

Существуют варианты методов на основе RFS с различными упрощениями. Можно отметить группу методов на основе вероятностной плотности гипотез (PHD, probability hypothesis density) [18; 19], а также обобщенный мульти-бернуллиевский фильтр с метками (GLMB) [20].

Существуют примеры успешного использования метода на основе GLMB в задаче отслеживания объектов, обнаруженных нейронной сетью, но его применение на практике ограничено низкой скоростью работы. [21]

Глава 2. Алгоритмы распознавания объектов

Основу любого из приведенных выше подходов к обнаружению траекторий людей в сценах с большим количеством людей составляет некоторый алгоритм обнаружения фигур людей. Как правило такие алгоритмы реализуются с использованием инструментария нейронных сетей.

В данной главе приводятся сведения о сверточных нейронных сетях в целом, а также о конкретных алгоритмах, представляющих основу для остальной части работы.

Представлено подробное описание нескольких архитектур нейронных сетей для выделения объектов ограничивающими рамками и с помощью скелетного представления.

Перечислены основные особенности выходных данных.

2.1 Нейронные сети в задаче обработки изображений

Начнем с того, что введем необходимые обозначения и сформулируем задачу обработки изображения достаточно общим способом. Пусть дискретная функция s(x, у, с) — уровень сигнала во входном канале с пикселя с целочисленными координатами х,у. Размеры изображения обозначим как Win,Hj/n, пиксели пронумеруем с 0: 0 < х < Win, 0 < у < HjM. Начало координат располагается стандартно в верхнем левом углу кадра, если не указывается иное. В данной работе рассматриваются исключительно изображения, полученные с ЧБ и RGB камер, поэтому максимальное число входных каналов составляет 1 и 3 соответственно. Уровень сигнала считаем нормированным на 1: 0 < s(x,y,c) < 1. Под обработкой изображения в данном разделе будем понимать алгоритм, реализу-

ющий преобразование F:

F : s(x,y,c) ^ f (xout,yout,cout)

0 < Xout < Wout

(2.1)

0 < У out < Hout

0 < Cout < Cout

Для однотипности представлений всех промежуточных результатов, будем обозначать одномерные массивы так же, как и изображение размера 1х1 — через дискретную функцию вида s(0,0,п/).

В зависимости от числа выходных каналов, взаимосвязи размеров входных и выходных изображений, а также трактовки выходных значений, возможно выделить несколько задач, представимых в данном виде:

1. Задача классификации изображений. Необходимо сделать вывод о принадлежности входного изображения s классам 1\.. .1п. Тогда параметры выходного массива Wout = Hout = 1,Cout = п, и значение f (0, 0, г) трактуется как вероятность принадлежности изображения s классу li, т.е. f (0,0,г) = Р(s G /¿). Отдельно выделяется случай, когда изображение не может принадлежать более чем одному классу одновременно. В таком случае накладывается дополнительное ограничение

ЕП- Р(« е li) = 1.

2. Задача сегментации. Схожа с задачей классификации изображений, но необходимо классифицировать отдельные пиксели, либо прямоугольные группы пикселей в сетке с равномерным разбиением по осям координат. Целью задачи является, как правило, построение точных силуэтов объектов помимо определения их класса. Wout = Щт ,Hout =

,Cout = п, где к — делитель входного разрешения, определяющий степень "грубости"выделенных силуэтов. В случае одноклассовой классификации ограничение на сумму вероятностей накладывается на каждую группу в отдельности.

3. Задача обнаружения объектов. Необходимо обнаружить объекты во входном изображении, классифицировать и определить координаты их местонахождения. Аналогично задаче сегментации, результатом преобразования F является информация об объектах на изображении,

локализованная в сетке равномерного разбиения. В отличие от предыдущих задач, существует множество методов локального кодирования наличия объекта, которые будут рассмотрены в последующих разделах (например, через относительные координаты и уверенность в существовании 2.3, либо через тепловые карты 2.4).

Несомненно, само по себе представление задачи в виде преобразования вида 2.1 не накладывает никаких серьезных ограничений на структуру преобразования Г. Но важным здесь является наличие некоторого соответствия между координатами входного пикселя и координатами выходного элемента, позволяющего сузить множество вероятно подходящих преобразований Г.

Перейдем непосредственно к искусственным нейронным сетям, как к одному из способов построения требуемого преобразования Г. Исторически данный термин сложился из схожести общих принципов устройства с биологическими нейронными сетями живых организмов. [22] Под нейронными сетями в настоящее время понимается множество алгоритмов, для которых характерны следующие общие черты:

1. Входные и выходные данные представляют собой многомерные массивы чисел с как минимум одним измерением фиксированного размера.

2. Сам алгоритм представляется как цепочка параметризованных, дифференцируемых почти всюду преобразований между многомерными массивами. Сами преобразования именуются слоями, отдельные операции, соответствующие элементам выходного массива — нейронами.

3. Как правило, линейные межэлементные преобразования чередуются с нелинейными поэлементными (есть исключения). Нелинейные поэлементные преобразования именуются слоями активации.

4. Существует дифференцируемая почти всюду функция, определяющая степень расхождения между полученными и желаемыми величинами на выходе - функция потерь или функция ошибок.

5. Поиск оптимальных параметров происходит путем минимизации величины функции потерь путем вариации значений параметров. Минимизация происходит на известных парах входных и выходных данных с помощью алгоритма градиентной оптимизации первого порядка. Данный процесс получил название процесса обучения нейронной сети, а

множества известных пар, на которых происходит оптимизация - обучающей выборки.

Рассмотрим основные виды слоев, применяемые при построении нейронных сетей для анализа изображений. Сверточный слой — основной блок для построения нейронных сетей работающих с изображениями. [23; 24] Он представляет собой матричную операцию свертки, примененную ко входному массиву, где параметрами являются веса ядра:

Мх-1 ^-1 сы-1

У, С) вх+1-1Мх/2\,у *ву +3-[Му/2\,к)+Ьс

%=0 3=0 к=0

(2.2)

где ад^^с, Ьс - обучаемые параметры слоя, составляющие ядро свертки размера (Мх, Ыу), вх, ву — шаг свертки, С¡п - число входных каналов. В случае выхода аргументов функции в (координат пикселей) за пределы размера изображения значение функции, как правило, считается равным нулю. Отличный от единичного шаг свертки позволяет прореживать выходной массив и постепенно понижать разрешение. Основной особенностью сверточного слоя является независимость результата от абсолютных координат во входном массиве. Так, смещение всех входных элементов на вх * х вдоль оси X приведет к смещению выходных значений на х, за исключением элементов массива близких к границе на расстояние меньше половины размера ядра. Это соответствует априорным знаниям об искомом алгоритме обработки для многих задач, таких как определение факта наличия какого-либо объекта во всем кадре (в задачах классификации), либо определения признака наличия объекта для каждой координаты в выходном массиве (в задачах сегментации и обнаружения объектов).

Полносвязный слой - в сетях для классификации изображений, как правило, является последним слоем.[24; 25]. Преобразует все изображение в одномерный массив фиксированной длины :

^-1 Ку-1 Сы-1

• /(0,0, с) ^ ыьзАсз(г^,к) + Ьс (2.3)

¡=0 3=0 к=0

В отличие от сверточного слоя, каждому элементу входного массива в(1,],к) соответствует отдельный параметр в матрице параметров . Это

позволяет сети выучивать признаки, специфичные для конкретной координаты во входном изображении.

Можно заметить, что и полносвязный, и сверточный слой могут быть представлены через операции матричного умножения и сложения с вектором смещения Ь. Полносвязный слой эквивалентен преобразованию всего массива в вектор (где каждая компонента вектора соответствует элементу входного массива) и его умножению на матрицу. В случае сверточного слоя, операция матричного умножения применяется к векторам, полученным после разбиения входного массива на пересекающиеся подобласти с размером (Nx,Ny) и шагами sx,sy. При этом разным подобластям соответствует одна и та же матрица весов, что и приводит к наличию трансляционной симметрии преобразования. Стоит отметить случай сверточного слоя с единичным ядром: Nx = Ny = 1, изначально предложенный в [26; 27] и получивший широкое распространение во всех задачах обработки изображений. Его можно рассмотреть как независимое преобразование признаков, соответствующих различным координатам (channel-wise pooling), либо как способ увеличения глубины 'подсетей', обрабатывающих отдельные подобласти. [26]

Слой подвыборки (pooling) — один из методов понижения разрешения изображения, заключающийся в разбиении входной области на сетку из квадратов стороной г и независимого применения к ним операции максимума либо усреднения:

Fmaxpool : f (х,у,с) ^ max s(i,j,c) (2.4)

i€[r*x,r*x+r) j £[r*y,r*y+r)

Favgpool : f (x,y,c) ^ 1 ^ s(i,j,c) (2.5)

i£[r*x,r*x+r) j£[r*y,r*y+r)

При этом одновременно достигается уменьшение разрешения и повышенная устойчивость к небольшим локальным смещениям признаков во входном изображении. Устойчивость связана с инвариантностью выхода к перестановкам входных элементов внутри областей (г * х.. .г * х + г, г * у.. .г * у + г) для обоих операций (2.4, 2.5). Также можно отметить, что у данного слоя отсутствуют обучаемые параметры.

2.2 Общий обзор уровня техники

В данном разделе приводится общий обзор уровня техники для нейросете-вых алгоритмов обнаружения объектов. При этом ограничиваемся алгоритмами, работающими с одиночными изображениями, так как на момент написания не существовало приемлемых решений с обработкой видео нейросетью в реальном времени. Как правило, подобные алгоритмы можно разделить на две части: нейросетевую часть, вычисляющую некоторый численный массив на основе входного изображения (общие принципы построения которой определены в разделе 2.1), и некоторый классический алгоритм, оценивающий необходимую информацию об объектах по полученному массиву.

Список литературы диссертационного исследования кандидат наук Гиля-Зетинов Александр Александрович, 2022 год

- 1

I 1 1 * ^ 1

О 20 40 60 80 100

Длина окна, кадры

Рисунок 4.6 — Зависимость метрики АззА от размера окна для различного количества итераций оптимизации.

Исключаемая модификация MOTA HOTA IDSW kfime

Базовая версия 52.2 45.6 745 1.0

Экспоненциальный спад 50.8 44.4 761 0.98

Учет перекрытия 51.3 45.0 718 0.48

Адаптивная скорость 52.1 45.3 737 0.99

Таблица 9 — Значения метрик при исключении одной из предлагаемых модификаций алгоритма. (ablation study) кцте — отношение времени работы после исключения к времени работы базовой версии.

Во время разработки алгоритма возникло несколько гипотез о возможных способах улучшения его работы, описанных в разделе "Модификации базового алгоритма". В ходе экспериментов были получены подтверждения позитивного их влияния на метрики, поэтому все графики были построены с их учетом. В таблице 9 приведены результаты с выключением части модификаций. В данных экспериментах был взят параметр длины окна Nwnd равный 80 вместо стандартного 34, т.к. влияние модификаций ожидалось более существенным при больших размерах окна.

Как было показано ранее, асимптотическая сложность алгоритма на кадр составляет 0(KNNwndP), где К - число итераций оптимизации, N - число обнаружений/объектов в кадре, Nwnd - размер окна, Р - среднее количество объектов

- 5 • • Число итераций • • 150 • * 72

- к

т Э =■ Т

-

1 1 1 ' 1

О 20 40 60 80 100

Длина окна, кадры

Рисунок 4.7 — Зависимость количества ошибок идентификации личности от размера окна N^<1 для различного количества итераций оптимизации.

внутри одной ячейки разбиения. Проведенные эксперименты подтверждают линейную зависимость от числа итераций (рисунок 4.11). Наличие квадратичной составляющей (рисунок 4.12) от среднего числа людей в кадре связано с увеличением как N, так и Р для видео из набора данных — увеличение числа людей в кадре также связано с увеличением удельной плотности их количества на единицу площади кадра.

Стоит заметить — использовалось 150 итераций как базовое число итераций оптимизаций при экспериментах (с целью исключения возможного негативного влияния недостаточной оптимизации). Как следует из рисунка 4.8, допустимо понижение числа итераций вплоть до 40 без существенного изменения значений метрик. Поэтому для оценки реальной скорости можно считать время обработки кадра примерно в 3.5 раза меньше, чем на рисунках 4.11, 4.12.

Рисунок 4.8

Зависимость метрики HOTA от числа итераций оптимизации

Niters.

4.6 Выводы

В данной главе были проведены эксперименты на подмножестве видео с неподвижных камер из наборов данных MOT17 [70], MOT20 [68]. Были получены следующие результаты:

1. Достигнуто значение метрик HOTA 48.2% и AssA 47.7%.

2. Исследовано влияние предлагаемых модификаций алгоритма. Было показано их положительное влияние на значение метрик.

3. Подтверждено предполагаемое влияние параметра алгоритма Cmiaa на соотношение между качеством и количеством траекторий.

4. Подтверждена квадратичная зависимость времени выполнения от среднего числа людей в кадре и линейная от используемого числа итераций оптимизации. Для среднего количества людей в кадре, равном 45, возможно достигнуть скорости выполнения в 10 кадров в секунду на одном ядре Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz при уменьшении числа итераций до 20 без существенного влияния на значения метрик.

- X

- I

=Р

- I X

- X

1 1 1 1

О 100 200 300 400

Рисунок 4.9 — Зависимость метрики ЫОТЛ от параметра чувствительности к

пропускам Стг88.

Рисунок 4.10 — Зависимость количества ошибок идентификации личности от параметра чувствительности к пропускам Стг88.

О 40 80 120 160 200

Итерации оптимизации, м1ег5

Рисунок 4.11 — Зависимость времени обработки кадра от числа итераций оптимизации Кцег8 на одном видео МОТ17-04. Аппроксимация прямой

проведена с помощью МНК.

2500

О 40 80 120 160

Плотность

Рисунок 4.12 — Зависимость времени обработки кадра от плотности объектов. Аппроксимация параболой проведена с помощью МНК.

Глава 5. Программный комплекс

В данной главе описывается реализация программного комплекса для построения траекторий людей на наблюдаемой территории, а также возможные прикладные применения. Приведены экспериментальные результаты, оценивающие требования к системе видеонаблюдения и необходимые вычислительные ресурсы.

Рисунок 5.1 — Схема программного комплекса.

Программный комплекс включает в себя следующие компоненты:

1. компонента выделения объектов на основе нейронной сети YOLOv4, описанной в разделе 2.3.

2. компонента построения поз людей на основе нейронной сети OpenPose, описанной в разделе 2.4.

3. компонента совмещения выделения поз и объектов с адаптивным ROI.

4. трекер для применений в ситуациях, когда недоступен переход в пространство сцены, описанный в главе 3.

5. алгоритм калибровки камеры по известным координатам ключевых точек, с учетом радиальных дисторсий.

6. алгоритм перевода координат из пространства кадра в пространство сцены по результатам калибровки.

7. совмещенный стохастический трекер-фильтр, описанный в главе 4.

8. алгоритм генерации визуализации в пространстве сцены либо кадра.

9. компонента для стыковки с другими программными комплексами (такими как алгоритм мониторинга очередей), с передачей всех вычисленных данных в формате JSON.

На рисунке 5.1 представлена общая схема разработанного программного комплекса. Обязательной для выполнения компонентой является только компонента обнаружения объектов — все остальные могут свободно отключаться в зависимости от решаемой задачи.

Все компоненты, за исключением компоненты генерации калибровочных данных, реализованы на C++. Калибровка выполняется через скрипт на Python 3. Для работы с изображениями используется открытая библиотека OpenCV.

5.1 Входные данные

Входными данными программного комплекса является поток изображений, а также конфигурационный файл в формате JSON, определяющий используемые компоненты и их параметры. Возможности по конфигурации будут описаны далее в разделе 5.2. Поток изображений может быть закодирован одним из следующих образов:

1. последовательность изображений на жестком диске, в форматах, поддерживаемых библиотекой OpenCV (.png, .jpg, .tiff и прочие)

2. видеофайл, декодируемый при помощи ffmpeg

3. сетевой поток изображений в виде последовательности JPEG

С точки зрения выполнимости программы, существенными являются следующие технические характеристики потока:

1. разрешение изображения

2. частота кадров

3. цветность изображения.

5.2 Конфигурация

Примеры конфигурации приведены на языке YAML, как более читаемом, компактном и однозначно отражающимся в JSON.

Листинг 5.1 Конфигурация компоненты обнаружения объектов. Detector:

# путь к конфигурации нейронной сети CfgPath: /opt/darknet/cfg/yolov4-sam-mish.cfg

# путь к файлу с весами сети

WeightPath: /opt/darknet/yolov4-sam-mish.weights

# порог минимальной уверенности сети для обнаружения объекта Threshold: 0.3

# ручная настройка областей, к которым стоит применить сеть

# массив из массивов с координатами как: left x, top y, right x, bottom y ManualROI: [ [0, 0, 1920, 1080], [...] ]

# входное разрешение сети NetworkResolutionX: 512 NetworkResolutionY: 512

Листинг 5.2 Конфигурация компоненты оценки позы. Pose:

# путь к папке с моделями ModelPath : /opt/openpose/models/

# название модели PoseType : BODY_25

# дополнительное место выделяемое вокруг объекта ExtraROI_X : 16

ExtraROI_Y : 16

# минимальный размер области, к которой применяется OpenPose

# если размер объекта с доп. местом

# вокруг меньше данного размера, ROI увеличивается MinROI_X : 144

MinROI_Y : 144

# входное разрешение сети, должно быть делимо на 16

# -1 - подбирается динамически для примерно нужного аспекта NetworkResolutionX : -1

NetworkResolutionY : 368

5.3 Алгоритм перевода систем координат

Возможно ввести две важные системы координат (СК) для рассмотрения задачи: двумерную систему координат пространства кадра, соответствующую пикселям на входном изображении (с началом в верхнем левом углу) и некоторую неподвижную трехмерную систему координат в реальном мире, в дальнейшем именуемую СК пространства сцены.

Основной задачей компоненты перевода СК является привязка обнаруженных объектов к некоторой точке в 3Э пространстве сцены и определение координат этой точки с использованием данных о положении камеры. Переход от координат в пространстве кадра к координатам в пространстве сцены позволяет решать несколько задач:

1. упрощается подбор параметров алгоритмов, таких как алгоритмы отслеживания, так как единицы измерения координат и скорости соответствуют реальным физическим единицам, а не пикселям.

2. упрощается привязка к точкам интереса на наблюдаемой территории, такие как входы/выходы, точки обслуживания и пр.

3. становится возможным совмещение измерений, выполненных несколькими камерами.

Общая идея перехода заключается в вычислении для каждого объекта координат некоторой точки на изображении. После чего для каждой полученной точки рассчитываются параметры 3D луча, отображающегося в данную точку преобразованием камеры. По пересечению данного луча с известной поверхностью наблюдаемой 3D сцены можно найти 3D точку, соответствующую данному объекту.

В программном комплексе реализовано несколько способов расчета исходной точки на изображении. Наиболее широко применимый способ заключается в использовании средней точки нижней грани ограничивающей рамки для объекта. Тогда, если объект не отрывается от поверхности и ракурс близок к горизонтальному, найденная 3D точка будет примерно соответствовать проекции геометрического центра объекта. Более точный способ возможен, объектами наблюдения являются люди, а помимо оценки ограничивающей рамки также используется оценка позы. В таком случае за исходную точку возможно взять среднюю точку между определенными координатами ступней человека.

В первом приближении угол луча и координаты пикселя прямо пропорциональны друг другу, что соответствует идеальной модели камеры-обскуры (pin-hole camera model). [71]. Но для некоторых камер и применений (в особенности при использовании широкоугольных объективов [72]), погрешность модели из-за неидеальности используемой оптики может негативно повлиять на работу алгоритмов машинного зрения. Поэтому был разработан вариант алгоритма перевода СК с одновременным учетом оптических дисторсий как части преобразования координат.

Для применения алгоритма перевода СК необходимо выполнить процедуру калибровки. Калибровка проводится по известным парам "координаты 2D точек на изображении" — "координаты в 3D пространстве сцены". Ее необходимо выполнить единожды после установки камеры,и повторять при каждом изменении положения камеры. В случае, если в наблюдаемой сцене имеется достаточное количество легко выделяемых машинным зрением признаков, то процесс калибровки может быть полностью автоматизирован. При небольшом числе ка-

мер калибровочные пары устанавливаются вручную. Необходимое количество калибровочных пар зависит от наличия учета дисторсий. Без подстройки коэффициентов дисторсии, приемлемые результаты были достигнуты при 6 парах, с учетом радиальных дисторсий — при 10. Тангенциальные дисторсии в данной работе не рассматриваются, так как их существенное влияние на анализируемых видео обнаружено не было. Но при необходимости их учет может быть добавлен простой модификацией функции преобразования.

Во время калибровки происходит оптимизация параметров преобразования координат из СК кадра в СК сцены. Преобразование можно представить как трехмерную дифференцируемую вектор-функцию Р© входного двумерного вектора, состоящую из нескольких вложенных преобразований:

1. устранение дисторсий в пространстве кадра

2. перевод входного вектора в трехмерные однородные координаты

3. умножение вектора на матрицу однородного преобразования

4. восстановление параметризации луча в пространстве сцены, соответствующего входному вектору

5. определение координат пересечения луча со сценой

Матрица однородного преобразования вычисляется дифференцируемым образом из 8 неизвестных параметров: 3 координат и 3 углов задающих местоположение камеры, и 2 параметров определяющих угол обзора по вертикали и горизонтали. Обозначим их как х, у, х, ф, 9, ф, Д, Д соответственно. Использовалось приближение радиальных искажений до четвертого порядка, что соответствует двум параметрам:

Р = р(1+ а1|г|2 + «2И4) (5.1)

где г — радиус-вектор входной точки относительно центра изображения, Р — радиус-вектор после компенсации искажений, а1, а2 - параметры.

При одновременной оценке параметров, связанных с оптической системой камеры и с ее положением по одному ракурсу, полученные значения могут не соответствовать истинным. Тем не менее, они будут применимы для этого же ракурса. [71].

Поиск оптимальных значений параметров преобразования в = (х, у, х, ф, в,ф, Д, У, а1,а2) можно сформулировать как задачу оптимизации:

N

min ^ |Fe(xi) - (5.2)

{=1

где Ре — совокупное преобразование, Хг — радиус-вектор калибровочной точки в пространстве сцены, $ — в пространстве кадра, N - число калибровочных точек.

Решение задачи 5.2 в явном виде затруднительно, поэтому обычно применяются численные методы оптимизации. [73; 74]

Так как преобразование является дифференцируемым, то к ее решению применимы алгоритмы градиентной оптимизации. На практике было обнаружено, что скорость сходимости методов градиентной оптимизации первого порядка слишком мала. Также часто оптимизация останавливалась в локальном минимуме при некоторых начальных значениях. Поэтому разработанный алгоритм включает в себя последовательное применение трех подходов к поиску в:

1. линейный поиск наилучшего начального приближения

2. стохастическая оптимизация случайными приращениями

3. стохастический градиентный спуск по случайному подмножеству калибровочных точек на каждом шаге

5.4 Требования к вычислительным ресурсам

Требования к вычислительным ресурсам для работы двух предложенных методов отслеживания состоят в первую очередь из требований к CPU, и приведены в соответствующих главах 3, 4. В данном разделе рассмотрим требования к вычислителю для выполнения компонент обнаружения объектов и определения позы.

Для применения нейросетевых алгоритмов существует два основых требования к вычислительным ресурсам — требование к скорости вычислителя для достижения желаемой частоты обновления кадров, и требование к наличию достаточного объема памяти вычислителя для работы алгоритма. В случае свер-

точных нейронных сетей ключевым параметром, влияющим на оба требования, является входное разрешение. Необходимое для устойчивого распознавания разрешение зависит от размера людей на изображении, ракурса и особенностей сцены, и будет рассмотрено в последующем разделе для различных применений.

0 500 1000 1500 2000 2500

Разрешение, пике.

Рисунок 5.2 — Время обработки одного квадратного кадра в зависимости от разрешения YOLOv4 на Nvidia RTX 2080 Ti.

Время обработки кадра изменяется почти линейно в диапазоне разрешений от 512 до 1024, и квадратично при учете больших разрешений. (график на рисунке 5.2) Ожидаемая зависимость числа операций от разрешения квадратичная (так как суммарное число операций растет линейно с числом пикселей в изображении). Линейная область графика обусловлена тем, что при малых размерах изображения при выполнении некоторых слоев нейросети загружены не все вычислительные ядра Nvidia RTX 2080 Ti.

Увеличение размера изображения позволяет разбить вычисление слоя на большее число параллельных операций, и тем самым увеличить число загруженных ядер. Поэтому в данной области вместе с разрешением растет число эффективных операций в секунду. Альтернативным способом, помимо увеличе-

ния разрешения, является увеличение загрузки видеокарты путем одновременной обработки нескольких изображений.

Рисунок 5.3 — Память, необходимая для обработки одного изображения с помощью УОЬОу4 в зависимости от разрешения.

Подобные эффекты отсутствуют для памяти, и ее использование находится в достаточно строгой квадратичной зависимости от входного разрешения ( рисунок 5.3).

Глава 6. Прикладные применения и эксперименты

В этой главе приведены результаты практического применения разработанного программного комплекса, а также экспериментальные результаты, оценивающие требования к параметрам видео.

В связи с тем, что работоспособность предложенных методов обнаружения и отслеживания может зависеть от ракурса камеры, нагруженности сцены, характерной скорости движения людей и других параметров, был проведен ряд вычислительных экспериментов отдельно для каждой прикладной задачи.

Для оценки качества работы компоненты обнаружения объектов, для каждой из прикладных задач было выбрано несколько изображений для каждого ракурса камеры.

Далее каждое изображение было размечено вручную. Разметка для изображения представляет собой координаты ограничивающей рамки для каждого человека на изображении, аналогично обучающим выборкам.

Алгоритм обнаружения выполнялся с различным входными разрешением. Правильность распознавания устанавливалась в случае, если отношение площади пересечения к площади объединения (1ои) для какого-то объекта из разметки превышало 50%.

Качество распознавания оценивалось по простой формуле:

ТР - рр

я = (е.1)

Где ТР — число правильно распознанных объектов, РР — число ложных обнаружений, N - общее число объектов на изображении.

В качестве характерной величины, от которой должно зависеть качество распознавания при фиксировании ракурса и наблюдаемой сцены используется количество пикселей на отрезке, соответствующем высоте изображения человека для выбранного ракурса.

Рисунок 6.1 — Пример очереди на обслуживание в Московском Аэропорту

Шереметьево

6.1 Применение к задаче мониторинга очередей.

Задача мониторинга очередей была решена в рамках пилотного проекта выполненного АО "Центр открытых систем и высоких технологий"в Терминале В Московского Аэропорта Шереметьево.

Основной целью проекта являлось формирование в реальном масштабе времени оценки наибольшего времени обслуживания человека в очереди.

Пример очереди на обслуживание в терминале В Московского Аэропорта Шереметьево приведен на рисунке 6.1

Необходимость такого мониторинга обусловлена наличием требований 1САО и международными и внутренними стандартами обслуживания авиапассажиров. При этом оценка математического ожидания превышения времени обслуживания должна быть выполнено до того, как такое превышение произо-

Рисунок 6.2 — Камеры XIMEA MC050CG-SY

шло для того, чтобы сформировать предупреждение и передать его в службы оперативного управления аэропортом.

Было предложено решить данную задачу с помощью системы машинного зрения.

Система включала цветные камеры компании XIMEA MC050CG-SY с цветным 5 MPix сенсором Sony CMOS Pregius™ и USB 3.1 интерфейсом передачи данных. (Рис.6.2).

При этом для решения задачи оценки математического ожидания времени обслуживания людей, стоящих в очереди, было необходимо решить следующие подзадачи:

1. обнаружить фигуры людей в кадре;

2. определить принадлежность людей к очереди и отфильтровать тех, кто проходит мимо или стоит вне связи с очередью;

3. определить и помнить уже прошедшее время ожидания каждого человека в очереди;

4. оценить оставшееся время ожидание человека до момента прохождения через точку обслуживания;

5. оценить максимальное время прохождения очереди пассажирами, стоящими в очереди.

Для решаемой прикладной задачи перечисленные задачи решаются с помощью разработанного программного комплекса.

В частности, определение принадлежности человека к очереди определялось на основе траектории его движения. Дальнейшая оценка времени ожидания формировалась методами, выходящими за рамки данной работы.

Особенностью задачи множественного отслеживания объектов для мониторинга очередей является относительно низкая скорость и высокая предсказуемость траекторий движения людей на наблюдаемой территории.

При этом характерны высокая плотность и большая степень корреляции пропусков обнаружений во времени. Корреляции связаны с тем, что изображение слабо изменяется если очередь стоит — и если сверточная нейронная сеть не в состоянии выделить объекты на некотором кадре, то и в последующих кадрах существует повышенная вероятность ошибки.

С учетом данной специфики задачи, наиболее подходящим методом из предложенных является метод стохастического отслеживания.

Рисунок 6.3 — Пример очереди на обслуживание в Московском Аэропорту

Шереметьево с контрастным фоном

При проведении пилотного проекта по мониторингу очередей в аэропорту Шереметьево было установлено несколько камер с различными ракурсами. (рис. 6.1, 6.3, 6.4, 6.5)

В процессе проведения экспериментов были установлены факторы, влияющие на качество решения задач обнаружения объектов и построения траекторий.

На рисунке 6.1 представлено изображение очереди с несколькими факторами усложняющими обнаружение объектов. Это контрастный полосатый фон и наличие светового пятна.

На рисунке 6.3 контрастный фон сочетается с специфическим поведением людей в очереди при проходе на досмотр.

На рисунке 6.4 в кадре присутствует информационная стойка, приводящая к полной или частичной потере отметок от людей, находящихся за ней.

На рисунке 6.5 приведено изображение очереди в присутствие яркого солнечного пятна, усложняющего решение задачи детектирования.

Ожидаемо задача дополнительно усложняется при наличии двух усложняющих факторов одновременно.

Примером наличия нескольких одновременно действующих усложняющих факторов в одном кадре неоднородности заднего фона (пола, такой как черно-белая плитка на изображениях 6.7) и наличием сразу нескольких рядов в очереди (рисунок 6.8).

Рисунок 6.4 — Пример очереди на обслуживание в Московском Аэропорту Шереметьево с боковым ракурсом изображения

Одним из важных вопросов возникающих при проектировании распределенной сети камер для мониторинга очередей является вопрос о размере зоны

Рисунок 6.5 — Пример очереди на обслуживание в Московском Аэропорту

Шереметьево с ярким световым пятном

покрытия, для которой одна камера успешно решает задачу детектирования фигур людей.

На рисунке 6.6 приведена зависимость качества распознавания от средней высоты изображения человека в пикселях для последующего применения при построении траекторий людей в рамках задачи по мониторингу очередей.

График достаточно наглядно показывает что для решения прикладных задач можно принять требуемое разрешение камеры в 100 пикселов на ростовую фигуру человека.

На основе этой оценки были, например, сформулированы требования к составу программно аппаратного комплекса для мониторинга очередей в Терминалах В и С Московского Аэропорта Шереметьево.

В качестве основного вычислителя предложено использовать сервер Synargon 525R (2U, 2xEPYC 7542 (2.9GHz, 32C), 16x32GB 3200Mhz RDIMM, 8x PNY RTX8000 (48GB/4608 CUDA), 2x480GB SSD, 2x10GbE, 2x2200W, Rack Rails). В качестве управляющего сервера предложена вычислительная система Squire 420R (,2x GOLD 5217, 8x32GB 3200MHz ECC RDIMM, 6x SATA SSD 960GB, 9460-8i 2x1GbE, 2x800W)

В качестве видеокамеры предложена видеокамера Daheng 5Mpix MER-531-20GM-P с объективом F=6 mm, 6 Mpix HN-P-0628-6M-C1/1.8 и GEth каналом передачи данных на вычислитель NVIDIA Orin, располагаемый в точках коммутации широкополосной защищенной сети передачи данных аэропорта.

Общее количество камер, полностью закрывающих задачу решения оценки времени обслуживания пассажиров Московского Аэропорта Шереметьево, равно 79 (39 в Терминале B и 40 в Терминале С).

1

0.8

1л

5

т

(П

Iii

£ 0.6

п

о

6

(О

«

ш 0.4

Ь

ф

т

$

0.2 0

0 40 80 120 160 200

Высота изображения человека, пике.

Рисунок 6.6 — Зависимость качества распознавания от средней высоты изображения человека в пикселях для применения по мониторингу очередей

На рисунке 6.7 приведено сравнение результатов обработки изображений с различным разрешением. На левом изображении высота человека соответствовала 50 пискелям, а на правом - 87 пикселям. Даже простое визуальное рассмотрение результата показывает что повышение разрешения позволяет значительно уменьшить количество ошибок типа "пропуск отметки".

Вместе с тем при сложных условиях наблюдения мы можем столкнуться с ситуацией, когда даже разрешение в 100 пикселов на ростовую фигуру оказывается недостаточным при высоких требованиях к качеству обнаружения людей в поле зрения камеры.

Пример такого изображения приведен на рисунке 6.8.

Рисунок 6.7 — Результаты обработки кадра при средней высоте человека в 50

пикселей (слева) и 87 (справа).

Заметно снижение качества распознавания на фоне черно-белой плитки при наличии нескольких рядов в очереди или, как в приведенном примере, нечеткой форме самой очереди.

Такое снижение качества распознавания объектов может привести к снижению итогового качества решения задачи мониторинга очереди.

Детальный анализ влияния условий и факторов наблюдения на качество детектирования отметок при использовании технологий машинного зрения для анализа скоплений и потоков людей, с нашей точки зрения, представляет собой самостоятельную и достаточно сложную научно - техническую задачу и выходит за рамки представленного исследования. Представляется интересным решение такой задачи в автоматическом режиме путем анализа видеопотока методами искусственного интеллекта.

При этом в качестве внешних параметром, подлежащих оценке могут быть упомянуты условия освещения, особенности фона и особенности перемещения масс людей, наличие бликующих поверхностей.

При этом предполагается что составной частью такого решения могут стать алгоритмы, предложенные в настоящей работе.

Рисунок 6.8 — Результаты обработки при средней высоте человека в 98

пикселей.

6.2 Применение для анализа спортивных матчей

Перспективным направлением применения разработанных подходов является их применение при анализе видеотрансляций игровых видов спорта.

Рисунок 6.9 — Фрагмент изображения футбольной трансляции е обнаруженными фигурами игроков

Рисунок 6.10 — Фрагмент изображения трансляции игры в бадминтон с

обнаруженными фигурами игроков

При таком анализе видеотрансляций спортивных матчей перед системой машинного зрения могут ставиться различные цели. Некоторые из них приведены в работах [73; 75]:

1. анализ видеотрансляции игры с целью предоставления тренеру дополнительной информации, упрощающей процесс тренировки;

2. анализ видеотрансляции игры с целью оценки эффективности игрока в реальном времени;

3. анализ видеотрансляции игры с целью оценки влияния конкретного игрока на игру;

4. анализ видеотрансляции игры для формирования аналитики и ее вывода в виде дополнительной информации , включаемой в видеотрансляцию.

При использовании в качестве источников входных данных видеопотока, вне зависимости от цели анализа, общим является решение некоторых базовых задач:

1. определение текущих координат игроков на поле;

2. идентификация игроков;

3. построение траекторий движения игроков и оценка различных параметров траектории;

4. распознавание различных тактико-технических действий (ТТД);

5. определение траектории мяча и игрока, владеющего мячом в данный момент.

Разработанный программный комплекс позволяет решить задачу определения координат игроков, построения их траекторий и обеспечить выделение дополнительных признаков для поиска ТТД.

Для проведения экспериментов были использованы:

1. анализ видеотрансляции игры с целью предоставления тренеру дополнительной информации, упрощающей процесс тренировки;

2. анализ видеотрансляции игры с целью оценки эффективности игрока в реальном времени;

3. анализ видеотрансляции игры с целью оценки влияния конкретного игрока на игру;

4. анализ видеотрансляции игры для формирования аналитики и ее вывода в виде дополнительной информации , включаемой в видеотрансляцию.

При использовании в качестве источников входных данных видеопотока, вне зависимости от цели анализа, общим является решение некоторых базовых задач:

1. запись 4К формата матчей испанской премьер лиги по футболу;

2. записи чемпионата мира 2020 года по бадминтону;

3. собственные записи высшей лиги по гандболу России среди молодежных команд.

Примеры применения компоненты обнаружения объектов к кадрам гандбольных матчей представлены на рисунках 6.11.

Стоит отметить большую разницу в требованиях к разрешению для успешного распознавания, по сравнению с применением для анализа очередей (график на рисунке 6.12, в сравнении с 6.6). Улучшения качества распознавания не было замечено начиная со средней высоты человека в ~ 100 пикселей, против ~ 160 для анализа очередей. Этот факт можно связать, в первую очередь, с ярко выраженным контрастом игроков в спортивной форме на фоне поля, а также с отсутствием дополнительных объектов на поле, усложняющих распознавание. (таких как сумки и багаж)

Характер движения спортивных игроков также значительно отличается от характера движения людей. Усложняется применение предложенного метода

800x800 (снизу) .

стохастического отслеживания. Основной причиной является наличие больших и часто изменяющихся ускорений при активном передвижении по площадке, что ухудшает качество приближения траектории в окне траекторией с постоянным ускорением.

Также, в отличие от анализа очередей, плотность людей на поле относительно невелика, что лишает стохастический алгоритм основного преимущества — возможность быстро учитывать сразу множество кадров при высокой плотности объектов. По этой причине предпочтительным методом отслеживания из разработанных является метод на основе двудольного сопоставления.

Эксперименты показали хорошую устойчивость метода отслеживания к пересечениям траекторий спортивных игроков. Тем не менее, полностью исключить перепутывание игроков после пересечений невозможно. Поэтому для прак-

5

го а

ш 0.4 Ь

(и т

0.2

О 40 80 120 160 200

Высота изображения человека, пике.

Рисунок 6.12 — Зависимость качества распознавания от средней высоты изображения человека в пикселях для применения по анализу гандбольных

матчей.

тического применения желательно уточнять личности игроков после сложных пересечений, например, алгоритмом распознавания номера игрока на форме [76] или другими методами реидентификации.

Применение компоненты распознавания позы позволяет значительно упростить процедуру построения алгоритма распознавания ТТД, как на основе машинного обучения, так и на основе эвристических алгоритмов.

6.3 Применение для обнаружения нештатных ситуаций при

движении на эскалаторе.

Еще одним возможным применением разработанных решений является использование системы машинного зрения для обнаружения инцидентов на эскалаторах в реальном времени.

Под инцидентами службы аэропорта понимают:

1. Падение пассажира на входной(выходной) площадке оборудования

2. Падение пассажира на полотне оборудования

3. Массовое падение пассажиров на эскалаторе

4. Падение багажа (чемодана) на полотне (площадке) эскалатора

5. Передвижение пассажира на лестничном полотне в положении - сидя

6. Попадание посторонних предметов, багажа или частей одежды в зазоры подвижных элементов оборудования

7. Катание, игры малолетних детей без сопровождения взрослых

8. Обрыв, сход поручня

9. Обрыв, застревание, останов лестничного полотна

10. Затопление оборудования

11. Бесхозный предмет, багаж на оборудовании

12. Транспортировка пассажиром негабаритного багажа, который может упереться в ограждающие конструкции оборудования (негабаритный багаж и предметы)

13. Приближение к оборудованию малолетних детей без сопровождения взрослых. Игры детей на площадках (до 7 лет - с оценкой по росту)

14. Катание на поручнях оборудования

15. Хождение против направления движения оборудования

16. Транспортировка детских колясок с детьми

17. Противоправные действия на оборудовании (драка)

18. Наличие животных на полотне оборудования

19. Самопроизвольная остановка оборудования

20. Увеличение скорости лестничного полотна эскалатора, работающего на спуск на 30 % и более от эксплуатационной скорости.

21. Самопроизвольное изменение направления движения лестничного полотна работающего на подъем эскалатора.

В настоящее время задача решается путем наблюдения за ситуацией на эскалаторах и пассажирских конвейерах на экранах отображения, куда транслируется видео с камер наблюдения.

Дежурная смена операторов является достаточно большой, но несмотря на это допускается достаточно большое количество пропусков опасных ситуаций и инцидентов.

Для апробации метода был установлен набор камер, осуществляющих видеорегистрацию на эскалаторах и пассажирских конвейерах в Московском Аэропорту Шереметьево (рисунок 6.13).

Рисунок 6.13 — Пример фрагмента кадра для обнаружения инцидентов на

эскалаторах-1

Рисунок 6.14 — Пример фрагмента кадра для обнаружения инцидентов на

эскалаторах-2

Заключение

Основные результаты работы заключаются в следующем.

1. Приведен обзор нейросетевых методов локализации объектов на изображениях и трекинга объектов. Проанализирована применимость различных методов для решения задачи сопровождения людей в высоко-нагруженных сценах.

2. Предложен, программно реализован и апробирован метод сопровождения людей, представленных скелетной моделью, на основе двудольного сопоставления.

3. Работоспособность данного метода проверена на открытых наборах данных PoseTrack17, PoseTrack18. [58; 59]

4. Предложен, программно реализован и апробирован стохастический метод сопровождения объектов с оптимизацией в скользящем окне.

5. Проведено множество численных экспериментов, показывающих производительность данного метода в зависимости от параметров и оценивающих качество отслеживания на открытых размеченных наборах данных MOT17, MOT20. [68; 70]

6. Для выполнения поставленных задач разработан программный комплекс, комбинирующей реализацию вышеперечисленных методов и открытые реализации нейросетей OpenPose, YOLO [38; 43], а также ряд вспомогательных алгоритмов по переводу систем координат и устранению оптических искажений.

7. Разработанный программный комплекс успешно использован при решении реальных задач по мониторингу очередей в АО "Московский аэропорт Шереметьево".

8. Разработанный программный комплекс успешно использован при решении реальных задач по анализу видео в игровых видах спорта.

Результаты работы апробированы на международных научно - технических конференциях:

1. 4th International Conference on Electrical, Control and Instrumentation engineering (ICECIE), Kuala-Lumpur, Malaysia, 2022

2. Международной конференции Computing Conference 2021, Лондон, Великобритания, 15 июля 2021;

3. XXII Международной конференции «Цифровая обработка сигналов и ее применение DSPA-2020» ИПУ им.Трапезникова";

4. Международной конференция Intelligent Systems Conference (IntelliSys 2020), май 2020, Амстердам, Нидерланды;

5. Международной конференции International Conference on Technology and Entrepreneurship (ICTE), Болонья, Италия, 20-21 апреля 2020

Работа выполнена при поддержке гранта РФФИ № 19-29-09090 "Разработка методов и технологий анализа видеоинформации в распределенных гетерогенных системах видеонаблюдения с использованием дискретной модели наблюдаемой сцены и информации о пространственно - временной привязке видеопотоков и файлов"

Список литературы

1. Adaptive distributed video surveillance system / A. Khelvas [и др.] // 2020 International Conference on Technology and Entrepreneurship-Virtual (ICTE-V). — IEEE. 2020. — С. 1—6.

2. Improved 2D Human Pose Tracking Using Optical Flow Analysis / A. Khelvas [и др.] // Proceedings of SAI Intelligent Systems Conference. — Springer. 2020. — С. 10—22.

3. High-Speed Multi-person Tracking Method Using Bipartite Matching / A. Gilya-Zetinov [и др.] // Intelligent Computing. — Springer, 2022. — С. 793— 809.

4. Monte-Carlo based 2D object tracking approach in high load scenes / A. Gilya-Zetinov [и др.] // Proceedings of 2022 4th International Conference on Electrical, Control and Instrumentation Engineering (ICECIE). — IEEE. 2022. — С. 102—112. — in publishing.

5. Humans Digital Avatar Reconstruction for Tactical Situations Animation / I. Zuev [и др.] // Intelligent Computing. — Springer, 2022. — С. 634—644.

6. Разработка архитектуры программной AI платформы для анализа тактико-технических действий и функционального состояния футболистов в процессе игры по данным видеотрансляции / А. Хельвас [и др.] // 22-я Международная конференция Цифровая обработка сигналов и её применение - DSPA-2020 / под ред. В.Б.Зубарева. — РНТОРЭС имени А.С. Попова, 2020. — С. 652—656. — DOI: 10.1109/EnT47717.2019.9030576.

7. Multiple object tracking: A literature review / W. Luo [и др.] // Artificial Intelligence. — 2021. — Т. 293. — С. 103448.

8. Yilmaz A., Javed O., Shah M. Object tracking: A survey // Acm computing surveys (CSUR). — 2006. — Т. 38, № 4. — 13—es.

9. Adaptive object tracking by learning background context / A. Borji [и др.] // 2012 IEEE computer society conference on computer vision and pattern recognition workshops. — IEEE. 2012. — С. 23—30.

10. Simple online and realtime tracking / A. Bewley [h gp.] // 2016 IEEE international conference on image processing (ICIP). — IEEE. 2016. — C. 3464—3468.

11. Wojke N., Bewley A., Paulus D. Simple online and realtime tracking with a deep association metric // 2017 IEEE international conference on image processing (ICIP). — IEEE. 2017. — C. 3645—3649.

12. Karunasekera H., Wang H., Zhang H. Multiple object tracking with attention to appearance, structure, motion and size // IEEE Access. — 2019. — T. 7. — C. 104423—104434.

13. Detect-and-track: Efficient pose estimation in videos / R. Girdhar [h gp.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — C. 350—359.

14. Wen S.-Y., Yen Y, Chen A. Y. Human tracking for facility surveillance // Science and Information Conference. — Springer. 2019. — C. 329—338.

15. Xiao B., Wu H., Wei Y. Simple baselines for human pose estimation and tracking // Proceedings of the European conference on computer vision (ECCV). — 2018. — C. 466—481.

16. Blackman S. S. Multiple-target tracking with radar applications // Dedham. — 1986.

17. Oh S., Russell S., Sastry S. Markov chain Monte Carlo data association for general multiple-target tracking problems // 2004 43rd IEEE Conference on Decision and Control (CDC)(IEEE Cat. No. 04CH37601). T. 1. — IEEE. 2004. — C. 735—742.

18. Mahler R. P. Multitarget Bayes filtering via first-order multitarget moments // IEEE Transactions on Aerospace and Electronic systems. — 2003. — T. 39, № 4. — C. 1152—1178.

19. Aguilar C, Ortner M., Zerubia J. Small moving target MOT tracking with GM-PHD filter and attention-based CNN // 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP). — IEEE. 2021. — C. 1—6.

20. Adaptive ^-generalized labeled multi-Bernoulli filter for multi-object detection and tracking / Z.-X. Liu [h gp.] // IEEE Access. — 2020. — T. 9. — C. 2100— 2109.

21. Abbaspour M., Masnadi-Shirazi M. A. Online multi-object tracking with 5-GLMB filter based on occlusion and identity switch handling // Image and Vision Computing. — 2022. — C. 104553.

22. Barrett D. G, Morcos A. S., Macke J. H. Analyzing biological and artificial neural networks: challenges with opportunities for synergy? // Current opinion in neurobiology. — 2019. — T. 55. — C. 55—64.

23. Rawat W., Wang Z. Deep convolutional neural networks for image classification: A comprehensive review // Neural computation. — 2017. — T. 29, № 9. — C. 2352—2449.

24. Zhiqiang W., Jun L. A review of object detection based on convolutional neural network // 2017 36th Chinese control conference (CCC). — IEEE. 2017. — C. 11104—11109.

25. The history began from alexnet: A comprehensive survey on deep learning approaches / M. Z. Alom [h gp.] // arXiv preprint arXiv:1803.01164. — 2018.

26. Lin M., Chen Q, Yan S. Network in network // arXiv preprint arXiv:1312.4400. — 2013.

27. Going deeper with convolutions / C. Szegedy [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — C. 1—9.

28. Object detection with deep learning: A review / Z.-Q. Zhao [h gp.] // IEEE transactions on neural networks and learning systems. — 2019. — T. 30, № 11. — C. 3212—3232.

29. Rich feature hierarchies for accurate object detection and semantic segmentation / R. Girshick [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2014. — C. 580—587.

30. Selective search for object recognition / J. R. Uijlings [h gp.] // International journal of computer vision. — 2013. — T. 104, № 2. — C. 154—171.

31. Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. — 2012. — T. 25.

32. Spatial pyramid pooling in deep convolutional networks for visual recognition / K. He [h gp.] // IEEE transactions on pattern analysis and machine intelligence. — 2015. — T. 37, № 9. — C. 1904—1916.

33. Girshick R. Fast r-cnn // Proceedings of the IEEE international conference on computer vision. — 2015. — C. 1440—1448.

34. Faster r-cnn: Towards real-time object detection with region proposal networks / S. Ren [h gp.] // Advances in neural information processing systems. — 2015. — T. 28.

35. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. — 2014.

36. Redmon J., Farhadi A. Y0L09000: better, faster, stronger // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 7263—7271.

37. Redmon J., Farhadi A. Yolov3: An incremental improvement // arXiv preprint arXiv:1804.02767. — 2018.

38. Bochkovskiy A., Wang C.-Y, Liao H.-Y. M. Yolov4: Optimal speed and accuracy of object detection // arXiv preprint arXiv:2004.10934. — 2020.

39. Ma J., Chen L., Gao Z. Hardware implementation and optimization of tiny-YOLO network // International Forum on Digital TV and Wireless Multimedia Communications. — Springer. 2017. — C. 224—234.

40. How does batch normalization help optimization? / S. Santurkar [h gp.] // Advances in neural information processing systems. — 2018. — T. 31.

41. Misra D. Mish: A self regularized non-monotonic neural activation function // arXiv preprint arXiv:1908.08681. — 2019. — T. 4, № 2. — C. 10—48550.

42. Microsoft coco: Common objects in context / T.-Y. Lin [h gp.] // European conference on computer vision. — Springer. 2014. — C. 740—755.

43. Realtime multi-person 2d pose estimation using part affinity fields / Z. Cao [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2017. — C. 7291—7299.

44. Convolutional pose machines / S.-E. Wei [и др.] // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. — 2016. — С. 4724— 4732.

45. Wang X. Intelligent multi-camera video surveillance: A review // Pattern recognition letters. — 2013. — Т. 34, № 1. — С. 3—19.

46. Learning to track and identify players from broadcast sports videos / W.-L. Lu [и др.] // IEEE transactions on pattern analysis and machine intelligence. — 2013. — Т. 35, № 7. — С. 1704—1716.

47. Xiong T, Debrunner C. Stochastic car tracking with line-and color-based features // IEEE Transactions on Intelligent Transportation Systems. — 2004. — Т. 5, № 4. — С. 324—328.

48. Kratz L., Nishino K. Tracking with local spatio-temporal motion patterns in extremely crowded scenes // 2010 IEEE computer society conference on computer vision and pattern recognition. — IEEE. 2010. — С. 693—700.

49. Probabilistic 3d multi-object tracking for autonomous driving / H. Kuang Chiu [и др.] // ArXiv, vol. abs/2001.05673. — 2020.

50. Farahi F., Yazdi H. S. Probabilistic Kalman filter for moving object tracking // Signal Processing: Image Communication. — 2020. — Т. 82. — С. 115751.

51. Кузьмин С. З. Основы теории цифровой обработки радиолокационной информации. — 1974.

52. Blackman S. S. Multiple hypothesis tracking for multiple target tracking // IEEE Aerospace and Electronic Systems Magazine. — 2004. — Т. 19, № 1. — С. 5—18.

53. Multiple hypothesis tracking revisited / C. Kim [и др.] // Proceedings of the IEEE international conference on computer vision. — 2015. — С. 4696—4704.

54. Mahalanobis P. C. On the generalized distance in statistics // Proceedings of the National Institute of Sciences (Calcutta). — 1936. — Т. 2. — С. 49—55.

55. Gyorgy K., Kelemen A., David L. Unscented Kalman filters and Particle Filter methods for nonlinear state estimation // Procedia Technology. — 2014. — Т. 12. — С. 65—74.

56. Bochinski E, Eiselein V., Sikora T. High-speed tracking-by-detection without using image information // 2017 14th IEEE international conference on advanced video and signal based surveillance (AVSS). — IEEE. 2017. — C. 1— 6.

57. Simple, efficient and effective keypoint tracking / R. Girdhar [h gp.] // ICCV PoseTrack Workshop. — 2017.

58. Iqbal U, Milan A., Gall J. Posetrack: Joint multi-person pose estimation and tracking // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2017. — C. 2011—2020.

59. Posetrack: A benchmark for human pose estimation and tracking / M. Andriluka [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — C. 5167—5176.

60. Deepcut: Joint subset partition and labeling for multi person pose estimation / L. Pishchulin [h gp.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — C. 4929—4937.

61. Bernardin K., Stiefelhagen R. Evaluating multiple object tracking performance: the clear mot metrics // EURASIP Journal on Image and Video Processing. — 2008. — T. 2008. — C. 1—10.

62. 15 keypoints is all you need / M. Snower [h gp.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — C. 6738—6748.

63. Doering A., Iqbal U, Gall J. Joint flow: Temporal flow fields for multi person tracking // arXiv preprint arXiv:1805.04596. — 2018.

64. Ning G., Pei J., Huang H. Lighttrack: A generic framework for online top-down human pose tracking // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. — 2020. — C. 1034— 1035.

65. Vermaak J., Godsill S. J., Perez P. Monte Carlo filtering for multi target tracking and data association // IEEE Transactions on Aerospace and Electronic systems. — 2005. — T. 41, № 1. — C. 309—332.

66. Random search algorithms / Z. B. Zabinsky [h gp.] // Department of Industrial and Systems Engineering, University of Washington, USA. — 2009.

67. Andradottir S. A review of random search methods // Handbook of Simulation Optimization. — 2015. — C. 277—292.

68. Mot20: A benchmark for multi object tracking in crowded scenes / P. Dendorfer [h gp.] // arXiv preprint arXiv:2003.09003. — 2020.

69. Hota: A higher order metric for evaluating multi-object tracking / J. Luiten [h gp.] // International journal of computer vision. — 2021. — T. 129, № 2. — C. 548—578.

70. MOT16: A benchmark for multi-object tracking / A. Milan [h gp.] // arXiv preprint arXiv:1603.00831. — 2016.

71. Ricolfe-Viala C., Sánchez-Salmerón A.-J. Using the camera pin-hole model restrictions to calibrate the lens distortion model // Optics & Laser Technology. — 2011. — T. 43, № 6. — C. 996—1005.

72. Ahmed M, Farag A. Nonmetric calibration of camera lens distortion: differential methods and robust estimation // IEEE Transactions on image processing. — 2005. — T. 14, № 8. — C. 1215—1230.

73. Lu X. X. A review of solutions for perspective-n-point problem in camera pose estimation // Journal of Physics: Conference Series. T. 1087. — IOP Publishing. 2018. — C. 052009.

74. Quan L., Lan Z. Linear n-point camera pose determination // IEEE Transactions on pattern analysis and machine intelligence. — 1999. — T. 21, № 8. — C. 774—780.

75. Match analysis in football: a systematic review / H. Sarmento [h gp.] // Journal of sports sciences. — 2014. — T. 32, № 20. — C. 1831—1843.

76. Multiple players tracking and identification using group detection and player number recognition in sports video / T. Yamamoto [h gp.] // IECON 2013-39th Annual Conference of the IEEE Industrial Electronics Society. — IEEE. 2013. — C. 2442—2446.

Список рисунков

1.1 Дерево методов решения задачи множественного отслеживания

объектов................................. 10

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Гиля-Зетинов Александр Александрович

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Программная система выявления нелегитимной активности на промышленных площадках2013 год, кандидат наук Абрамов, Николай Александрович

Введение диссертации (часть автореферата) на тему «Разработка методов и алгоритмов сопровождения объектов в системах машинного зрения»

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Проектирование системы отслеживания и прогнозирования движения объектов в видеопотоке2013 год, кандидат наук Шелабин, Дмитрий Алексеевич

Методы и алгоритмы планирования маршрута планетохода и коррекции навигационного комплекса2025 год, кандидат наук Чжан Минмин

Методология синтеза интеллектуальных высокопроизводительных нейро-нечетких систем технического зрения2023 год, доктор наук Милостная Наталья Анатольевна

Методы обработки изображений в сканирующих информационно-измерительных системах обнаружения движения2014 год, кандидат наук Сергеев, Евгений Александрович

Список литературы диссертационного исследования кандидат наук Гиля-Зетинов Александр Александрович, 2022 год