Методы поддержки принятия решений на основе данных в задачах управления развитием урбанизированных территорий тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Парыгин Данила Сергеевич

  • Парыгин Данила Сергеевич
  • доктор наукдоктор наук
  • 2023, ФГБОУ ВО «Волгоградский государственный технический университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 356
Парыгин Данила Сергеевич. Методы поддержки принятия решений на основе данных в задачах управления развитием урбанизированных территорий: дис. доктор наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «Волгоградский государственный технический университет». 2023. 356 с.

Оглавление диссертации доктор наук Парыгин Данила Сергеевич

ВВЕДЕНИЕ

ГЛАВА 1. ИССЛЕДОВАНИЕ УРБАНИЗИРОВАННОЙ ТЕРРИТОРИИ КАК СЛОЖНОЙ ПРОСТРАНСТВЕННО-РАСПРЕДЕЛЕННОЙ СОЦИАЛЬНО-ТЕХНИЧЕСКОЙ СИСТЕМЫ

1.1 Ключевые свойства пространственно-распределенных социально-

технических систем

1.2 Системный анализ урбанизированных территорий

1.3 Цикл ресурсной ребалансировки DRVB

1.4 Современные смарт-модели развития городских систем

1.5 Подходы к поддержке принятия решений на основе данных

1.6 Выводы по первой главе

ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ ПРИНЯТИЯ РЕШЕНИЙ ПО РАЗВИТИЮ УРБАНИЗИРОВАННЫХ ТЕРРИТОРИЙ

2.1 Процесс принятия решений при управлении развитием урбанизированных

территорий

2.2 Управление целями развития ПРСТС

2.2.1 Формирование целевой иерархии для согласования задач развития

ПРСТС

2.2.2 Структурная идентификация и анализ взаимного влияния факторов,

характеризующих УТ

2.2.3 Формирование модели знаний о состоянии УТ

2.3 Выводы по второй главе

ГЛАВА 3. ПРОГНОЗИРОВАНИЕ СОСТОЯНИЯ УРБАНИЗИРОВАННОЙ ТЕРРИТОРИИ НА ОСНОВЕ МОДЕЛИРОВАНИЯ ВОСТРЕБОВАННОСТИ ГОРОДСКОЙ ИНФРАСТРУКТУРЫ

3.1 Проактивное планирование развития урбанизированных территорий

3.1.1 Построение системы проактивных городских вычислений

3.1.2 Принципы экзоактивного управления

3.2 Мультиагентный подход к моделированию динамики процессов в урбанизированной территории

3.2.1 Подход к микромоделированию процессов в ПРСТС

3.2.2 Мультиагентная симуляция динамики процессов на эталонной модели УТ

3.3 Поддержка принятия решений в задачах анализа кризисных ситуаций на основе мониторинга в режиме реального времени

3.4 Выводы по третьей главе

ГЛАВА 4. КОМПЛЕКСНАЯ ОЦЕНКА КАЧЕСТВА УРБАНИЗИРОВАННОЙ ТЕРРИТОРИИ

4.1 Подход к оценке качества развития урбанизированной территории на основе исследования ее когерентности

4.2 Модель оценки качества урбанизированной территории

4.3 Методы оценки показателей интеграции территории

4.4 Оценка сбалансированности развития урбанизированной территории

4.4.1 Исследования локализованной оценки транспортной обеспеченности территорий

4.4.2 Алгоритмическое и программное обеспечение для оценки согласованности развития обеспечивающей инфраструктуры

4.5 Выводы по четвёртой главе

ГЛАВА 5. МЕТОДЫ СБОРА И ОБРАБОТКИ ДАННЫХ О СОСТОЯНИИ УРБАНИЗИРОВАННОЙ ТЕРРИТОРИИ

5.1 Организация информационного обеспечения процесса поддержки принятия решений по развитию урбанизированной территории

5.1.1 Классификация источников данных о состоянии урбанизированной территории

5.1.2 Разработка онтологической модели интеграции гетерогенных данных

5.1.3 Разработка онтологической модели препроцессинга гетерогенных данных

5.2 Метод комплексного мониторинга ситуации с использованием геопространственных данных

5.2.1 Методы сбора и интегрированной обработки разнородной информации об объектах урбанизированной территории

5.2.2 Метод оценки фактического использования территории

5.2.3 Методы оценки загруженности транспортной инфраструктуры

5.2.4 Методы стоимостной оценки зданий и территорий

5.2.5 Методы мониторинга социального отклика

5.3 Выводы по пятой главе

ГЛАВА 6. РАЗРАБОТКА И ЭКСПЕРИМЕНТАЛЬНОЕ ТЕСТИРОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ПО РАЗВИТИЮ УРБАНИЗИРОВАННЫХ ТЕРРИТОРИЙ

6.1 Разработка геоаналитической платформы на базе микросервисной архитектуры

6.1.1 Подход к построению системы сбора, предобработки и представления инфраструктурных данных

6.1.2 Особенности реализации базовых программных компонентов для управления данными о городской инфраструктуре

6.1.3 Визуализация пространственных данных

6.2 Отдельные инструментальные компоненты для работы с геопространственными данными

6.3 Оценка эффективность разработанных методов для поддержки принятия решений по развитию ПРСТС

6.4 Выводы по шестой главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А. Краткие характеристики разработанных программных

продуктов

ПРИЛОЖЕНИЕ Б. Документы, подтверждающие внедрение результатов диссертации

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы поддержки принятия решений на основе данных в задачах управления развитием урбанизированных территорий»

ВВЕДЕНИЕ

Актуальность темы исследования. Урбанизированная территория (УТ) состоит из элементов, объединённых территориально, технологически и функционально для обеспечения жизнедеятельности людей. Особенностью урбанизированных территорий является сочетание технологических и социальных факторов, что позволяет отнести УТ к классу сложных пространственно-распределенных социально-технических систем (ПРСТС). Эффективность развития УТ определяется необходимым и достаточным количеством и составом производственной, транспортной и инженерной инфраструктуры, обеспечивающей условия для реализации потребностей жителей данной территории.

Необходимость совершенствования подходов к решению задач управления развитием УТ связана с появлением новых требований к условиям жизни населения и увеличением роли объективной информации о городских процессах. В современных условиях, характеризуемых быстрым изменением способов обработки и анализа информации, появляется возможность учета влияния самых разных факторов при выборе вариантов преобразования городской среды. Данные, отражающие состояние городской среды, объектов инфраструктуры и производственных процессов, а также жизнедеятельность людей становятся информационной основой для поддержки принятия решений (ППР) по развитию УТ.

Направление исследования, результаты которого представлены в диссертации, связано с разработкой научно-обоснованного подхода к принятию решений по развитию УТ, основанного на анализе разнородных данных, характеризующих размещение, функционирование и востребованность объектов городской инфраструктуры.

Степень разработанности темы. В трудах таких авторов, как А. М. Бершадский, А. С. Бождай, В. Н. Бурков, В. Н. Бусленко, А. В. Горохов, С. В. Емельянов, А. А. Зыков, М. Исидзука, В. А. Камаев, Ю. Г. Карпов,

Д. Ю. Каталевский, И. Ю. Квятковская, Ж. Корвалхо, Е. К. Корноушенко, Б. Коско, О. П. Кузнецов, А. А. Кулинич, О. И. Ларичев, З. Лиу, Н. Н. Лычкина, В. И. Максимов, М. Маруям, Д. Х. Медоуз, Э. Мумфорд, Х. Мюррей, Д. А. Новиков, М. Э. Осеевский, Г. С. Поспелов, Д. А. Поспелов, И. В. Прангишвили, В. А. Путилов, Ф. С. Робертс, Т. Л. Саати, Т. Савараджи, В. Н. Сидоренко, В. Б. Силов, Э. Трист, М. Н. Узяков, X. Уэно, А. С. Федулов, Дж. Форрестер, А. Я. Фридман, Ф. Хеллер, В. А. Цыбатов, А. Чернс, Р. Шеннон, Ф. Эмири и др. представлены разработки систем поддержки принятия решений (СППР) в управлении развитием сложных социальных и технических систем. Исследователи рассматривают подходы к построению СППР на основе данных и на основе моделей, в том числе, методов имитационного моделирования, экспертно-аналитических методов и др.

В ряде работ российских и зарубежных ученых, в числе которых Р. М. Аллен, Р. В. Арутюнян, С. Л. Беляков, М. Гил, Д. А. Дики, А. Е. Загоруйко, Н. А. Каррик, Р. Мортахеб, И. Н. Розенберг, В. А. Фулл, П. Янковски, приводятся результаты исследования систем сбора и анализа пространственных данных, а также использования пространственной информации для поддержки принятия решений.

Системный подход к исследованию урбанизированных территорий и отдельных городских подсистем широко освещался в работах российских и иностранных учёных, в числе которых Е. Г. Анимица, Х. Боссель, А. А. Васильев, Г. Ю. Ветров, Д. В. Визгалов, А. А. Высоковский, П. Геддес, В. Л. Глазычев, А. Э. Гутнов, В. С. Занадворов, В. Б. Зотов, В. В. Иванов, А. Н. Коробова, Ф. Котлер, П. Кругман, Г. М. Лаппо, Л. Э. Лимонов, Е. Н. Перцик, А. С. Пузанов, Б. Б. Родоман, А. О'Салливан, С. Сассен, А. Е. Семечкин, Э. К. Трутнев, Х. Циммерман, А. Н. Швецов и др.

Прикладные подходы к анализу УТ, ориентированные на преобразование физической и семантической среды обитания жителей городов (В. Вучик, Я. Гейл, Дж. Джекобс, Ч. Лэндри, др.), прошли путь от решения утилитарных задач функционирования хозяйственных комплексов к человекоцентричной системе

реализации сложной иерархии потребностей жизнедеятельности людей. Тем не менее, исследовательские и административные подходы к оценке текущего и прогнозного состояния городов, поддержке принятия решений по их развитию, во многом ориентированы на работу с обобщенными отчётами и интегральными показателями, которые не могут в полной мере отразить характер и структуру процессов, обусловленных действиями каждого человека на всей территории города.

Решения о выборе вариантов преобразования урбанизированных территорий принимаются исходя из двух базовых предпосылок. Целевые показатели устанавливаются централизовано, без учета особенностей конкретной территории. При этом формирование обособленных целевых ориентиров при реализации точечных проектов развития или, что более критично, изменение условий обеспечения отдельных потребностей жизнедеятельности человека, выполняется без учёта внутрисистемных взаимодействий, определяющих целостность городской среды. В связи с этим научная проблема, решаемая в данном диссертационном исследовании, связана с определением влияния пространственных свойств объектов инфраструктуры на их востребованность и эффективность развития УТ.

Объект исследования: процессы формирования и принятия решений по развитию урбанизированных территорий.

Предмет исследования: методы принятия решений по развитию урбанизированных территорий.

Цель и задачи диссертационной работы. Целью работы является разработка научно-обоснованного подхода к поддержке принятия решений по развитию урбанизированной территории для повышения их эффективности на основе анализа данных комплексного мониторинга и моделирования.

Для достижения обозначенной цели необходимо решить следующие задачи:

1) провести анализ урбанизированной территории как пространственно-распределенной социально-технической системы, выделить и проанализировать общесистемные свойства, формализовать проблему принятия решений по

развитию урбанизированной территорией;

2) сформулировать задачу принятия решений по управлению развитием урбанизированной территории;

3) разработать методы прогнозирования и оценки последствий принимаемых решений для согласования целей развития ПРСТС;

4) разработать научно обоснованный подход к принятию решений по развитию ПРСТС, обеспечивающий сбалансированность показателей инфраструктурной обеспеченности;

5) усовершенствовать существующие и разработать новые методы сбора и обработки данных о составе и состоянии элементов ПРСТС, а также их востребованности;

6) разработать интеллектуальную систему поддержки принятия решений по управлению развитием ПРСТС и оценить эффективность разработанных моделей и методов при решении задач развития урбанизированных территорий.

Научная новизна заключается в разработке научно-обоснованных подходов по управлению развитием урбанизированных территорий на основе выявленных взаимосвязей между функционально-пространственными свойствами объектов инфраструктуры и их целевым состоянием, а именно:

1. Определен и исследован новый класс пространственно-распределенных социотехнических систем, описаны их свойства и особенности функционирования, что позволило определить структуру и свойства урбанизированной территории как сложной ПРСТС. Предложена модель принятия решений по развитию урбанизированной территорией, основанная на анализе данных комплексного мониторинга и моделирования, которая, в отличие от существующих, учитывает функциональную и пространственную структуру УТ при формировании альтернатив, что позволяет повысить согласованность принимаемых решений (п. № 1 паспорта специальности 2.3.1.).

2. Сформулирована задача принятия решений по развитию УТ, отличающаяся динамическим формированием целей, способом оценки их достижимости, а также оценкой вариантов развития с учётом пространственных

свойств территории, что позволило снизить уровень неопределенности при оценке альтернатив (п. № 2 паспорта специальности 2.3.1.).

3. Предложен подход к моделированию изменения состояния сложных пространственно-распределенных социально-технических систем, основанный на мультиагентной парадигме и отличающийся использованием эталонной модели для оценки принимаемых решений по преобразованию системы, который позволяет получить дополнительные данные для анализа проектов развития (п. № 5 паспорта специальности 2.3.1.).

4. Разработана модель оценки качества урбанизированной территории, в которой введен новый интегральный показатель - «когерентность УТ», характеризующий ее целостность и сбалансированность. Установлено, что выявление минимумов обеспеченности по видам инфраструктурных объектов позволяет оценить эффективность принимаемых решений по управлению развитием системы в целом (п. № 3 паспорта специальности 2.3.1.).

5. Разработаны онтологические модели препроцессинга и интеграции данных мониторинга состояния ПРСТС, впервые учитывающие классификацию источников данных об инфраструктуре, что позволило формализовать знания о взаимосвязи объектов территории и параметрах их целевого состояния (п. № 12 паспорта специальности 2.3.1.).

6. Разработаны методы распознавания и классификации объектов инфраструктуры, основанные на анализе общедоступных данных дистанционного зондирования Земли. Предложенные методы отличаются набором определяемых свойств объектов, связанных с состоянием и взаимным расположением, что позволяет решать задачи многофакторного пространственно-временного мониторинга ПРСТС. Показаны преимущества использования доступных данных для контроля состояния ПРСТС, что обеспечивает повышение актуальности получаемой информации (п. № 10 паспорта специальности 2.3.1.).

Теоретическая значимость работы заключается в развитии теоретических основ системного анализа (критериев и оценки эффективности, специального математического и программного обеспечения, методов обработки информации и

поддержки принятия решений) для задач управления развитием ПРСТС.

Практическая значимость работы:

1. Разработанные методы и подходы использованы при создании программных систем для поддержки принятия решений по развитию урбанизированных территорий. Было разработано более 50 программных продуктов, запущенных в промышленную или опытную эксплуатацию, развернутых в сети Интернет, получивших свидетельства о государственной регистрации программ для ЭВМ и БД (29 свидетельств).

2. Разработанная модель оценки качества УТ применялась для анализа инфраструктурной обеспеченности и показателей интеграции территории г. Волгограда, анализа транспортной обеспеченности городского округа город Красноярск, обоснования приоритетных мероприятий по развитию г. Дивногорск, а также для решения местных задач национального проекта «Жильё и городская среда».

3. Разработанные методы распознавания и классификации объектов инфраструктуры использовались в рамках реализации мегапроекта «Единая Евразия: Транс-Евразийский пояс развития - Интегральная Евразийская транспортная система», выполняемого Институтом проблем транспорта Российской академии наук.

4. Разработанные модели использованы при целевых обследованиях маршрутных сетей пассажирского транспорта, транспортного спроса, улично-дорожных сетей и парковочных пространств для городов Волгоград, Волжский, Красноярск, Дивногорск, Владивосток, Москва, Элиста, Астрахань, Санкт-Петербург, Новосибирск.

5. Разработанные методы сбора пространственных данных и методов интегрированной обработки данных об объектах территории стали основой создания методического комплекса стоимостной оценки объектов недвижимости, позволившей ГБУ ВО «Центр государственной кадастровой оценки» (бывший ГБУ ВО «Волгоградоблтехинвентаризация») выполнить в 2019 году кадастровую оценку в рамках государственного задания. Внедрение подтверждено

соответствующим актом. Аналогичные задачи были решены в процессе подготовки информационной базы для оценки отдельных объектов недвижимости при выводе объектов государственной собственности на торги по продаже или аренде в г. Москва и информационной системы мониторинга многоквартирных домов в г. Тюмень.

Методы исследования. В диссертационной работе использовались методы системного анализа, теории принятия решений, теории графов, нечетких множеств, искусственного интеллекта, имитационного, агентного, когнитивного, онтологического моделирования, математической статистики.

Положения, выносимые на защиту:

1. Модель принятия решений по развитию урбанизированной территорией, учитывающая функциональную и пространственную структуру УТ при формировании альтернатив.

2. Постановка задачи принятия решений по развитию УТ, включающая динамическое формирование целей, анализ вариантов достижения целей, оценку развития УТ, получение данных о состоянии УТ с учётом пространственных свойств.

3. Подход к моделированию изменения состояния сложных пространственно-распределенных социально-технических систем, основанный на мультиагентной парадигме.

4. Модель оценки качества урбанизированной территории.

5. Онтологические модели препроцессинга и интеграции данных мониторинга состояния ПРСТС.

6. Методы распознавания и классификации объектов инфраструктуры для решения задачи многофакторного пространственно-временного мониторинга ПРСТС.

7. Архитектура и программная реализация интеллектуальной системы поддержки принятия решений по управлению развитием урбанизированных территорий.

Достоверность полученных результатов. Предложенные в диссертационной работе методики, модели, методы и алгоритмы теоретически обоснованы и не противоречат известным положениям других авторов. Достоверность полученных результатов обеспечена корректным использованием апробированных теоретических методов в области системного анализа, теории принятия решений, искусственного интеллекта, а также результатами практического использования.

Апробация. Основные положения и материалы диссертационной работы представлялись и обсуждались более чем на 50 международных и всероссийских научных и практических мероприятиях, в числе которых, XXXI-XXXIV Международная научная конференция «Математические методы в технике и технологиях» ММТТ-31, ММТТ-32, ММТТ-33, ММТТ-34 и ММТТ-36 (Санкт-Петербург, 2018-2019 гг.; Казань, 2020 г.; Санкт-Петербург, 2021 г.; Нижний Новгород, 2023 г.); 2022 International Conference on Engineering and Emerging Technologies (Малайзия, Куала-Лумпур, 2022 г.); 2nd International Conference on Technological Advancements in Computational Sciences (Узбекистан, Ташкент, 2022 г.); 2nd International Conference on Advancement in Electronics & Communication Engineering (Индия, Газиабад, 2022 г.); Всероссийская архитектурная экспедиция «Северный Кавказ» (2022 г.); XXVII International Seminar on Urban Form (Великобритания, Глазго, 2021 г.); 6th and 7th International Conference on Electronic Governance and Open Society: Challenges in Eurasia (Санкт-Петербург, 2019-2020 гг.); Двенадцатая международная конференция «Управление развитием крупномасштабных систем» MLSD'2019 (Москва, 2019 г.); 5th, 6th, 7th, 8th, 9th and 10th International IEEE Conference on System Modeling & Advancement in Research Trends SMART (Индия, Морадабад, 2016-2021 гг.); Конференция по искусственному интеллекту AI Journey (Москва/онлайн, 2020 г.); International Multi-Conference on Industrial Engineering and Modern Technologies «FarEastCon-2020» (Владивосток, 2020 г.); International Conference on Construction, Architecture and Technosphere Safety ICCATS-2020 (Сочи, 2020 г.); 1st, 2nd, 3rd and 4th International Conference on Creativity in Intelligent Technologies & Data Science

CIT&DS (Волгоград, 2015 г., 2017 г., 2019 г., 2021 г.); Программа Urban.Tech Moscow (Москва, 2019 г.); International Session on Factors of Regional Extensive Development FRED-2019 (Иркутск, 2019 г.); Образовательная программа профессиональной переподготовки «Управление, основанное на данных (CDO)» (Волгоград, 2019 г.); Международная научная конференция «Cyber-Physical Systems Design And Modelling» CyberPhy (Санкт-Петербург, 2019 г., 2021 г.; Казань, 2020 г.); IV конференции «Цифровая индустрия промышленной России» ЦИПР-2019 (Иннополис, 2019 г.); XLVIII Международная конференция «Информационные технологии в науке, образовании и управлении» (Гурзуф, 2019 г.); V Международная научно-практическая конференция (школа-семинар) молодых учёных (Тольятти, 2019 г.); 2nd IEEE International Conference Engineering Science & Advance Research (Индия, Канпур, 2019 г.); Проектная сессия НТИ «Аэронет» по вопросам использования данных дистанционного зондирования земли (Волгоград, 2019 г.); 3-я и 4-я международная молодежная конференция «Информационные технологии и технологии коммуникация: современные достижения» (Астрахань, 2019-2020 гг.); 5-я Международная научно-техническая конференция «Пром-Инжиниринг 2019» ICIE 2019 (Сочи, 2019 г.); III, IV, V and VI International research conference «Information technologies in Science, Management, Social Sphere and Medicine» (Томск, 2016-2019 гг.); Хакатон Urban.Tech Challenge (Москва, 2018 г.); Всероссийская конференция «Природа. Общество. Человек.» (Дубна, 2018 г.); VI Международная конференция «Прогресс транспортных средств и систем-2018» ПТСС-2018 (Волгоград, 2018 г.); 2nd, 3rd and 5th International Conference on Digital Transformation and Global Society DTGS (Санкт-Петербург, 2017, 2018, 2020 гг.); Международный симпозиум «Надёжность и качество» (Пенза, 2018 г.); International Open Data Day 2018 (Москва, 2018 г.); 2nd International Seminar on «Advanced Computing Technologies» (Индия, Барейли, 2018 г.); International Conference on Information Technologies in Business and Industry 2016, 2018 and 2020 (Томск, 2016 г, 2018 г.; Новосибирск, 2020 г.); Всероссийский конкурс «Smart City & IoT Хакатон» (Тюмень, 2017 г.); 5th, 6th and 9th International Young Scientist Conference on Computational Science

(Польша, Краков, 2016 г.; Финляндия, Котка, 2017 г.; онлайн, 2020 г.); 10th International Conference on ICT, Society and Human Beings 2017 (Португалия, Лиссабон, 2017 г.); Форсайт-сессия по концепции Стратегии социально-экономического развития Волгоградской области до 2030 года (Волгоград, 2017 г.); Sixth International IEEE Conference on Information, Intelligence, Systems and Applications (Греция, Корфу, 2015 г.); 17th International Conference on Information Integration and Web-based Application & Services (Бельгия, Брюссель, 2015 г.); III Международная научно-практическая конференция «Развитие средних городов: замысел, модели, практика» (Волжский, 2015 г.); III Международная научно-практическая конференция «Современные технологии и управление» (Светлый Яр, 2014 г.); Всероссийская научно-практическая конференция «Управление стратегическим потенциалом регионов России: методология, теория, практика» (Волгоград, 2014 г.); Eight International Conference on Urban Regeneration and Sustainability «The Sustainable City VIII» (Малайзия, Путраджая, 2013 г.), и др.

Реализация результатов работы состоялась при выполнении следующих НИР и грантов:

1) под руководством автора:

- «Разработка фундаментальных основ для информационно-аналитической поддержки задач комплексного развития городских территорий с использование методов онтологического инжиниринга», 2022-2023 гг., грант Российского научного фонда (РНФ) и Волгоградской области 22-11-20024, https://rscf.ru/proj ect/22-11 -20024/;

- «Разработка интеллектуальных сетевых технологий обследования качества городской среды в контексте реализации социальных потребностей городского населения Волгоградской области», 2022-2023 гг., научный грант Волгоградской области (Соглашение № 10 от 14.12.2022);

- «Разработка научно-методического подхода к поддержке процесса управления развитием урбанизированной территории на основе интеллектуальной обработки геопространственных данных», 2018-2020 гг., грант Российского фонда фундаментальных исследований (РФФИ) 18-37-20066-мол_а_вед;

- «Методы анализа степени достижения целей при проектировании, планировании и выборе вариантов развития сложных систем», 2016-2018 гг., грант РФФИ 16-07-00388-а;

- «Разработка компонентов информационно-технического комплекса оптимизации жизнедеятельности человека в городском пространстве», 2013-2014 гг., «Разработка инструментальных средств информационной сервисной инфраструктуры городского пространства», 2015-2016 гг., программа «Участник молодежного научно-инновационного конкурса» («УМНИК») Фонда содействия развитию малых форм предприятий в научно-технической сфере;

2) при работе автора в качестве ответственного исполнителя:

- «Разработка научно-методического подхода к оперативному мониторингу сложных территориально-распределенных городских систем на основе интеллектуального анализа больших данных», 2016 г., грант РФФИ 16-37-50017-мол_нр;

3) при работе автора в качестве соисполнителя:

- «Проактивный подход к мониторингу событий в сложных распределенных системах интеллектуального города с использованием технологий больших данных и предиктивной аналитики», 2021-2022 г., грант РНФ 20-71-10087;

- «Разработка методов интеллектуального анализа данных о состоянии урбанизированной территории для поддержки управления развитием городской среды муниципальных образований Волгоградской области», 2018-2019 гг., грант РФФИ 18-47-340012-р_а;

- «Согласованное управление многоуровневой системой подготовки специалистов на основе электронных игровых образовательных технологий», 2018 г., грант РФФИ 16-07-00611^;

- «Интеллектуальная платформа мониторинга, диагностики и модернизации технических систем на различных стадиях жизненного цикла», 2018 г., грант РФФИ 16-47-340229-р_а;

- «Управление динамическим целеполаганием в сложных системах с элементами нечисловой природы», 2016-2018 гг., грант РФФИ 16-07-00353-а;

- «Интеллектуальная поддержка использования и модернизации технических объектов на протяжении жизненного цикла», 2016-2018 гг., грант РФФИ 16-07-00635-а;

- «Развитие подходов к облачному адаптивному управлению техническими системами на основе прогнозирующих моделей, построенных с использованием потоковых данных с разнородных источников», 2016 г., грант РФФИ 16-37-00387-мол_а;

- «Разработка подходов к совершенствованию маршрутной сети пассажирского транспорта на основе обработки больших данных о предпочтениях жителей», 2015-2016 гг., грант РФФИ 15-47-02613-р_поволжье_а;

- «Интеллектуальная поддержка задач стратегического планирования на основе интеграции когнитивных и онтологических моделей», 2013-2015 гг., грант РФФИ 13-07-00219-а;

- «Интеллектуальная поддержка рациональной эксплуатации технических систем на основе онтологического инжиниринга, агентного и математического моделирования и методов поддержки принятия решений и управления», 20132015 гг., грант РФФИ 13-01-00798-а;

- «Разработка теоретических основ анализа синергетических механизмов информационного влияния узлов социальных коннективистских систем», 2012 г., грант РФФИ 12-07-00760-а.

Публикации. По результатам выполненных научных исследований опубликовано 1 55 печатных работ, отражающих основное содержание диссертации, в том числе, 44 публикации в журналах и сборниках, входящих в перечень рекомендуемых ВАК (из них 5 без соавторов), и 59 в изданиях, индексируемых Web of Science и/или Scopus (из них 2 без соавторов), 3 монографии (из них 1 личная), 61 статья в сборниках докладов всероссийских и международных конференций. Получены свидетельства о государственной регистрации 28 программ для ЭВМ и 1 базы данных.

Личный вклад автора. Все основные теоретические результаты, приведенные в диссертации, получены автором лично. В работах, выполненных в соавторстве, автор принимал участие в формулировании целей, постановке и решении теоретических и практических задач, сборе и подготовке информационной базы исследований, проведении аналитических, имитационных и натурных экспериментов, анализе полученных результатов и формулировании выводов, подготовке научных публикаций и других работ.

Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, списка литературы и двух приложений. Объём диссертационной работы - 333 страницы основного машинописного текста, включающего 97 рисунков, 21 таблицу и список использованных источников из 498 наименований.

Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, сформулированы научная новизна и практическая ценность полученных результатов, приведены основные положения, выносимые на защиту. Кратко излагается содержание глав диссертации.

В первой главе приводится анализ подходов к поддержке принятия решений по развитию пространственно-распределенных социально-технических систем в условиях цифровизации, действующей модели информационно-аналитического обеспечения задач развития урбанизированных территорий и современных смарт-моделей развития городских систем, а также подходов к управлению сложными системами на основе данных. Выполнен системный анализ урбанизированных территорий, исследованы вопросы реализации потребностей жизнедеятельности человека на УТ (выделены реализующие их функциональные подсистемы). Сформулировано определение УТ как сложной пространственно-распределенной социотехнической системы, состоящей из элементов, объединённых территориально, технологически и функционально для обеспечения жизнедеятельности людей. Предложена модель принятия решений в процессе управления развитием урбанизированных территорий.

Во второй главе сформулирована задача принятия решений по развитию урбанизированных территорий. Рассмотрена проблема динамического

целеполагания при решении задач развития ПРСТС. Представлены методы формирования целей, анализа доступности и достижимости целей, позволяющие оценивать динамику их достижения в процессе развития системы. Описан подход к структурной идентификации ПРСТС на основе когнитивного моделирования. Представлена концепция системы формирования знаний о состоянии УТ.

В третьей главе рассмотрено решение задачи прогнозирования состояния пространственно-распределенных социально-технических систем на основе моделирования востребованности городской инфраструктуры с использованием пространственного анализа. Симуляция динамики процессов в ПРСТС выполняется с применение мультиагентного моделирования. Для реализации мультиагентной симуляции динамики процессов на эталонной модели и оценки эффективности принимаемых решений по развитию УТ создан подход к формированию среды разработки микро- и макромоделей изменения состояния ПРСТС на основе предложенных принципов. Таким образом, реализуется возможность симуляции и исследования макромоделей целостных городских систем, построенных на основе микромоделей сценариев отдельных агентов, для решения задачи согласования планов развития УТ.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования доктор наук Парыгин Данила Сергеевич, 2023 год

Источники:

— общественные проблемно-ориентированные сервисы

- госсервисы общественного участия («Наш города, кНаш Санкт-Петербург», др.)

Источники: — Telegram -ВКонтакте -Instagram -Twitter -Ответы Mail.ru

Человеко-машинные методы сбора пространственной информации

Методы общественно!" о контроля состояния объектов урбанизирова нной территории

Метод открытой

регистрации территориально-распределенных событий

Методы извлечение данных со страниц онлайн-ресурсов

Алгоритмы получения данных через API социальных сетей и мессенджеров

I

Источники:

— сайты операций с недвижимостью («ЦИАН», «Из рук в руки», «Авито», др.) -сайты электронных торговых площадок («РТС-тендер», «Сбербан к-АСТ», «1пуейМо5сош» и др.) -федеральный реестр данных по объектам недвижимости Росреестра

— новостные порталы

Подходы к использованию данных ресурсов «Открытого

правительства» и государственной статистики

Программно-аппаратные с р едства контроля состояния (датчики, фото/видеоаппаратура, др.)

Метод сбора картографических и ГИС-данных

Источники:

— БД OpenStreetMap ■ - API Яндекс.Карты

-API Google Maps

- Wikimapia

База данных мониторинга

Источники:

- адресный реестр ФИАС

- БД Центризбиркома

- индексный реестр Почты России

- классификатор ОКАТО

- классификатор ОКТМО

Комплекс алгоритмов извлечения данных выгружаемых баз, кадастров и файлов-реестров [.doc, .xls, .csv, др.)

Алгоритм получения выборки данных черезАР! АИС «Реформа ЖКХ»

Подход к автоматизации сбора и актуализацииучётныхданных по объектам недвижимости

Рисунок 5.9 - Технология сбора геопривязанных данных Однако регулярные решения не покрывают всех возможных задач. Для многих сайтов они вообще не предлагаются. В таком случае необходимо применять технологии парсинга, включающие поиск и извлечение искомых данных со страниц сетевых ресурсов. Парсинг позволяет автоматизировать процесс сбора контента в режиме реального времени [40, 425].

Два основных подхода для выборки контента сетевых ресурсов могут быть выделены. Первый подход предполагает использование таких систем, как Importio [362], ConvExtra [315], Portia [434] и др. Алгоритм организации сбора данных с помощью таких систем включает следующие шаги [425]:

1) указать в системе URL исследуемого сетевого ресурса;

2) отметить необходимые объекты для сбора (изображения, заголовки, ссылки, блоки текста и т.д.);

3) запустить систему (плагин).

Такие программы не требуют дополнительных навыков. На третьем этапе они автоматически собирают, обрабатывают и предоставляют интересующие данные, которые можно сохранить в различных форматах (JSON, CSV и т.д) [425]. Основной недостаток данного подхода заключается в отсутствии возможности для автоматизации всех этапов описанного выше алгоритма. Такое ограничение сказывается на применимости этого подхода в масштабируемых проектах, требующих организации множественных циклов сбора данных [425].

Второй подход состоит в написании парсеров для сетевых ресурсов. Для его реализации существуют готовые вспомогательные программные инструменты -специализированные фреймворки и библиотеки, такие как Scrapy [458], Beautifulsoup [292] или Grab [356]. Данный подход позволяет автоматизировать процесс парсинга сетевых ресурсов, сбора контента в режиме реального времени и постоянного обновления. Однако необходимо учитывать, что есть некоторые ограничения и сложности, которые накладывает непосредственно сам сетевой ресурс: лимит количества запросов, функция reCAPTCHA и другие методы защиты. В целом второй подход способен обеспечить указанные выше потребности расширения и автоматизации процесса парсинга сайтов [425].

В рамках проведенного исследования на практике были изучены возможности библиотеки BeautifulSoup (Рисунок 5.10, слева) и программной платформы (фреймворка) Scrapy (Рисунок 5.10, справа). Оба эти решения способствуют реализации полного цикла сбора данных с сетевых ресурсов, однако имеют отличия с точки зрения технологии их применения [40, 425].

BeautifulSoup представляет собой библиотеку для извлечения необходимых данных с веб-страниц. Однако в большинстве случаев использование BeautifulSoup должно сопровождаться применением вспомогательных программных пакетов, таких как "urlib2" или "requests". Эти библиотеки

обеспечивают загрузку веб-страниц для последующего использовать BeautifulSoup на этапе анализа исходного HTML-кода. При этом, благодаря своей относительной простоте, библиотека BeautifulSoup подходит для начинающих разработчиков [425].

Рисунок 5.10 - Порядок настройки работы с данными веб-страниц [425] Scrapy представляет собой фреймворк для скраппинга веб-страниц. Порядок работы с этим фреймворком предполагает создание кода для «паука», в котором прописывается как обрабатывать страницу или группу страниц. Главной особенностью данного фреймворка является то, что он построен на асинхронной сетевой библиотеке Twisted. Поэтому Scrapy реализуется с использованием асинхронного кода, обеспечивающего параллелизм. Такой подход в разы повышает производительность «паука» [425].

Сравнение двух концепций представлено в таблице (Таблица 5.2). Так, можно говорить, что за относительную простоту реализации решений на основе BeautifulSoup приходится расплачиваться ограниченным функционалом. По факту, данная библиотека позволяет лишь анализировать загруженный HTML-код и извлекать из него информацию. В то время как Scrapy, полноценная и мощная платформа с множеством дополнительных функций. К примеру, в Scrapy есть своя библиотека «scrapy-proxies», которая позволяет отправлять HTTP-запросы с использованием случайного прокси-сервера из списка [425].

Таблица 5.2 - Сравнительный анализ BeautifulSoup и Scrapy [425]

Показатель \ ПО BeautifulSoup 8егару

Изучение Относительно прост в освоении, подходит для начинающих Необходимо изучать большой объем документации

Комьюнити Практически отсутствует Множество проектов, плагинов, открытый исходный код, множество обсуждений на различных форумах разработчиков

Гибкость Практически отсутствует Можно легко разработать собственное промежуточное программное обеспечение или конвейер для добавления пользовательской функции, простой в обслуживании

Производительность Необходим импорт дополнительной библиотеки multiprocessing для повышения производительности Высокая производительность. Веб-страницы обрабатываются в короткий промежуток времени, во многих случаях необходимо устанавливать задержку на загрузку, чтобы избежать блокирования «паука»

5.2.1.1.1 Извлечение данных со страниц онлайн-ресурсов и социальных сетей

Оценка применимости различных подходов к сбору открытых данных об инфраструктуре территории проводилась на основе анализа популярных ресурсов сети Интернет, содержащих информацию в формате объявлений об операциях с объектами недвижимости [56, 67, 121, 132, 173, 174, 185, 257, 270]. Отдельно были рассмотрены ведущие электронные торговые площадки России с информацией о выставленных в аукционных лотах объектах, такие как «РТС-тендер», «Сбербанк-АСТ» и др. [69, 198, 216, 241], а также федеральный реестр данных по объектам недвижимости Росреестра [177].

Для каждого из выбранных источников была разработана структура данных, содержащихся в объявлениях и лотах. Рассматривались основные действия с недвижимостью (покупка или продажа, сдача аренду или найм) и типы объектов. По полученным видам объявлений была проведена полная детализация данных. Такая процедура проводился в целях согласования порядка сбора информации с сайтов-источников [40, 425].

Сравнение показало, что для всех сайтов получились разные структуры данных по объектам. Поэтому было решено для каждого из источников разработать отдельный модуль по сбору данных об объектах недвижимости на

языке Python на основе упомянутых выше библиотеки BeautifulSoup или фреймворка Scrapy [40].

Результаты исследований и разработки модулей позволили сформировать единую процедуру работы с подобными онлайн-площадками. Получившийся порядок сбора данных был обобщен в виде метода парсинга сетевых ресурсов по объектам недвижимости, состоящего из следующих этапов [40, 425]:

1. Определяется «тяжелая» ссылка, перейдя по которой можно получить ссылки на объявления со всех регионов страны.

2. С использованием указателя ресурса составляются ссылки на объявления, таким образом, парсер получает ссылки для дальнейших действий по сбору данных.

3. Определяется количество страниц, на которых находятся ссылки на объявления.

Это необходимо для определения количества итераций по получению ссылок на страницы объектов. Для этого по полученной ссылке на вид недвижимости в регионе осуществляется переход на первую страницу. По DOM-дереву определяется указатель, содержащий перечисления номеров страниц. Определяется номер последней страницы.

4. Проводится постраничный сбор ссылок на объекты, а также выборка данных из заголовков объявлений.

Для этого по DOM-дереву парсер определяет заголовок объявления и в теге <a> определяет значение ссылки по атрибуту "href". Кроме того, сам заголовок содержит в себе текстовую информацию об объекте. Например, "3-к квартира, 56 м2, 2/4 эт. в Волгограде". Из этого заголовка можно определить, что объектом продажи является трехкомнатная квартира, площадью 56 квадратных метров, располагающийся на втором этаже четырехэтажном доме. Поэтому этот заголовок также должен быть сохранен.

Под заголовком объявления, как правило, находится цена объекта. Для ее сохранения в DOM-дереве определяется соответствующий тег <div> со следующим описанием класса: "js-catalog_after-ads .description .about".

5. После получения ссылок на все объекты, парсер начинает сбор оставшихся данных непосредственно со страниц объявлений.

Эти данные находятся в DOM-дереве в соответствующем теге <ul> со следующим описанием класса: ".item-view-block .item-params .item-params-list". Здесь в каждом HTML-элементе под тегом <li> находятся основные характеристики объекта. Они считываются в зависимости от вида и сохраняются во временные переменные.

На этих же страницах также находится информация об адресе объекта. Расположена она в DOM-дереве под тегом <div> с описанием класса "item-map.js-item-map .item-map-location" и представлена рядом тегов <span>, содержащих полный адрес объекта.

6. Все найденные данные на странице объявления заносятся в справочник, поля которого соответствуют основным характеристикам объекта.

7. Данные сохраняются в файл формата JSON для последующей их обработки.

5.2.1.1.2 Сбор картографических и ГИС-данных

Для получения комплексного описания объектов территории и организаций был разработан модуль сравнения данных картографических сервисов. В качестве источников входной информации использовались интерфейсы API картографических сервисов «Яндекс.Карты» [269] и «Карты Google» [354].

Собираемые данные обрабатывались согласно следующему принципу [40]:

1) при наличии организации или объекта в обоих источниках, сведения о них обобщались и вносились в итоговую таблицу;

2) при наличии организации или объекта только в одном из источников, сохранялись имеющиеся по нему данные.

При этом сведения об организации, такие как номера телефонов, адреса, координаты, ссылки на официальные сайты приводились к общему виду. Так, для хранения адресной информации, был разработан единый нормализованный

реестр. И каждая организация была отнесена к некоторой категории или категориям, соответствующим ее роду деятельности [40].

Получение данных об организациях с «Яндекс.Карт» возможно средствами компонента API «Яндекс.Организации». Сервис позволяет искать такие виды объектов, как дома, улицы, достопримечательности, кафе и другие объекты. Результаты поиска возвращаются в формате JSON или JSONP [40].

Средства API вводят ограничения на количество получаемых за один запрос данных (до 500 объектов) и общее количество запросов в сутки (всего до 500). Однако для оптимизации запросов возможно уточнение результатов за счёт ограничения области поиска в виде прямоугольной зоны, которая описывается угловыми географическими координатами, либо по радиусу вокруг точки поиска [40].

Поиск происходит как по имени организации, так и по ее категориям. Исходя из описанного механизма, было принято решение по использованию в качестве текстовых запросов имена категорий организаций, используемых в Яндекс. Например, для вывода перечня школ в городе Волгограде используется следующий запрос [40]:

https://search-maps.yandex.ru/v1/?text=Общеобразовательная школа&ЬЬох=44.10882555, 48.41330622~44.68953248, 48.88720444&^рп=1^у pe=biz&results=50 0&lang=ru_RU&apikey=КЛЮЧ_API_ЯНДЕКСА

Получаемый ответ в формате JSON состоит из нескольких разделов. В одном из них («features») находятся результаты поиска в виде вложенных объектов со сведениями об организациях, такими как название, адресная информация, перечень контактных данных, время работы, категории и т.д. [40].

Получение данных с сервиса «Карты Google» в целом соответствует описанной выше процедуре для «Яндекс.Карт», включая, например, особенности ограничений на запросы. Итоги совместного сбора и сравнительной обработки данных обоих этих сервисов позволили отработать технологии получения ГИС-информации в виде, удобном для последующего комплексного исследования [40].

5.2.1.1.3 Организация доступа к данным ресурсов «Открытого правительства»

и государственной статистики

Статистическая информация и ведомственные открытые данные содержат коррелирующие по содержанию сведения и, зачастую, имеют идентичную организацию порядка доступа к ним. Большая часть данных Росстата, а также данные, выкладываемые министерствами и госорганами регионов распространяются в форматах «.csv», «.xml», «.doc», «.xls» и др. Некоторым недостатком такого способа подачи является необходимость организации централизованной выгрузки с сетевых ресурсов большого количества разрозненных файлов и их предобработки, включая разбор и объединение данных в требуемые для дальнейшей работы структуры [40].

Однако часть данных «Открытого правительства» концентрируется в рамках специализированных автоматизированных систем, имеющих, в том числе, доступ через сайты в сети Интернет. Такие ресурсы могут предоставлять доступ к данным с использованием API. У этого способа также есть свои особенности, в частности, ограничения доступности серверов и, как следствие, скорости получения данных, а также внутренняя политика доступа к информации [40].

Исследование такого класса ресурсов проводилось на примере портала «Реформа ЖКХ» [206]. Доступность данных тестировался с помощью официального API сайта «Реформа ЖКХ» [206], а также с помощью сторонних программ-парсеров. При этом применение технологии парсинга в целом аналогично описанному выше подходу и показало свою эффективность, например, для задач сбора информации о домах конкретного региона [40].

Примечание. Для целей комплексного анализа жилой инфраструктуры в городах России более технологичным является комплексное получение данных с помощью API «Реформа ЖКХ». При этом имеется возможность сразу получать информацию по управляющим организациям и многоквартирным домам (МКД) в их управлении, получать данные о реализации региональных программ по переселению и мониторингу реализации региональных программ капремонта [40].

В рамках взаимодействия ВолгГТУ и «Реформа ЖКХ» было получено официальное разрешение на чтение данных автоматизированной системы с помощью ее API. Обмен запросами между разработанным программным инструментом извлечения данных и системой «Реформа ЖКХ» был организован с помощью GET и SET методов согласно регламенту автоматизированной системы. Это обусловило специфику получения данных в соответствии со структурой хранения и доступа в системе «Реформа ЖКХ», позволив при этом получить масштабные выборки сразу целиком по нескольким регионам. Для работы с сервисом был разработан специальный алгоритм (Рисунок 5.11) [40].

Алгоритм представлен в виде последовательного обхода всех страниц набора методов для всех субъектов Российской Федерации и состоит из нескольких этапов [405]:

1. Создание списка всех идентификаторов субъектов РФ.

2. Отправка единичных запросов для каждого метода всех регионов и внесение общего количества страниц в базу данных для выбранных методов API «Реформы ЖКХ».

3. Обход всех страниц методов для субъектов, загруженных в базу, и сохранение полученных данных в базу данных.

Первый этап проводился вручную: была создана таблица, которая хранила название субъекта и его уникальный идентификатор AoGuid (базовый идентификатор географического объекта в системе Федеральной информационной адресной системы, Россия). Было занесено 85 записей на каждый субъект РФ соответственно [405].

Второй этап производился в следующем порядке [405]:

1) создан шаблон данных для таблицы регионов, где каждая запись региона хранит, помимо идентификатора и названия, объект, где ключом является название метода запроса к API «Реформы ЖКХ», а значением является массив страниц;

2) после опроса через HTTP-запросы всех регионов по набору методов, массивы страниц были заполнены числовыми значениями номера страницы.

Рисунок 5.11 - Алгоритм сбора данных с помощью API «Реформа ЖКХ» Третий этап является ключевым для реализации сбора и сохранения всех данных. Схема собираемых данных выглядит следующим образом: название коллекции данных сформировано из имени региона и названия метода. Значение

коллекции - это номер загруженной страницы и данные, полученные после запроса от ресурса «Реформа ЖКХ» [405].

Хранение страниц обусловлено тем, что при возможных непредвиденных ситуациях (падение интернет-соединения, выключение электросети, некорректные ответы от сервера и прочие), программа может прекратить работу. При этом массив данных очень велик, и загрузка каждого набора данных занимает продолжительное время. В связи с этим в первую очередь происходит сверка уже загруженных страниц с массивом номеров страниц, где результатом является массив страниц, которые необходимо загрузить [405].

Таким образом, алгоритм реализует следующие шаги [405]:

1) из таблицы субъектов берется один субъект - в субъекте хранятся данные о методах, которые ему необходимо использовать;

2) запускается внутренний цикл, который берет один метод и производит создание массива страниц, необходимых для загрузки (дозагрузки);

3) начинает работу вложенный цикл, производящий распараллеливание на указанное количество запросов (в среднем от 10 до 20, чтобы предотвратить чрезмерное количество одновременных запросов к серверу, иначе он перестает взаимодействовать и возвращает ошибку);

4) после трех циклов, где каждый из них асинхронный и требует указания обратного вызова (что обусловлено работой с базой данных и сетью Интернет), производится НТТР-запрос, где входными параметрами являются уникальный идентификатор субъекта AoGuid (полученный в первом цикле), название метода (полученное из второго цикла) и номер страницы;

5) после формирования и отправки текущего запроса, происходит ожидание ответа от сервера;

6) после получения ответа от сервера:

а) при благоприятном исходе, происходит формирование записи для коллекции и отправка в базу данных, по результату которой происходит обратный вызов, необходимый циклу для совершения следующей итерации;

6) при неблагоприятном исходе, обратный вызов совершается без дополнительных действий, чтобы при следующем запуске программы, запрос был совершен заново, т.к. зачастую ошибкой является превышенное время ожидания от сервера «Реформа ЖКХ»;

7) после завершения обращения по всем страницам происходит обратный вызов для итерации по следующему методу;

8) по завершении всех методов происходит итерация по субъекту РФ.

5.2.1.1.4 Автоматизация сбора и актуализации учётных данных по объектам недвижимости

Для обогащения информации об объектах недвижимости контентом специализированных БД и кадастров был разработан подход к автоматизации процесс формирования и актуализации учётных сведений по сетевым базам государственного адресного реестра ФИАС, базы данных Центризбиркома, индексного реестра Почты России, Общероссийского классификатора объектов административно-территориального деления и др., состоящий из следующих этапов (Рисунок 5.12):

1) на первом этапе включает подготовку БД, а также необходимой информации для подключения к ней (строки подключений, разрешения и т.д.);

2) на втором этапе выполняется анализ потребностей в определенной информации по объектам и принятие решения о поиске данных;

3) данное решение находит свое отражение в запросе пользователя, который создается на третьем этапе, отражающего набор получаемых сведений об объекте недвижимости и содержащего набор входных данных, позволяющих системе идентифицировать этот объект или группу объектов;

4) на четвертом этапе пользователь может принять одно из двух решений:

- задать новые настройки поведения системы с целью определения особенностей процесса подключения источников данных, работы с форматами, в которых представлены данные в этих источниках, определения действий с

полученными данными, а также задать представление выходных данных, которые будут получены от системы по завершении ее работы;

- принять решение об использовании настроек, установленные им ранее при предыдущих сеансах работы с системой;

Рисунок 5.12 - Процесс автоматизированного получения учётных данных об объектах недвижимости (нотация ВРМЫ)

5) на пятом этапе система устанавливает подключение к источникам данных, определенные пользователем на четвертом этапе, запуская модули, отвечающие за процесс получения информации из этих источников - по завершении данного этапа система готова принять новые данные из источника и ожидает сигнала к началу работы от модуля обновлений;

6) на шестом этапе модуль обновления системы осуществляет запросы к базе данных системы с целью выяснения версии (времени последнего

обновления) содержащихся в ней сведений, и к каждому из источников данных, подключенных на пятом этапе также с целью выяснения версии сведений, содержащихся в этом источнике - после получения результатов этих запросов модуль обновления системы сравнивает их и принимает решение о дальнейшем поведении системы с учетом настроек, заданных пользователем на четвертом этапе, а по завершении этапа модуль обновления системы передает свое решение модулям системы с пятого этапа;

7) на седьмом этапе система работает в одном из режимов, выбор которого зависит от настроек пользователя и решения системы обновления на четвертом и пятом этапах:

- получение всех доступных в источнике сведений по каждому из объектов недвижимости;

- получение только новых данных из источника;

8) на восьмом этапе система осуществляет преобразование данных, полученных из источника в формат, позволяющий их размещение в базе данных системы;

9) девятый этап предполагает изменение базы данных системы - новые данные об объектах недвижимости добавляются, а изменившиеся записываются в поля существующих записей, данные также могут быть удалены или помечены как не действующие, если источник данных заявит об этом (выбор конкретного действия над такими данными осуществляется системой в зависимости от связи этих данных с другими, находящимися в базе);

10) на десятом этапе система осуществляет поиск данных по объектам недвижимости, запрошенным пользователем в своей базе данных - если данные найдены, то система формирует результат, который передает пользователю в формате, заданном на четвертом этапе.

11) по завершении всех этапов система завершает работу, и пользователь может вернуться ко второму этапу в любой момент времени для повторения процесса поиска и/или актуализации данных об объектах недвижимости.

5.2.1.2 Человеко-машинный метод сбора пространственной информации

Обширные пространства, занимаемые УТ, зачастую не позволяют ответственным службам оперативно зарегистрировать факты случившихся происшествий, аварий, преступлений, нарушения процессов функционирования и обеспечения требуемыми ресурсами объектов инфраструктуры которые будем называть событиями [72, 98, 153, 157, 162, 221]. Поэтому первыми о возникающих проблемах в городской среде обычно узнают жители и сообщают по доступным каналам связи аварийным и экстренным службам (Рисунок 5.13) [125, 156].

Обнаружение Передача информации о событии Регистрация

события через доступные каналы связи события

Житель

Специалист

-< > Передача информации ответственной службе 4—'

|—О Выезд специалиста для проверки информации

Обнаружение события >—► Вызов специалистов всех служб, ответственных за ликвидацию >—► Ликвидация события

Рисунок 5.13 - Алгоритм обнаружения и ликвидации события [156]

Процедуры работы с информацией о событиях в ПРСТС упростились за счет использования мобильных приложений и ресурсов [172, 338, 363, 364, 384, 444, 484], что позволяет автоматизировать этапы регистрации, обработки и распространения данных о событии (Рисунок 5.14). Основными задачами обработки информации о событиях являются [156]:

1) категориальной идентификации события;

2) получения максимального спектра данных из доступных на момент регистрации источников (словесное описание очевидцев, фото- и видеофиксация, аудиопоток, показания датчиков);

3) геопространственной и временной привязки данных о событии;

4) проверки актуальности, достоверности и точности информации.

В соответствии с задачами процесса обработки информации о событиях в ПРСТС [253], был предложен метод регистрации распределенных в пространстве событий [156]:

Рисунок 5.14 - Процесс автоматизированного обнаружения и ликвидации событий [156]

1. Категориальная идентификация. События должны распределяться по предварительно заданным категориям, т.к. за устранение конкретных дисфункций городской инфраструктуры несут ответственность соответствующие службы. Исходя из этого, выполняется двухуровневая классификация событий: а) во-первых, в зависимости от принадлежности к тем или иным ответственным административным подразделениям; б) во-вторых, исходя из однозначности трактовки и привязки события к определенной категории регистрирующим его пользователем.

2. Геопространственная привязка. Геоданные о местоположении события в пространстве должны быть автоматически определены с помощью доступных на мобильном устройстве пользователя модулей спутниковой навигационной системы (GPS/ГЛОНАСС) и/или посредством локализации относительно базовых станций операторов сотовой связи. Возможность корректировки координат события при его дистанционной регистрации в зоне прямой видимости также должна быть предусмотрена.

3. Привязка ко времени. Данные по времени и дате наступления события должны определяться автоматически посредством мобильного устройства, фиксирующего событие, с возможностью корректировки.

4. Информационная характеристика. Необходимо обеспечить возможность получения разнородных данных о событии, фиксируемых пользователями на месте инцидента в виде текстовой описательной информации, графической схемы события, аудио-, видеопотока, фотографий и файлов.

5. Точность и однозначность. Каждое событие должно проверяться по месту (п.2), времени (п.3) и категории (п.1) на совпадение с другими событиями, чтобы исключить создание дублирующих записей для одного и того же события. В зависимости от размера обслуживаемой территории и частоты происходящих событий, необходимо вводить поправочный коэффициент для радиуса опасной зоны и интервала времени регистрации событий [469].

6. Достоверность. Необходима организация единого информационного пространства с разграничением прав доступа при работе с данными посредством идентификации реальных пользователей, обладающих обычными или административными правами. Для этого требуется учет уникальных персональных данных пользователей, в частности ФИО, мобильного телефона, адреса электронный почты и другой информации, которая может помочь специалистам при необходимости уточнении данных о событии [80].

7. Актуальность и срочность. События должны иметь приоритет, зависящий от субъективной оценки пользователя, которую он выставляет в целях указания критичности инцидента и срочности его устранения, а также объективно рассчитываемый от числа уникальных пользователей (п.6), которые зарегистрировали одно и то же событие. При этом значимость шкалы субъективной оценки события должна корректироваться в зависимости от прав доступа (п.6). Если зафиксированы попытки множественной регистрации одного и того же события, то у события, уже находящегося в информационной базе, приоритет должен увеличиваться без внесения дублирующих записей (п.5), но с агрегированием вносимой другими пользователями информации (п.4). Приоритет должен влиять на очередность ликвидации событий.

8. Доступность. Разрабатываемые согласно пп. 1-7 инструментарий поддержки принятия решений должен быть удобен в применении для широкого круга пользователей, обладающих различными профессиональными навыками, в том числе, муниципальных чиновников, специалистов городских служб и жителей [151]. Применяемые решения должны быть однозначно трактуемы всеми

категориями пользователей для внесения таргетированных и информативных данных.

Метод регистрации событий позволяет оперативно собирать наиболее актуальные и достоверные данные об изменении состояния, нарушении нормальной работы, нештатных, аварийных и критически опасных ситуациях, возникающих в процессе функционирования служб жилищно-коммунального хозяйства, объектов инженерных сетей и коммуникаций, систем энергоснабжения и энергопотребления, а также других технических систем городского жизнеобеспечения [156].

5.2.1.3 Подходы к интеллектуальному анализу геопространственных данных и выявлению дополнительных свойств объектов инфраструктуры

Применение интеллектуального анализа данных в процессе интегрированной обработки исходных данных мониторинга объектов территории позволяет получить уникальные или дополнительные сведения о состоянии инфраструктуры. Кроме того, соответствующий методический инструментарий является основой проверки качества данных для исключения выбросов и подложной информации. В общем виде методический комплекс предобработки данных можно пространственных данных о территории можно представить на схеме (Рисунок 5.15).

5.2.1.3.1 Извлечение информации из текстов на естественном языке

Специфика данных о городской инфраструктуре требует учёта не только формализованных данных, представленных в структурированных выборках, но и информации от населения, получаемой зачастую в виде записей на естественном языке. Такая информация может оказаться наиболее подробной, проверенной и/или актуальной для конкретной ситуации [40].

Математические методы обработки и анализа данных об объектах инфраструктуры

Алгоритм выявления ангажированных источников информации

Метод извлечения структурированной информации об объектах из текстов на естественном языке

База данных мониторинга

I

Метод валидации

информации на

ь основе сравнения

р изображений с

использованием

алгоритма рНазЬ

Метод аналитической фильтрации информации с учётом контекста области исследования

Алгоритм выявления «подозрительных» записей об объектах

Рисунок 5.15 - Технология интегрированной обработки данных

об объектах территории Такие данные об объектах инфраструктуры содержатся в не структурированном виде в пользовательских описаниях в социальных сетях и на тематических сайтах в объявлениях об операциях с недвижимостью. В связи с этим решалась задача по извлечению данных об объектах недвижимости из их описания в текстах на естественном языке [409]. Соответственно необходимо было выбрать технологию семантического анализа содержащейся в них информации и разработать алгоритм её структуризации [40].

5.2.1.3.1.1 Алгоритм извлечения структурированного описания объекта недвижимости с помощью Томита-парсера

Анализ существующих решений [166, 284, 294, 327, 349, 359, 430, 494], описанный в авторской статье [66], показал соответствие технологии, реализованной в Томита-парсере [240], поставленным задачам извлечения структурированного описания. В связи с этим алгоритм, учитывающий его функциональные возможности должен позволить организовать автоматизированное извлечение фактов из записи на естественном языке в соответствии с имеющимися формальными грамматиками (Рисунок 5.16). Полученная из записи информация должна структурироваться. В качестве

возвращаемого значения необходимо получать описание объекта с извлеченными из текста фактами [66].

Рисунок 5.16 - Алгоритм извлечения структурированного описания

объекта недвижимости [66] В процессе разработки алгоритма извлечения описания объектов недвижимости был решен ряд задач по работе со структурой и составом данных в записях. Так в первую очередь в качестве входных данных было организовано получение предварительно обработанных записей без знаков препинания в виде текстовых файлов, имена которых задаются конфигурационным файлом Томита-парсера "соп1%р10:о" [66].

Анализ примеров записей о продаже либо аренде недвижимости показал, что как таковой четкой структуры у данных записей нет. Следовательно, нельзя

утверждать, что в записях будут присутствовать определенные факты, т.к. в ряде случаев записи о продаже жилья предоставляют только минимальную общую информацию о недвижимости и телефон владельца для получения подробностей. Поэтому было предусмотрено, что если в обрабатываемой записи не обнаруживается некоторых фактов, соответствующие им поля объекта сохраняют значение по умолчанию: «0» для числовых полей и пустая строка для строчных [66].

Однако были выделены несколько ключевых фактов, для которых в любом случае необходимо обнаружить значения в записях, чтобы полученное описание объекта было пригодно для дальнейшего анализа. Состав этих фактов приведен в таблице (Таблица 5.3). Таким образом, далее стояла задача написании формальных грамматик Томита-парсера для определения в тексте записей этих фактов [66].

Таблица 5.3 - Ключевые факты в структуре записи с объявлением

об объекте недвижимости [66]

Факт Принимаемые значения

Адрес Улица, номер дома и корпус (при наличии)

Цена "Руб", "тыс руб", "млн руб" и т.д.

Площадь "м2", "кв м", "м кв" и т.д.

Район города Одно слово из словаря

Количество комнат Прямое указание количества либо слова типа "двухкомнатная" со всеми возможными вариациями и ошибками написания

5.2.1.3.1.2 Формальные грамматики для ключевых фактов по объектам недвижимости

Для корневого нетерминала адреса "Address" предусматривается возможность вывода цепочек, которые можно идентифицировать как последовательность из названия улицы (нетерминал "Street") и номера дома (нетерминал "House") [66].

Необходимо учитывать, что в названии улиц могут находиться как существительные, так и прилагательные, согласованные друг с другом в роде,

числе и падеже. Кроме того названия могут содержать порядковые номера ("51-й Гвардейской Дивизии") или названных в честь некоторой личности ("им К Симонова") [66].

Номером дома с точки зрения данной грамматики является цифра, либо цифра с буквенным индексом, идущие непосредственно после названия улицы. Между названием улицы и номером дома возможно также наличие ключевого слова-дескриптора «д» либо «дом». Также данная грамматика извлекает информацию о корпусе дома при наличии (нетерминал "Korpus"). Все нетерминалы интерпретируются грамматикой как соответствующие факты [66].

Далее необходимо было написать формальную грамматику для цен, площадей и количества комнат. При этом грамматики для цен и площадей интерпретирует цепочки, представляющие собой числа с идущими после них ключевыми словами-дескрипторами типа "руб", "р", "тыс р" и "м2", "кв м", "метров квадратных" соответственно. Грамматика для количества комнат интерпретирует цепочки вида "двухкомнатная", "4хкомнатная" и т.д. включая возможные альтернативные варианты написания (через дефис, через пробел и прочее) [66].

Для тестирования интерпретации районов города были подготовлены словарь и формальная грамматика на примере города Волгограда. Соответственно данная грамматика интерпретирует цепочки, представляющие собой одно слово из словаря. При этом была предусмотрена обработка просторечных названий районов с заменой их при выдаче в качестве результата на полные. Так, "ТЗР" из записи при выдаче в XML-файл попадает как "Тракторозаводский" [66].

Кроме того, была добавлена грамматика для контактной информации. Цепочки, удовлетворяющие регулярному выражению для мобильных телефонов, интерпретируются как телефон владельца недвижимости. Извлекаемые факты о контактах, связанных с объектом недвижимости, не участвуют непосредственно в анализе ценообразования, однако применимы для проверки записей на уникальность и достоверность [66].

5.2.1.3.2 Валидация информации на основе сравнения изображений

Вопрос валидации получаемых из сети данных неизменно возникает в процессе работы с любой информацией, а особенно свободно размещаемой пользователями. Речь идет о проверке одного из ключевых свойств информации -актуальности данных, получаемых из первоисточников. Так, например, часть объявлений об объектах недвижимости содержит заведомо поддельные сведения. Такие объявления размещаются в целях коммерческой рекламы, мошенничества или в результате халатного подхода к внесению данных. В связи с эти необходимо определять некоторые ключевые признаки, по которым можно было бы с определенной долей уверенности идентифицировать уникальность и достоверность каждого отдельного объявления [40].

Совокупность отдельных обозначаемых в объявлениях фактов об описываемом объекте недвижимости в текстовом формате может выступать в качестве валидационных признаков. Однако использование нескольких фактов в сочетании с проверкой оригинальности представленных в объявлении фотографий объекта недвижимости является более эффективным подходом. Наличие двух объявлений с одинаковыми фотографиями, но различными контактами владельца или данными о состоянии описываемого объекта, является поводом для подозрений относительно подлинности одного из них [40].

На данный момент существует значительное количество методов сравнения изображений [187]. Проведенный анализ, представленный в авторской статье [486], позволил выделить методы на основе «опорных точек» [41, 271, 272, 287, 298, 319, 373, 413, 428, 447, 455, 461, 467, 477, 478] и перцептивные методы [334, 431, 437, 480, 496]. Решение, основанное на подсчете и сравнении хэшей целевых изображений, является более быстром в работе, чем разработки на основе вычисления дескрипторов. При этом степень достоверности получаемых результатов является довольно высокой [496], хоть перцептивные методы и уступают по точности методам на основе «опорных точек» [486].

В рамках данного исследования методы сравнения на основе хэш были применены для анализа изображений в объявлениях об операциях с недвижимостью. Такой аналитический подход призван стать частью звена валидации в едином процессе предобработки записей об объектах недвижимости [475]. Хэш-метод позволяет с достаточной точностью определять, являются ли фотографии, прикрепленные к каждому конкретному объявлению, копиями фотографий из других объявлений. Обнаружение совпадений становится достаточным основанием для дальнейшей более тщательной проверки и, возможно, отсеивания [486].

Фотографии из источников не хранятся в созданной системе для обработки данных с сетевых ресурсов. Доступ к ним реализуется по прямым ссылкам, получаемым в результате парсинга [425]. Поэтому используемый подход к сравнению изображений удовлетворяет ряду требований и, в первую очередь, позволяет соблюдать условия по скорости обработки большого потока визуальных данных, получаемых непосредственно с сетевых ресурсов [40].

Следует также учитывать, что пользователи, размещающие ложные объявления, могут искажать прикрепляемые к ним оригинальные изображения. Это делается с целью обеспечения псевдоуникальности изображений. А с технической точки зрения это может затруднить автоматическое обнаружение идентичных изображений и их первоисточника. Таким образом, задача сводилась к сравнительному анализу изображений и выявлению среди них либо одинаковых, либо искаженных вариаций одного исходного изображения [486].

Анализ обрабатываемых источников объявлений [425] позволил выявить такие возможные искажения изображений, как размещение водяных знаков; цветокоррекция; обрезка; деформация; зеркальное отображение; поворот; масштабирование [486].

Используемый алгоритм сравнения должен был с достаточной точностью распознавать две копии одного и того же изображения, подверженные одному или нескольким из перечисленных выше видов искажения. Поэтому возможности

методов были исследованы на предмет наибольшего удовлетворения требованиям валидации изображений за максимально короткое время [486].

Анализ результатов сравнения [486] показал неэффективность уменьшения строгости по расстоянию Хэмминга более 15. Итоговые результаты тестирования приведены в таблице (Таблица 5.4).

Таблица 5.4 - Результаты применения исследованных хэш алгоритмов [486]

Искажение Хэш алгоритм

aHash pHash dHash

Расстояние Хэмминга = 0

Crop 41 1 2

Mirror 5 0 0

Color Correction 1689 1867 1348

Rotation 118 1 6

False Positives 1 0 0

Расстояние Хэмминга <= 5

Crop 1261 1 2

Mirror 52 0 7

Color Correction 2150 2150 2150

Rotation 1732 297 1065

False Positives 732 0 3

Расстояние Хэмминга <= 10

Crop 2070 1080 1393

Mirror 208 0 23

Color Correction 2150 2150 2150

Rotation 2122 1682 2012

False Positives > 2150 6 227

Расстояние Хэмминга <= 15

Crop - 1861 2040

Mirror - 0 76

Color Correction - 2150 2150

Rotation - 2056 2142

False Positives - 186 > 2150

Проведенные тестирования позволили сделать вывод, что наилучшим вариантом для использования является алгоритм pHash с порогом сравнения от 0 до 15. Выбранный алгоритм дает наибольшее количество успешно распознанных случаев искажения при относительно небольшом числе ложноположительных совпадений для заданной строгости сравнения [40].

5.2.1.3.3 Аналитическая фильтрация информации с учётом контекста области исследования

При работе с информацией, представленной в объявлениях, необходимо, как отмечалось выше, осуществлять фильтрацию агентских и заведомо ложных объявлений, часто несущих недостоверную информацию, например, о несуществующих объектах. С известной долей достоверности такие объявления можно выявлять при помощи фильтрации на основе набора формальных признаков, подвергать сомнению их достоверность и соответствующим образом учитывать этот факт при оценке свойств описываемых объектов, например, путем снижения оценок, источником данных для которых послужили объявления, признанные «подозрительными».

Выявление агентов должно выполняться на регулярной основе, т.к. даже уже занесенная в базу исследования информация может оказаться начальным звеном цепи коммерческих объявлений. Для этого был разработан следующий алгоритм проверки, повторяемый по системному таймеру каждые N часов (Рисунок 5.17):

1) подключение к БД платформы;

2) выборка неагентских объявлений, поступивших за последние N часов;

3) проверка телефонов из объявлений по коллекции «Риелтор» БД платформы (если телефон обнаружен, продавец признается агентом);

4) проверка телефонов из объявлений на повторение у различных продавцов в БД (при обнаружении повторения все продавцы признаются агентами);

5) проверка уникальных объектов в объявлениях от продавцов из выбранных объявлений (если таких объектов больше 5 у одного продавца, он признается агентом).

При этом сохранение всей поступающей информации должно производиться по следующему принципу: если информационная база получала несколько объявлений из разных источников, но эти объявления описывали один объект, создавались отдельные записи в БД для каждого, после чего созданные

записи объединялись в «комплекс». Объявления одного «комплекса» при подсчете уникальных объектов учитывались как одно.

Рисунок 5.17 - Алгоритм выявления агентов Выявление «подозрительных» объявлений выполняется по схожему принципу (Рисунок 5.18):

1) подключение к БД внешней платформы;

2) выборка неподозрительных объявлений, поступивших за последние N часов;

3) проверка картинок, прикрепленных к объявлениям, на повторение в других неподозрительных объявлениях, не связанных с проверяемыми в «комплекс» (при обнаружении совпадения неподозрительными остаются только объявления, загруженные раньше и объединенные с ним в «комплекс»);

4) проверка цены на заниженность относительно средней по рынку аналогичных объектов за последние 2 месяца (если цена ниже на 15% и более, объявление признается «подозрительным»).

Рисунок 5.18 - Алгоритм выявления «подозрительных» объявлений

5.2.1.3.4 Математические методы обработки и анализа данных об объектах инфраструктуры

При решении задачи валидации данных об объектах инфраструктуры было решено не останавливаться на сравнительном анализе изображений. Кроме того, необходимо было по возможности точно выявлять источники не ложной, но дублирующей информации, общую корректность данных, а также их распределение при фильтрации по различным параметрам. С этой целью были исследованы методы статистического анализа. Последовательность решения задачи валидации включает следующие этапы [40]:

1) считывание данных в виде, выгружаемом с сетевых ресурсов;

2) определение в описаниях объектов параметров, которые позволят выявлять уникальность записей, а также таких параметров, изменение которых влияет на изменение цены объектов (при этом стоимостную оценку объектов предполагается использовать как универсальную характеристика для их сопоставления);

3) исключение параметров, которые не будут учитываться в работе, т.к. оказывают незначительное влияние при формировании цены объекта или не позволяют однозначно определять уникальность записей;

4) создание алгоритмов определения дубликатов описаний, в которых для анализа уникальности описаний объектов недвижимости выбираются следующие:

- ссылки на изображения;

- описание;

- цена;

- данные владельца (номер телефона и ФИО);

- площадь;

- адрес (район, улица, дом, этаж);

- количество комнат;

- год постройки;

при этом определение схожести объявлений основано на предложенной системе коэффициентов, определяющих значимость параметров (совпадение каждого из параметров двух объявлений увеличивает значение схожесть на определенную величину, и если схожесть будет выше определенного порогового значения, то объявления считаются одинаковыми и одно из них удаляется из выборки);

5) выгрузка данных в формате, удобном для чтения и обработки с помощью инструментария интерпретируемых программных языков (Python, R и другие такие языки удобны, в частности, тем, что зачастую имеют разработанные все необходимые математические методы);

6) кластеризация объявлений и определение тех, которые нельзя отнести к какому-либо кластеру с высокой доверительной вероятностью (для кластеризации предлагается использовать алгоритм нечеткой логики, а выборку разбивать на 3 кластера - кластеры с регулярной ценой, заниженной и завышенной);

7) проверка зависимости стоимости объектов от выбранных параметров и выявление наиболее значимых из них с помощью линейной регрессии;

8) анализ цен на объекты в выборке и определение выбросов значений.

Таким образом, учитывается вся последовательность шагов, которую

необходимо выполнить для сбора данных из гетерогенных источников в сети Интернет и их многоуровневой предварительной обработки [40].

5.2.2 Метод оценки фактического использования территории

Информационной базой оценки фактического использования урбанизированной территории является цифровая картографическая основа, задача подготовки и обновления которой в большой степени на сегодняшний день зависит от обработки данных дистанционного зондирования Земли (ДЗЗ). Для реализации этого подхода была решена задача комплексного удаленного мониторинга объектов инфраструктуры и природной среды в масштабе всей управляемой территории или даже макрорегиона расположения города с использованием моделей нейронных сетей и данные космической съемки

поверхности планеты [258, 328, 366]. Метод комплексной оценки фактического использования УТ на основе нейросетевоей классификации данных ДЗЗ представлен на схеме (Рисунок 5.19).

Рисунок 5.19 - Метод оценки фактического использования УТ на основе интеллектуального анализа спутниковых снимков

5.2.2.1 Метод оценки озелененности урбанизированных территорий с использованием моделей нейронных сетей

В рамках такого подхода было выдвинуто предположение о возможности разработки критериев оценки слоя «зеленой» инфраструктуры территории (древесного покрова УТ) на основе анализа спутниковых снимков. Основываясь на анализе предыдущих исследований [261, 277, 306, 320, 322, 348, 352, 382, 415, 452, 459], описанном в авторской статьей [495], изначально было принято решение ориентироваться на обычные спутниковые изображения, предлагаемые основными общедоступными картографическим сервисами от Google [354], Yandex [269], Bing [394], и т.д. В качестве эталонной территории рассматривался участок площадью 1 кв. км в междуречье рек Абин и Михале (44.665527 с.ш.,

38.192211 в.д.) в Абинском районе Краснодарского края, представленный на спутниковых снимках, предоставляемых компанией Яндекс [1] по данным «© 2012 DigitalGlobe, Inc., © ООО ИТЦ «СКАНЭКС», © CNES 2013». Озелененность такого участка, оцененная предлагаемым методом, принимается равной 1 Abin. При этом, основываясь на нормах озеленения, установленных Всемирной организацией здравоохранения [130], можно принять следующие значения критерия «зеленого» качества городской территории, измеряемые предлагаемым индексом [258]:

- менее 0,1 Abin - плохие условия;

- 0,1-0,4 Abin - удовлетворительные;

- 0,4-0,6 Abin - хорошие;

- более 0,6 Abin - отличные условия.

Разработанный метод оценки озелененности территории включает следующие этапы [495]:

1. Получение снимков исследуемой территории:

а) привязка к среднему пешеходному диаметру (снимок отображает квадратную территорию со стороной 850-1020 метров);

б) спутниковые снимки получаются при едином масштабе, соответствующем 1 метру в 2,5-3 пикселях, с любых, распространяемых по ссылкам, онлайн-карт (масштаб подобран с учётом разницы проекций снимков городов России, расположенных на всех широтах с севера на юг);

в) формирование изображения размером 2550*2550 пикселей.

2. Обучение нейронной сети:

а) подбор размера классифицируемого тайла (25-75 пикселей);

б) формирование обучающей выборки, включающей группы изображений с интересующими объектами (одна или несколько группы должны включать объекты и/или покровы растительного происхождения);

в) обучение классификатора на распознавание необходимых классов.

3. Классификация входного изображения:

а) использование нейронной сети, обученной на распознавание нескольких классов (например, "Trees", "Grass" and "Constructed");

б) создание полупрозрачной цветовой маски для найденных объектов, относящихся к интересующему классу (например, "Trees").

4. Оценка уровня озеленения территории:

а) определение количества единиц площади, покрытых деревьями;

б) расчёт индекса Abin, как отношения количества озелененных единиц площади к площади эталонного участка;

в) расчёт абсолютного значения площади озелененной территории в кв.м. Для классификации фрагментов спутниковых снимков на предмет

определения на них деревянистых зеленых насаждений предлагается использовать трехслойную свёрточную нейронную сеть (см. Рисунок 5.20) [495].

Рисунок 5.20 - Структура нейронной сети [376, 377]

В качестве исходных данных для классификации необходимо использовать фрагменты спутниковых снимков. По условиям метода оценки по индексу Abin, изображения должны соответствовать следующим требованиям [495]:

1) каждый фрагмент должен содержать объекты, относящиеся только к одному классу;

2) скриншоты должны делаться со спутниковых снимков, отображаемых на экране в едином масштабе, соответствующем 1 метру в 2,5-3 пикселях;

3) фрагменты одного класса должны быть в равном количестве получены со снимков разных исследуемых городов и прилегающих к ним территорий;

4) выборка городов должна быть сформирована из населенных пунктов, равномерно распределенных по территории страны на разной широте и долготе;

5) фрагменты одного класса должны включать максимальное разнообразие состояний, представленное на спутниковых снимках:

- для природных классов - разные сезоны (с листвой, без листвы, переходные состояния цвета), виды растений (хвойные, лиственные, кустарники, камыши, разнотравие, газоны), места произрастания (равнина, склоны, городская застройка разной плотности, парки), массовость (одиночные, массивы), и т.д.;

- для антропогенных классов - разные виды (жилая застройка, промышленная, дороги, инфраструктура), сочетания (комбинация объектов разного типа), массовость (одиночные, массивы), плотность, и т.д.;

6) однотипное содержание фрагментов одного класса должно быть в равной степени представлено на снимках разного периода и качества съемки;

7) объем набора данных каждого класса не должен отличаться от любого другого набора более чем на 30%.

В авторской статье [495] описаны поисковые исследования, включавшие сбор и подготовку исходных данных, а также обучение нескольких моделей нейронных сетей, применимых для классификации деревянистых растений в условиях смешанной и плотной застройкой УТ (Рисунок 5.21).

5.2.2.2 Комплексная оценка фактической эксплуатации территорий на основе нейросетевоей классификации данных дистанционного зондирования Земли

Соответствующие исследуемым объектам подходы к оценке фактического использования УТ решалась с использованием сегментирующей нейронной сети. Реализована классификация покрытия территорий зелеными насаждениями, водоёмами, расположения зданий и сооружений различных типов (многоквартирные дома, частный сектор, торгово-складские и производственные

объекты, гаражи), объектов железнодорожной инфраструктуры и автомобильного транспорта.

Рисунок 5.21 - Пример применения обученных моделей нейронных сетей [495]:

а) исходный снимок; б) ЬапёРгоЬег_1.0.2; в) LandProber_1.0.3 (увеличенный фрагмент); г) ЬапёРгоЬег_1.0.1 Для задачи комплексной оценки, объекты на изображениях были поделены на десять классов, где каждому классу в маске присваивался свой цвет, имеющий ЯОВ-код [355]:

- автомобильные дороги (асфальтовые и грунтовые) - #ЕБ2400;

- железные дороги (включая трамвайные пути) - #Б19СВВ;

- парковка автотранспорта (имеющая разметку) - #9966СС;

- деревья (вся растительность, отбрасывающая тень) - #Л8Б4Л0;

- водоемы (и реки, и озера) - #003153;

- многоэтажные дома (подразумеваются жилые многоэтажки) - #ЕБВС33;

- все остальные здания и сооружения - #30Э5С8;

- спортивные поля - #В00000;

- гаражи - #СВ7Б32;

- прочие территории - #СБ9575.

Примеры изображений из самостоятельно подготовленного датасета представлен на скриншотах (Рисунок 5.22) [355].

Рагктд (47).рпд Рагктд (48).рпд Рагктд (49).рпд Рагктд (50).рпд Рагктд (51).рпд

Рагктд (47).рпд Рагктд (48).рпд Рагктд (49).рпд Рагктд (50).рпд Рагктд (51).рпд

Рисунок 5.22 - Датасет для обучения сегментирующих нейросетей [355]: а) исходные изображения; б) маски изображений Для работы с каждым из классов объектов были размечены изображений в количестве 2880 шт. «зданий и сооружений», 550 шт. «гаражей», 7900 шт. «железнодорожной инфраструктуры», более 10 000 шт. «деревьев», более 5000 шт. «водоемов», более 1000 шт. «морфотипов территории», 1600 шт. «автомобилей и парковок», 800 шт. «автодорог» и др. С их помощью разработан комплекс моделей, построенных с использованием семантических сегментационных нейронных сетей, позволяющий выявлять на спутниковых снимках территории объекты данных классов [258].

Всего в ходе исследований были созданы более тридцати моделей, позволяющих определять отдельные классы объектов или их комбинации, для анализа зависимости размещения объектов территории и инфраструктуры УТ [258]. Обучение моделей производилось при помощи библиотеки глубокого обучения Keras. Дополнительными библиотеками для обучения моделей также являлись Open-CV и Numpy. Выбор такой связки определялся, в том числе, имевшимся в распоряжении набором графических ускорителей nVidia (Tesla P100, V100, ti 1080, др.) [258]. Каждая итоговая обученная модель нейросетевого классификатора построена на основе архитектур Unet (Рисунок 5.23). Модели отличаются глубиной, а также размером входных и выходных данных, к которым относятся ширина, высота и глубина - количество классов на выходе, которые необходимы для поиска и выделения на изображениях [258].

Рисунок 5.23 - Архитектура нейронной сети Unet [446] Разработанные модели получили практическое применение при решении задачи оценки парковочной емкости территории на основе учёта площадей парковок и фактически занимаемого транспортом пространства, а также определение транспортных районов города на основе его морфологической структуризации [445]. На скриншоте (Рисунок 5.24) на фоне карты показаны результаты тестовой классификации автомобилей в Москве, а на фрагментах спутниковых снимков демонстрируется работа алгоритмов при обнаружении транспорта на спутниковых снимках территории Владивостока.

Рисунок 5.24 - Классификация автотранспорта на спутниковых снимках Также решались задачи оценки степени озеленения территории, обновления карты городской застройки посредством мониторинга изменений в составе объектов городской среды, контроля несанкционированного строительства и размещения павильонов уличной торговли, изменения площади объектов, др. [258].

5.2.3 Методы оценки загруженности транспортной инфраструктуры

Оценка ПРСТС транспортного обслуживания основана на учете ряда факторов, в числе которых следует отметить пассажирские потоки, технические, эксплуатационные и экономические характеристики транспортных средств, экологические показатели воздействия на окружающую среду, показатели безопасности пассажиров, возможностей дорожной сети и т.д. [19, 30, 244, 259, 341, 489]. В ходе исследования были выделены три основных этапа мониторинга динамической загруженности территории [118]:

1. Сбор данных. Этап реализуется наблюдателями или автоматически. Подход с наблюдателями предполагает [93, 118]:

- применение методик опроса и подсчета характеристик пассажиропотоков;

- использование механических счетчиков и/или специальных приложений для фиксации численности пассажиров и транспортных средств (включая сбор сопроводительной текстовой и/или визуальной информации методами анкетирования/наблюдения);

- трудоемкий процесс с участием сотрудников для работы на остановочных пунктах и/или в подвижном составе.

Подход на основе средств автоматизации учета пассажиропотоков предполагает [118]:

- применение датчиков, сенсоров, камер видеонаблюдения, специальных мобильных/веб-приложений, программно-аппаратных инструментов [252];

- работу в режиме реального времени с автоматической фиксацией и подсчетом входящих и исходящих потоков пассажиров на транспорте (на единицу подвижного состава [4] и/или для сети маршрутов [282, 360] с геопространственной привязкой местоположения транспортного средства или определенного пассажира).

2. Промежуточные расчеты. Производится расчёт основных характеристик транспортной сети [267]:

- величина общего пассажирооборота транспорта;

- показатели пассажирообмена (посадка/высадка/пересадка) на остановочных пунктах;

- пассажиропоток по маршрутам в единицу времени;

- пропускная способность остановочного пункта по количеству транспортных средств, и др.

В результате на данном этапе формируются исходные и расчетные данные, подготовленные для работы аналитика и/или подсистемы интеллектуального анализа [118].

3. Сводная информация и аналитика. Программные комплексы [244] и интеллектуальные средства [95, 192] применяются для работы со сводной информацией и включают инструменты [118, 312, 396]:

- исследования транспортной доступности территории;

- поддержки принятия решений при планировании транспортной системы города [3];

- моделирования и прогнозирования транспортной ситуации;

- оценки показателей работы транспортной сети;

- организации движения индивидуального и общественного транспорта.

Для реализации рассмотренных этапов мониторинга были изучены

следующие методы обследования состояния транспортной инфраструктуры УТ, для применения которых было предложено соответствующее новой или усовершенствованное программно-алгоритмическое обеспечение:

1. Методы предобработки данных о перемещении пользователей сотовой

связи.

2. Методы предобработки сигнала средств автоматизированного учёта пассажиропотока.

3. Методы предобработки сигнала средств автоматизированного учёта транспортных потоков.

4. Методы обработки данных учёта пассажиропотока наблюдателем.

5. Методы анализа данных датчиков индивидуальных носимых устройств (телефоны, часы, очки, др.).

6. Методы обработки данных учёта транспортного потока наблюдателем.

7. Методы обработки финансовых транзакций платежных систем при оплате проезда в общественном транспорте.

8. Методы обработки данных телеметрии подвижного состава общественного транспорта.

9. Методы сбора данных о транспортной загруженности улично-дорожной сети [168].

10. Методы анализа данных активности пользователей социальных

интернет-сетей. 11. Методы

предобработки данных о дорожно-транспортных

происшествиях.

12. Методы организации сбора анкетных данных о перемещениях по территории.

В ходе исследования была проведена классификация указанных методов для исследования транспортных и пассажирских потоков на территории по эффективности и стоимости применения для оценки динамической загруженности УТ (Рисунок 5.25).

Высокая цена, высокая эффективность

Методы предобработки данных о перемещении пользователей сотовой связи

Методы предобработки сигнала средств автоматизированного учёта пассажиропотока

Методы предобработки

сигнала средств автоматизированного учёта транспортных потоков

ПО и алгоритмы: - алгоритмы обработки данными визуализации транспортных ■

корреспонденции

Методы обработки данных учёта пассажиропотока наблюдателем

сен сорных данных; - модели нейронных сете1 людей в данных видеопот

ПО и алгоритмы: - мобильные приложения для реализации различных утилитарных функций, позволяющие собирать и обрабатывать данные фотоаппарата, микрофона и датчиков местоположения устройства в пространстве

Методы анализа данных датчиков индивидуальных

носимых устройств (телефоны, часы, очки, др.)

ПО и алгоритмы:

- конвергентный подход к мультиагентной обработке данных м онитори нга дорожи о-тра н спортной ин фра структуры

- модели нейронных сетей для учёта транспорта в данных видеопотока

Методы обработки данных учёта транспортного потока наблюдателем

ПО и алгоритмы: - алгоритмы обра»! таблиц данных, вн

ПО и алгоритмы:

- алгоритмы обработки таблиц да к

- мобильные приложения для учёт о пассажиропотоке в подвижном с(

Высокая цена, низкая эффективность

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.