Поддержка процессов управления в социально-экономических системах с использованием информационного профиля человека и технологии больших данных тема диссертации и автореферата по ВАК РФ 05.13.10, кандидат наук Тимонин Алексей Юрьевич

  • Тимонин Алексей Юрьевич
  • кандидат науккандидат наук
  • 2020, ФГБОУ ВО «Пензенский государственный университет»
  • Специальность ВАК РФ05.13.10
  • Количество страниц 171
Тимонин Алексей Юрьевич. Поддержка процессов управления в социально-экономических системах с использованием информационного профиля человека и технологии больших данных: дис. кандидат наук: 05.13.10 - Управление в социальных и экономических системах. ФГБОУ ВО «Пензенский государственный университет». 2020. 171 с.

Оглавление диссертации кандидат наук Тимонин Алексей Юрьевич

ВВЕДЕНИЕ

ГЛАВА 1. СОВРЕМЕННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ ПОСТРОЕНИЯ СОЦИАЛЬНЫХ ПРОФИЛЕЙ НА БАЗЕ ПУБЛИЧНЫХ ИСТОЧНИКОВ СЕТИ ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ BIG DATA

1.1 Обзор существующего опыта, научных принципов и технологий разработки, связанных с технологией Big Data

1.1.1 Фреймворк Hadoop

1.1.2 Применение технологии MapReduce

1.1.3 Концепция NoSQL баз данных

1.2 Обзор международных и отечественных требований и специфики рынка социальной аналитики

1.2.1 Анализ мирового опыта и достижений в области социальной аналитики

1.2.2 Источники информации для социальной аналитики

1.2.3 Обеспечение конфиденциальности собираемых данных

1.2.4 Существующие методы текстовой аналитики

1.2.5 Вопросы аналитики мультимедийных данных

1.2.6 Преимущества использования средств визуальной аналитики

1.3 Обоснование необходимости разработки концепции системного решения для построения социального профиля человека из публичных источников информации с использованием технологии Big Data

1.4. Выводы по главе

ГЛАВА 2. РАЗРАБОТКА ИНФОРМАЦИОННОЙ МОДЕЛИ СОЦИАЛЬНОГО

ПРОФИЛЯ И МАТЕМАТИЧЕСКОЙ МОДЕЛИ СОЦИАЛЬНОЙ СРЕДЫ

2.1 Терминологическая основа для решения задач социальной аналитики с

применением комплексного подхода из традиционных и Big Data средств

2.2 Требования к типу и содержанию данных для построения социального профиля человека

2.3 Разработка информационной модели социального профиля

2.4 Разработка многоуровневой математической модели цифровой социальной среды

2.5 Разработка нечетких критериев для определения значимости составной информации социального профиля

2.6 Организация хранилищ данных и модели представления данных

2.7 Выводы по главе

ГЛАВА 3. РАЗРАБОТКА МЕТОДИКИ СБОРА ПЕРВИЧНЫХ ДАННЫХ И АЛГОРИТМОВ ПОСТРОЕНИЯ СОЦИАЛЬНОГО ПРОФИЛЯ

3.1 Этапы обработки данных для решения задачи социального профилирования

3.1.1 Этап сбора исходных данных социального профиля

3.1.2 Этап фильтрации исходных данных социального профиля

3.1.3 Этап анализа данных и создания целостной картины социального профиля

3.1.4 Этап представления результатов построения социального профиля

3.2 Разработка структуры информационного обеспечения системы построения социального профиля человека

3.2.1 Разработка физического уровня модели социального профиля

3.3 Разработка алгоритма выявления различных типажей социальных настроений в разрезе территорий или социальных групп

3.5 Выводы по главе

ГЛАВА 4. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ

ИССЛЕДОВАНИЯ

4.1 Сферы деятельности, потенциально заинтересованные в практическом применении социальных профилей

4.2 Разработка архитектуры программного обеспечения системы построения социального профиля человека, базирующегося на общедоступных источниках

информации

4.3 Построение эталонных социальных профилей личностей и групп

4.4 Опытная эксплуатация и анализ результатов работы системы построения социального профиля

4.5 Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ А. Свидетельство о регистрации базы данных

ПРИЛОЖЕНИЕ Б. Схема данных БД статической части социального профиля

человека

ПРИЛОЖЕНИЕ В. Примеры содержимого БД статической части социального

профиля

ПРИЛОЖЕНИЕ Г. Акты о внедрении результатов работы

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

ACID - (англ. Atomicity, Consistency, Isolation, Durability) набор требований к транзакционной системе: атомарность, согласованность, изолированность и устойчивость данных.

BD - (англ. Big Data) большие данные.

Business Intelligence - направление по переводу транзакционной деловой информации в человекочитаемую форму и средства для обработки таких данных.

CQL - (англ. Contextual Query Language) контекстуальный язык запросов.

CSV - (англ. Comma-Separated Values) простой текстовый формат обмена данными в виде таблиц.

DB - (англ. Data Base) база данных.

Data Mining - интеллектуальная обработка данных.

FTP - (англ. File Transfer Protocol) протокол передачи файлов.

HDFS - (англ. Hadoop Distributed File System) распределённая файловая система Hadoop.

HTML - (англ. HyperText Markup Language) язык гипертекстовой разметки.

ID - идентификатор.

IT - информационные технологии.

JAQL - (англ. JSON Query Language) функциональный язык запросов, используемый для обработки запросов JSON в решениях Big Data.

JSON - (англ. JavaScript Object Notation) текстовый формат обмена данными, основанный на JavaScript.

MapReduce - концепция параллельной обработки данных, состоящая из двух фаз: map и reduce.

NLP - (англ. Natural Language Processing) обработка естественного языка.

OCR - (англ. optical character recognition) оптическое распознавание символов.

OSINT - (англ. Open source intelligence) разведка на основе открытых источников.

NoSQL - (англ. Not only Structured Query Language) язык не только структурированных запросов.

RDF - (англ. Resource Description Framework) модель вида «среда описания ресурса» для представления данных семантической паутины.

SQL - (англ. Structured Query Language) язык структурированных запросов. SSD - (англ. Solid State Drive) твердотельный накопитель. WWW - (англ. World Wide Web) Всемирная паутина. XML - (англ. Extensible Markup Language) расширяемый язык разметки. YARN - (англ. Yet Another Resource Negotiator) модуль фреймворка Hadoop, отвечающий за планирование заданий и управление кластером. БД - база данных. ВК - социальная сеть «ВКонтакте». ГСП - групповой социальный профиль. ЕГЭ - единый государственный экзамен. ЕС - Европейский союз. ЛПР - лицо, принимающее решение. ОД - открытые данные.

ПГУ - Пензенский государственный университет.

ПД - персональные данные.

ПО - программное обеспечение.

ПСП - персональный социальный профиль.

РСУБД - реляционная СУБД.

РФ - Российская федерация.

СМИ - средства массовой информации.

СП - социальный профиль.

СУБД - система управления базами данных.

СЯ - социальное явление.

ФВТ - факультет вычислительной техники.

ЭВМ - электронно-вычислительная машина.

Рекомендованный список диссертаций по специальности «Управление в социальных и экономических системах», 05.13.10 шифр ВАК

Введение диссертации (часть автореферата) на тему «Поддержка процессов управления в социально-экономических системах с использованием информационного профиля человека и технологии больших данных»

ВВЕДЕНИЕ

Актуальность исследования. В условиях развития цифровой экономики и информатизации большинства социальных процессов, задача управления социально-экономическими системами приобретает новую специфику, как с точки зрения целей, так и с точки зрения используемых методов и инструментов. Для лица, принимающего решения, актуальна проблема научно-методологического и инструментального переоснащения для эффективного выполнения комплекса управленческих задач и противостояния принципиально новым вызовам и угрозам в обществе. Требуется математическое, информационно-алгоритмическое и техническое обеспечение, позволяющее вести сбор, хранение, мониторинг и анализ больших объемов гетерогенных данных, генерируемых всеми доступными ресурсами и сервисами сети Интернет (информационные и новостные порталы, персональные блоги, тематические форумы и т.п.) с возможностью социального профилирования (отдельно взятых персон, различных групп, социальных явлений, событий, процессов), установления явных и скрытых взаимосвязей между персональными и групповыми профилями, обнаружения причинно-следственных зависимостей в информационном поле социума.

Открываются возможности для решения очень сложных и неоднозначных задач, связанных с оценкой социальной напряженности в разрезе отдельных фокус-групп, прогнозированием последствий внедрения определенных нововведений в жизнь общества, идентификации и верификации цифрового образа личности (для предотвращения компрометации людей злоумышленниками посредством несанкционированного доступа к личным учетным записям, подделки аккаунтов с использованием технических средств и методами искусственного интеллекта), разработкой сервис-ориентированных интеллектуальных Интернет-технологий и так далее.

Особая перспективность состоит в интеграции новейших информационных технологий, связанных со сбором и обработкой больших неструктурированных

данных (англ. Big Data), интеллектуальным анализом данных (англ. Data Mining), распределенными базами данных. Значительный вклад в развитие этих направлений внесли работы ученых Дж. Дина [13], С. Гемавата [13], Д. Каттинга [3, 118], М. Кафарелы [3, 60, 118], М. Ольсона [26] и других.

Комплексное моделирование процесса социального профилирования опирается на основополагающие научные труды по социальному управлению, анализу, теории графов и сетей авторства Я. Морено [48], Дж. Совы [49], А. Барабаши [52], Д. Уоттса [51] и С. Строгача [51]. В настоящее время проблемой прикладного использования разнородных общедоступных данных сети Интернет уделяют внимание многие ученые, среди которых выделяются работы, посвященные применению социализированных данных: А. Хамед [56], Р. Долан [57], П. Эскес [58], А. Вейдман [61], С. Боско [62], Т. Шамп-Бьереде [63], З. Туфекки [64], В. Ву [65] и другие. Над сопутствующими проблемами обеспечения конфиденциальности персональных данных работают Г. Балдини [73], Л. Флориди [74], А. Оболер [75], М. Родригес [76], М. Смит [77], О. Тене [78]. Обработкой неструктурированных социализированных данных разной природы занимаются в том числе и отечественные ученые: А. В. Шмид [15], А. В. Палагин [50], Е. И. Большакова [84] , В. Е. Яковлев [86], Л. Черняк [94], Г. С. Сутурин [98], А. А. Целых [99].

В то же время разработка новых алгоритмов оперативного сбора и анализа больших данных для социального профилирования позволит существенно расширить функциональный арсенал программно-аналитических комплексов для поддержки принятия управленческих решений в области государственного и муниципального управления, антитеррористической деятельности и противодействию социокультурным угрозам, а также в сфере финансово-экономических, политических и социальных систем.

Цель работы. Целью диссертационной работы является повышение эффективности управления социально-экономическими системами за счет учета человеческого фактора в условиях цифровизации основных общественных процессов и увеличения объемов и динамики информационных потоков в

социальных средах. Основным средством достижения цели является генерация и использование социальных профилей из неструктурированных гетерогенных данных общедоступных источников сети Интернет. Для достижения поставленной цели необходимо решить ряд задач:

1. Выявление недостатков существующих алгоритмов определения недостоверной персонифицированной информации в Интернет-пространстве. Для решения этой задачи необходимо выполнить предварительный обзор и анализ современных методов идентификации личности по точкам вхождения в сеть.

2. Обнаружение нерешенных проблем обработки персонализированных данных, неструктурированного текстового и мультимедиа контента в процессах информационной поддержки принятия решений в социально-экономической сфере. Определение возможных путей решения выявленных проблем.

3. Разработка информационной и математической моделей цифровой социальной среды для взаимосвязанного представления и обработки данных персональных профилей, социальных групп, социальных явлений.

4. Разработка методики сбора, интеграции и анализа разнородных социальных данных на основе классических средств и технологий Big Data для получения структурированного описания отдельной личности или социальной среды с распределением составных социальных объектов по степени важности в контексте выбранных целей управления.

5. Проектирование архитектуры программной системы для информационной поддержки лиц, принимающих решения, автоматизации построения социальных профилей и мониторинга состояний цифровой социальной среды.

Объект и предмет исследования. Объектом исследования диссертационной работы являются открытые социальные данные сети Интернет.

Предметом исследования является процесс социального профилирования человека на основе технологий Big Data для информационной поддержки процессов управления в социально-экономической сфере.

Методы исследования. В работе использованы методы теории множеств,

математического моделирования, теории управления, обработки больших данных, теории графов, интеллектуального анализа данных, системного анализа, обработки естественного языка и мультимедийной информации, теории баз данных, математической логики, теории комплексных сетей и моделирования среды описания ресурсов.

Научная новизна. Основные результаты диссертационной работы состоят в следующем:

1. Разработана информационная модель социального профиля человека, отличающаяся применением теоретико-множественного представления гетерогенных данных о поведении идентифицированной персоны в сети. Предложенная модель учитывает различные форматы представления, источники и динамику изменения открытых социальных данных.

2. Предложена математическая модель цифровой социальной среды, отличающаяся многоуровневым описанием ее структуры, включающим иерархию социальных групп, отдельных личностей и социальных явлений. Модель использует аппарат теории графов и метаграфов, позволяя учитывать явные и неявные связи между элементами социальной среды с возможностью последующей алгоритмизации аналитических функций для поддержки лиц, принимающих решения.

3. Предложена методика сбора и аналитической обработки гетерогенных социальных данных, отличающаяся применением анализа децентрализованных данных, разделением множества собираемой информации на постоянную структурированную и динамическую неструктурированную части, а также разработанным количественным показателем значимости конкретных результатов социального профилирования, основанным на аппарате нечеткой логики. Методика позволяет рассматривать совокупность признаков из разных источников и выделять из них истинные, ложные и противоречивые сведения с учетом их типа.

4. В рамках предложенной методики сбора и анализа социальных данных, разработаны алгоритмы: фильтрации и ранжирования данных

социального профиля; выявления типажей с различными настроениями в разрезе территорий или социальных групп для мониторинга социальной напряженности и оценки мнений и реакций людей на определенные события. Отличием алгоритмов является комплексное использование совокупности тезаурусов, методов лингвистического анализа текстовой информации, а также средств извлечения семантики из мультимедиа данных, характеризующих объекты цифровой социальной среды. Преимуществом является обеспечение технических возможностей для наиболее полного анализа гетерогенных данных в рамках единой методики, что позволяет извлекать из них неявные зависимости.

Практическая значимость. Разработана архитектура программно-инструментального комплекса для информационной поддержки лиц, принимающих решения, позволяющая автоматизировать построение социальных профилей, а также выполнять функции мониторинга состояния социальной среды. Предложенная архитектура демонстрирует возможность общей программной реализации предложенной методики и алгоритмов. В ее составе осуществляется комплексное взаимодействие модулей идентификации и сбора исходных данных, фильтрации, анализа гетерогенных данных и формирования структурированной картины взаимосвязей между отдельными профилями, группами и социальными явлениями.

Результаты диссертационной работы были внедрены в Законодательном Собрании Пензенской области при проведении аналитических работ по оценке общественного мнения и прогнозированию социальной напряженности в среде различных социальных групп населения Пензенской области при подготовке законотворческих инициатив. Кроме того, эффективность разработанного программного комплекса была подтверждена в ходе его применения в работе приемной комиссии Пензенского государственного университета для сбора информации и анализа профилей потенциальных абитуриентов. Исходя из полученных результатов производилась корректировка социальных параметров целевой аудитории для агитационной кампании, что привело к росту на 15% абсолютного числа поступивших по ряду специальностей бакалавриата, а также

увеличению заполняемости бюджетных мест и повышению среднего проходного балла на 3,5%.

Практическая значимость и оригинальность разработанной информационной системы подтверждается двумя актами внедрения и свидетельством о государственной регистрации базы данных для ЭВМ № 2019621382 от 29 июля 2019 г.

Достоверность и обоснованность результатов подтверждаются корректным применением математических методов к разработанным математическим моделям, результатами тестирования и опытной эксплуатации разработанной системы.

Соответствие паспорту специальности. Работа выполнена в соответствии с паспортом специальности 05.13.10 «Управление в социальных и экономических системах». Пункт 1. научной новизны - соответствует пунктам 6, 7 паспорта специальности. 2. - соответствует пункту 3 паспорта специальности. 3. -соответствует пункту 6 паспорта специальности. 4. - соответствует пункту 3 паспорта специальности.

Положения, выносимые на защиту. На защиту выносятся:

1. Информационная модель социального профиля человека, формируемая на основе общедоступных данных о его активности в сетевом информационном пространстве.

2. Математическая модель цифровой социальной среды, формируемой на основе формализации свойств отдельных людей, групп людей, социальных явлений, событий и процессов.

3. Методика сбора и аналитической обработки гетерогенных данных о социальной среде из общедоступных источников сети Интернет.

4. Алгоритмы выявления различных типажей социальных настроений в разрезе территорий или социальных групп, фильтрации и ранжирования текстовых и мультимедийных данных для поддержки принятия управленческих решений в социальных и экономических системах.

Апробация работы. Результаты диссертации доказывались и обсуждались

на конференциях и научных мероприятиях различного уровня. В том числе: XIX Международной научно-методической конференции «УНИВЕРСИТЕТСКОЕ ОБРАЗОВАНИЕ» (МКУО-2015), г. Пенза; XII, XIV и XV международных научно-технических конференциях «Новые информационные технологии и системы» (НИТИС-2015, НИТИС-2017, НИТИС-2018), г. Пенза; X Международной научно-технической конференции молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественно-научных и социальных проблем» (2016 г.), г. Пенза; международных конференциях Digital Transformation and Global Society (DTGS '16 и DTGS '18), г. Санкт-Петербург; международных конференциях International Conference Electronic Governance and Open Society: Challenges in Eurasia (EGOSE '16, EGOSE '17 и EGOSE '19), г. Санкт-Петербург; Международном научном симпозиуме «Интернет и современное общество» (IS IMS-2017), г. Санкт-Петербург; всероссийской конференции «Актуальные вопросы современной науки: теория и практика научных исследований» (2017 г.), научно-практической конференции «Актуальные проблемы системной и программной инженерии» (АПСПИ-2017 и АПСПИ-2019), г. Москва; симпозиуме молодых ученых «Цифровые трансформации: перспективные социально-экономические и гуманитарные исследования» (2018 г.), г. Санкт-Петербург; X Международной научно-технической конференции «Технологии разработки информационных систем» (ТРИС-2019), г. Таганрог.

Публикации. По теме диссертации опубликовано 24 научных работы, из которых: 4 статьи - в изданиях из перечня ВАК, 8 - рецензируемых в библиографических базах данных Scopus и WoS. Все основные результаты, изложенные в диссертационной работе, достигнуты автором самостоятельно. В трудах, выполненных в соавторстве, лично соискателю принадлежит: [54, 101, 103, 104, 111, 123] - определение социального профиля, алгоритм разделения совокупности собираемой неструктурированной информации на постоянную и динамическую части, модели статической и динамической части социального профиля, архитектура программно-инструментального комплекса средств

автоматизации построения социальных профилей людей и информационной поддержки лиц, принимающих решения, архитектура подсистемы сбора исходных данных и идентификации человека в сети Интернет; [72, 112] -алгоритм фильтрации исходных данных от незначащей информации с учетом их типа и обеспечения конфиденциальности персональных данных, архитектура подсистемы фильтрации исходных данных социального профиля; [79, 85, 107, 114, 115, 116] - методика аналитической обработки социальных гетерогенных данных для построения социального профиля человека, алгоритмы ранжирования гетерогенных данных, обеспечивающие их соответствие элементам разработанной информационной модели социальной среды, информационная модель социального профиля человека; [101, 102, 107, 119] - перечень свойств обрабатываемых данных, необходимых для информационной поддержки лиц, принимающих решения; [103, 119] - алгоритм процесса социального профилирования; [106] - информационная модель персонального социального профиля, концептуальная и математическая модели цифровой социальной среды; [110] - математическая модель нечеткого критерия значимости данных социального профиля.

Структура и объем диссертации. Работа состоит из введения, четырех глав, заключения и списка литературы. Объем диссертации - 171 страница, приложений - 15 страниц. Список литературы включает 123 наименования. В состав диссертации входят 23 рисунка и 8 таблиц.

Во введении обосновывается актуальность, цели, методы, предмет и объект исследования. Устанавливаются планируемые результаты, выносимые на защиту. Приведены их научная новизна, теоретическая и практическая значимость. Перечислены научные мероприятия и издания, в которых излагались результаты диссертационной работы.

Первая глава является вводной и посвящена исследованию существующих возможностей, принципов и требований сферы социальной аналитики к интеграции с технологическими средствами больших данных. Раздел 1.1 посвящен описанию основных технологий Big Data и существующего опыта их

применения. Раздел 1.2 касается текущих тенденций сферы социальной аналитики. В разделе 1.3 ставится задача по разработке системного решения построения социального профиля человека, а также перечисляются основные требования к обрабатываемым данным и создаваемому программному продукту.

Во второй главе предлагается математическая модель социальной среды, определяющая процесс социального профилирования людей и их групп, а также формирование цифровой социальной среды из крупных неструктурированных массивов данных, полученных из общедоступных источников сети Интернет. В разделе 2.1 вводятся необходимые определения и термины, используемые в процессе разработки социальных профилей. В разделе 2.2 обозначены требования к обрабатываемым социальным данным. Раздел 2.3 посвящен процессу разработки информационных моделей социальных профилей личности и группы в терминах теории множеств. В разделе 2.4 представлен процесс разработки метаграфовой модели социальной среды для использования в аналитической системе на основе Big Data. В разделе 2.5 перечислены основные характеристики, влияющие на оценку важности исходной информации в ходе социального профилирования, и на их основе составлена модель нечеткого весового критерия. Раздел 2.6 предлагает разработанную логическую модель хранения структурированной информации социальной среды.

Третья глава посвящена разработке методики, алгоритмов и программных структур для достижения задачи социального профилирования. В разделе 3.1 рассмотрены основные этапы процесса социального профилирования: сбора исходных данных, фильтрации исходных данных, анализа данных и создания целостной картины социального профиля, представления результатов социального профилирования; описываются алгоритмы ранжирования и фильтрации данных цифровой социальной среды для поддержки принятия управленческих решений в рамках системы построения социального профиля человека. Раздел 3.2 посвящен описанию структуры разработанного информационного обеспечения системы построения социального профиля человека, в том числе физической модели базы данных для хранения статической

части социального профиля человека. В разделе 3.3 описан процесс разработки ключевых алгоритмов для выявления различных типажей социальных настроений в разрезе территорий или социальных групп.

В четвертой главе представлено описание практических результатов исследования и их апробации. В разделе 4.1 исследованы области применимости разработанной концепции профилирования элементов электронной социальной среды. В разделе 4.2 представлена разработанная архитектура программно-инструментального комплекса социального профилирования для информационной поддержки ЛПР, базирующаяся на использовании общедоступных источников информации, и перечислены особенности программной реализации системы. В разделе 4.3 приводятся результаты построения социальных профилей личности и группы в виде социальных графов. Раздел 4. 4 содержит сведения о практических результатах внедрения разработанной системы.

В заключении перечислены основные результаты диссертационной работы.

Приложения содержат копию свидетельства о регистрации базы данных, схему данных базы статической части социального профиля человека, примеры содержимого базы статической части социального профиля человека и копии двух актов о внедрении результатов диссертационной работы.

ГЛАВА 1. СОВРЕМЕННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ ПОСТРОЕНИЯ СОЦИАЛЬНЫХ ПРОФИЛЕЙ НА БАЗЕ ПУБЛИЧНЫХ ИСТОЧНИКОВ СЕТИ ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ BIG DATA

Настоящая глава посвящена поиску нерешенных проблем обработки персонализированных данных, неструктурированного текстового и мультимедиа контента в процессах информационной поддержки принятия решений в социально-экономической сфере. Производится обзор и анализ современных методов идентификации личности по точкам вхождения в сеть с целью выявления недостатков существующих алгоритмов определения недостоверной персонифицированной информации в Интернет-пространстве. Раздел 1.1 посвящен описанию наиболее известных концепций и программных реализаций технологии Big Data, а также опыта их внедрения. В разделе 1.2 обозреваются текущие тенденции в области социальной аналитики, связанные с обработкой публичной информации сети Интернет и Больших данных. В разделе 1.3 раскрываются основные недостатки современных методов социальной аналитики, определяются возможные пути решения выявленных проблем, после чего ставится задача по разработке общих методик и моделей построения социального профиля человека на базе технологии Big Data и использовании общедоступных источников информации.

1.1 Обзор существующего опыта, научных принципов и технологий разработки, связанных с технологией Big Data

Большие данные (англ. Big Data) [1] - современное направление в сфере информационных технологий, включающее в себя ряд методов, инструментов и технологий по сбору и анализу больших объёмов разнообразных структурированных и неструктурированных данных с целью получения эффективных результатов в условиях распределения информации по многочисленным узлам вычислительной сети и ее постоянном обновлении. Также допустимо применение упомянутого термина и к самим данным, обрабатываемым

с помощью этой технологии. Изначально термин «Big Data» использовался в академической среде для решения задач, связанных с проблемой роста и многообразия данных. Первые решения на основе Big Data появились во второй половине нулевых годов и рассматривались в качестве альтернативы классическим реляционным СУБД в вопросах бизнес-аналитики (Business Intelligence) [2].

Рассматриваемая технология применима в случаях, когда данных слишком много, чтобы их можно было обрабатывать традиционными средствами, в частности сервером с реляционной СУБД. Однако точные количественные значения информации, при которых данные становятся «большими» не определены. Область применимости технологии зависит от вычислительных аппаратных мощностей и количества записей в базе данных, то есть в одних случаях гигабайты данных уже можно рассматривать как Большие данные, т.к. вычислительная система не справляется с их своевременной обработкой, а в других - петабайты информации приемлемо обрабатываются с помощью классических методов и, следовательно, не являются «большими». Big Data часто ассоциируют с фреймворком Hadoop [3], хотя в основе этой технологии также лежит концепция NoSQL-хранилищ данных [4] и методика параллельной обработки распределенных данных MapReduce [3].

Основными признаками обрабатываемых данных являются, так называемые, «три V», выработанные Meta Group [5]:

- скорость (velocity), указывающая как на темп накопления данных, так и на необходимость их высокоскоростной обработки и своевременное получение результатов;

- объём (volume) обрабатываемых данных;

- многообразие (variety) обрабатываемых данных: они могут различаться по степени структурированности, типам, источникам и другим параметрам.

Изредка к перечисленным свойствам добавляют достоверность (veracity), жизнеспособность (viability), переменчивость (variability) и ценность (value)

данных [6, 7].

В отчёте McKinsey за 2011 год [8] отмечен следующий список методов и техник анализа больших данных:

- «методы класса Data Mining: обучение ассоциативным правилам, классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;

- визуализация аналитических данных - представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей;

- имитационное моделирование;

- искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;

- краудсорсинг - категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;

- машинное обучение, включая обучение с учителем и без учителя;

- прогнозная аналитика;

- пространственный анализ - класс методов, использующих топологическую, геометрическую и географическую информацию в данных;

- распознавание образов;

- смешение и интеграция данных - набор техник по совмещению разнородных данных из разнообразных источников для возможности глубинного анализа (например, цифровая обработка сигналов и обработка естественного языка, включая тональный анализ);

- статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов» [8].

Главными источниками получения больших данных являются датчики, измерительные устройства, оборудование сетей сотовой связи, устройства аудио-видео регистрации, потоки сообщений внутри социальных сетей, блоги и новостные ленты, спутники. По данным компании Cisco [9], объем мобильного

трафика в 2014 году составил 2,5 экзабайта в месяц, а к 2019 году он увеличится более чем в 9,5 раз. Развитие и повсеместное распространение электронных источников информации стало толчком к внедрению технологий BD в различных отраслях деятельности. Это связано в том числе с увеличением накопления информации в сети Internet, что стало особенно заметно с увеличением популярности социальных сетей. В начале 2010-ых годов многие разработчики рынка IT-продуктов начали использовать рассматриваемую технологию непосредственно в контексте обработки больших данных и выпускать собственные аналитические решения. Среди отечественных пионеров Big Data выделяют компании, занимающиеся интернет-поиском и телекоммуникациями

Похожие диссертационные работы по специальности «Управление в социальных и экономических системах», 05.13.10 шифр ВАК

Список литературы диссертационного исследования кандидат наук Тимонин Алексей Юрьевич, 2020 год

Список

социальных

ролей

COPY public."Person_dignities" (id_dignity, note_dignity) FROM stdin;

1 инженер

2 писатель

3 профессор

4 заместитель министра

text_dignity, профессия

Таблица Содержимое

5 руководитель НИР

6 участник конференции

7 главный архитектор

8 председатель

9 разработчик

10 муж

11 жена

12 миссис

13 глава команды проекта

14 музыкант

15 натуралист

Привязка СОРУ риЬНс."Рег80п_ё1§ш1у" (1ё_рё1§ш1у, рБр_1ё,

социальных вгс_1ё) БЯОМ в1ёт;

ролей к 1 1 11 25

рассматриваемым 2 1 12 25

персонам 3 2 6 18

4 3 1 25

5 3 6 18

6 3 7 25

7 3 8 25

8 3 9 25

9 3 10 25

10 3 13 25

11 4 6 18

12 5 5 18

13 5 6 18

14 6 4 18

15 6 6 18

16 7 3 18

17 7 6 18

18 8 2 18

19 8 6 18

20 9 2 25

21 10 14 25

22 11 15 25

23 12 9 25

Таблица Содержимое

Виды социальных COPY public."Relation_type" (type_relation, id_relation)

связей FROM stdin; работает 1

принимает участие 2

находится 3

нравится 4

знает 5

создал 6

состоит в браке 7

Список COPY public."SF" (id_topic, ftype_topic, tag_id) FROM stdin;

социальных 1 2 2

фактов и явлений 2 2 2

3 2 2

4 2 2

5 2 2

6 2 2

7 2 2

8 2 2

9 2 2

10 2 2

11 2 2

12 2 2

13 2 2

14 2 2

15 2 2

16 2 5

17 2 5

18 2 5

19 2 5

20 2 5

21 1 10

22 1 10

23 1 10

24 1 10

25 1 10

26 1 10

Таблица Содержимое

27 2 10 28 1 9 29 1 9 30 1 9 31 1 9 32 1 9 33 1 9 34 1 9 35 1 9 36 1 9 37 1 9 38 1 9 39 1 3 40 1 6

Список ссылок на источники исходной информации COPY public."Source_link" (source_id, source_path, id_srclink, date_srclink) FROM stdin; 1 http://www.fors.ru/upload/magazine/03/http_texts/total_cloud cio.html 12 1 2 http://fkn.ktu10.com/?q=node/5670/backlinks 13 1 3 http://www.pcweek.ru/idea/article/detail.php?ID=139625 14 1 4 http://datareview.info/news/v-barselone-startuet-konferentsiya-strata-hadoop-world/ 15 1 5 http://www.nestor.minsk.by/sr/2003/09/30912.html 16 1 6 http://www.i2r.ru/static/334/out_20657.shtml 17 1 7 http://www.todbot.ru/2014/01/ 18 1 8 http://news.meta.ua/metka Каттинг/ 19 1 9 http://searchengines.guru/showthread.php?t=5202&page =3 20 1 10 http://deadlock.org.ua/kit/habr/post/12177 21 1 11 http://xn--b 1 aeclack5b4j.xn--c1 avg.xn--p 1 ai/wiki/ 22 1 12 http://www.itrn.ru/review/detail.php?id=118193 23 1 21 http://habrahabr.ru/post/151062/ 32 1

Комиссия в составе Председатель:

Новичкова Наталья Александровна — руководитель аппарата Законодательного Собрания Пензенской области.

Члены комиссии:

Артамонов Игорь Владимирович — начальник организационного управления аппарата Законодательного Собрания Пензенской области,

Фомин Максим Евгеньевич — руководитель пресс-службы Законодательного Собрания Пензенской области,

Филин Антон Николаевич — начальник управления делопроизводства и информационно-технического обеспечения аппарата Законодательного Собрания Пензенской области

составили настоящий акт о том, что результаты кандидатской диссертационной работы Тимонина Алексея Юрьевича, связанные с поддержкой процессов управления в социально-экономических системах с использованием информационного профиля и технологии больших данных, были внедрены в опытную эксплуатацию при проведении аналитических работ по оценке общественного мнения и прогнозированию социальной напряженности в среде различных социальных групп населения Пензенской области при подготовке законотворческих инициатив.

В частности, были использованы разработанные А.Ю.Тимониным: - информационная модель социального профиля человека и социального профиля группы лиц. формируемая на основе открытых данных сети

УТВЕРЖДАЮ

М.П.

АКТ ВНЕДРЕНИЯ результатов диссертационной работы Тимонина Алексея Юрьевича

_ У В.Б.Механов 2019 г.

м.п.

АКТ ВНЕДРЕНИЯ результатов диссертационной работы Тимонина Алексея Юрьевича

Комиссия в составе:

председатель: д.т.н., профессор, декан факультета вычислительной техники

ПГУ Л.Р.Фионова. члены комиссии: д.т.н., профессор, зав. кафедрой САПР А.М.Бершадский к.т.н., доцент кафедры САПР И.П.Бурукина

составили настоящий акт о том, что результаты кандидатской диссертационной работы Тимонина Алексея Юрьевича, связанные с поддержкой процессов управления в социально-экономических системах с использованием информационного профиля и технологии больших данных, были внедрены в опытную эксплуатацию при проведении профориентационной работы факультета вычислительной техники Пензенского государственного университета. На основе анализа и мониторинга данных социальных сетей и открытых ресурсов сети Интернет были выявлены предпочтения старшеклассников Пензенской области при выборе будущей профессии и построены их персональные и групповые социальные профили. Это позволило сделать предварительные прогнозы количества и распределения абитуриентов на определенные направления подготовки студентов в вузе и скорректировать на этом основании мероприятия профориентационной и рекламной работы в ходе вступительной кампании 2019 года.

В частности, были использованы разработанные А.Ю.Тимониным:

- информационная модель социального профиля человека, формируемая на основе общедоступных данных о его активности в сетевом информационном пространстве;

- многоуровневая математическая модель социальной среды региона, формируемой на основе формализации свойств отдельных персон, групп людей, социальных явлений, событий и процессов;

- этапы сбора и аналитической обработки гетерогенных данных о социальной среде региона из общедоступных источников сети Интернет;

- прототип программно-инструментального комплекса для информационной поддержки лиц принимающих решения, построения социальных профилей и мониторинга цифровой социальной среды региона.

Председатель комиссии: декан ФВТ,

д.т.н., профессор Л.Р.Фионова

Члены комиссии:

заведующий кафедрой САПР, д.т.н., профессор

А.М.Бершадский

к.т.н., доцент кафедры САПР,

И.П.Бурукнна

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.