Метод конверсационного анализа неструктурированных текстов социальных сетей тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Рыцарев Игорь Андреевич

  • Рыцарев Игорь Андреевич
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 101
Рыцарев Игорь Андреевич. Метод конверсационного анализа неструктурированных текстов социальных сетей: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева». 2021. 101 с.

Оглавление диссертации кандидат наук Рыцарев Игорь Андреевич

Введение

1 Компьютерная обработка неструктурированных текстов

1.1 Традиционные методы компьютерной обработки текстов

1.1.1 Анализ тональности текста

1.1.2 Автоматическая тематическая классификация

1.2 Неструктурированные текстовые данные

1.3 Традиционный подход к анализу текстов с применением компьютерной обработки

1.4 Задача извлечения контекста

1.5 Конверсационный анализ для контекстных связей

Выводы главы

2 Конверсационный анализ

2.1 Метод конверсационного анализа

2.2 Предобработка текстовых данных

2.3 Алгоритмы векторизации

2.3.1 К-граммы

2.3.2 Мешок слов

2.3.3 Word2Vec

2.3.4 Алгоритм векторизации неструктурированных текстов

2.3.4.1 Алгоритм построения матриц порядка

2.3.4.2 Алгоритм построения частотных словарей

2.4 Сравнение существующих алгоритмов векторизации

Выводы главы

2

3 Технология компьютерной обработки неструктурированных текстов

3.1 Описание экспериментов

3.1.1 Описание наборов текстов

3.1.2 Индексы качества классификации

3.1.3 Предварительная обработка текстов

3.1.4 Методика применения технологии конверсационного анализа

3.2 Расчет близости между высказываниями для идентификации автора текста

3.3 Классификация набора текстов

3.3.1 Классификация сообщений по тематикам

3.3.2 Классификация сообщений по сообществам

3.3.3 Классификация сообщений по авторам

3.4 Расчет текстовой близости между текстовыми единицами для выявления синонимичных инвариантов

3.5 Выявление семантических различий для расчета контекстной дистанции между сообществами социальных сетей

3.6 Анализ активности и тональности сообществ в социальных сетях

3.7 Сегментация текста на самостоятельные единицы (главы)

3.8 Детектирование синтезированного текста

Выводы главы

4 Высокопроизводительная реализация алгоритмов для компьютерной обработки неструктурированных текстов

4.1 Требования к программному комплексу

4.2 Описание архитектуры программного комплекса

4.3 Особенности программного комплекса

4.4 Сравнение последовательной и параллельной реализации программного комплекса

Выводы главы

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ А. Свидетельства о регистрации программы для ЭВМ

ПРИЛОЖЕНИЕ Б. Акты о внедрении результатов диссертации

ВВЕДЕНИЕ

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод конверсационного анализа неструктурированных текстов социальных сетей»

Актуальность темы исследования

Мир социальных сетей стал основной платформой, где каждый человек может создать своего цифрового двойника. В связи с увеличением объемов генерируемого контента и данных пользователей глобальной сети Интернет современные технологии и алгоритмы интеллектуального анализа данных требуют дальнейшего развития [1,2]. Для углубления анализа виртуального мира необходима разработка новых технологий и подходов к анализу не только семантики, но и контекста данных.

В современном мире существует большое количество электронных устройств, а также web- и мобильных приложений, служащих средствами коммуникации. Люди пользуются интернет-форумами, чатами, создают блоги, взаимодействуют друг с другом посредством социальных сетей.

Всеобъемлющее проникновение цифровых технологий во все сферы повседневной жизни привело к трансформации социальных отношений, что оказывает неизбежное влияние на каждого человека, на его личность.

Социальные сети, став предметом социализации людей, заняли одну из лидирующих позиций по производству «больших данных» [3,4]. Возможность делиться сообщениями, фотографиями, музыкой, видеоматериалами с друзьями, возможность создавать и организовывать различные мероприятия, продвигать бизнес - все это являет собой колоссальные объемы постоянно генерируемых, устаревающих и обновляющихся данных [5].

В результате такого взаимодействия появляется огромное количество информации о самих пользователях, об их отношении к другим людям, к событиям, происходящим как в частной жизни, так и в мире. Такая информация может быть полезна при моделировании процессов, протекающих в обществе, прогнозировании поведения его участников,

поэтому методы сбора и анализа информации, содержащейся в виртуальных социальных сетях или на форумах, представляют большой интерес для исследователей [6].

Технологии обработки естественного языка сделали большой прорыв в области вычислений и искусственного интеллекта. К настоящему времени процесс обработки естественного языка востребован в множестве сфер:

• распознавании и анализе текстовых данных для построения чат-ботов или автоматической обработки документов;

• определении тональности отзывов о компании или продукте в управлении корпоративной репутацией в интернете;

• разработке и развитии голосовых помощников;

• автоматическом переводе текста и его фильтрации.

Большой пул задач [7,8] из области обработки естественного языка также доказывает, что данная тема актуальна.

Анализ социальных данных стремительно набирает популярность во всём мире благодаря появлению в начале 2000-х онлайновых сервисов и социальных сетей (Facebook, Twitter, YouTube, ВКонтакте и др.). С этим связан феномен социализации персональных данных: стали публично доступными события и факты биографии, переписка, дневники, фото-, видео- , аудиоматериалы, заметки о путешествиях и т.д. Таким образом, социальные сети являются уникальным источником данных о личной жизни и интересах реальных людей. Это открывает беспрецедентные возможности для решения исследовательских [9,10] и бизнес-задач [11,12] (многие из которых до этого невозможно было решать эффективно из-за недостатка данных), а также при создании вспомогательных сервисов и приложений для пользователей социальных сетей. Кроме того, наблюдается повышенный интерес к сбору и

анализу социальных данных со стороны компаний и исследовательских центров.

Большая часть информации, находящейся в сети Интернет, представлена в текстовом виде на естественном языке. Это усложняет ее обработку и требует привлечения методов компьютерной лингвистики, в связи с чем в настоящее время возрастает актуальность лингвистических исследований, разработок новых эффективных программных систем извлечения фактов из неструктурированных массивов текстовой информации, классификации и кластеризации информации, нацеленных как на анализ самих сообщений в сети, так и на выявление источников распространяемой информации [6].

Компьютерная лингвистика — направление прикладной лингвистики, ориентированное на использование компьютерных программ для моделирования функционирования языка в тех или иных условиях. Дисциплина зародилась в 60-е годы XX века и прежде всего представляла собой разработку методов для общения человека с ЭВМ на естественном или ограниченно естественном языке.

Первые исследования в области компьютерной лингвистики начались еще в начале XX века. В 1913 г. русский математик А.А. Марков на примере произведения А.С. Пушкина «Евгений Онегин» подтвердил согласованность эмпирических оценок вероятностей появления связанных событий с теоретическими значениями в задаче определения оценок вероятностей появления в тексте гласных и согласных букв, а также их двух- и трехбуквенных сочетаний.

Появление компьютеров, на которых можно было полностью хранить и

обрабатывать наборы текстов, а также проводить сложные вычисления,

позволило активно использовать статистические методы и методы машинного

обучения для работы с текстом. В целом, в начале 90-х годов XX в. в области

7

компьютерной лингвистики произошел переход к статистическим методам и, затем — методам машинного обучения и анализа данных, которые применяются к уже написанным и существующим текстам.

Однако с увеличением объема передачи данных возникает новая проблема - стандартные алгоритмы и подходы не справляются с потоками генерируемых данных и требуют внедрения подходов обработки данных сверхбольшого объема [13*].

Понятие сверхбольших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках [14*].

Одной из актуальных задач в области модернизации алгоритмов под технологию «Больших данных» является векторизация данных. Задача векторизации - перевод набора данных в числовые вектора [15]. Выбор метода векторизации, как правило, зависит от конкретного случая и приложения [16].

Развитие технологий анализа контента исследования в области анализа данных социальных сетей создает повышение возможности для исследователей данной сферы. Социальная сеть - особая экосистема, где каждый пользователь может через своего цифрового двойника выразить личное мнение по абсолютно любому вопросу, что является особенно ценным в задачах анализа данных. При этом социальные сети, в настоящее время -крупнейшие контент-генераторы по всем направлениям данных. Но, как правило, основным типом данных для анализа становятся текстовые данные (новости, посты, комментарии). Особенности текстовых данных (неструктурированность, непоследовательность) определяют задачу компьютерной обработки текстовых данных нетривиальной и требуют особых условий для проведения исследований. Отсюда следует, что необходима разработка новых алгоритмов, в основе которых должен содержаться анализ

не синтаксических единиц, а контекстных связей.

8

Традиционными задачами в области анализа текста в настоящее время являются анализ тональности текста и автоматическая тематическая классификация.

Согласно зарубежным публикациям, в задаче анализа тональности текста, при классификации по тональности узкотематических текстов на два класса («позитивно», «негативно»), точность классификаторов, основанных на униграммах, превышает 82 % [17], однако, при определении положительного или отрицательного влияния текста на репутацию упомянутого в нем объекта, точность снижается до 40 %. При решении задачи классификации более чем на два класса («позитивно», «негативно», «нейтрально») точность классификации существенно снижается. Это связанно с субъективным восприятием информации: то, что один человек считает «позитивным», другой может отнести к «нейтральному» или даже «склонному к негативному». Таким образом, можно сделать вывод, что субъективность восприятия, отсутствие количественной оценки текста, отсутствие семантического анализа, требование к объему банка данных словоформ - это основные недостатки данного подхода к анализу текстов.

В задаче автоматической тематической классификации современные автоматические системы работы с текстами на естественном языке основываются на статистике встречаемости слов запроса в различных контекстах с целью поиска документа, максимально релевантного запросу. Данный подход полностью оправдывает себя в задаче информационного поиска, но он не позволяет воссоздать целостный образ самой ситуации использования текста на естественном языке для описания фрагмента действительности. Однако, большинство разработок носят

экспериментальный характер, и многие из них недоступны, и многие существующие системы не поддерживают некоторые языки при формировании аннотаций (Oracle Text, TextAnalyst, IBM Text Mining) [18, 19,

20]. Также к недостаткам алгоритмов можно отнести зависимость качества классификации от выбранного метода, требование к репрезентативности набора данных, высокую вычислительную сложность, сложность интерпретируемости параметров методов и неустойчивость по отношению к выбросам в наборах данных.

Пока что не существует математических методов определения смысловых значений слов. Интонация и подтекст живого языка, его разговорный контекст, могут быть косвенно измерены только при соотношении с другими словами, содержащимися в высказывании. Слово, вырванное из фразы, может диссонировать со смыслом, который оно имело в контексте. Следовательно, слово не может быть единицей однозначного анализа для текстов, содержащихся в социальной многоуровневой коммуникации. Как показали исследования [21], более емкой и более показательной единицей содержания может служить, так называемый, фиксированный семантический код. Семантический код - это единица анализа, состоящая из пятидесяти наиболее часто встречающихся слов в коммуникации цифровых двойников после отделения местоимений, союзов, предлогов и числительных. Семантический код может интерпретировать как вектор содержания групповой коммуникации.

Слова, в зависимости от контекста, приобретают многозначность. Конвергенция смысла складывается в результате сочетания слов и частоты их употребления. Смысл слова необходимо соотносить с изменчивостью его формы и устойчивостью его корня. Устойчивые слова и парные или перекрестные сочетания позволяют понять концептуальную основу или обсуждаемую в сообществе сферу интересов.

В семантическом коде выделяются устойчивые, статичные и изменчивые по частоте или наличию, динамичные слова. Такое разделение позволяет легко установить соотношение между статичным набором слов и

динамичным, как в текущем времени, так и между сообществами. Характеристика частотной статичности позволяет говорить об изменчивости, активности, витальности группы относительно самой себя (тематического развития) и относительно других групп. Чем больше различия в соотношениях статика/ динамика, тем дальше друг от друга находятся группы, даже при совпадении тематических интересов. Одним из таких подходов является предложенный д.п.н. К.С. Лисецким — авторский метод перекрестных кросс-референций [22*]. Он включает в себя идеи конверсационного анализа и направлен на работу с контекстом. В основе предложенного метода лежит предположение, что при помощи выявления контекстных связей между текстами можно определить в социальных сетях положение социальной группы относительно остальных. Тексты анализируются современными методами контент-анализа, а также проводится их нормализация и упорядочение текста по частям речи [23*].

Поскольку оценка качества сегментации текста обладает большой вариативностью и субъективностью, то для оценки качества будем использовать термин «надежность», характеризующий вероятность покрытия параметра 0 доверительным интервалом (0*-е; 0*+е).

В настоящее время задачей анализа текстов занимаются несколько научных школ в т.ч.: Национальный исследовательский университет «Высшая школа экономики» под руководством К.В. Воронцова [24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34] и Институт систем информатики им. А.П. Ершова СО РАН под руководством Ю.А. Загорулько [35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48]. В ВШЭ развиваются направления тематического моделирования текстов. В ИСИ СО РАН исследуются системы автоматического сбора и анализа информации.

В коммерческой сфере проводятся исследования по смежным областям работы с данными (создание моделей языка ^РТ-3, Сбербанк, 2020 [49]);

обработка естественного языка («Алиса», Yandex, 2017-по н.в. [50]); системы коррекции текстов (Яндекс, 2019 [51]) и др.).

Обзор современных исследований показывает, что наряду с большими достижениями в области компьютерной лингвистики и успешными коммерческими проектами существует ряд нерешенных задач, в т.ч. задача обработки неструктурированных текстов на основе выделения контекста.

Объект исследования

Объектом исследования являются алгоритмы векторизации текстов.

Предмет исследования

Предметом исследования служит применение метода конверсационного анализа для решения задач обработки неструктурированных текстов.

Цель и задачи диссертационной работы

Целью данной диссертационной работы является повышение качества компьютерной обработки неструктурированных текстов социальных сетей на основе метода конверсационного анализа.

Для достижения поставленной цели необходимо решить ряд задач:

1. Разработка метода конверсационного анализа неструктурированных текстов для выделения и обработки контекста текстов на естественном языке.

2. Разработка алгоритма векторизации текста на основе метода конверсационного анализа.

3. Разработка технологии компьютерной обработки неструктурированных текстов с применением конверсационного анализа.

4. Разработка высокопроизводительной вычислительной реализации алгоритма векторизации на основе конверсационного анализа в

технологии компьютерной обработки неструктурированных текстов социальных сетей.

Научная новизна результатов исследования

В ходе исследования получены следующие новые научные результаты:

1. Разработан метод конверсационного анализа, основанный на разбиении на текстовые единицы для формирования пространства контекстных признаков текстов.

2. Разработан алгоритм векторизации текста на основе конверсационного анализа, обеспечивающий возможность извлечения параметров контекстных связей неструктурированных текстов.

3. Предложена и исследована технология компьютерной обработки неструктурированных текстов, основанная на конверсационном анализе, обеспечивающая возможность извлечения контекстных характеристик текстов на естественном языке.

4. Предложена и исследована высокопроизводительная вычислительная реализация алгоритма векторизации, позволяющая использовать при обработке неструктурированных текстов парадигму Spark. Значение вычислительной эффективности компьютерной обработки неструктурированных текстов достигло 70 %.

Практическая значимость работы

Разработанный комплекс программ решает прикладные задачи компьютерной обработки неструктурированных текстов, связанные с анализом контекста неструктурированных текстов. Разработанный алгоритм векторизации позволяет повысить надежность результатов выделения контекстных характеристик по критерию текстовой близости. Разработанный алгоритм успешно внедрен в рамках реализации междисциплинарного

проекта «Социальный эхолот» по мониторингу данных социальных сетей и НИР «Стратегии комплексного развития г.о. Самара», а также апробирован в процессе решения конкретных задач и дал положительные результаты в ИСОИ РАН - филиале федерального государственного учреждения «Федеральный научно-исследовательский центр «Кристаллография и фотоника» РАН». Научно-методические результаты успешно применяются в учебном процессе на кафедре технической кибернетики Самарского университета при подготовке магистров по направлению 01.04.02 «Прикладная математика и информатика». Результаты внедрения работы подтверждены соответствующими актами.

Реализация результатов работы

Диссертационная работа выполнялась в Самарском национальном исследовательском университете имени академика С. П. Королева и Институте систем обработки изображений РАН - филиале федерального государственного учреждения «Федеральный научно-исследовательский центр «Кристаллография и фотоника» РАН» в соответствии с планами государственных программ: грантов РФФИ № 17-01-00972 (исполнитель); № 18-37-00418 (исполнитель); № 19-29-01135 (исполнитель); № 19-31-90160 (исполнитель); государственного задания ФНИЦ «Кристаллография и фотоника» РАН (соглашение № 007-ГЗ/Ч3363/26); в рамках выполнения государственного задания Минобрнауки России (Проект № 0777-2020-0017); программы повышения конкурентоспособности федерального государственного автономного образовательного учреждения высшего образования «Самарский государственный аэрокосмический университет имени академика С. П. Королева (национальный исследовательский университет)» среди ведущих мировых научно-образовательных центров на 2013-2020 гг.

Методологическая, теоретическая и эмпирическая база исследования

В диссертационной работе используются методы линейной алгебры, математической статистики, методы машинного обучения, методы оптимизации. Результаты исследований подтверждены реализацией основных алгоритмов в виде зарегистрированных комплексов программ и проведенными вычислительными экспериментами на модельных данных и данных социальных сетей.

Основные положения диссертации, выносимые на защиту:

1 Метод конверсационного анализа неструктурированных текстов.

2 Алгоритм векторизации текста на основе конверсационного анализа для извлечения параметров контекстных связей неструктурированных текстов.

3 Технология компьютерной обработки неструктурированных текстов на основе конверсационного анализа.

4 Высокопроизводительная реализация алгоритма векторизации неструктурированных текстов.

Перечисленные положения, выносимые на защиту, составляющие содержание диссертационного исследования, разработаны автором лично.

Соответствие диссертации паспорту научной специальности

Результаты исследования соответствуют следующим пунктам паспорта научной специальности 05.13.17 - Теоретические основы информатики:

5 Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

6 Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.

Достоверность результатов

Достоверность результатов обеспечивается применением апробированного математического аппарата, корректностью изложения основных теоретических положений работы, согласованностью с ранее полученными результатами другими авторами, а также достаточным объёмом выборки и количеством экспериментов.

Апробация и реализация результатов диссертации

Основные результаты и положения диссертации были представлены на 6 конференциях, в т.ч.: Международная конференция и молодёжная школа «Информационные технологии и нанотехнологии» (2017-2020); LXIX Молодёжная научная конференция Самарского университета; 8th International Symposium on Digital Forensics and Security.

Основные результаты работы представлялись на 3 выставках и форумах, в т.ч.: AI Conference (Москва, 2018); Открытые инновации (Москва, инновационный центр «Сколково», 2019); VI Ежегодной национальной выставке «ВУЗПРОМЭКСПО» (Москва, 2019).

Публикации

Автором лично и в соавторстве опубликовано 20 научных работ. Из них 9 статей в изданиях, индексируемых в базах Web of Science / Scopus, 2 - в журналах, рекомендуемых ВАК, 4 свидетельства о регистрации программы для ЭВМ.

Структура и объём диссертации

Диссертация состоит из введения, четырёх глав, заключения, списка литературы и двух приложений. Текст диссертации изложен на 101 странице машинописного текста, содержит 19 рисунков, 12 таблиц. Список литературы составляет 91 наименование.

1 КОМПЬЮТЕРНАЯ ОБРАБОТКА

НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВ

В данной главе рассматривается традиционный подход компьютерной обработки неструктурированных текстов (КОНТ), вводятся основные понятия и определение конверсационного анализа, осуществляется постановка задачи, а также предлагается подход КОНТ с применением конверсационного анализа.

1.1 Традиционные методы компьютерной обработки текстов

Компьютерная обработка текстов - преобразование текста на искусственном или естественном языке с помощью компьютера посредством процедур автоматического анализа текста.

Рассмотрим данное определение более подробно.

Язык (Ь) - сложная абстрактная модель, не зависящая от способа использования естественного языка, с возможностью описания формальной грамматикой.

Любой язык - это способ передачи информации. В языке, как таковом, не хранится информация и для передачи используются последовательности символов алфавита, связанные языковой системой - слова. Последовательность слов позволяет передавать информацию. Последовательность слов образует единый блок информации (текст).

Текст (Т) - последовательность символов из некоторого алфавита А, построенных по правилам некоторого языка Ь. Любой текст состоит из отдельных единиц - слов 1 (Т = 11 ... 11).

Следствием двух определений является факт, что любой текст Т -последовательность символов, построенных по правилам языка Ь с использованием символов алфавита А, для которой существует описание в

виде абстрактной модели. Текст - избыточная многоуровневая система хранения и передачи информации [52].

Исследования, связанные с обработкой текстов, стали популярны в конце 18-го века. В 1913 г. А.А. Марков опубликовал работу [53], в которой он изучал распределение доли гласных и согласных среди первых 20000 букв произведения А.С. Пушкина "Евгений Онегин", что является первым в истории экспериментом по определению авторства текста при помощи методов компьютерной лингвистики.

Все языки подразделяются на естественные и искусственные. Естественные — используемые людьми для коммуникации между собой. Искусственные — синтетически созданные для эффективной передачи какой-либо специфической информации.

В языке выделяются следующие основные языковые уровни: морфологический, синтаксический, семантический. На каждом языковом уровне используются свои структуры данных и свои правила. Классическими задачами являются токенизация (деление текста на отдельные слова), лемматизация (приведение слова к начальной форме), синтаксический анализ текста (парсинг), тематическое моделирование (выделение тем в большой коллекции документов) и определение эмоциональной окраски, распознавание и генерация текстов на естественном языке [54]).

Автоматическая обработка текста на естественном языке неизбежно

сталкивается с неоднозначностью естественного языка. Одной из

распространенных проблем является снятие омонимии. Задача выбора

наиболее вероятного значения слова решается путем анализа контекста, в

котором данное слово было употреблено. Другая проблема - наличие

словосочетаний в тексте. В словосочетаниях значение целого больше, чем

значение суммы его частей. Иными словами, семантика словосочетания не

равна семантике его частей, поэтому изучение свойств отдельных слов не

19

передает значения словосочетания непосредственно. Обнаружение значимых словосочетаний выполняется методами Text Mining [55]. Однако, неоднозначность может быть решена с помощью различных методов, таких как минимизация неоднозначности, сохранение неоднозначности, интерактивная неоднозначность и весовая неоднозначность [56].

Рассмотрим основные традиционные подходы анализа текста. 1.1.1 Анализ тональности текста

Тональность текста - это эмоциональная оценка, выраженная в тексте (англ. Sentiment или Opinion). Основной задачей анализа тональности является нахождение мнений в тексте и выявление их свойств. Задача анализа тональности решается с помощью класса методов компьютерной лингвистики, которые предназначены для автоматизированного выделения в текстах эмоционально окрашенной лексики и эмоциональной оценки текста.

Как правило, при определении эмоциональной окраски текста используется два класса - «позитивно», «негативно» или классификация производится по 3-х бальной шкале: «позитивно», «негативно», «нейтрально». Реже используются 4-х, 5-ти, 10-ти бальные шкалы.

Согласно зарубежным публикациям, при классификации по тональности узкотематических текстов на два класса («позитивно», «негативно»), точность классификаторов, основанных на униграммах, превышает 82 % [17], однако, при определении положительного или отрицательного влияния текста на репутацию упомянутого в нем объекта, точность снижается до 40 %. При решении задачи классификации более чем на два класса («позитивно», «негативно», «нейтрально»), точность классификации существенно снижается. Это связанно с субъективным восприятием информации: то, что один человек считает «позитивным», другой может отнести к «нейтральному» или даже «склонному к негативному». В статье [57] авторы показывают, что

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Рыцарев Игорь Андреевич, 2021 год

Источник данных

Модуль представления данных

Получение ответа от системы

Модуль обработки первичных данных

Модуль конверсационного

Модуль сбора статистических данных

Модуль фо рмирования частотных словарей

Модуль фо рмирования матриц порядка

Модуль кластеризации

Модуль векторизации

Модуль поиска ключевых

Модуль внешних

Кластер по обработке данных

Рисунок 15 - Архитектура программного комплекса

Комплекс реализован на языке Python 3.6 с использованием среды разработки - PyCharm Community Edition. Рекомендуемые системные требования: операционная система - Windows 10; процессор - Core i7 3,6 ГГц; ОЗУ - 16 ГБ; HDD - 10 ГБ свободного места.

4.3 Особенности программного комплекса

При разработке программного комплекса изначально закладывалась идея параллельной обработки данных с использованием технологий обработки данных сверхбольшого объема (Spark) [89*].

В связи с тем, что вычислительная сложность обработки алгоритма растет линейно в зависимости от объема входных данных, организация параллельного выполнения действий на этом шаге принесёт наибольшее ускорение вычислений (рисунок 16).

1. Сбор данных и извлечение информации

2. Предобработка данных регулярными выражениями

Подпроцесс №1

Подпроцесс №р

Предобработка 1 текста

Предобработка р-го текста

3. Обработка данных модулем конверсационного анализа

Подпроцесс №1

Подпроцесс №р

Обработка 1 текста

Обработка р-го текста

4. Сравнение частотных словарей/матриц порядка/ графов последовательностей

Рисунок 16 - Параллельный алгоритм обработки данных

Технология поддерживает подачу на вход не только единичных документов, но и массивов данных. В таком случае расчет статистических параметров будет производиться для общего количества данных.

Сбор данных из сети Интернет производится путем создания программного средства (модуля подключения к социальной сети/новостному источнику (RSS)/базе данных при помощи драйвера ODBC).

При необходимости исследования возможно введение дополнительных фильтров на этапе сбора данных. К примеру, генерируемые в режиме on-line данные социальной сети собираются с помощью фильтра по обозначенной геолокации. Далее при помощи контентного фильтра, настроенного по ключевым словам или тематикам, собираются необходимые для исследования данные [90*].

4.4 Сравнение последовательной и параллельной реализации программного комплекса

Для оценки качества работы алгоритма были подготовлены наборы текстов размерностью 1000, 2000, 4000, 8000, 16000, 32000, 64000, 128000. Запуски программного комплекса производились на программно-аппаратном комплексе обработки структурированных и неструктурированных данных сверхбольшого объёма IBM Puredata for Analytics (Netezza) лаборатории по обработке данных сверхбольшого объема Самарского Университета. Данный программный комплекс имеет следующие характеристики:

• специализированный программно-аппаратный комплекс хранения и аналитического анализа структурированных данных IBM Puredata for Analytics (Netezza) с объёмом дискового пространства не менее 96ТБайт (с учетом 4-х кратного сжатия данных);

• комплекс серверов IBM System X для подсистемы распределённого хранения и аналитической обработки неструктурированных данных с использованием программного обеспечения IBM Infosphere BigInsights, в т.ч. сервер управления IBM x3630 M4 (два процессора Intel Xeon Processor E5-2450v2; 96 Гбайт памяти; 2 диска по 600ГБ) и четыре сервера обработки данных IBM x3630 M4 (два процессора Intel Xeon

Processor E5-2450v2; 96 Гбайт оперативной памяти; 8TB дисковой памяти).

Основная особенность хранилища данных IBM Puredata for Analytics (Netezza) - интеграция РСУБД и специализированного аналитического инструментария с аппаратными ускорителями запросов на основе FPGA, что обеспечивает на задачах аналитики ускорение от 10 до 100 раз по сравнению с традиционными СУБД [91].

Оценка качества работы производилась по трем параметрам:

• ускорение;

• эффективность;

• масштабируемость.

Под ускорением понимаем отношение длительности вычислений по последовательному алгоритму выбранного численного метода (T1) ко времени расчетов по исследуемому параллельному (Tp), разумеется, того же метода:

5 = 7, (10)

где p - количество задач алгоритма, упрощенно принимаемое равным числу потоков выполнения вычислительного процесса.

График ускорения представлен на рисунке 17.

16

32

25000

и 20000 х

О 15000

ш <

о_ 1П

° 10000

о. ее

5000

500 1000 2000 4000 8000 16000

КОЛИЧЕСТВО ДАННЫХ, ШТ.

32000

64000

128000

Рисунок 17 - График ускорения высокопроизводительной реализации

алгоритма

Эффективностью принято называть величину

Е= - = -ЮОо/о. (11)

р тРр

Величина показывает, насколько независимо (параллельно) исполняются расчеты по исследуемому алгоритму на задействованной аппаратной базе; используются достаточно ли эффективно аппаратные возможности.

График эффективности представлен на рисунке 18.

16

32

1600 1400 1200

О4

,Е 1000

НЕ 800

ОК 600 С

> 400 200 0

•- -•-

- • •- -9

■- -■- и и и и -■- -■

V- -V- -V- -V- -V- -V- -V- -V

1000 2000 4000 8000 16000

КОЛИЧЕСТВО ДАННЫХ, ШТ

32000

64000

128000

1

2

4

8

0

1

2

4

8

Рисунок 18 - График эффективности высокопроизводительной реализации

алгоритма 79

Масштабируемость - свойство алгоритма, связанное с возможностью увеличения объема расчетов по некоторому численному методу при росте количества задач алгоритма (потоков выполнения вычислительного процесса) без изменения длительности вычислений. Количественно масштабируемость определяется следующим образом:

М = — • 100% (при Тр=Т1). (12)

VI

График масштабируемости представлен на рисунке 19.

1/2 1/4 1/8 1/16 1/32

100

г?

-О 90

Т

С

О 80

Н

В

И 70

Т

К

Е 0 60

0

т 50

СЕ

А

Н 40

.0

Л

Е Т 30

И

Л С 20

И

Ч Ы 10

В 0

500

1000

2000

-Ф— Ф ♦--

ж ■

-—ж—

4000 8000 16000

КОЛИЧЕСТВО ДАННЫХ, ШТ

32000

64000 128000

Рисунок 19 - График масштабируемости высокопроизводительной

реализации алгоритма

Из результатов видно:

• зависимость между временем обработки текстов и объемом данных близка к линейной;

• на 16 потоках достигается ускорение в 15 раз;

• прирост эффективности ~70 % на ядро;

• использование больше 16 потоков обработки не рекомендуется. Время на прием/передачу данных существенно замедляет работу алгоритма.

Выводы главы 4

1. Предложена высокопроизводительная реализация алгоритма векторизации неструктурированных текстов с применением технологии Spark, позволяющая увеличить вычислительную эффективность компьютерной обработки неструктурированных текстов до 70 %.

2. Установлено, что при запуске свыше 16 параллельных потоков работы с данными эффективность компьютерной обработки с применением разработанных алгоритмов тестовых данных снижается из-за большого количества передаваемых данных между узлами.

ЗАКЛЮЧЕНИЕ

Основные результаты, полученные в ходе исследования заключаются в следующем:

1. Разработан метод конверсационного анализа неструктурированных текстов. Применение разработанного метода позволяет формировать пространство контекстных признаков неструктурированных текстов.

2. Разработан алгоритм векторизации текста на основе конверсационного анализа, позволяющий извлекать параметры контекстных связей и учитывающий частоту употребления текстовых единиц в тексте.

3. Предложена технология КОНТ для обработки и выделения контекста неструктурированных текстов социальных сетей. С использованием разработанной технологии решены задачи КОНТ: выявление семантических различий текстов, разделение текста на самостоятельные единицы, анализ эмоциональной и количественной характеристики неструктурированных текстов.

4. Использование разработанной технологии компьютерной обработки неструктурированных текстов позволяет рассчитывать меру текстовой близости между текстами в задаче идентификации автора текста. Предложенная технология позволила обеспечить высокую точность классификации и составляет 89 %.

5. Применение разработанной технологии компьютерной обработки неструктурированных текстов в задаче сегментации текста позволяет достичь значения средней ошибки на уровне 7,9 %.

6. Разработанный алгоритм векторизации позволяет достигнуть наилучшего (по сравнению с существующими алгоритмами векторизации) качества классификации текстов социальных сетей:

• на основе тематических инвариантов - 67 % (на 13 % выше);

• на основе групповых инвариантов - 63 % (на 20 % выше);

• на основе авторских инвариантов - 51 % (на 44 % выше).

7. Показана возможность:

• расчета текстовой близости между текстовыми единицами при помощи разработанной технологии компьютерной обработки неструктурированных текстов для выявления синонимичных инвариантов в словарях;

• применения разработанной технологии компьютерной обработки неструктурированных текстов в задаче выявления семантических различий для расчета контекстной дистанции между сообществами;

• применения разработанной технологии компьютерной обработки неструктурированных текстов к задаче анализа активности, тональности сообществ и оценки информационного воздействия на характер обсуждения актуальных вопросов в тематических группах.

8. Предложена высокопроизводительная реализация алгоритма векторизации неструктурированных текстов. За счет применения технологии Spark, значение вычислительной эффективности компьютерной обработки неструктурированных данных составило 70 %.

Получено 4 свидетельства о государственной регистрации программы для ЭВМ:

• № 2018665439 «Модуль для сбора и анализа данных социальных сетей "Social Data Parser"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Парингер Р.А., Кирш Д.В.;

• № 2018665440 «Модуль быстрого подсчета слов "FastWordCount"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Лисецкий К.С., Парингер Р.А., Самыкина Н.Ю.;

• № 2018665821 «Модуль обработки первичных данных "Social Network Data Parser"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Шиверов П.К., Парингер Р.А., Лисецкий А.К.;

• № 2018666882 «Модуль поиска ключевых слов "Find Keywords in Data"»

// Правообладатель: Самарский университет; Авторы: Рыцарев И.А.,

Куприянов А.В., Лисецкий К.С., Парингер Р.А., Козлов Д.Д.

Основные результаты диссертации отражены в 16 публикациях, в т.ч.:

• 11 научных статей, из них:

o 9 в изданиях, входящих в базу WoS / Scopus; o 2 в издании, рекомендованном ВАК;

• 5 тезисов докладов.

Основные результаты и положения диссертации были представлены на 6 конференциях, в т.ч.: Международная конференция и молодёжная школа «Информационные технологии и нанотехнологии» (2017-2020); LXIX Молодёжная научная конференция Самарского университета; 8th International Symposium on Digital Forensics and Security.

Основные результаты работы представлены на 3 выставках и форумах: AI Conference (Москва, 2018); Открытые инновации (Москва, инновационный центр «Сколково», 2019); VI Ежегодной национальной выставке «ВУЗПРОМЭКСПО» (Москва, 2019).

Результаты работы были внедрены в учебном процессе в рамках курса «Анализ социальных сетей» направления 01.04.02 «Прикладная математика и информатика» при реализации магистерской образовательной программы «Науки о данных» ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева».

СПИСОК ЛИТЕРАТУРЫ

1 Галина, А. В. Обзор технологии text mining [Текст] / А. В. Галина, Е. А. Есина //Аллея науки. - 2018. - Т. 2. - №. 1. - С. 393-396.

2 Лутфуллаева, М. Ж., Пьянков К. А. Актуальность разработки и внедрения информационных систем, ориентированных на обработку больших объемов данных в государственном управлении [Текст] / М. Ж. Лутфуллаева, К. А. Пьянков //Донецкие чтения 2017: Русский мир как цивилизационная основа научно-образовательного и культурного развития Донбасса. - 2017. - С. 52-55.

3 Ghani, N. A. Social media big data analytics: A survey [Text] / N. A. Ghani, S. Hamid, I. A. T. Hashem, E. Ahmed //Computers in Human Behavior. - 2019. -Т. 101. - С. 417-428.

4 Oliverio, J. A survey of social media, big data, data mining, and analytics [Text] //Journal of Industrial Integration and Management. - 2018. - Т. 3. - №. 03. - С. 1850003.

5 Jiang, D. Sentiment computing for the news event based on the social media big data [Text] / D. Jiang, X. Luo, J. Xuan, Z. Xu //IEEE Access. - 2016. - Т. 5. -С. 2373-2382.

6 Рубцова, Ю. В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности [Текст] : дис. ... канд. тех. наук : 05.13.17 : защищена 27.02.20 : утв. 15.07.02 / Загорулько Юрий Алексеевич. - Новосибирск, 2020. - 141 с.

7 ИИ и Natural Language Processing: большой обзор рынка. Часть 1 [Электронный ресурс] // Российская венчурная компания. 2019. URL: https://www.rvc.ru/press-service/media-review/rvk/152348/ (дата обращения: 13.07.2020).

8 ИИ и Natural Language Processing: большой обзор рынка. Часть 2 [Электронный ресурс] // Российская венчурная компания. 2019. URL: https://www.rvc.ru/press-service/media-review/rvk/153082/ (дата обращения: 13.07.2020).

9 Жучкова, С. Е. Эмпирическое исследование зависимости подростков от социальных сетей [Текст] / С. Е. Жучкова, М. Н. Воробьева //Личность, семья и общество: вопросы педагогики и психологии. - 2016. - №. 9 (66).

10 Овчар, Н. А. Технологии исследования социального самочувствия горожан на основе анализа web-контента [Текст] / Н. А.Овчар, А.

С.Воробьев, Д. С. Парыгин, Н. П. Садовникова//Системный анализ в науке и образовании. - 2019. - №. 1. - С. 83-92.

11 Калашникова, С. В. Роль социальных сетей в продвижении гостиничных услуг [Текст] / С. В. Калашникова, З. А. Ханахок //Новые технологии. - 2019. - №. 1.

12 Красноставская, Н. В. Возможности использования инструментов социальных сетей для продвижения виртуального магазина на международной торговой интернет-площадке //Неделя науки СПбПУ. - 2017.

- С. 328-331.

13* Рыцарев, И.А. Разработка и реализация сервисов по сбору данных социальных сетей в целях улучшения среды обитания человека / И.А. Рыцарев, А.В. Благов, М.И. Хотилин // Сборник трудов ИТНТ-2018 IV международная конференция и молодежная школа «Информационные технологии и нанотехнологии» (ИТНТ-2018). Самара, 24 - 27 апреля 2018 г. -Самара: Новая техника. - 2018. - С. 2452-2457.

14* Рыцарев, И.А. Кластеризация изображений социальных сетей с использованием технологии BigData / И.А. Рыцарев, А.В. Куприянов, Д.В. Кирш // Сборник трудов ИТНТ-2018 IV международная конференция и молодежная школа «Информационные технологии и нанотехнологии» (ИТНТ-2018). Самара, 24 - 27 апреля 2018 г. - Самара: Новая техника. - 2018.

- С. 2306-2310.

15 Открытый курс машинного обучения. Тема 6. Построение и отбор признаков [Электронный ресурс] // Хабр. 2017. URL: https://habr.com/ru/company/ods/blog/325422/ (дата обращения: 3.10.2019).

16 Федюшкин, Н. А. О выборе методов векторизации текстовой информации [Текст] / Н. А. Федюшкин, С. А. Федосин //Научно-технический вестник Поволжья. - 2019. - №. 6. - С. 129-134.

17 Pang, B. Thumbs up?: sentiment classification using machine learning techniques / B. Pang, L. Lee, S. Vaithyanathan // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. -Association for Computational Linguistics, 2002. - С. 79-86.

18 Oracle Database Technologies. [Электронный ресурс] // oracle.com URL: https://www.oracle.com/technetwork/database/enterprise-edition/index-098492.html (дата обращения: 17.05.2020)

19 TextAnalyst SDK. [Электронный ресурс] // analyst.ru URL: http://www.analyst.ru/index.php?lang=rus (дата обращения: 21.05.2020)

20 IBM Knowledge Center. [Электронный ресурс] // ibm.com URL: https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.t a.help/tm_intro_tm_defined.htm (дата обращения: 22.05.2020)

21 Голенков, В. В. Семантическая технология проектирования интеллектуальных систем / В. В. Голенков, Н. А. Гулякина, И. Т. Давыденко, Д. Н. Корончик, Д. В. Шункевич //Вюник Кременчуцького нащонального унiверситету iменi Михайла Остроградського. - 2014. - №. 5. - С. 28-33.

22* Rytsarev, I. A. Application of principal component analysis to identify semantic differences and estimate relative positioning of network communities in the study of social networks content [Text] / I. A. Rytsarev, R. A. Paringer, A. V. Kupriyanov, Kirsh D. V. //Journal of Physics: Conference Series. - IOP Publishing, 2019. - Т. 1368. - №. 5. - С. 052032.

23* Rytsarev, I.A. Development and implementation of social network data collection services to improve the human environment / I.A. Rytsarev, A.V. Blagov, M.I. Khotilin // CEUR Workshop Proceedings. - 2018. - Vol. 2212. - P. 193-198.

24 Еремеев, М. Разведочный поиск на основе тематического моделирования / М. Еремеев, А. Янина //Ломоносов-2019. - 2019. - С. 114116.

25 Ianina, A. Hierarchical Interpretable Topical Embeddings for Exploratory Search and Real-Time Document Tracking / A. Ianina, K. Vorontsov //International Journal of Embedded and Real-Time Communication Systems (IJERTCS). - 2020. - Т. 11. - №. 4. - С. 134-152.

26 Ianina, A. Regularized multimodal hierarchical topic model for document-by-document exploratory search / A. Ianina, K. Vorontsov //2019 25th Conference of Open Innovations Association (FRUCT). - IEEE, 2019. - С. 131-138.

27 Ianina, A. Multi-objective topic modeling for exploratory search in tech news / A. Ianina, L. Golitsyn, K. Vorontsov // Conference on Artificial Intelligence and Natural Language. - Springer, Cham, 2017. - С. 181-193.

28 Veselova, E. Topic Balancing with Additive Regularization of Topic Models / E. Veselova, K. Vorontsov //Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. - 2020. -С. 59-65.

29 Irkhin, I. A. Additive regularizarion of topic models with fast text vectorizartion / I. A. Irkhin, V. G. Bulatov, K. V. Vorontsov //Computer Research and Modeling. - 2020. - Т. 12. - №. 6. - С. 1515-1528.

30 Belyy, A. V. Quality evaluation and improvement for hierarchical topic modeling / A. V. Belyy, M. S. Seleznova, A. K. Sholokhov, K. V. Vorontsov //Computational Linguistics and Intellectual Technologies: Materials of DIALOGUE 2018. - 2018. - С. 110-123.

31 Vorontsov, K. V. Additive regularization for topic models of text collections / K. V. Vorontsov //Doklady Mathematics. - Pleiades Publishing, 2014. - Т. 89. -№. 3. - С. 301-304.

32 Vorontsov, K. Bigartm: Open source library for regularized multimodal topic modeling of large collections / K. Vorontsov, O. Frei, M. Apishev, P. Romov, M. Dudarenko //International Conference on Analysis of Images, Social Networks and Texts. - Springer, Cham, 2015. - С. 370-381.

33 Alekseev, V. A., Intra-text coherence as a measure of topic models' interpretability / V. A. Alekseev, V. G. Bulatov, K. V. Vorontsov //Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. - 2018. - С. 1-13.

34 Skachkov, N. A. Improving topic models with segmental structure of texts / N. A. Skachkov, K. V. Vorontsov //Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. - 2018. - С. 652-661.

35 Рубцова, Ю.В. Методы и алгоритмы построения информационных систем для классификации текстов социальных сетей по тональности: дис. . канд. т.н. наук: 05.13.17. - Новосибирск, 2019.

36 Еримбетова, А.С. Лингвистическое и алгоритмическое обеспечение процесса информационного поиска на основе грамматики связей, в том числе для тюркских языков: дис. ... канд. т.н. наук: 05.13.17. - Новосибирск, 2019.

37 Михайлов, Д. В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF [Текст] / Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов //Компьютерная оптика. - 2015. - Т. 39. - №. 3.

38 Михайлов, Д. В. Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм [Текст] / Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов //Компьютерная оптика. - 2017. - Т. 41. - №. 3.

39 Сидорова, Е. А. Мультиагентный алгоритм анализа текста на основе онтологии предметной области [Текст] / Е. А. Сидорова, Н. О. Гаранина, Ю. А. Загорулько //Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия): Труды конференции. Т. 1. — Белгород: Изд-во БГТУ. -2012. - С. 219.

40 Сидорова, Е. А. Представление жанровой структуры документов и ее использование в задачах обработки текста [Текст] / Е. А. Сидорова, И. С. Кононенко //Перспективы систем информатики. - 2009. - С. 248-254.

41 Батура, Т. В. Временные и пространственные понятия в текстах на естественном языке и их исследование [Текст] // Вестник СибГУТИ. - 2019. -№. 3. - С. 27-35.

42 Батура, Т. В. Методы и системы автоматического реферирования текстов [Текст] / Т. В. Батур, А. М. Бакиева. - Новосибирск : ИПЦ НГУ. -2019. - 110 стр.

43 Батура, Т. В., Бакиева А. М. Гибридный метод автореферирования научно-технических текстов на основе риторического анализа [Текст] / Т. В. Батура, А. М. Бакиева //Программные продукты и системы. - 2020. - Т. 33. -№. 1.

44 Варламов, О. О. О математическом моделировании естественнонаучных процессов понимания компьютерами смысла текстов, образов и речи на основе перспективных миварных технологий [Текст] //Системы и средства искусственного интеллекта. - 2013. - Т. 1. - С. 47-50.

45 Адамова, Л. Е. О концептуально-прикладном решении проблемы "понимание смысла текста" на основе миварных технологий и концепции вещь-свойство-отношение [Текст] / Л. Е. Адамова, О. О. Варламов //Труды Конгресса по интеллектуальным системам и информационным технологиям" . - IS&IT'17". - 2017. - С. 214-221.

46 Загорулько, Ю. А. Подход к построению интеллектуальных информационных систем на основе семантических сетей //Открытые семантические технологии проектирования интеллектуальных систем. -2011. - №. 1. - С. 15-20.

47 Загорулько, Ю. А. Современные средства формализации семантики областей знаний на основе онтологий //Информационные и математические технологии в науке и управлении. - 2018. - №. 3 (11).

48 Загорулько, Ю. А., Боровикова О. И. Проблемы построения онтологий научных предметных областей на основе паттернов онтологического проектирования //Информационные технологии и системы. - 2019. - С. 157161.

49 Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ // Хабр URL:

https://habr.com/ru/company/sberbank/blog/524522/ (дата обращения: 20.08.2020).

50 «Яндекс» выпустил голосового помощника «Алиса» // vc.ru URL: https://vc.ru/services/27314-yandeks-vypustil-golosovogo-pomoshchnika-alisa (дата обращения: 25.08.2020).

51 Как Яндекс научил искусственный интеллект находить ошибки в новостях // Хабр URL: https://habr.com/ru/company/yandex/blog/479662/ (дата обращения: 20.08.2020).

52 Волкова, И. А. Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров. - 2006.

53 Марков, А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь [Текст] // Известия Имп.Акад.наук. - серия VI Т.Х. N3. - 1913. - с.153.

54 NLP: как стать специалистом по обработке естественного языка [Электронный ресурс] // Tproger. 2019. URL: https://tproger.ru/blogs/nlp-professional-howto/ (дата обращения: 11.03.2020).

55 Барсегян, А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP [Текст] / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб, и доп. - СПб.: БХВ-Петербург, 2007. - 384 с.

56 Chantree, F. Ambiguity management in natural language generation [Text] / F. Chantree // 7th Ann. CLUK Research Colloquium. - 2004.

57 Pang B. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales / B. Pang, L. Lee // Proceedings of the 43rd annual meeting on association for computational linguistics. - Association for Computational Linguistics, 2005. - С. 115-124.

58 Карташева, Е. Л. Инструментальные средства подготовки и анализа данных для решения трехмерных задач математической физики, Матем. моделирование. - 1997. - Т. 9, №7. - С.113-127

59 Тарасов, С.Д. Современные методы автоматического реферирования. Научно-технические ведомости СПбГПУ 6'2010. - Информатика. Телеуоммуникации. Управление. - 2010. - С.59-73

60 Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса на Р0МИП-2008 [Текст] / Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник // Труды РОМИП. - 2007. - Т. 2008. - С. 160169.

61 Гулин, А. Яндекс на Р0МИП'2009. Оптимизация алгоритмов ранжирования методами машинного обучения [Текст] / А. Гулин //

Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП. - 2009. - С. 163-168.

62* Rytsarev, I.A. Clustering of social media content with the use of BigData technology [Text] / I.A. Rytsarev, A.V. Kupriyanov, D.V. Kirsh, K.S. Liseckiy // Journal of Physics: Conference Series. - 2018. - Vol. 1096, Iss. 1. - P. 1-7.

63 Швецов, А. А. Лексическое значение слова и его роль в оптимизации систем" интеллектуального" поиска //Профессиональное лингвообразование.

- 2019. - С. 405-411.

64 Котельников, Е. В. Определение весов оценочных слов на основе генетического алгоритма в задаче анализа тональности текстов [Текст] / Е. В. Котельников, М. В. Клековкина //Программные продукты и системы. - 2013.

- №. 4.

65 Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка [Электронный ресурс] // Хабр. 2018. URL: https://habr.com/ru/company/oleg-bunin/blog/352614/ (дата обращения: 11.04.2019).

66 Ермаков, А. Е. Семантическая интерпретация в системах компьютерного анализа текста [Текст] / А. Е. Ермаков, В. В. Плешко //Информационные технологии. - 2009. - Т. 6. - С. 2-7.

67 Аношин, П. И. Автоматический анализ текстов. Синтаксический и семантический анализ [Текст] //Евразийский научный журнал. - 2017. - №. 6.

68 Обработка текстов на естественном языке [Электронный ресурс] // Издательство "Открытые системы". 2003. URL: https://www.osp.ru/os/2003/12/183694 (дата обращения: 23.02.2018).

69 Исупова, О. Г. Конверсационный анализ: представление метода [Текст] / О. Г. Исупова //Социология: методология, методы, математическое моделирование (4М). - 2002. - №. 15. - С. 33-52.

70 Основные термины в Natural Language Processing [Электронный ресурс] // Singularika. 2018. URL: https://singularika.com/ru/nlp/natural-language-processing-terms/ (дата обращения: 13.06.2019).

71 Интеллектуальный анализ текста [Электронный ресурс] // Википедия. 2018. URL: https://en.wikipedia.org/wiki/N-gram (дата обращения: 12.05.2020).

72 A Gentle Introduction to the Bag-of-Words Model [Электронный ресурс] // Machine Learning Mastery. 2019. URL:

https://machinelearningmastery.com/gentle-introduction-bag-words-model/ (дата обращения: 14.05.2020).

73 Обработка естественного языка [Электронный ресурс] // Университет ИТМО. 2020. URL:

http: //neerc.ifmo .га/шМ/^ех^р?Ше=Обработка_естественного_языка #cite_note-4 (дата обращения: 16.09.2020).

74 Чудесный мир Word Embeddings: какие они бывают и зачем нужны? [Электронный ресурс] // Хабр. 2017. URL:

https://habr.com/ru/company/ods/blog/329410/ (дата обращения: 18.12.2018).

75 Интеллектуальный анализ текста [Электронный ресурс] // Википедия. 2018. URL: https://en.wikipedia.org/wiki/Word2vec (дата обращения: 17.05.2020).

76* Rytsarev, I.A. Research and analysis of messages of users of social networks using BigData technology / I.A. Rytsarev, A.V. Kupriyanov, D.V. Kirsh, R.A. Paringer // CEUR Workshop Proceedings. - 2019. - Iss. 2416. - P. 504-509.

77 Метод главных компонент [Электронный ресурс] // MachineLearning. 2018. URL:

http: //www.machineleaming.ru/wiki/index.php?title=Метод_главных_компонент (дата обращения: 14.06.2020).

78* Мухин, А.С. Определение близости групп в социальных сетях на основе анализа текста с использованием больших данных [Текст] / А.С. Мухин, И.А. Рыцарев // Сборник трудов ИТНТ-2019. - Самара: Новая техника. - 2019. - Т. 4. - С. 757-760.

79* Rytsarev, I.A. Text data mining using conversation analysis / I.A. Rytsarev // CEUR Workshop Proceedings. - 2020. - Iss. 2667. - P. 159-161.

80* Рыцарев, И.А. Кластеризация медиаконтента из социальных сетей с использованием технологии BigData [Текст] / И.А. Рыцарев, Д.В. Кирш, А.В. Куприянов // Компьютерная оптика. - 2018. - Т. 42, № 5. - С. 921-927.

81* Рыцарев, И.А. Анализ текстовых данных с применением конверсационного анализа / И.А. Рыцарев // Информационные технологии и нанотехнологии (ИТНТ-2020): сборник трудов VI Международной конференции и молодёжной школы. - Самара: Изд-во Самарского университета. - 2020. - С. 60-63.

82* Rytsarev, I.A. Application of principal component analysis to identify semantic differences and estimate relative positioning of network communities in the study of social networks content / I.A. Rytsarev, R.A. Paringer, A.V. Kupriyanov, D.V. Kirsh // Journal of Physics: Conference Series. - 2019. - Vol. 1368, Iss. 5. - P. 32767-32767.

83* Kurbatov, Y.A. Research Of Text Data Processing Algorithms In Social Networks / Y.A. Kurbatov, I.A. Rytsarev, A.V. Kupriyanov // IEEE Xplore. -2020. - P. 9253271 [1-3].

84* Рыцарев, И.А. Метод конверсационного анализа для оценки активности и тональности сообществ в социальных сетях / И.А. Рыцарев, А.В. Куприянов, В.Г. Литвинов // Известия Самарского научного центра Российской академии наук. - Самара: Издательство Самарского федерального исследовательского центра РАН. - 2020. - Т. 22, № 6. - С. 8891.

85* Свидетельство № 2018665439 «Модуль для сбора и анализа данных социальных сетей "Social Data Parser"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Парингер Р.А., Кирш ДВ.

86* Свидетельство № 2018665440 «Модуль быстрого подсчета слов "FastWordCount"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Лисецкий К.С., Парингер Р.А., Самыкина Н.Ю.

87* Свидетельство № 2018666882 «Модуль поиска ключевых слов "Find Keywords in Data"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Лисецкий К.С., Парингер Р.А., Козлов Д.Д.

88* Свидетельство № 2018665821 «Модуль обработки первичных данных "Social Network Data Parser"» // Правообладатель: Самарский университет; Авторы: Рыцарев И.А., Куприянов А.В., Шиверов П.К., Парингер Р.А., Лисецкий А.К.

89* Agbo I. Big Data Architecture: Designing the Right Solution for Social Network Analysis [Text] / Agbo I., Kupriyanov A., Rytsarev I. //2020 8th International Symposium on Digital Forensics and Security (ISDFS). - IEEE Xplore, 2020. - P. 9116274 [1-5].

90* Рыцарев, И.А. Исследование и анализ сообщений пользователей социальных сетей с использованием технологии BigData / И.А. Рыцарев, А.В. Куприянов, Д.В. Кирш [Текст] // Сборник трудов ИТНТ-2019 V международная конференция и молодёжная школа «Информационные технологии и нанотехнологии» (ИТНТ-2019). Самара, 21 - 24 мая 2019 г. -Самара: Новая техника. - 2019. - С. 748-752.

91 Лаборатория обработки данных сверхбольшого объёма (Big Data Lab) [Электронный ресурс] // Самарский университет. 2020. URL: http://hpc.ssau.ru/node/3351 (дата обращения: 15.06.2020).

ПРИЛОЖЕНИЕ А. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ ПРОГРАММЫ ДЛЯ ЭВМ

RU 2018665440

V

ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ

ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

Номер регистрации (свидетельства):

Автор(ы):

2018665440

Рыцарев Игорь Андреевич (RU),

Дата регистрации: 05.12.2018

Номер и дата поступления заявки: 2018662669 12.11.2018

Куприянов Александр Викторович (1Ш), Лисецкий Константин Сергеевич (ИЦ), Парингер Рустам Александрович (1Ш), Самыкина Наталья Юрьевна (ГШ)

Дата публикации и номер бюллетеня:

Контактные реквизиты: г. Самара, Московское ш., 34

05.12.2018 Бюл. № 12

П равообла датель(и): федеральное государственное автономное образовательное учреждение высшего образования «Самарский национальный исследовательский университет имени академика С.П.Королева» (Самарский университет) ОШ)

Название программы для ЭВМ:

Модуль быстрого подсчета слов "FastWordCount"

Реферат:

Программа предназначена для анализа частоты употребления слов в текстах сверхбольшого объема. В программе реализован алгоритм разделения словаря на подсловари до уровня, обеспечивающего необходимую скорость анализа методом кроссплатформенных референций. Функциональные возможности: подсчет количества слов на основе стандартных алгоритмов WordCount; подключение модуля стемминга. Программа используется в программном комплексе для многокритериального анализа объектов социальных сетей с целью выявления и классификации паттернов поведения пользователей - «Социальный эхолот».

Язык программирования: Java

Объем программы для ЭВМ: 13 Кб

Стр.: 1

RU 2018665439

V

ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ

ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

Номер регистрации (свидетельства):

Автор(ы):

Рыцарев Игорь Андреевич (!Ш), Куприянов Александр Викторович ШЦ), Парингер Рустам Александрович (1Ш), Кирш Дмитрий Викторович (Яи)

2018665439

Дата регистрации: 05.12.2018

Номер и дата поступления заявки: 2018662662 12.11.2018

Правообладатель(и): федеральное государственное автономное образовательное учреждение высшего образования «Самарский национальный исследовательский университет имени академика С.П.Королева» (ЯЦ)

Дата публикации и номер бюллетеня:

05.12.2018 Бюл. № 12

Контактные реквизиты: г. Самара, Московское ш., 34, тел. 8 (846) 242-41-24

Название программы для ЭВМ:

Модуль для сбора и анализа данных социальных сетей "Social Data Parser" Реферат:

Программа предназначена для сбора и анализа данных социальных сетей. Функциональные возможности: сбор текстовых данных; удаление полей, несущих служебную и малую информативную часть: анализ обработанных данных. Результатом работы программы является статистика употребления слов, положительных/негативных сообщений, геопозиций пользователей.

Язык программирования: Java

Объем программы для ЭВМ: 17 Кб

Стр.: 1

RU 2018666882

V

ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ

ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

Номер регистрации (свидетельства):

Автор(ы):

2018666882

Рыцарев Игорь Андреевич (RU),

Дата регистрации: 21.12.2018

Номер и дата поступления заявки: 2018664223 10.12.2018

Куприянов Александр Викторович (ЫЩ Лисецкий Константин Сергеевич (КЩ Парингер Рустам Александрович (1Ш), Козлов Дмитрий Дмитриевич (1Ш)

Дата публикации и номер бюллетеня:

Контактные реквизиты: 443086, г. Самара. Московское ш., 34

21.12.2018 Бюл. № 1

П равообла датель(и): федеральное государственное автономное образовательное учреждение высшего образования "Самарский национальный исследовательский университет имени академика С.П. Королева" (Самарский университет) (1Ш)

Название программы для ЭВМ:

Модуль поиска ключевых слов "Find Keywords in Data" Реферат:

Модуль предназначен для анализа собранных данных из социальных сетей. Данный модуль помогает решить задачу подсчета слов и заданных форм, позволяет задать два уровня точности: стандартный и жесткий. Модуль направлен на обработку данных сверхбольшого объема. Информация, собранная в результате работы модуля, используется для анализа методом кроссплатформснных референций в программном комплексе для многокритериального анализа объектов социальных сетей с целью выявления и классификации паттернов поведения пользователей - «Социальный эхолот».

Язык программирования: Java

Объем программы для ЭВМ: 6 Кб

Стр.: 1

ПРИЛОЖЕНИЕ Б. АКТЫ О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИИ

«Утверждаю»

Проректор по учебной работе Самарского университета,

САМАРСКИЙ УНИВЕРСИТЕТ

SAMARA UNIVERSITY

федеральное государственное автономное образовательное учреждение высшего образования

А.В. Гаврилов

«Самарский национальный исследовательский универа имени академика С.П. Королева»

2021 г.

АКТ

о внедрении результатов диссертационной работы Рыцарева И.А.

«Метод конверсационного анализа неструктурированных текстов социальных сетей» в учебный процесс

Метод конверсационного анализа неструктурированных текстов, алгоритм векторизации на основе конверсационного анализа, а также технология компьютерной обработки неструктурированных текстовых данных на основе конверсационного анализа, разработанные инженером кафедры ТК Рыцаревым Игорем Андреевичем, используются на кафедре ТК в учебном процессе в рамках курса «Анализ социальных сетей» направления 01.04.02 «Прикладная математика и информатика» при реализации магистерской образовательной программы «Науки о данных (Data Science)».

Заведующий кафедрой ТК

7 ^А.В. Куприянов

Декан факультета информатики

1

«Утверждаю» Ректор

федеральное государственное автономно! образовательное учреждение высшего образо( «Самарский национальный исследовательский уни имени академика С.П. Королева»

САМАРСКИЙ университет

SAMARA UNIVERSITY

/- .^Mtj^M В. Д. Богатырев

« XI» 2021 г.

7

о внедрении результатов лиссертационной работы Рыцарева И.А.

«Метод конверсационного анализа неструкту рированных текстов социальных сетей»

Метод конверсаниопного анализа неструктурированных текстов, алгоритм векторизации на основе конверсационного анализа, а также технология компьютерной обработки неструктурированных текстовых данных на основе конверсационного анализа, разработанные инженером кафедры ТК Рыцаревым Игорем Андреевичем, апробированы и дали положительные результаты в рамках НИР «Корректировка и актуализация правовой и методологической основ и подготовка данных для корректировки и актуализации Стратегии комплексного развития городского округа Самара на период до 2025 года» по теме «Разработка предложений по изменению и дополнению стратегических направлений, стратегического видения, стратегических ориентиров, целей, проектного наполнения стратегических направлений в сферах развития экономики в целом, инновационного развития, развития предпринимательства, рынка потребительских товаров, туризма, рекреационного потенциала, деловой среды, связи и коммуникаций, демографического развития, занятости, уровня жизни населения и социальной поддержки населения на период до 2030 года».

Первый проректор - проректор по

научно-исследовательской работе

ЮОО ЛОКУС

443051, Самарская область, г. Самара, Кировский район,

ул. Республиканская, дом 65, кв. 38 ИНН 77313 15489 КПП 631201001 ОГРП 1167746437990 ОКПО 2337363 ОКВЭД 72.19.2, 72.19.3 Тел./факс: +7(846)2702385 аг!:гпко(й;%пш1.сот

о внедрении результатов диссертационной работы Рыцарева Игоря Андреевича «Метод конверсационного анализа неструктурированных текстов социальных сетей»

Разработанная Рыцаревым Игорем Андреевичем в диссертационной работе технология компьютерной обработки неструктурированных текстов на основе конверсационного анализа апробирована и успешно внедрена в программное обеспечение для текстовой аннотации изображений «МЕТОЕРЮТСЖ». Использование технологии позволило повысить качество компьютерной обработки неструктурированных текстов социальных сетей для подготовки моделей генерации текстов на естественном языке на основе ключевых слов.

2021

АКТ

Генеральный директор Никоноров А.В.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.