Модели и алгоритмы обработки слабоструктурированных текстовых данных на основе методов искусственного интеллекта тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Макарова Елена Андреевна

  • Макарова Елена Андреевна
  • кандидат науккандидат наук
  • 2023, ФГБОУ ВО «Рязанский государственный радиотехнический университет имени В.Ф. Уткина»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 166
Макарова Елена Андреевна. Модели и алгоритмы обработки слабоструктурированных текстовых данных на основе методов искусственного интеллекта: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «Рязанский государственный радиотехнический университет имени В.Ф. Уткина». 2023. 166 с.

Оглавление диссертации кандидат наук Макарова Елена Андреевна

ВВЕДЕНИЕ

ГЛАВА 1. ОСОБЕННОСТИ ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ В СИСТЕМАХ, ИСПОЛЬЗУЮЩИХ АНАЛИЗ ДАННЫХ

1.1. Методологии анализа данных

1.2. Свойства и особенности использования слабоструктурированных текстовых данных

1.3. Обзор методов обработки слабоструктурированных текстовых данных на естественном языке

1.4. Особенности применения методов искусственного интеллекта в процессе обработки слабоструктурированных текстовых данных

1.5. Обработка слабоструктурированных текстовых данных c привлечением экспертов

1.6. Обзор программного обеспечения для обработки слабоструктурированных текстовых данных

1.7. Выводы по главе. Постановка задачи диссертационного исследования

ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ

2.1. Модель интеллектуальной обработки слабоструктурированных текстовых данных

2.2. Визуальные модели для контроля извлечения и разведочного анализа слабоструктурированных текстовых данных

2.3. Алгоритм трансформации специфических сокращений

2.4. Алгоритм определения степени семантической близости слабоструктурированных текстовых данных

2.5. Выводы по главе

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ МОДЕЛЕЙ И АЛГОРИТМОВ

3.1. Функциональные требования к программному комплексу

3.2. Обоснование выбора средств разработки программного комплекса

3.3. Архитектура программного комплекса

3.4. Ключевые этапы разработки программного комплекса

3.5. Функциональное и нагрузочное тестирование подсистем программного комплекса

3.6. Аппаратные и программные требования к программному комплексу

3.7. Выводы по главе

ГЛАВА 4. АПРОБАЦИЯ И ВНЕДРЕНИЕ РАЗРАБОТАННОЙ МОДЕЛИ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ

4.1. План апробации результатов диссертационной работы

4.2. Интеллектуальная обработка обезличенных данных из ИЭМК пациентов

4.3. Интеллектуальная обработка данных отдела кадров ИТ-компании

4.4. Интеллектуальная обработка данных о рынке труда

4.5. Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЯ

ПРИЛОЖЕНИЕ А. СПИСОК БИБЛИОТЕК НА ЯЗЫКЕ PYTHON С УКАЗАНИЕМ ВЕРСИЙ, ИСПОЛЬЗУЕМЫХ В ПРОГРАММНОМ

КОМПЛЕКСЕ

ПРИЛОЖЕНИЕ Б. ФРАГМЕНТЫ ПРОГРАММНОГО КОДА

ПРИЛОЖЕНИЕ В. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ ПРОГРАММ

ДЛЯ ЭВМ

ПРИЛОЖЕНИЕ Г. ДОКУМЕНТЫ О ВНЕДРЕНИИ И ИСПОЛЬЗОВАНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ

СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ

ССТД - слабоструктурированные текстовые данные

ИИ - искусственный интеллект

ПО - программное обеспечение

ЭВМ - электронная вычислительная машина

БД - база данных

СУБД - система управления базами данных

АД - анализ данных

ИАД - интеллектуальный анализ данных

ИЭМК - интегрированная электронная медицинская карта

ИТ - информационные технологии

NLTK - Natural Language Toolkit

DM - data mining

WMD - Word Mover's Distance

LSTM - Long short-term memory (долгая краткосрочная память)

ВВЕДЕНИЕ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы обработки слабоструктурированных текстовых данных на основе методов искусственного интеллекта»

Актуальность темы исследования.

С развитием информационных технологий, растёт объём данных, доступных для обработки. В 2020 году количество открытых данных достигает уже 50 000 Эксабайт, из которых около 90% составляют слабоструктурированные и неструктурированные данные (IDC The Digital Universe, 2020). Часть из этих данных являются текстовыми, создаваемыми людьми на естественных или формальных языках. В то же время, в связи с высокими темпами изменений в экономической и социальной сфере, количество и скорость решений, которые необходимо принимать управленцам в различных предметных областях, непрерывно растёт. Ценная информация, которая может повлиять на принятие данных решений, часто содержится в виде слабоструктурированных текстовых данных. Примерами таких данных могут быть как открытые данные в Интернет -СМИ и социальных сетях, так и данных из полей свободного ввода в профессиональных закрытых базах данных. Чтобы эти данные были полезны в процессе разработки решений, их необходимо особым образом собирать, классифицировать и обрабатывать.

Многие современные платформы для анализа данных (далее - АД) поддерживают обработку слабоструктурированных текстовых данных (далее -ССТД). Однако, вопросы выбора подходящих методов на этапе подготовки текстовых данных всё ещё остаются в зоне ответственности лица, принимающего решения или специалиста по анализу данных. По оценкам экспертов, данный этап может занимать до 70% трудозатрат в процессе анализа. Из-за этого важным шагом перед включением в модель анализа данных ССТД является разведочный анализ, одним из целей которого является определение ценности загружаемых данных в рамках решаемой задачи. Однако, большая часть методов и инструментов разведочного анализа, в том числе использующих визуализацию, не поддерживает работу с текстовыми данными.

ССТД из внутренних баз данных организаций, в тех случаях, где текст записывается в свободной форме, часто имеют особенности, которые затрудняют автоматическую обработку: специфические сокращения, ошибки и т.д. Без интеллектуальной обработки этих особенностей данные невозможно эффективно включать в модели АД, так как они порождают неоднозначности и могут снизить качество полученной модели. Кроме того, некоторые виды текстовых данных на естественном языке могут быть корректно обработаны только с привлечением эксперта в предметной области. Необходимость разметки этих данных ещё сильнее увеличивает трудозатраты на реализацию моделей АД. С учётом постоянных изменений ситуации, этот этап необходимо повторять регулярно при появлении новых данных. В свою очередь, увеличение времени на построение моделей АД влияет на скорость работы ряда систем, в которых они используются: систем искусственного интеллекта, систем поддержки принятия решений и т.д.

Таким образом, научной задачей диссертационной работы является разработка моделей и алгоритмов интеллектуальной обработки регулярно обновляющихся слабоструктурированных текстовых данных в системах, использующих анализ данных. В данной работе под обработкой понимается процесс извлечения и трансформации данных для применения в системах, использующих анализ данных.

Объектом исследования являются слабоструктурированные текстовые данные на естественном языке.

Предметом исследования являются модели и алгоритмы интеллектуальной обработки регулярно обновляющихся слабоструктурированных текстовых данных на естественном языке, в том числе на русском.

Целью диссертационной работы является развитие моделей и алгоритмов интеллектуальной обработки слабоструктурированных текстовых данных в системах, использующих анализ данных.

Для достижения поставленной цели необходимо решить ряд задач:

1. Усовершенствовать модель интеллектуальной обработки ССТД в системах, использующих анализ данных.

2. Сформировать визуальные модели больших массивов ССТД для поддержки контроля извлечения и разведочного анализа.

3. Разработать алгоритм трансформации специфических сокращений в ССТД, учитывающий особенности русского языка.

4. Разработать алгоритм определения семантической близости ССТД, позволяющий вычислить степень близости текстов и минимизирующий количество запросов к эксперту в процессе обработки данных.

5. Выполнить программную реализацию предложенных моделей и алгоритмов и провести их апробацию на прикладных задачах обработки данных в системах, использующих анализ данных.

Степень разработанности темы. Обработка ССТД - часть общего процесса анализа данных. Данное исследование опиралось на достижения отечественных и зарубежных исследователей в области интеллектуального анализа слабоструктурированных данных, таких как: В.Ф. Хорошевский, Д.А. Поспелов, Ю.И. Журавлев, К.В. Рудаков, А.Д. Наследов, Н.В. Клячкин, В.Е. Васильев, K. Borne, H. Jiawei, Ch. Faloutsos и др. Методы визуализации и разведочного анализа данных, в том числе ССТД, описывались в работах И.С. Бороздиной, А.А. Захаровой, G. Hinton, L. Maaten, O, Kaser, T. Allen и др. Особенности обработки текстовых данных на естественном языке рассматривали Э.В. Попов, Д.Г. Лахути, С. Кузнецов, Н.В. Лукашевич, К.В. Воронцов, Э.С. Клышинский, А.В. Пруцков, А.С. Суркова, St. Soderland, Y. Matsumoto, M. Kreuzthaler, T Mikolov, E. Hovy и др.

Научная новизна работы.

1. Усовершенствована модель интеллектуальной обработки данных, за счёт формализации задачи управления обработкой ССТД, в системах, использующих анализ данных. В рамках применения усовершенствованной модели возможно использование разработанных в диссертационной работе

визуальных моделей, алгоритмов и интерактивных инструментов, основанных на сочетании методов искусственного интеллекта и классических подходов к визуализации и трансформации данных (п. 2 паспорта специальности 2.3.1).

2. Предложены визуальные модели больших массивов ССТД для поддержки контроля извлечения и разведочного анализа, отличающиеся применением методов машинного обучения для определения набора ключевых языковых единиц при построении визуализации типа «облако слов», а также новым подходом к визуализации статистических корреляций между языковыми единицами и другими переменными исследуемых данных (п. 12 паспорта специальности 2.3.1).

3. Впервые предложен алгоритм трансформации специфических сокращений в ССТД, учитывающий особенности сокращений на русском языке, основанный на статистических подходах и использовании методов машинного обучения для вычисления векторного представления слов (пп. 4, 12 паспорта специальности 2.3.1).

4. Создан алгоритм определения семантической близости ССТД с возможностью настройки необходимого уровня сходства на основе экспертной информации, отличающийся поддержкой в рамках решения одной задачи метрик, основанных на технологиях искусственного интеллекта, и классических метрик семантической близости, а также возможностью повторного использования экспертной информации для новых данных (п.4 паспорта специальности 2.3.1).

Методы исследования. В ходе выполнения работы применялись методы системного анализа, методы анализа текстовых данных, методы машинного обучения, обработки естественного языка, получения и обработки экспертной информации, статистики, визуализации, определения семантической близости текстовых данных. При разработке программного комплекса использовались методологии и подходы объектно-ориентированного проектирования, разработки и автоматизированного тестирования программного обеспечения.

Теоретическая значимость работы заключается:

• в адаптации моделей и алгоритмов обработки ССТД к использованию в условиях постоянного накопления новых данных и необходимости привлечения экспертов в различных предметных областях;

• в развитии математического аппарата обработки ССТД за счёт формализации свойств, характеризующих эти данные;

• в развитии технологий обработки ССТД за счет создания новых моделей и алгоритмов, а также расширения и улучшения существующих свойств, характеризующих эти данные.

Практическая значимость работы:

1. Разработан программный комплекс для интеллектуальной обработки ССТД в системах анализа данных.

2. Созданы модели Word2Vec, обученные на наборах данных рынка труда и данных из региональной системы здравоохранения, которые могут быть использованы при обработке текстовых данных в системах анализа данных.

3. Решен ряд практических задач, таких как:

• интеллектуальная обработка обезличенных ССТД из интегрированных электронных медицинских карт (ИЭМК) пациентов для дальнейшего использования в моделях анализах данных;

• интеллектуальная обработка ССТД из описаний вакансий сферы ИТ с целью анализа актуальных технологий;

• интеллектуальная обработка данных о рынке труда с целью проведения социологических исследований.

Положения, выносимые на защиту.

1. Усовершенствованная модель интеллектуальной обработки ССТД, преимуществом которой является поэтапный отбор и обработка данных с привлечением эксперта в предметной области, для дальнейшего применения в системах, использующих анализ данных. Последовательное использование

рекомендуемых моделью этапов обработки данных обеспечивает сокращение времени дальнейшей обработки данных на 14-28%, в зависимости от параметров данных.

2. Визуальные модели больших массивов ССТД для поддержки контроля извлечения и разведочного анализа данных, с целью их дальнейшего применения в системах, использующих анализ данных, что обеспечивает повышение эффективности решения задач, связанных с выбором значимых данных на этапе разведочного анализа и построением гипотез, за счет сокращения времени работы специалиста до 75%.

3. Алгоритм трансформации специфических сокращений в ССТД, учитывающий особенности сокращений на русском языке, позволяющий раскрывать до 90% сокращений в данных, насыщенных несловарными сокращениями, уменьшая количество обращений к эксперту в 9 раз, с обеспечением требуемого уровня качества.

4. Алгоритм определения семантической близости ССТД, позволяющий подобрать метрику и степень близости для предметной области и уменьшить количество запросов к эксперту в процессе обработки обновленных данных на 812%. Использование алгоритма позволяет определять от 19 до 28% процентов дублей, в зависимости от параметров данных.

Личный вклад соискателя. Все модели и алгоритмы, выносимые на защиту, а также реализующее их программное обеспечение, разработаны лично автором. Постановка задач исследования, формулировка положений научной новизны, а также выбор постановка задач экспериментальной проверки и апробации результатов исследования осуществлялись совместно с научным руководителем.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на: VI Всероссийской научной конференции «Информационные технологии интеллектуальной поддержки принятия решений» ITIDS' 2018 (Уфа, 2018); 29-ой Международной конференции

по компьютерной графике и машинному зрению «Графикон 2019» (Брянск, 2019); VII Международной конференции «Физико-техническая информатика - CPT 2019» (Пущино, 2019); XXVI Международной научно-технической конференции НГТУ им. Р.Е. Алексеева «Информационные системы и технологии. ИСТ-2022» (Нижний Новгород, 2020); 30-ая Международной конференции по компьютерной графике и машинному зрению «Графикон 2020» (Санкт-Петербург, 2020); X Международной научно-практической конференции имени А. И. Китова «Информационные технологии и математические методы в экономике и управлении» ИТиММ-2020 (Москва, 2020); 32-ой Международной конференции по компьютерной графике и машинному зрению «Графикон 2022» (Рязань, 2022)

Имеется 2 акта о внедрении: в ООО «Офисные технологии», являющихся разработчиком региональной информационной системы «МЕД-Комплит: Электронная медицина» и ООО «Айти Про», 1 справка о внедрении в Управлении государственной службы по труду и занятости населения Брянской области.

Публикации. По теме диссертационной работы опубликовано 14 печатных работ, в том числе 4 в рецензируемых научных журналах из перечня ВАК, 3 в изданиях, индексируемых в международной библиографической базе Scopus. Получено 2 свидетельства о регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырёх глав, общих выводов, библиографического списка и приложений. Работа изложена на 166 страницах, содержит 34 таблицы, 36 рисунков и библиографический список из 151 наименования.

ГЛАВА 1. ОСОБЕННОСТИ ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ В СИСТЕМАХ, ИСПОЛЬЗУЮЩИХ АНАЛИЗ ДАННЫХ

1.1. Методологии анализа данных

В связи с высокими темпами изменений в различных предметных областях, количество и скорость решений, которые необходимо принимать управленцам, непрерывно растёт. При этом ценная информация, которая может повлиять на принятие решений, находится в разнообразных источниках - от внутренних баз данных до сообщений из социальных сетей. При разработке управленческого решения все эти данные необходимо учесть, обработать и проанализировать. Этот процесс может проводиться как вручную, экспертами в предметной области, так и в автоматизированном режиме - с помощью различных систем поддержки принятия решений и систем, использующих анализ данных (далее - АД). При увеличении количества источников, появлении данных в различной структуре и форме, активно развиваются технологии их хранения, интеллектуальной обработки, визуализации. АД - это процесс изучения, очистки, трансформации и моделирования данных с целью извлечения полезной информации. Информация, полученная в ходе АД, может быть использована для принятия решений или проведения теоретических исследований.

В области АД работали многие отечественные ученые, среди которых можно выделить: Д.А. Поспелова [73], В.Ф. Хорошевского, Ю.И. Журавлева [28], К.В. Рудакова [79], А.Д. Наследова, Н. В. Клячкина [39], Е. В. Васильева и др.; а также зарубежные ученые, например K. Borne, H. Jiawei, Ch. Faloutsos и др.

Одним из распространенных подходов к анализу данных является статистический анализ. К статистическим методам относят: корреляционный, регрессионный, частотный, кластерный анализ, методы сравнения средних, деревья классификации и т. д. Использование вышеупомянутых методов

позволяет найти взаимосвязи между различными переменными в исследуемых данных, вычислить параметры, характеризующие данные, такие как: среднее или медианное значение, распределение, тренд. Статистический анализ активно применяется в различных сферах, таких как, например, социология [68], политология, медицинские исследования и т. д.

Если для анализа структурированных данных хорошо подойдут методы статистического анализа [39], то для интерпретации данных разной степени структурированности эффективно применять различные методы интеллектуального анализа данных (далее - ИАД). В отличие от статистического подхода, ИАД фокусируется на извлечении новой и нетривиальной информации из данных, в том числе относящихся к «большим данным» - больших объемов данных различной структуры [88].

С помощью моделей ИАД решаются следующие задачи:

1. Классификации данных. Например, классификация пользовательских комментариев по тональности или теме [146], пациентов по группам риска [124], уязвимостей программного обеспечения [18] и т.д.

2. Моделирования. Например, создание визуальной модели языка [118].

3. Прогнозирования. Например, предсказание биржевых индексов [97] или сезонных вспышек заболеваний [109].

В интеллектуальном анализе данных активно применяются различные методы искусственного интеллекта (далее - ИИ). Определение ИИ, которое даёт ученый Джордж Ф. Люгер: область компьютерной науки, занимающейся автоматизацией разумного поведения [50]. К методам искусственного интеллекта относятся: искусственные нейронные сети, нечеткая логика [46], экспертные системы, эволюционное моделирование [15].

Так как реализация систем ИАД довольно сложна, были разработаны различные стандарты и методологии, объединяющие лучшие практики [90].

Среди методологий построения моделей ИАД широко используется СЯКР-DM [137]. Первая версия данной методологии была представлена в 1999 году на

CRISP-DM SIG Workshop. Модель жизненного цикла исследования данных при использовании данной методологии представлена на рисунке 1.1. Как правило, при реальной разработке, специалисты возвращаются к предыдущим этапам при появлении новой информации.

Рисунок 1.1 - Модель жизненного цикла исследования данных в методологии

СЯЛ^Р^М

Кратко рассмотрим роль каждого из основных этапов.

1. Бизнес-анализ. Этап бизнес-анализа или понимания бизнес-целей состоит в определении проблемы и критериев её решения [63]. Создание модели анализа данных не является целью анализа, целью анализа является решение конкретных проблем, с которыми сталкиваются специалисты тех или иных предметных областей. Правильно поставленная и формализованная задача для решения методами анализа данных определяет успешность применения всей модели жизненного цикла ИАД [96].

2. Изучение данных. Под изучением данных часто понимается разведочный анализ - процесс, целью которого является «погружение» в исследуемые данные, нахождение общих закономерностей, корреляций, выбросов и т.д. [69].

Разведочный анализ поможет решить следующие задачи:

1) отбор переменных [104];

2) обнаружение отклонений и аномалий в данных [89];

3) выдвижение и предварительная проверка основных гипотез [29];

4) разработка стартовых моделей.

Основные средства разведывательного анализа:

1) изучение распределения переменных, в том числе с использованием визуализаций [4];

2) построение корреляционных матриц [24];

3) факторный анализ [48];

4) дискриминационный анализ и т. д.

3. Подготовка данных. Подготовка данных включает в себя три основных процесса:

1) извлечение данных;

2) трансформация данных;

3) загрузка данных в хранилище для дальнейшего применение в системах, использующих АД [111].

В свою очередь, трансформация данных может включать такие этапы, как: очистка, обогащение, различные преобразования над данными, в зависимости от параметров самих данных и определенной на первом шаге задачи.

4. Создание моделей. На данном этапе отбираются модели и алгоритмы, с помощью которых, используя собранные и подготовленные на предыдущих этапах данные, будут решаться поставленные задачи. Среди распространенных алгоритмов можно выделить:

1) искусственные нейронные сети [101];

2) деревья решений;

3) эволюционное моделирование [2] и т. д.

Выбор алгоритма зависит от параметров данных, а также от целей анализа. Помимо числовых показателей, специалисты, работающие с результатами анализа данных, часто используют различные визуализации.

5. Оценка решения. Для оценки качества полученной модели используются различные метрики, в зависимости от типа модели. Например, для моделей классификации используются такие метрики, как: ошибки первого и второго рода, точность, аккуратность, полнота, F-мера. Для оценки качества регрессионного анализа используются такие метрики, как: средняя квадратичная оценка, коэффициент детерминации и т. д. Большинство метрик подразумевает наличие выборки для тестирования - набор данных, где правильный результат работы модели заранее известен.

6. Внедрение. Внедрение моделей ИАД предполагает развертывание готового решения в информационной системе, где планируется использование результатов её работы и мониторинг качества работы.

Используемые для создания моделей ИАД методы работают с разными видами данных. К структурированным данным относят количественные и качественные данные (номинальные, порядковые). К неструктурированным данным относятся данные, которые не выстраиваются по определенному шаблону или последовательности как, например, видео, аудио, изображения и некоторые часть текстовых данных.

С развитием информационных технологий, растёт объём данных, доступных для обработки. В 2020 году количество открытых данных достигает уже 50 000 Эксабайт и увеличивается в геометрической прогрессии [94].

При этом большая часть данных является слабоструктурированными и неструктурированными (см. рисунок 1.2), что осложняет их автоматическую обработку [139].

В данной работе будет рассмотрены особенности использования слабоструктурированных текстовых данных (далее - ССТД) в системах, использующих анализ данных.

I Структурированные У Слабо и неструктурированные Рисунок 1.2 - Скорость накопления данных различной структуры (источник: [94])

1.2. Свойства и особенности использования слабоструктурированных текстовых данных

Существуют разные понятия структурированности. Например, Саймон Г. и Ньюэлл А. дают следующее понятие слабоструктурированных (или частично структурированных) задач: задачи, которые содержат как качественные, так и количественные элементы, причем качественные, малоизвестные и неопределенные стороны проблем имеют тенденцию доминировать [141]. Под ССТД в данной работе понимаются любые структуры текстовых данных между строгой структурированностью и её полным отсутствием [37]. Чаще всего слабоструктурированными являются данные, создаваемые людьми с использованием естественного языка. Отличие текстовых данных различной степени структурированности будет рассмотрено на следующем примере. Пример хорошо структурированных данных - адрес, записанный в табличном формате, представлен в таблице 1.1.

Таблица 1.1. Пример структуры записи адреса

Город Улица Дом Квартира

Москва 3-я улица Строителей 25 12

Та же запись в слабоструктурированном виде может выглядеть несколькими образами:

1) «3-я улица Строителей, 25, 12, Москва»

2) «Москва, 3-я ул. строителей, кв. 12, д. 25, »

3) «Мск, 3 строителей, 25, 12»

4) и т.д.

Это уже не табличные данные, удобные для обработки, но из них легко извлечь необходимый адрес человеку или, реализовав соответствующие правила, автоматически.

Из текста, в котором отсутствует структура, адрес извлечь в автоматическом режиме будет намного сложнее или невозможно, например, из текста «Прибыв в столицу, я сразу из аэропорта направился на третью строителей, в поиске типовой многоэтажки под номером 25, и поднимался по этажам, пока не оказался у двери с цифрами 1 и 2».

Можно перечислить много примеров ССТД: описания вакансий или резюме работников, тексты законопроектов, сообщения СМИ, записи работников системы здравоохранения и т.д. Если в сообщении (тексте) присутствует структура, призванная точнее передать информацию, то возможно отделить его от понятия неструктурированных данных (случайно сгенерированные последовательности, художественный текст и т.д.)

Преимуществом подобного способа передачи информации является его гибкость. Описанный выше пример - адрес - является легко формализуемым в несколько полей в базе данных. Однако, если мы перейдём к более сложным данным, как, например, описание состояния пациента, то количество параметров

и их вариативность создаёт необходимость заполнения большего количества полей. Чаще всего работник системы здравоохранения, особенно оказывающий экстренную помощь, не имеет возможности подробно заполнять подобные формы, и не все необходимые ему поля могут в них присутствовать. Текстовая запись в свободной форме позволяет записать информацию в виде достаточном, чтобы ей можно было воспользоваться позднее при лечении или передать следующему работнику системы здравоохранения. Но когда накопленные данные становится необходимо обработать в автоматизированной системе (для страховой компании, сбора статистики, прогнозирования заболеваемости) возникает проблема интерпретации ССТД.

Подобная проблема свойственна многим сферам, где информация создаётся и передаётся в форме, удобной для восприятия человеком, а не для автоматического анализа. При небольших объемах этой информации это не является проблемой, однако, если требуется проводить анализ большого объёма данных и делать это регулярно и оперативно, необходимо выстраивать иные подходы к обработке и интерпретации этих данных.

Остановимся подробнее на двух этапах жизненного цикла исследования данных - изучение и подготовка данных - с точки зрения сложности использования в них ССТД.

Изучение данных. Проблемой использования текстовых данных в процессе разведочного анализа является то, что многие средства разведочного анализа (такие как, например, вероятностные распределения или корреляционные матрицы) ориентированы на количественные или категориальные данные. Из этого вытекает необходимость адаптации моделей и методов разведочного анализа для работы со ССТД.

Подготовка данных. По оценкам некоторых специалистов, данный этап может занимать до 70% трудозатрат проекта с использованием ССТД [42]. В противовес гибкости передачи информации, недостатком ССТД является сложность их автоматической обработки. К данным сложностям относятся:

1) разная структура текстов в зависимости от предметной области и даже от конкретного пользователя информационной системы, который создал текст;

2) наличие орфографических ошибок или специфичной, профессиональной лексики;

3) невозможность однозначно классифицировать ряд текстов без привлечения эксперта [31].

Многие записи, которые одни профессионалы в предметной области оставляют с целью передачи информации другим профессионалам, невозможно корректно интерпретировать без привлечения эксперта в предметной области. Привлечение эксперта, как и ручная обработка большого количества постоянно обновляющихся данных, может быть весьма ресурсозатратным для организации. Кроме того, время ручной обработки данных, необходимых для принятия решения, понижает его оперативность, затормаживая процесс принятия решений, что, в свою очередь, негативно сказывается на их качестве. Описанную проблему возможно решать через интеллектуальную обработку текстовых данных.

Список литературы диссертационного исследования кандидат наук Макарова Елена Андреевна, 2023 год

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Аверченков, В. И. Анализ применения моделей векторного представления текстовой информации для русскоязычных текстов / В.И. Аверченков, Д. В. Будыльский, А. Г. Подвесовский // Вестник компьютерных и информационных технологий, 2016. - № 3(141). - С. 31-37.

2. Аверченков, В. И. Эволюционное моделирование и его применение / В. И. Аверченков. - Москва : Флинта, 2011. - 200 с.

3. Автоматическая обработка текстов на естественном языке и анализ данных / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. - Москва : НИУ ВШЭ, 2017. - 269 с.

4. Анисимова, Г. Д. О применении MATLAB к решению статистических задач / Г. Д. Анисимова, С. И. Евсеева // Современные информационные технологии и ИТ-образование, 2018. - Т. 14. - № 4. - С. 960-965. -DOI: 10.25559/SITIT0.14.201804.960-965.

5. Ахманова, О.С. Единицы языка / О.С. Ахманова // Словарь лингвистических терминов. - М.: КомКнига, 2007. - 576 с.

6. Басалаева, А. Ю. Web-scraping и классификация текстов методом наивного Байеса / А. Ю. Басалаева, Г. А. Гареева, Д. Р. Григорьева // Инновационная наука, 2018. - Т. 2. - № 5. - С. 11-14.

7. Барский, А. Б. Нейронные сети: распознавание, управление, принятие решений / А. Б. Барский. - Москва : Финансы и статистика, 2007. - 176 с.

8. Батура, Т. В. Математическая лингвистика и автоматическая обработка текстов на естественном языке - Новосибирск: Новосибирский национальный исследовательский государственный университет, 2016. - 166 с.

9. Бахтин, И. В. Организация совместной работы с использованием веб-сервиса github // Форум молодых ученых, 2019. - № 2(30). - С. 268-271.

10. Бацанина, М. С. Информационный анализ лент деловых новостей / М. С. Бацанина // Труды Санкт-Петербургского государственного университета культуры и искусств, 2013. - Т. 197. - С. 135-141.

11. Березин, С. А. Выделение именованных сущностей из текстов распорядительных документов с помощью глубоких нейронных сетей / С.А. Березин, И. Ю. Бондаренко // Системная информатика, 2020. - № 16. -С. 137-148.

12. Бирюков, В. А. Парсинг аудитории в социальных медиа как инструмент повышения доходов от рекламы электронных средств массовой информации / В. А. Бирюков, О. В. Дмитриева, М. В. Ливсон // Известия высших учебных заведений. Проблемы полиграфии и издательского дела, 2021. - № 2. - С. 45-52.

13. Бороздина, И. С. Визуализация как способ исследования языковой и ментальной репрезентации пространственных отношений / И. С. Бороздина // Функционально-когнитивный анализ языковых единиц и его аппликативный потенциал : Материалы II международной научной конференции : Алтайская государственная педагогическая академия, 2014. - С. 48-51

14. Божкова, В. П. Математические модели пространственного цветовосприятия / В. П. Божкова, О. А. Басова, Д. П. Николаев // Информационные процессы, 2019. - Т. 19. - № 2. - С. 187-199.

15. Бронфельд, Г. Б. Основы искусственного интеллекта : учебное пособие для студентов, обучающихся по направлению "Прикладная математика" и "Информатика и вычислительная техника" / Г. Б. Бронфельд. - Нижний Новгород : Нижегородский государственный технический университет им. Р.Е. Алексеева, 2014. - 253 с.

16. Будыльский, Д. В. Исследование применимости моделей глубокого обучения для задачи аспектного анализа тональности текстовых сообщений / Д.В. Будыльский, А. Г. Подвесовский // Вестник Брянского государственного технического университета, 2015. - №3- (47). - С. 117-126.

17. Булыгин, Г. А. Разработка rest-сервиса на языке программирования Python с использованием Django rest framework для предприятия по оказанию услуг населению на дому / Г. А. Булыгин, Е. В. Давыдова // Актуальные проблемы инфотелекоммуникаций в науке и образовании, 2017. - С. 101-104.

18. Васильев, В. И. Автоматизация анализа уязвимостей программного обеспечения на основе технологии Text Mining / В. И. Васильев, А. М. Вульфин, Н. В. Кучкарова // Вопросы кибербезопасности, 2020. - № 4(38). - С. 22-31.

19. Герасимов, А. Н. Доверительные границы к коэффициенту корреляции /

A. Н. Герасимов, М. И. Шпитонков // Исследование операций (модели, системы, решения). 2020. - Т. 6. - С. 61-69. DOI 10.14357/0RMSS20200108.

20. Гецци, К. Основы инженерии программного обеспечения / К. Гецци, М. Джазайери, Д. Мандриоли// СПб.: БХВ-Петербург, 2005. - 832 c.

21. ГОСТ 7.11-2004 (ИСО 832:1994) СИБИД. Библиографическая запись. Сокращение слов и словосочетаний на иностранных европейских языках / ГОСТ от 22 марта 2005 г.

22. Гребнев, К. Н. Машинное обучение с помощью библиотеки Scikit-learn языка Python / К. Н. Гребнев // Математический вестник педвузов и университетов Волго-Вятского региона, 2017. - № 19. - С. 277-281

23. Гречачин, В. А. Понятие токенизации в корпусной лингвистике /

B. А. Гречачин // Современные тенденции развития науки и технологий, 2015. -№ 9-4. - С. 49-51.

24. Гржибовский, А. М. Корреляционный анализ / А. М. Гржибовский // Экология человека, 2008. - № 9. - С. 50-60

25. Грибков, Е. И. Модель извлечения структурированных объектов и их атрибутов из текстов на естественном языке / Е. И. Грибков // Сборник избранных статей научной сессии ТУСУР, 2019. - № 1-2. - С. 54-56.

26. Дейт, К. Дж. Введение в системы баз данных / К. Дж. Дейт. - 8-е изд. -М. : Вильямс, 2006. - 1328 с

27. Душков, Б. А. Быстрое чтение / Б. А. Душков, А. В. Королев, Б. А. Смирнов // Энциклопедический словарь: Психология труда, управления, инженерная психология и эргономика — М.: Академический проект; Фонд «Мир», 2005.

28. Журавлёв, Ю. В. Об алгебраических методах в задачах распознавания и классификации. Распознавание, классификация, прогноз, 1988. - Т. 1. - С. 9-16.

29. Зайченко, Д. С. Разведочный анализ данных в среде R / Д. С. Зайченко, И. С. Синева // Телекоммуникации и информационные технологии, 2016. - Т. 3. -№ 2. - С. 31-36

30. Захарова, А. А. Визуальная аналитика и когнитивные методы для обработки и анализа гетерогенных данных мультисенсорных систем: проблемы и тенденции / А. А. Захарова, А. Г. Подвесовский, Д. Г. Лагерев // Информационные и математические технологии в науке и управлении, 2019. - № 4(16). - С. 60-74.

31. Захарова, А.А. Модели и программное обеспечение поддержки принятия стратегических решений в социально-экономических системах на основе экспертных знаний // дис. д-ра тех. наук. Юргинский технол. инст. Томск. политех. ун-та, Томск, 2017. - 408 с.

32. Зиберева, Т. С. Средства тестирования Selenium / Т. С. Зиберева // Информационные технологии. Радиоэлектроника. Телекоммуникации, 2020. -№ 8. - С. 141-145.

33. Ибатуллин, А. А. Интеллектуальная обработка текста с помощью библиотеки Gensim / А. А. Ибатуллин, А. Р. Нафикова // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS'2017): труды V междунар. конф. - Уфа: УГАТУ, 2017. - С. 31-35.

34. Исаев, Р. А. Совершенствование механизма визуализации нечетких когнитивных моделей в системе поддержки принятия решений "ИГЛА" / Р. А. Исаев, А. Г. Подвесовский // Современные технологии в науке и образовании - СТН0-2017 : сборник трудов II Международной научно-технической и научно-методической конференции, 2017. - С. 138-142.

35. Исмуканова, А. Н. Библиотека "NLTK" для сбора статистики встречаемости слов в задаче классификации научных текстов / А. Н. Исмуканова, Д.Н. Лавров // Математическое и компьютерное моделирование : Сборник материалов V Международной научной конференции, посвященной памяти Р.Л. Долганова, Омск, 01 декабря 2017 года, 2017. - С. 115-117.

36. Казанцев, Д. А. Анализ социальных сетей молодежных политических организаций Новосибирской области и Алтайского края / Д. А. Казанцев, С. Ю. Асеев // Южно-российский журнал социальных наук, 2020. - Т. 21. - № 1. -С. 64-85.

37. Климанская, Е.В. Методы обработки слабоструктурированных данных в автоматизированных системах на железнодорожном транспорте / Е.В. Климанская, А. В.Чернов, В. И. Янц // Известия вузов. Северо-Кавказский регион. Серия: Технические науки, 2013. - №1 (170). - С. - 18-23.

38. Клышинский, Э. С. Проблемы обработки естественного языка в диалоговых системах / Э. С. Клышинский, Ю. А. Жеребцова, А. В. Чижик // Системный администратор, 2019. - № 10. - С. - 82-91.

39. Клячкин, В. Н. Статистические методы анализа данных / В.Н. Клячкин, Ю.Е. Кувайскова, В. А. Алексеева. - Москва : Издательство "Финансы и статистика", 2016. - 240 с. - ISBN 978-5-279-03583-0.

40. Ковалева, К. А. Сравнение языка программирования Python с другими языками / К. А. Ковалева, И. Т. Хутов // Актуальные проблемы науки и образования в условиях современных вызовов : сборник материалов II межд. научно-практической конференции, Москва, 04 июля 2021 года, 2021. - С. 35-40.

41. Коршунов, А. Тематическое моделирование текстов на естественном языке / А. Коршунов, А. Гомзин // Труды Института системного программирования РАН, 2012. - Т. 23. - С. 215-244.

42. Коськин, А. В. К вопросу предварительной обработки данных в комплексной системе интеллектуального анализа данных / А. В. Коськин, А. А. Митин // Информационные технологии в науке, образовании и производстве

(итноп-2020) : сборник материалов VIII Международной научно-технической конференции, Белгород, 24-25 сентября 2020 года, 2020. - С. 299-302.

43. Кравченко, К.И. Использование линейного коэффициента корреляции для определения характера связи между переменными / К.И. Кравченко, Т.А. Минеева // Тенденции развития науки и образования, 2022. - № 82(2). -С. 26-30.

44. Крылов, В. С. Цифровая экономика: тематическое моделирование научных публикаций // Информационно-компьютерные технологии в экономике, образовании и социальной сфере, 2021. - № 4(34). - С. 102-115.

45. Кукарцев, В. В. Сравнение систем контроля версий: GIT, Mercurial, CVS и SVN / В. В. Кукарцев, С. А. Бадарчы // Синергия Наук, 2018. - № 19. -С. 538-548.

46. Круглов, В. В. Нечеткая логика и искусственные нейронные сети /

B.В. Круглов, М. И. Дли, Р. Ю. Голунов. - Москва : Физматлит, 2001. - 198 с.

47. Лагерев, Д. Г. Поиск и раскрытие сокращений в русскоязычных данных медицинских информационных систем / Д. Г. Лагерев, Е. А. Макарова // Вестник компьютерных и информационных технологий, 2020, - № 7 -

C. 44-54.

48. Лебедев, К. Н. Проблемы факторного анализа, основанного на методах детерминированного факторного анализа (проблемы науки "экономический анализ") / К. Н. Лебедев // ЭТАП: экономическая теория, анализ, практика, 2012. -№ 3. - С. 4-13.

49. Лукашов, И. М, Управленческий анализ национального проекта "демография" с использованием диаграмм Эйлера - Венна / И. М. Лукашов, А.А. Корабельникова, Е. И. Минайченкова, И. В. Положенцева // Журнал прикладных исследований, 2021. - № 1-2. - С. 25-35.

50. Люгер, Д. Ф. Искусственный интеллект : Стратегии и методы решения слож. проблем / Д. Ф. Люгер ; Джордж Ф. Люгер; [Пер. с англ. Н. И. Галагана и др.]. - 4. изд.. - М. [и др.] : Вильямс, 2003. - 863 с.

51. Макарова, Е.А. Применение автоматизированной системы интеллектуального анализа текстовых данных для управления процессом формирования индивидуальных образовательных траекторий / Е.А. Макарова, Д.Г. Лагерев // Информационные системы и технологии ИСТ-2020: сборник материалов XXVI Международной научно-технической конференции, Нижний Новгород, 24-28 апреля 2020 года - Нижний Новгород: Нижегородский государственный технический университет им. Р.Е. Алексеева, 2020. - С. 362-367.

52. Макарова, Е.А. Оценка семантической ценности текстовой информации для разработки управленческих решений / Е.А. Макарова, Д.Г. Лагерев, А.А. Захарова // Междунар. конф. СРТ2019. - Нижний Новгород: Изд-во ННГАСУ и НИЦ ФТИ, 2019 - С. 356-360.

53. Макарова, Е.А. Анализ неструктурированных данных с целью получения дополнительной информации при оценке кредитоспособности юридических лиц / Е.А. Макарова, Д.Г. Лагерев // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS'2018): труды VI междунар. конф. - Уфа: УГАТУ, 2018 - Т. 1.

54. Макарова, Е.А. Автоматизация извлечения признаков из слабоструктурированных медицинских данных" / Е.А. Макарова, Д.Г. Лагерев // X Международная научно-практическая конференция имени А. И. Китова «Информационные технологии и математические методы в экономике и управлении» (ИТиММ-2020). 15-16 октября 2020 г.: сборник статей. - Москва : ФГБОУ ВО «РЭУ им. Г. В. Плеханова», 2020. - С 56-62.

55. Макарова, Е. А. Оценка семантической близости новостных сообщений на основе анализа заголовков / Е. А. Макарова, Д. Г. Лагерев // Вестник компьютерных и информационных технологий, 2021. - Т. 18. - № 7(205). -С. 46-56.

56. Макарова, Е. А. Использование визуальных моделей для разведочного анализа слабоструктурированных текстовых данных / Е.А. Макарова, Д.Г. Лагерев // GraphiCon 2022: труды 32-й Межд. конф. по компьютерной графике и

машинному зрению (Рязань, 19-22 сент. 2022 г.). - М.: Институт прикладной математики им. М.В. Келдыша РАН, 2022. - C. 1094-1105.

57. Макарова Е.А. Обработка слабоструктурированных текстовых данных для использования в моделях анализа // Информационные и математические технологии в науке и управлении, 2023. - № 1(29). [в печати]

58. Макарова, Е. А. Поддержка процессов информационного управления с помощью программного сервиса для автоматизированной обработки слабоструктурированных текстовых данных на русском языке / Е.А. Макарова // Информационные технологии. Проблемы и решения. - Уфа: УНПЦ «Изд-во УГНТУ», 2022. - 3(20) . - С 50-56.

59. Макарова, Е. А. Формирование индивидуальных образовательных траекторий студентов с учетом результатов анализа описаний вакансий / Е.А. Макарова // Современные технологии в науке и образовании - СТНО-2022 [текст]: сб. тр. V межд. науч.-техн. форума: в 10 т. Т.10./ под общ. ред. О.В. Миловзорова. - Рязань: Рязан. гос. радиотехн. ун-т, 2022. - С 101-106.

60. Макарова, Е.А. Модель обработки слабоструктурированных текстовых данных нарусском языке для интеллектуальной поддержки информационного управления в динамических организационных системах / Е.А. Макарова, Д.Г. Лагерев // Модели, системы, сети в экономике, технике, природе и обществе, 2022. - № 3. - С. 104-125.

61. Никулин, А. Н. Аналитическо-информационная платформа в учебном процессе - от Deductor к Loginom / А. Н. Никулин, С. А. Никулин // Электронное обучение в непрерывном образовании 2018 : V Международная научно-практическая конференция, Ульяновск, 18-20 апреля 2018 года. - Ульяновск: Ульяновский государственный технический университет, 2018. - С. 670-676.

62. Описание положения Web Content Accessibility Guidelines (WCAG). URL: https://en.wikipedia. org/wiki/Web_Content_Accessibility_Guidelines (дата обращения: 01.05.2022).

63. Паклин, Н.Б. Бизнес-аналитика: от данных к знаниям. / Н.Б. Паклин, В.И. Орешков - СПб.: Питер, 2009. - 624 с.

64. Петрова, Д.А. Анализ влияния пресс-релизов ЦБ РФ на показатели денежного рынка / Д.А. Петрова, П.В. Трунин // Бизнес-информатика, 2021. -Т. 15. - № 3. - С. 24-34.

65. Петров, Е. Ю. Ресурс аналитической платформы Polyanalyst в социогуманитарных научных исследованиях / Е. Ю. Петров, А. Ю. Саркисова // Открытые данные - 2021 : Материалы форума, Севастополь, 30 сентября -02 октября 2021 года / Под редакцией А.Ю. Саркисовой. - Томск: Национальный исследовательский Томский государственный университет, 2021. - С. 94-104.

66. Пилипенко, А. С. Определение тональности текста на основе модели "Bag-of-words" / А. С. Пилипенко, И. А. Коломойцева // Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2020), 2020. - С. 77-81.

67. Пимешков, В. К. Извлечение отношений тезауруса из текстов на естественном языке с использованием статистических и лингвистических методов / В. К. Пимешков, В. В. Диковицкий, М. Г. Шишаев // Труды Кольского научного центра РАН, 2020. - Т. 11. - № 8(11). - С. 188-192.

68. Плескунов, М.А. Методы статистического анализа социологических данных / М.А. Плескунов.- Екатеринбург, 2017. - 144 с.

69. Подвесовский, А. Г. Автоматизация процессов социологического исследования с использованием методов и программных средств интеллектуального анализа данных / А. Г. Подвесовский, Д.Г. Лагерев, А.Н. Бабурин // Современные технологии в науке и образовании - СТНО-2017: сборник трудов II Международной научно-технической и научно-методической конференции: в 8 т., Рязань, 01-03 марта 2017 года - Рязань: Рязанский государственный радиотехнический университет, 2017. - С. 122-127.

70. Полицына, Е. В. Анализ подходов к автоматическому выделению контекстных синонимов из текстов на русском языке / Е.В. Полицын,

A.С. Поречный, Е.Е. Милованова // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, 2020. -№ 3. - С. 120-132.

71. Портал оперативного взаимодействия участников ЕГИСЗ. - Текст : электронный // ЕГИСЗ : [сайт]. - URL: https: //portal .egisz.rosminzdrav.ru/material s (дата обращения: 07.05.2022).

72. Поскребышев, Р. С. API на основе SOAP и REST / Р. С. Поскребышев,

B. Г. Тарасов // Молодые ученые - ускорению научно-технического прогресса в XXI веке : сборник материалов IV Всероссийской научно-технической конференции аспирантов, магистрантов и молодых ученых с международным участием, Ижевск, 20-21 апреля 2016 года / Ответственные за выпуск: А П. Тюрин, В. В. Сяктерева. - Ижевск: ИННОВА, 2016. - С. 404-410.

73. Поспелов, Д. А. Десять "горячих точек" в исследованиях по искусственному интеллекту / Д. А. Поспелов // Искусственный интеллект и принятие решений, 2019. - № 4. - С. 3-9.

74. Потапов, А. С. Технологии искусственного интеллекта / А. С. Потапов.

- Санкт-Петербург : Университет ИТМО, 2010. - 218 с.

75. Прокопьев А. В. Использование эконометрического инструментария таблиц сопряженности для оценки эффективности вакцинации // Здоровье -основа человеческого потенциала: проблемы и пути их решения, 2021. - Т. 16. -№ 4. -С. 1626-1632.

76. Пушкин, П. Ю. Результаты автоматического интеллектуального анализа отдельных полей реестра операторов персональных данных / П. Ю. Пушкин, А. М. Русаков // International Journal of Open Information Technologies, 2021. - Т. 9.

- № 1. - С. 37-47.

77. «Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru // Роструд; обработка: Бабушкина В.О., Тимошенко А.Ш., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA.

[Электронный ресурс]: http://data-in.ru/data-catalog/datasets/186/. (дата обращения: 22.04.2022)

78. Разработка алгоритма поиска клинически однородных пациентов по слабоструктурированным текстовым данным электронной медицинской карты онкологического профиля / М. С. Аветисян, К. С. Егоров, В. Н. Кох [и др.] // Врач и информационные технологии, 2019. - № 3. - С. 32-40.

79. Рудаков, К. В. Об алгебраической теории универсальных и локальных ограничений для задач классификации // Распознавание, классификация, прогноз. М.: Наука, 1989, С. 176-201.

80. Свидетельство о государственной регистрации программы для ЭВМ № 2015615973 Российская Федерация. Айкьюплатформ ^дрЫАэгш) : № 2015612499 : заявл. 01.04.2015 : опубл. 28.05.2015 / В. Л. Меркулова, А. В. Яровой, Д. А. Часовской ; заявитель Закрытое акционерное общество «Айкумен - информационные бизнес-системы».

81. Свидетельство о государственной регистрации программы для ЭВМ № 2022660138. Подсистема для визуализации больших массивов слабоструктурированных текстовых / Е.А. Макарова. № 2022619487; заявл. 22.05.2022; опубл. 31.05.2022.

82. Свидетельство о государственной регистрации программы для ЭВМ № 2022662584Подсистема для обработки слабоструктурированных текстовых данных на русском языке: Российская Федерация / Е.А. Макарова. № 2022662234; заявл. 28.06.2022; опубл. 05.07.2022.

83. Сидунова, М. К. Применение облака тегов в зарубежных и отечественных СМИ / М. К. Сидунова, А. Л. Кучина // Медиасреда, 2017. - № 12. - С. 235-248.

84. Соломатин, Е. Б. Как искусственный интеллект повышает эффективность расследований при анализе массивов данных и текстов: российская аналитическая система PolyAnalyst / Е. Б. Соломатин, Д. А. Гольцов // Искусственный интеллект на службе полиции : сборник статей Международной

научно-практической конференции, Москва, 27 мая 2021 года / Академия управления МВД России. - Москва: Академия управления Министерства внутренних дел Российской Федерации, 2021. - С. 52-63

85. Суркова, А.С. Анализ и моделирование текстовых данных в задачах обеспечения кибербезопасности / А.С. Суркова // Системы управления и информационные технологии, 2015. - №3.1(61). - С. 178-182.

86. Хайкин, С. Нейронные сети. Полный курс / С. Хайкин ; Саймон Хайкин ; [пер. с англ. Н.Н. Куссуль, А.Ю. Шелестова]. - 2-е изд.. - М. [и др.] : Вильямс, 2006. - ISBN 5-8459-0890-6.

87. Черкасов, Е. И. Сравнение алгоритмов тематического моделирования при определении тематик постов людей в социальной сети "Вконтакте" / Е.И. Черкасов // Евразийский союз ученых, 2020. - № 6-2(75). - С. 45-49

88. Чехарин, Е. Е. Большие данные: большие проблемы / Е. Е. Чехарин // Перспективы науки и образования, 2016. - № 3(21). - С. 7-11.

89. Шелухин, О. И. Обнаружение аномалий больших данных неструктурированных системных журналов / О. И. Шелухин, В. С. Рябинин // Вопросы кибербезопасности, 2019. - № 2(30). - С. 36-41. - D0I:10.21681/2311-3456-2019-2-36-41.

90. Шитиков, В.К. Классификация, регрессия и другие алгоритмы Data Mining с использованием R / В. К. Шитиков, С. Э. Мастицкий. - Тольятти : Creative Commons, 2017. - 351 с.

91. Шишлянникова, Л. Применение корреляционного анализа в психологии / Л. Шишлянникова // Психологическая наука и образование, 2009. - № 1. -С. 98-107.

92. Aggarwal, M. IBM's Watson Analytics for Health Care. / M. Aggarwal, M. Madhukar, 2017. - D0I:10.4018/978-1-5225-1002-4.ch007.

93. Alexander, E. Serendip: Topic model-driven visual exploration of text corpora / E.Alexander, J.Kohlmann, R.Valenza, M.Witmore, M.Gleicher, // In Visual Analytics Science and Technology (VAST) , 2014. - p. 173-182.

94. Azad, P. The role of structured and unstructured data managing mechanisms in the Internet of things. / P. Azad, N. Navimipour, A. Rahmani, A. Sharifi // Cluster Computing, 2020 - No. 23 - p. 1-14.

95. Buscher, Ch The same, but different: Boosting the power of Elasticsearch with synonyms / Ch Buscher. — Текст : электронный // Elastic Blog : [сайт]. — URL: https://www.elastic.co/blog/boosting-the-power-of-elasticsearch-with-synonyms (дата обращения: 28.11.2022).

96. Cadle, J. Business Analysis Techniques: 99 Essential Tools for Success. / J. Cadle, D. Paul, P. Turner // Swindon: BCS, 2014.

97. Yin-Wong, Ch. Exchange rate prediction redux: New models, new data, new currencies / Ch. Yin-Wong, M. D. Chinn, A. G. Pascual, Y. Zhang // Journal of International Money and Finance, 2019 - Vol. 95, 2019 - p. 332-362.

98. Devlin J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M. Chang, K. Lee, K. Toutanova // NAACL-HLT, 2019. - Vol. 1. - p. 4171-4186

99. Django. Подробное руководство / под ред. Адриан Головатый, Джейкоб Каплан. Мос. СПб.: Питер, 2010 - p. 97.

100. Dorfleitner, G., Description-text related soft information in peer-to-peer lending - Evidence from two leading European platforms / G. Dorfleitner, Ch. Priberny, S. Schuster et al. // Journal of Banking & Finance, 2016 - Vol. 64 - p. 169-187.

101. Du, K. L. Neural networks and statistical learning / K. L. Du, M. N. S. Swamy // Neural Networks and Statistical Learning, 2014. - p. 824.

102. Dunlop, N. Excel As Database and Data Aggregator. In: Beginning Big Data with Power BI and Excel 2013 / N. Dunlop // Apress, Berkeley, CA, 2015 -DOI: 10.1007/978-1-4842-0529-7_2

103. Ebrahimi, A. Preprocessing Role in Analyzing Tweets Towards Requirement Engineering / A. Ebrahimi, A. Barforoush // 27th Iranian Conference on Electrical Engineering (ICEE) , 2019.

104. El-Hajj, W. An optimal approach for text feature selection / W. El-Hajj, H. Hajj // Computer Speech & Language, 2022. - Vol. 74. - p. 1-13.

105. Geiron, A.. Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems / A. Geiron // 2nd ed., O'Reilly, 2019 - p. 856.

106. Guo, L., Textual Analysis and Machine Leaning: Crack Unstructured Data in Finance and Accounting / L. Guo, F. Shi, J. Tu // The Journal of Finance and Data Science, 2017. - V. 2.

107. Hossin, M. A Review on Evaluation Metrics for Data Classification Evaluations / M. Hossin, M.N. Sulaiman // International Journal of Data Mining & Knowledge Management Process, 2015. - No. 5. - p. 1-11. D01:10.5121/ijdkp.2015.5201.

108. Jaccard, P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines / P. Jaccard // Bull. Soc. Vaudoise sci. Natur, 1901. -Vol. 37. - p. 241-272.

109. Indhumathi, K. A review on prediction of seasonal diseases based on climate change using big data / K. Indhumathi, K. Sathesh Kumar // Mater Today Proc. - 2021 -Vol. 37 - p. 2648-2652.

110. Kaser, O. Tag-Cloud Drawing: Algorithms for Cloud Visualization / O. Kaser, D. Lemire // CoRR, abs/cs/0703109, 2007.

111. Kimball, R. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data / R. Kimball, J. Caserta // John Wiley & Sons, 2004. - p. 528

112. Kreuzthaler, M. Unsupervised Abbreviation Detection in Clinical Narratives / M. Kreuzthaler, M.Oleynik, A.Avian, S.Schulz // Studies in Health Technology and Informatics, 2016. Vol.245 - p. 539-543

113. Kudo, T. A Boosting Algorithm for Classification of Semi-Structured Text / T. Kudo, Y Matsumoto, 2004 - p. 301-308.

114. Kusner, M. From word embeddings to document distances / M. Kusner, Y Sun, N.I. Kolkin, K. Weinberger // Proceedings of the 32nd International Conference on Machine Learning (ICML 2015),2015 - p. 957-966.

115. LeCun, B. Backpropagation Applied to Handwritten Zip Code Recognition, / B. LeCun, J. S. Boser, D. Denker et al // Neural Computation, 1989 - No. 1(4) -p. 541-551.

116. Li, B. Experience and Reflection from China's Xiangya Medical Big Data Project / B. Li, J. Li, , Y Jiang, , X. Lan. // Journal of Biomedical Informatics, 2009 -Vol. 93.

117. Luhn, H. P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information" / H. P. Luhn // IBM Journal of Research and Development, 1957 - Vol. 1 (4). - p. 309-317

118. Maaten, van der L. Viualizing data using t-SNE. / van der L. Maaten, G. Hinton // Journal of Machine Learning Research, 2008 - Vol. 9. - p. 2579-2605.

119. Makarova, E. A. Features of big text data visualization for managerial decision making / E.A. Makarova, D.G. Lagerev, F.Y. Lozbinev // CEUR Workshop Proceedings of the 29th International Conference on Computer Graphics and Vision (GraphiCon 2019), 2019. - Vol. 2485. - p. 99-102

120. Makarova, E. A. Approaches to visualizing big text data at the stage of collection and pre-processing / E.A. Makarova, D.G. Lagerev, F.Y. Lozbinev // Scientific Visualization, 2019. - Vol. 11 (4). - p. 13-26

121. Makarova, E. A. Methodology for Preprocessing Semi-Structured Data for Making Managerial Decisions in the Healthcare / E.A. Makarova, D.G. Lagerev // CEUR Workshop Proceedings of the 30th International Conference on Computer Graphics and Vision (GraphiCon 2020), 2020 . -Vol. 2744. -p. 1-11

122. Maynard, D. Challenges in developing opinion mining tools for social media. / D. Maynard, K. Bontcheva, D. Rout // Proceedings of NLP Workshop at LREC, 2012.

123. McKinney, W. et al. Data structures for statistical computing in python. In Proceedings of the 9th Python in Science Conference, 2010. - Vol. 445- p. 51-56.

124. Melillo, P. Classification Tree for Risk Assessment in Patients Suffering From Congestive Heart Failure via Long-Term Heart Rate Variability / P. Melillo, N. Luca, M. Bracale, L. Pecchia, // IEEE journal of biomedical and health informatics, 2013 - Vol.17. - p. 727-33.

125. Mihalcea, R. Corpus-based and Knowledge-based Measures of Text Semantic Similarity / R. Mihalcea, C. Corley, C. Strapparava,. // Proceedings of the National Conference on Artificial Intelligence, 2006 - Vol. 1.

126. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // In Proceedings of Workshop at ICLR, 2013.

127. Miller, G. Wordnet: An online lexical database. / G. Miller // Int. Journ. of Lexicology, 1990 - Vol. 3.

128. Mykowiecka, Ag. Experiments with ad hoc ambiguous abbreviation expansion / Ag. Mykowiecka, M. Marciniak // Proceedings of the Tenth International Workshop on Health Text Mining and Information Analysis, 2019 - p. 44-53.

129. Mytna Kurekova, L. Online job vacancy data as a source for micro-level analysis of employers' preferences. / L. Mytna Kurekova, M. Beblavy, A. Thum-Thysen // A methodological enquiry // IZA Journal of Labor Economics volume, 2015. - V. 4. -p. 1-20.

130. Okhapkin, V. P. Constructing of Semantically Dependent Patterns Based on SpaCy and StanfordNLP Libraries / V. P. Okhapkin, E. P. Okhapkina, A.O. Iskhakova, A. Y. Iskhakov // Communications in Computer and Information Science, 2021. -Vol. 1395 CCIS. - p. 500-512.

131. Pajankar, A. unittest. In: Python Unit Test Automation / A. Pajankar // Apress, Berkeley, CA, 2022 - p. 43-90.

132. Peters, M. Deep Contextualized Word Representations / M. Peters, M. Neumann, M. Iyyer et al. // In Proceedings of the 2018 Conference of the North

American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018 -Vol.1 - p. 2227-2237.

133. Podvesovskii, A. G. The choice of parameters of welding materials on the basis of fuzzy cognitive model with neural network identification of nonlinear dependence / A. G. Podvesovskii, K. V.Gulakov, K. V. Dergachyov, D. A. Korostelyov, D.G. Lagerev // International Conference on Mechanical Engineering, Automation and Control Systems (MEACS) , 2015 - p. 1-4,

134. Rajaraman, A. Mining of Massive Datasets / A. Rajaraman, J. Leskovec, J. Ullman - 2014 - p. 513.

135. Ramos, A. Application of Machine Learning and Word Embeddings in the Classification of Cancer Diagnosis Using Patient Anamnesis / A. Ramos, H. Allende-Cid, C. Taramasco et al. // IEEE Access, 2020.

136. Reis, J. Fundamentals of Data Engineering / J. Reis, M. Housley // O'Reilly Media, 2022. - p. 446

137. Shearer C., The CRISP-DM model: the new blueprint for data mining / C. Shearer // J Data Warehousing, 2000. - No. 5. - p. 13-22.

138. Shukla, N. Breast cancer data analysis for survivability studies and prediction / N. Shukla, M. Hagenbuchner, T. K. Win // Computer Methods and Programs in Biomedicine, 2017. - DOI:155. 10.1016/j.cmpb.2017.12.011.

139. Soderland, S. Learning Information Extraction Rules for Semi-Structured and Free Text / S. Soderland // Machine Learning, 2004 - Vol. 34 - p. 233-272.

140. Sidorov, G. Syntactic N-grams as machine learning features for natural language processing / G. Sidorov, F. Castillo, E. Stamatatos, A. Gelbukh, L. Chanona-Hernandez // Expert Systems with Applications: An International Journal, 2014 -Vol. 41. - p. 853-860.

141. Simon, H. Heuristic problem solving: the next advance in operations research / H. Simon, A. Newell // Operations Research, 1958. -Vol. 6.

142. Singhal, A. Modern Information Retrieval: A Brief Overview / A. Singhal // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2001 - No. 24 (4) - p. 35-43.

143. Smith, B. Introducing JSON. In: Beginning JSON / B. Smith // Apress, Berkeley, CA, 2015 - p. 339.

144. Wang, P. Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network / P. Wang, et al. - ArXiv abs/1510.06168, 2015 -p. 1-6.

145. Xu, W. Forecasting Corporate Failure in the Chinese Energy Sector: A Novel Integrated Model of Deep Learning and Support Vector Machine / W. Xu, Y Pan, W. Chen, H. Fu // Energies, 2019 - Vol.12. - p. 2251-2019.

146. Yanwei, B. The Role of Pre-processing in Twitter Sentiment Analysis / Yanwei B., Quan Ch., Wang L. et al. // Procedia Computer Science, 2014. - Vol. 89. -p. 549-554.

147. Yoon, K. Convolutional Neural Networks for Sentence Classification / K. Yoon // In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014 - p. 1746-1751.

148. Zakharova, A. Visual modeling in an analysis of multidimensional data / A. Zakharova, E. Vekhter, Al. Shklyar, Al. Pak, // Journal of Physics: Conference Series, 2018 - No. 944.

149. Zhang, H. Token Drop mechanism for Neural Machine Translation / H. Zhang, Sh.Qiu, X. Duan et al. // Proceedings of the 28th International Conference on Computational Linguistics. - 2020. - p. 4298-4303.

150. Zhang, Yu. Keywords Extraction with Deep Neural Network Model / Yu. Zhang, M. Tuo, Q. Yim et al. // Neurocomputing, 2019. - No. 383. D0I:10.1016/j.neucom.2019.11.083.

151. Zhang Y. Support Vector Machine Classification Algorithm and Its Application / Y. Zhang // Information Computing and Applications. ICICA, 2012. -Vol. 308 - p. 179-186. D0I:10.1007/978-3-642-34041-3_27.

ПРИЛОЖЕНИЯ

ПРИЛОЖЕНИЕ А. СПИСОК БИБЛИОТЕК НА ЯЗЫКЕ PYTHON С УКАЗАНИЕМ ВЕРСИЙ, ИСПОЛЬЗУЕМЫХ В ПРОГРАММНОМ

КОМПЛЕКСЕ

Amqp==5.1.1 psycopg2==2.9.3

asgiref—3.5.1 pycparser—2.21

async-generatoi—1.10 pymystem3==0.2.0

attrs==21.4.0 pyOpenSSL==22.0.0

billiard==3.6.4.0 PySocks==1.7.1

celery==5.2.6 python-dateutil==2.8.2

certifi==2021.10.8 pytz—2022.1

cffi==1.15.0 regex==2022.4.24

charset-normalizer—2.0.12 requests==2.27.1

click—8.1.3 scikit-learn==1.0.2

click-didyoumean==0.3.0 scipy==1.8.0

click-plugins== 1.1.1 selenium==4.1.5

click-repl==0.2.0 six==1.16.0

colorama==0.4.4 smart-open==6.0.0

cryptography==3 7.0.2 sniffio==1.2.0

Cython==0.29.28 sortedcontainers==2.4.0

Django==4.0.4 SQLAlchemy==1.4.36

gensim==4.2.0 sqlparse==0.4.2

greenlel—1.1.2 threadpoolctl==3.1.0

h11==0.13.0 tqdm==4.64.0

idna==3.3 trio==0.20.0

joblib==1.1.0 trio-websocket—0.9.2

kombu==5.2.4 tzdata==2022.1

nltk—3.7 urllib3==1.26.9

numpy==1.22.3 vine==5.0.0

outcome==1.1.0 pandas==1.4.2

wcwidth==0.2.5 wsproto==1.1.0

ПРИЛОЖЕНИЕ Б. ФРАГМЕНТЫ ПРОГРАММНОГО КОДА

# импорт языковых пакетов nltk.download('punkt') wikiwordnet = WikiWordnet() morph = pymorphy2.MorphAnalyzer() m = Mystem()

# вычисление коэфициента жаккарта между текстами def get_jaccard_sim(str1, str2):

a = set(str1.split()) b = set(str2.split()) c = a.intersection(b)

return float(len(c)) / (len(a) + len(b) - len(c))

# вычисление косинусное расстояния между текстами def get_cosine_sim(text1, text2):

intersection = set(text1.keys()) & set(text2.keys()) num = sum([text1[x] * text2[x] for x in intersection]) resl = sum([text1[x] ** 2 for x in list(text1.keys())]) res2 = sum([text2[x] ** 2 for x in list(text2.keys())]) denom = math.sqrt(resl) * math.sqrt(res2) if not denom: return 0.0 else:

return float(num) / denom

# проверка множеств на пересечение def are_near_duplicates(a, b, J=0.7):

sim = len(a.intersection(b)) / float(len(a.union(b))) return sim > J

# превращение текста в униграмы (одинарные токены)

def unirams(doc): r = set()

for token in doc:

r.add(morph.parse(token.lower())[0] .normal_form)

return r

# преобразование текста в вектор def convert_text_to_vector(text):

words = WORD.findall(text) return Counter(words)

# вычисление семантической близости по алгоритмы WMD def get_wmd_sim(sent_1, sent_2):

tokens_1 = word_tokenize(sent_1, language-'russian") words_1 = unirams(tokens_1)

tokens_2 = word_tokenize(sent_2, language="russian")

words_2 - unirams(tokens_2)

return model.wmdistance(words_1, words_2)

# получить наборы предложений и коротких токенов, которые будут проверены на сокращения

def get_sentence_from_data(data, collumn_name): sentences = [] short_token = []

for index, row in data.iterrows(): sents = row[collumn_name] sents = sents.lower()

sents = sents.replace('.', '. ').replace(',', ', ') sents = nltk.sent_tokenize(sents, language="russian") for sent in sents: sent = ' ' + sent

sokr_sent = re.findall('( [\S]{0,7}[\.])s?', sent) for skr in sokr_sent: skr = skr.strip()

skr = ^^('[ЛА-Яа-я^/-^', '', skr) skr = morph.parse(skr)[0].normal_form syntens = wikiwordnet.get_synsets(skr)

if len(syntens) == 0 and skr != '' and skr !='-' and skr[0] !='-' and skr[-

short_token.append(skr) sent = sent.replace('.', ' ')

sent = re.sub('[АА-Яа-я^/-]+', '', sent) sent = word_tokenize(str(sent)) if len(sent) > 2:

sentences.append(sent) return sentences, short_token

#поиск предполагаемых сокращений def get_possible_sokr( sokr, sim=0.6 ): dic = {} for skr in sokr: try:

result = model.similar_by_word(skr) for res in result:

if float(res[1]) > sim:

if (res[0][0:2] == skr[0:2]) and len(res[0]) > len(skr): if res[0] not in sokr and m.analyze(res[0])[0]["analysis"]: dic[skr] = res[0] continue except Exception as e: print(e) return dic

#поиск дублей по коэфициенту джакарта def get_list_jaccard_dubl(text_set, j=0.7): pairs = list(itertools.combinations(range(len(text_set), 2))) n = 0 dubl = [] full_dubt = [] for pair in pairs:

if len(text_set[pair[0]]) > 0 and len(text_set[pair[1]]) > 0: jaccard = get_jaccard_sim(text_set[pair[0]], text_set[pair[1]]) if jaccard == 1:

if text_set[pair[1]] not in full_dubt: full_dubt.append(text_set[pair[1]]) if jaccard >= j and jaccard != 1: n += 1

if text_set[pair[1]] not in dubl:

dubl.append(text_set[pair[1]]) return dubl

#создание и сохранение модели word2vec def create_simple_word2vec_model(sentences, name): model = Word2Vec(sentences, min_count=1) model.save(name + ".model") word_vectors = model.wv word_vectors.save(name + ".wordvectors") #поиск дублей по коэфициенту джакарта def get_list_jaccard_dubl(text_set, j=0.7): pairs = list(itertools.combinations(range(len(text_set), 2))) n = 0 dubl = []

# получение списка ключевых слов используя NLTK def get_simple_keyword(reader):

keywords = list() for row in reader.iterrows(): docs = str(row[1]).lower() if docs: keyw = list()

sents = nltk.sent_tokenize(str(docs), language-'russian") for sent in sents:

sent = word_tokenize(str(sent)) for token in sent: keyw. append(token) keywords += keyw return keywords

# подсчет веса ключевых слов def get_keyword_stat(keywords):

return dict(sorted(keywords.items(), key-lambda item: item[1], reverse-True))

#обучение word2vec

def get_word2vec_model(docs, min_c=1):

model = Word2Vec(docs, min_count=min_c) return model

#группировка ключевых слов с высокой степенью семантической близости def grouping(keywords, model, similarity): groups = {}

for word, weight in keywords: try:

similar = model.similar_by_word(word) for sim_word in similar:

if float(sim_word[1]) >= similarity and sim_word in keywords: if word not in groups:

groups[word] = weight + keywords[sim_word] else:

groups[word] += keywords[sim_word] except Exception as e: print(e) return groups

# создание набора для дальнейшего обучения модели word2vec def get_docs_from_files(files, path): docs = list() for file in files:

with open(os.path.join(path,file), encoding='utf-8') as json_file: data = json.load(json_file) sents = data['text']

sents = nltk.sent_tokenize(sents, language-'russian") for sent in sents: sentence = list()

tokens = word_tokenize(sent, language-'russian") for token in tokens: token = token.strip() token = ге^^С^А-Яа-я^/-^', '', token) word = morph.parse(token)[0].normal_form sentence.append(word)

docs.append(sentence) return docs

#удаление из выборки самых распространенных слов русского языка def remove_stopwords(keywords): cleared_keywords - dict for word, weight in keywords:

if word not in stopwords.words("russian"): cleared_keywords[word] = weight return cleared_keywords

// создание SVG визуализации векторного пространства function create_vector_vis( points, default_sim ){ var board = JXGJSXGraph.initBoard('jxgbox', {boundingbox: [-2, 1.5, 2, -2.5]}); var p = board.create('point',[0,0], {name: points[0]['token'], color: '#000080'}); var group_points = []

var c1 = board.create('circle', [p2, p5], {strokeColor: '#000080'}) var pointer = board.create('point', [0,default_sim], {name: default_sim, color: '#000080', showlnfobox: false}); group_points = [p, с1, pointer] for (var i = 1; i < points.length; i++){ var p1 = board.create('point', points[i]['coord'], {name: points[1]['token'], color: '#000080' });

group_points .push(p 1)

}

pointer.on('drag', function(e, i){ rad = c1.Radius();

p5.setAttribute({'name': '<' + (Math.round(rad * 100, 2)/100 * 0.4).toString().substring(0,4) }) point.forEach(element => {

if (Math.sqrt(element.X()*element.X() + element.Y()*element.Y()) < rad ){ element.setAttribute({'color': '#000080'})

}

else{element.setAttribute({'color': '#8B0000'}) } }) });}

// создание нумерованного списка слов function create_list_keywords( keywords ){ var keywords_list = document.createElement("ol"); keywords.forEach(element => { word = documentcreateElement("li").innerText(word) keywords_list.appendChild(word) });}

// придание списку размеров шрифтов

function add_height (element, coef, max, min) {

var hight_weight = min; var lower_weight = max; $.each(elementfind("li"), function(){ current_weight = getDataWeight(this); if(current_weight > hight_weight){ hight_weight = current_weight

}

if (current_weight < lower_weight){ lower_weight = current_weight

} });

$.each(element.find("li"), function(){ var weight = getDataWeight(this);

var prop = (weight lower_weight) / (lower_weight - hight_weight) var percent = Math.abs(prop); $(this).css('font-size', (1 + percent * coef + "em")); });}

ПРИЛОЖЕНИЕ В. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ ПРОГРАММ

ДЛЯ ЭВМ

ПРИЛОЖЕНИЕ Г. ДОКУМЕНТЫ О ВНЕДРЕНИИ И ИСПОЛЬЗОВАНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ

А

Общество с ограниченной ответственностью

II

ОФИСНЫЕ ТЕХНО/ЮГИИ"

Тел./факс (4832)26-58-15 Адрес: 241022. г. Брянск, ул. Речная. 2 e-mail: oft@inbox.ru р/с 40702810708000008640 в ПАО СБЕРБАНК БИК 041501601 к/с 30101810400000000601 ИНН 3250061026 КПП 325701001 ОГРН 1053244108345

?оУ УТВЕРЖДАЮ:

I ТННОлЖ',еКГОР ООО «Офисные технологии»

Конохов Н.С.

•^03"lOjyfa 2022 г

АКТ

о внедрении научных и практических результатов диссертационной работы Макаровой Елены Андреевны

Комиссия в составе генерального директора Конохова Н.С., заместителя директора по информационным технологиям Федорова И. В. и главного аналитика Черных И.С. составила настоящий акт о том, что результаты диссертационной работы аспиранта Е. А. Макаровой под руководством к.т.н., доцента Лагерева Дмитрия Григорьевича внедрены в ООО «Офисные технологии», разработчика региональной информационной системы «МЕД-Комплит: Электронная медицина».

К числу внедренных результатов относятся:

1) инструментальные средства автоматизированной обработки слабоструктурированных текстовых данных, содержащихся в поле «анамнез» интегрированной электронной медицинской карты, для формирования вектора признаков с целью решения задачи определения степени риска онкологических заболеваний пациентов в рамках проведения диспансеризации на уровне региональной информационной системы «МЕД-Комплит: Электронная медицина»;

2) средства инструментальной поддержки эксперта в процессе настройки автоматизированного извлечения и обработки слабоструктурированных текстовых данных из региональной информационной системы «МЕД-Комплит: Электронная медицина» с использованием разработанных методов визуализации больших массивов текстовых данных и семантических моделей с целью разведывательного анализа в процессе информационного управления.

Использование результатов диссертационной работы позволяет:

• получить дополнительную информацию для модели оценки степени риска, что позволяет поднять качество классификации на тестовой выборке на 2,8%;

• раскрыть до 90% специфических медицинских сокращений в автоматизированном режиме, снизив при этом нагрузку на эксперта в 9 раз по сравнению с ручной обработкой данных;

• снизить затраты времени эксперта при разметке слабоструктурированных текстовых данных на 14,6%;

• уменьшить время разведывательного анализа слабоструктурированных текстовых данных на 18% с помощью адаптивной визуализации;

• сокращение времени на обработку новых данных от 8,3 до 12,9% с помощью сохранения настроек обработки.

В перспективе использование результатов исследования поможет минимизировать или отказаться от участия эксперта на этапе разметки данных при накоплении достаточного их количества.

Директор

Заместитель директора по информационным технологиям Главный аналитик

Члены комиссии:

Конохов Н.С.

У

Федоров И. В. Черных И.С.

Генеральш

«УТВЕРЖДАЮ»

роо «АйТи Про» Голованов В.В. флкл 2022 г

АКТ

о внедрении научных и практических результатов диссертационной работы Макаровой Елены Андреевны

Комиссия в составе менеджера по персоналу Баздеровой А.Н. и главного архитектора Бондарева В.В. составила настоящий акт о том, что результаты диссертационной работы аспиранта Макаровой Елены Андреевны под руководством к.т.н., доцента Лагерева Дмитрия Григорьевича внедрены в ООО «АйТи Про».

Использование внедренных инструментальных средств интеллектуальной обработки и визуализации регулярно обновляющихся текстовых данных, содержащихся в вакансиях, позволяет:

1) провести контроль извлечения необходимых данных из большого массива, такого как вакансии ИТ-компаний, с применением интерактивной визуализации, позволяющий сократить время сотрудника отдела кадров на 30%;

2) удалить до 28% дублирующийся информации при извлечении данных;

3) настроить извлечение данных из новых вакансий ИТ-компаний и визуализацию динамики изменений в них, что позволяет сократить время сотрудника на контроль повторного извлечения данных до 9 раз;

4) провести разведочный анализ данных с выделением тенденций упоминания в вакансиях различных информационных технологий.

В перспективе использование результатов исследования позволит автоматизировать процесс выявления изменений потребностей в ИТ-специалистах, владеющих различными технологиями и инструментами, на основе анализа опубликованных вакансий.

Члены комиссии: Менеджер по персоналу

Главный архитектор

Баздерова А.Н. Бондарев Б.И.

УПРАВЛЕНИЕ ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПО ТРУДУ И ЗАНЯТОСТИ НАСЕЛЕНИЯ БРЯНСКОЙ ОБЛАСТИ

1-ый проем Станке Димитрова, л. 12, г.Брянск, 241037 тел. (4832) 41 -16-75. факс (4832) 62-12-72

F, mail: gszn@rabola-bfyanskobl.ru ОКПО 10440556, or РН 1073250000340, ИНН/К1 III 3250071507/325701001

На Я»_т_

об использовании научных и практических результатов диссертационного исследования Макаровой Елены Андреевны

Настоящим подтверждается, что результаты диссертационного исследования Макаровой Елены Андреевны под руководством кандидата технических наук, доцента Лагерева Дмитрия Григорьевича были использованы в деятельности управления государственной службы по труду и занятости населения Брянской области в рамках мониторинга и исследования регионального рынка зруда с использованием Общероссийской базы вакансий и резюме «Работа России».

К числу использованных результатов исследования относятся инструментальные средства интеллектуальной обработки слабоструктурированных текстовых данных, применяемые на этапе разведочного анализа с целью дальнейшего построения моделей анализа данных. Инструментальные средства включают в себя визуальные модели, отображающие разницу между выборками и корреляции между языковыми единицами и другими показателями в исследуемых данных.

Использование результатов диссертационного исследования позволило:

1. Выделить закономерности и тренды из резюме и описаний вакансий, содержащих слабосгрукгурированные текстовые данные (в автоматизированном режиме обработано порядка 8 миллионов записей).

2. Снизить трудоемкость социологического исследования рынка груда на 6.4% за счет увеличения скорости генерации релевантных гипотез благодаря использованию визуализаций.

3. Разработать рекомендации, которые позволят соискателям составлять более привлекательные для работодателя резюме, отражающие те навыки и сильные стороны, которые наиболее востребованы на желаемой позиции.

СПРАВКА

Начальник у правления

Н.В. Новикова

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.