Разработка и исследование моделей прогнозирования динамики новостных лент тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Новикова Ольга Александровна
- Специальность ВАК РФ05.13.17
- Количество страниц 172
Оглавление диссертации кандидат наук Новикова Ольга Александровна
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ СОСТОЯНИЯ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТАНОВКА
ЗАДАЧ ИССЛЕДОВАНИЯ
1.1. Обоснование актуальности анализа контента новостных лент
1.2.Задачи количественного анализа динамики текстов/новостных данных
1.3.Выводы к главе 1 и постановка задач исследования
ГЛАВА 2. ОБОСНОВАНИЕ ПРИНЦИПОВ ФОРМИРОВАНИЯ ТЕКСТОВОГО НАБОРА ДАННЫХ И ВЫБОРА КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ ДЛЯ ОПИСАНИЯ ДИНАМИКИ НОВОСТНЫХ ТЕКСТОВ
2.1. Анализ особенностей новостных текстов и их динамики
2.2.Методика формирования временного ряда из контента новостных текстов
2.3.Базовые источники выбора текстовой информации
2.4.Выбор шкалы измерений
2.5. Технология предобработки текстовых данных
2.5.1. Векторизация и кластеризация новостных текстов
2.6.Базовые принципы построения модели динамики контента новостных лент68
2.7.Выводы к главе
ГЛАВА 3. РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ ПРОГНОЗИРОВАНИЯ ДИНАМИКИ НОВОСТНЫХ ЛЕНТ
3.1.Разработка разностных схем для описания вероятностей переходов между состояниями в информационном пространстве
3.2.Решение краевой задачи на основе дифференциального уравнения второго порядка методом преобразований Лапласа
3.3.Выводы к главе
ГЛАВА 4. ИССЛЕДОВАНИЕ МОДЕЛЕЙ ДИНАМИКИ КОНТЕНТА НОВОСТНЫХ ЛЕНТ
4.1. Описание методики экспериментального исследования динамики контента новостных лент
4.2.Сбор, подготовка и обработка данных для проведения исследований
4.3.Идентификация параметров модели динамики контента новостных лент
4.4.Оценка порогового значения вероятности появления события в новостной ленте
4.5.Моделирование зависимости от времени вероятности реализации прогнозируемого события. Анализ результатов моделирования
4.6. Оценка адекватности разработанной прогностической модели по экспериментальным результатам
4.7.Выводы к главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
Приложение 1: Алгоритм уточнения кластеризации текстовых данных на основе энтропийных оценок
Приложение 2: Решение краевой задачи на основе дифференциального уравнения второго порядка
Приложение 3: Решение уравнения для простой диффузионной модели
Приложение 4: Свидетельство о государственной регистрации программы для ЭВМ №2018615544 от 10.05.2018 «Модуль прогнозирования новостных событий на основе анализа спектров информационных процессов»
Приложение 5: Акты о внедрении результатов исследований на базе ФГБОУ ВО «МИРЭА - Российский технологический университет», ООО НТЦ «ЭССЗ», ООО «РУСНЕФТЕТРЕЙД» и другие акты на момент подачи работы в Диссертационный совет
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора2013 год, кандидат наук Крайнов, Александр Юрьевич
Модели, методы и архитектуры программных систем нейросетевого прогнозирования трудноформализуемых событий с непрерывным обучением2022 год, кандидат наук Милосердов Дмитрий Игоревич
Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен объектов и последующем построении графов совместной встречаемости ключевых термов2009 год, кандидат физико-математических наук Шмулевич, Марк Михайлович
Современные тенденции и перспективы развития круглосуточной новостной телевизионной журналистики: на примере телеканала "Россия 24"2015 год, кандидат наук Алиева, Марьян Магомедовна
Введение диссертации (часть автореферата) на тему «Разработка и исследование моделей прогнозирования динамики новостных лент»
ВВЕДЕНИЕ
Актуальность исследования. В последние годы сведения, которыми мировые информационные агентства заполняли свои новостные электронные ленты, стали доступны широкому потребителю. Более того, информация практически в любой области человеческой деятельности вышла за рамки обладания и работы с нею лишь узким кругом специалистов. Теперь каждый индивидуум, владеющий техническими возможностями выхода в мировые информационные сети, может вносить собственную лепту в формирование глобальной копилки знаний. При таких масштабах большая часть этих данных содержится в хаотичном или слабо организованном виде, что, в свою очередь, привело к необходимости совершенствования средств их структурирования и анализа, а также поиска методов извлечения закономерностей в корпусе новостных сообщений и прогнозирования вероятности появления в новостной ленте сообщений о значимых событиях с целью упреждающего воздействия на различные виды деятельности и управления их возможными состояниями. Например, зная о том, что с большой вероятностью через определенный промежуток времени могут произойти гражданские беспорядки, можно предпринять ряд мер для того, чтобы не допустить их появления или избежать серьёзных последствий.
Разработка и совершенствование средств анализа и выявления закономерностей в текстовых данных, в том числе и в новостных сообщениях, исследование особенностей динамики новостных лент являются важными и актуальными научными задачами, требующими для своего решения поиска новых подходов, основанных на информационных технологиях обработки больших данных. Существенный вклад в разработку решений данной проблематики внесли: Хадйэ Нассиртоусси (Khadjeh Nassirtoussi) [17,40], Л. Чжао (L.Zhao) [54,55], Н. Рамакришнан (N.Ramakrishnan) [10,55,57], Г. Финние (G. Finnie) [29,30], Д.О. Жуков [76,131-134], Л. Анастасакис (L. Anastasakis) [28], Ц.-Й. Хуанг (C.-J. Huang)
[27], Б. Ванстоне (B. Vanstone) [29,30], Д. А. Замотайлова [63], Е. Лупиани-Руиз (E. Lupiani-Ruiz) [37], И. Гарща-Манотас (I. García-Manotas) [37], Й. Клеиннийенхуис (J. Kleinnijenhuis) [22], Х. Ю (H. Yu) [36], М.Либман (M. Liebmann) [43], К. Яковлева [49] и многие другие.
Отличительной особенностью новостного пространства, в силу наличия человеческого фактора, является стохастический характер протекающих в нем процессов, возможность самоорганизации информации и наличие памяти. Слабоструктурированность информационного пространства новостных текстов является одной из основных проблем в прогнозировании динамики новостных лент. Поэтому актуально создать модель для прогнозирования появления сообщений в новостной ленте, которая учитывала бы наличие человеческого фактора и была бы основана на стохастической динамике изменений структуры новостных кластеров (или состояний информационного пространства), и которая учитывала бы память и самоорганизацию их структуры.
В основе, предлагаемой в данной работе, методики анализа динамики новостных текстов и модели прогнозирования появления события в сообщениях новостной ленты, лежат следующие шаги.
Собирается корпус новостных текстов за большой промежуток времени (например, за 15-20 лет). Так как новостные сообщения в сети Интернет представляют собой гетерогенные данные (данные, имеющие различную форму представления и неодинаковые единицы измерения), они могут включать в себя текст, числовые данные, денежные знаки, время/дату, гиперссылки и др. В одной математической модели невозможно одновременно производить вычисления над различными типами данных, а значит, необходим такой математический аппарат, который позволил бы привести гетерогенные данные, составляющие основу новостных сообщений, к единой шкале измерений. Чтобы это осуществить, необходимо выполнить соответствующие вычислительные операции по отображению данных на числовое множество: - выполнить лингвистическую обработку тестов новостных сообщений
(удаление знаков препинания, удаление стоп слов, нормализацию, лемматизацию);
- создать словарь, на основе которого осуществляется векторизация всех новостных сообщений. В связи с тем, что каждое новостное сообщение может быть описано конечным набором терминов, из этих наборов терминов можно создать новостные векторы в информационном пространстве. Координаты новостного вектора будут представлять собой количество вхождений терминов из словаря в текст новостного сообщения;
- кластеризовать полученные векторы новостного пространства по смысловым группам, осуществить уточнение кластеризации.
Далее формируются временные ряды изменения структуры полученных кластеров с течением времени (например, в качестве параметра при создании временного ряда, можно взять изменение положения центров кластеров с течением времени). Как и любой временной ряд, данные ряды могут содержать циклические колебания, тренд, сезонные колебания и стохастическую компоненту.
Достаточно хорошо исследованы методы анализа временных рядов, в которых сохраняется тренд или имеющих сезонную составляющую (метод Хольт-Винтерса [1,2], Я/Б-анализ [3,4], алгоритм АШМА [5,6] и др.). Когда временной ряд в большей степени обладает стохастической компонентой, задача становится намного сложнее. Если значение переменной Хёрста (например, определенной в результате Я/Б-анализа) находится вблизи 0,5, наблюдается некоррелированное поведение ряда, процесс является стохастическим. Одним из возможных решений в таком случае может стать подход, построенный на гипотезе о том, что существуют причинно-следственные связи между событиями, происходящими в реальном мире. А, это значит, что можно построить математическую модель, отображающую связь между новостными векторами уже произошедших событий (событий, описанных в сообщениях новостной ленты) и вектором прогнозируемого новостного сообщения (вектором, созданным с помощью словаря, используя текстовое описание прогнозируемого события).
Суть такой модели может заключаться в следующем: сначала создаем текстовое описание образа новостного события, для которого необходимо определить вероятность его реализации с течением времени (прогноз). Далее векторизуем текстовое описание прогнозируемого события (получаем вектор Хъ«). Затем определяем, для какого-либо момента времени 1;, значения косинусов углов между векторами центроидов и вектором прогнозируемого события, вычисляем их среднее значение. Величина среднего значения косинусов в данный момент времени будет являться точкой на числовом отрезке [0,1], и, вследствие изменения структуры кластеров с течением времени, она будет совершать на нем почти случайные перемещения (блуждания). С течением времени она может достигнуть заданного значения косинуса, которое мы будем считать порогом реализации события (назовем его /). Текущую величину среднего значения косинусов назовем состоянием информационной системы в данный момент времени (обозначим его X"). Вероятность достижения порога события / будет зависеть от времени 1 (то есть, по сути, мы рассматриваем почти случайные блуждания точки на отрезке [0,1], который содержит в / ловушку, куда может с течением времени попасть блуждающая точка).
Изложенный подход позволяет, на основе рассмотрения схем вероятностных переходов между состояниями информационной системы, сформулировать краевую задачу о зависимости вероятности достижения прогнозируемого сообщения новостной ленты от времени и рассмотреть её решение, на основе модели учитывающей память о предыдущих состояниях информационной системы и их возможную самоорганизацию.
Целью диссертационного исследования является разработка математической модели прогнозирования динамики новостных лент на основе динамики формирования вектора новостного сообщения из векторов информационного новостного пространства текстовых документов, отличительной особенностью которого является стохастический характер протекающих в нем процессов, наличие памяти о предыдущих состояниях и возможность
самоорганизации информации.
В качестве технологического инструмента работы с новостным текстом будут применены методы и алгоритмы семантического анализа текстовой информации, позволяющие работать с векторами в качестве математических объектов и формировать временные ряды изменения структуры кластеров.
Для достижения поставленной цели должны быть решены следующие основные задачи:
1. Провести анализ современных исследований и разработок в области выявления закономерностей в текстовых данных и прогнозирования контента новостных лент.
2. Разработать стохастическую модель прогнозирования динамики новостной ленты:
- построить разностные схемы для вероятностей переходов между состояниями информационной системы, описывающими эволюцию рассматриваемого процесса с течением времени. При описании процессов перехода между состояниями учесть возможность самоорганизации и наличие памяти;
- используя аппарат теории вероятностей и метод графических диаграмм переходов между состояниями, получить алгебраическое уравнение, описывающее условные вероятности соответствующих переходов между возможными состояниями информационной системы;
- используя аппарат классического математического анализа, с помощью разложения в ряд Тейлора членов вероятностного алгебраического уравнения, получить дифференциальное уравнение второго порядка, описывающее поведение системы (функции зависимости плотности вероятности от времени);
- сформулировать граничные и начальные условия для краевой задачи, решение которой будет описывать процесс перехода между состояниями в информационном пространстве, решить краевую задачу (например, с
помощью преобразований Лапласа) и проанализировать полученное решение.
3. Разработать методику применения прогностической модели для прогнозирования появления события в сообщении новостной ленты на основе его формирования из существующих событий новостной ленты.
4. Провести экспериментальную проверку модели прогнозирования динамики новостных лент и разработать методику оценки адекватности прогностической модели по экспериментальным результатам.
Объектом исследования является поток событий новостной ленты.
Предмет исследования определяется паспортом специальности 05.13.17,
область исследования №5 (разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечения, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображения).
Методология и методы диссертационного исследования. Научные положения диссертации получены с использованием моделирования систем, теории систем и системного анализа, методов математического анализа, теории вероятностей, дифференциального исчисления, операционного исчисления, методов математической лингвистики, теорий классификации и систематизации, теории самоподобия.
Научная новизна. Научная новизна обусловлена тем, что в представленном диссертационном исследовании:
1. Разработан подход к моделированию процессов прогнозирования появления событий новостной ленты, основанный на возможности использования схем вероятностей переходов между состояниями в информационном новостном пространстве с учетом памяти о предыдущих состояниях; выводе алгебраического и дифференциального уравнений для описания условных вероятностей переходов с течением времени; формулировке и решении граничной задачи.
2. Выведено аналитическое выражение для нахождения зависимости от времени плотности вероятности обнаружения системы в одном из возможных состояний.
3. Разработана методика прогнозирования появления события новостной ленты на основе анализа изменения структуры кластеров с течением времени и вероятностной модели формирования событий в новостной ленте с учетом памяти о предыдущих состояниях информационной системы и самоорганизации информации.
Теоретическая и практическая значимость.
Теоретическая значимость состоит в том, что разработана новая математическая модель, в которой рассматриваются возможные переходы между состояниями информационной системы с учетом предыдущих шагов (или состояний), на основе чего было выведено алгебраическое уравнение, описывающее условные вероятности перехода между состояниями, разложение которого в ряд Тейлора позволяет получить дифференциальное уравнение, учитывающее не только первые, но и вторые производные, что позволяет говорить о самоорганизации информационной системы, а на основе данного уравнения была сформулирована и решена краевая задача.
Практическая значимость диссертационного исследования заключается в том, что на основе разработанной теоретической модели можно создать алгоритм, с помощью которого возможно прогнозирование появления событий в тех случаях, когда не работают классические методы анализа и прогнозирования временных рядов, такие как, например, Я/Б-анализ. Результаты экспериментов показали, что разработанная модель является адекватной и непротиворечивой.
Результаты работы использовались в конкурсной части государственных заданий высшим учебным заведениям и научным организациям по выполнению инициативных научных проектов, финансируемых Министерством образования и науки РФ (проект № 28.2635.2017/ПЧ «Разработка моделей стохастической самоорганизации слабоструктурированной информации и реализации памяти при
прогнозировании новостных событий на основе массивов естественно-языковых текстов».
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет корректного использования математического аппарата, который был применён для получения основных уравнений модели, непротиворечивости полученных результатов и выводов с результатами и выводами, которые можно сделать на основе анализа состояния данной предметной области, результатами, полученными в ходе экспериментов, подтверждающими адекватность разработанной модели прогнозирования динамики новостных лент, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных конференциях, где результаты исследования не вызвали серьёзных нареканий со стороны научного сообщества.
Внедрение результатов исследования осуществлено в учебную работу на кафедре информационных технологий в государственном управлении (ИТГУ) Института инновационных технологий и государственного управления (ИНТГУ) ФГБОУ ВО «МИРЭА - Российский технологический университет», в практику деятельности компаний ООО «РУСНЕФТЕТРЕЙД» (респ. Башкортостан) и ООО НАУЧНО-ТЕХНИЧЕСКИЙ ЦЕНТР «ЭССЗ» (г. Санкт-Петербург), что подтверждается соответствующими актами.
Апробация результатов работы. Основные теоретические и практические результаты диссертационного исследования апробированы в научно-исследовательских работах и отражены в докладах на научно-практических и научных конференциях: Международная научная конференция Big Data & AI Conference 2020 (Москва, 17-18 сентября 2020 г.), VIII Международная научная конференция " Компьютерные науки и информационные технологии», памяти А.М. Богомолова (Саратов, 2018 г.), конференции «ITM Web of Conferences» (2017 г.), I Международной научной конференции «Конвергентные когнитивно-информационные технологии» (г. Москва, 25-26 ноября 2016 г.), Международная
заочная научно-практическая конференция (Тамбов, 29 февраля 2012 г.); в результатах конкурсов молодых ученых: Всероссийский конкурс научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий (Белгород, 2012 г.), IV Всероссийский конкурс молодых ученых (Москва, 2012 г.).
Кроме того, результаты работы докладывались на научно - технических семинарах ФГБОУ ВО «МИРЭА - Российский технологический университет». Основные положения, выносимые на защиту:
1. Разработана математическая модель прогнозирования динамики новостных лент.
2. Выведены алгебраическое и дифференциальное уравнения, описывающие условные вероятности соответствующих переходов между возможными состояниями новостного процесса в информационном пространстве с учетом самоорганизации и наличия памяти.
3. Решена краевая задача для прогнозирования появления события в новостной ленте: выведены аналитические выражения зависимости от времени плотности вероятности нахождения системы в одном из возможных состояний.
4. Разработана методика формирования вектора сообщения новостной ленты из существующих объектов информационного новостного пространства.
5. Разработана методика оценки адекватности прогностической модели по экспериментальным результатам.
Личный вклад автора. Представленные в данной диссертационной работе исследования являются результатами работы, проведенной автором диссертации. Основные результаты исследования отражены в 13 научных работах, из них 5 являются публикациями в рецензируемых журналах, рекомендованных ВАК Минобрнауки РФ для опубликования основных результатов диссертационных исследований на соискание ученых степеней доктора и кандидата наук, 3 опубликованы в трудах международных конференций, входящих в базы SCOPUS
и Web of Science.
Получено свидетельство о государственной регистрации программы для ЭВМ №2018615544 от 10.05.2018 «Модуль прогнозирования новостных событий на основе анализа спектров информационных процессов».
Диссертация состоит из введения, четырёх глав, заключения, списка использованной литературы, пяти приложений. Общий объём работы с приложениями, 18 рисунками, 5 таблицами - 172 стр.
ГЛАВА 1. АНАЛИЗ СОСТОЯНИЯ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ
За прошедшие десятилетия произошел резкий рост количества электронных лент новостной информации ведущих информационных агентств. Быстрый рост объёмов новостных баз данных во всех сферах человеческой деятельности привел к чрезвычайной востребованности создания инструментов анализа и прогнозирования контента новостных лент в целях эффективного влияния на социально-экономические процессы. Активной областью исследований стало обнаружение и прогнозирование социально-значимых событий из онлайн данных с открытым исходным кодом. Доказано, что открытые исходные данные, в том числе ленты новостей, служат суррогатами при прогнозировании широкого класса событий, например, вспышек заболеваний [7], результатов выборов [8, 9] и протестов [10].
1.1. Обоснование актуальности анализа контента новостных лент
Анализ новостных данных активно используется, например, в вопросах прогнозирования изменения валютного и фондового рынков.
В основе каждого рынка лежит равновесие предложения и спроса, которое обеспечивают участники рынка, опираясь на личное эмоциональное восприятие происходящих событий. Освещение событий они получают из новостной или/и текстовой информации. Информационные потоки (в первую очередь новостные) оказывают на котировки рынка существенное влияние, степень которого зависит от типа и характера информационного события. Повлиять на предсказуемость финансовых рынков, а также вызвать огромные убытки или прибыли может качество интерпретации настроений в онлайн-новостях и социальных сетях. Таким образом, содержание новостей, в особенности финансовых, несомненно, оказывает
влияние на рыночные движения. Именно поэтому всё больше исследователей обратили свое внимание на различные аспекты того, как понимание движения рынка может облегчить возможность предсказывать будущие его движения. Однако характер рынков таков, что их не просто предсказать. Детальная количественная оценка взаимосвязи между рынками и новостями чрезвычайно сложна, так как новости содержат неструктурированную информацию в форме естественного языка [11].
Методы технического и фундаментального анализов являются главными инструментами прогнозирования колебаний валютного и фондового рынков. Их применению посвящено большое число исследований. Например, в работах [1116] обсуждаются слабые и сильные стороны применения фундаментального и технического анализов на фондовом и Форекс рынках. Б. Омран и др. в работе [16] на валютном рынке евро/доллар исследуют измеряемое частотой пересмотров цен информативное свойство котировочной деятельности. Авторы используют предназначенную для временных рядов подсчета данных многомерную двойную условную авторегрессионную модель Пуассона. Исследование [16] показало, что на деятельность дилеров по цитированию влияет и цитирование деятельности других дилеров, и новостные объявления. И для того, чтобы вывести полезную информацию (например, различные реакции на публичные объявления новостей), некоторые диллеры, проанализировав цитирование деятельности других, либо увеличивают свою активность, либо уменьшают ее в ответ на те же новости. Авторы связывают это со значительным влиянием некоторых дилеров на других и разнородной интерпретацией новостного контента отдельными трейдерами.
Технические аналитики опираются на исторические количественные рыночные данные. Такой подход в значительной степени автоматизирован. Существуют роботы-предсказатели, компьютерные программы, облегчающие принятие решений о продаже или покупке, используя технический подход. Вместе с тем, поведение на рынке безусловно сложнее, чем повторение старых моделей, и на это поведение постоянно оказывают воздействие многие события внешнего
мира. Эти внешние источники информации варьируются от политических событий до экономической статистики [11].
Фундаментальные аналитики обладают знанием и пониманием мировых событий относительно поведения рынка, так как фундаментальный анализ требует, как минимум, знания микро- и макроэкономики, политики. Успешные аналитики, например, Уоррен Баффет (Warren Buffet), неоднократно подчеркивали значимость фундаментальных данных для прогнозирования [11]. Однако, когда дело доходит до автоматизации, фундаментальный анализ всё так же остается сложной задачей.
В работе [14] представлены результаты анкетирования по использованию фундаментального и технического анализа на Индийском фондовом рынке управляющими фондами/брокерами для формирования прогнозов движения цен на акции. Анкетирование проводилось в сентябре/октябре/ноябре 2014 г. Результаты данного исследования показали, что более 85% респондентов для прогнозирования будущих колебаний цен в разных временных горизонтах опираются как на фундаментальный, так и на технический анализ.
Промежуточной областью, соединяющей фундаментальный и технический анализ, можно условно считать использование методик анализа рынков с использованием извлечения правил. В фундаментальном анализе используются данные из разнообразных источников, представленные в различном виде (не только в числовом), большая часть которых доступна в неструктурированном формате, в виде текстовых данных (например, в финансовых новостях). Такие источники используются фундаментальными аналитиками из-за меньшего шума в сравнении с обычными новостями. Именно поэтому, на рынок оказывает воздействие реакция фундаментальных аналитиков на новости, и от восприятия аналитика в значительной степени зависит определение на рынке фундаментальной стоимости. Данная проблематика изучается Калтвоссером (Kaltwasser) в работе [18]. В таком контексте изучение реакции валютного рынка (FOREX) на финансовые новости интересно и актуально, поскольку автор работы пытается связать общие настроения с рынком, основываясь на всевозможных
новостях, а не только изучать фильтрованные новости, имеющие отношение к конкретным акциям компании.
Фундаментальные данные могут поступать из структурированных и числовых источников, например, регулярные финансовые отчеты правительств, банков, макроэкономические данные. Данный аспект фундаментальных данных был незначительно изучен. Авторами работ [19, 20] было продемонстрировано его прогностическое значение. Однако, фундаментальные данные, содержащиеся в неструктурированном тексте, представляют собой более сложный аспект исследования, поэтому в данной диссертационной работе им уделено особое внимание.
Доказано, что новостные сообщения о состоянии рынка влияют на его динамику. Робертсон (Robertson) с соавторами в [21] показал, как немакроэкономические новости влияют на рынок, в какое время суток происходит наибольшее влияние.
Параллельно с ростом подписчиков профессиональных сообществ, социальных сетей, а также с увеличением пользователей в глобальной сети и временем их нахождений в ней увеличивает свою актуальность и анализ эмоциональной окраски новостных сообщений. В одном недавнем исследовании было показано влияние новостей США, новостей Великобритании и голландских новостей на три голландских банка во время финансового кризиса 2007-2009 [22]. В этом исследовании, с точки зрения финансовой журналистики и теории коммуникации, была изучена паника на рынке, и её влияние на алгоритмическую торговлю.
Существует совокупность исследований, ориентированных на анализ настроений или так называемый "анализ мнений" [23-26], в том числе в экономике и политике.
Исходные данные для анализа в статье [23] предлагается извлекать из популярных онлайн-сервисов глобальной сети Интернет, так называемого микроблогинга (например, из Twitter). Причем одной из ключевых характеристик
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Исследование и разработка методов повышения доходности операций на российском фондовом рынке2002 год, кандидат экономических наук Веселов, Глеб Владимирович
Разработка моделей загруженности топологически сложных информационно-вычислительных сетей и алгоритмов маршрутизации трафика на основе методов стохастической динамики и теории перколяции2022 год, доктор наук Лесько Сергей Александрович
Рерайтинг новостных интернет-сообщений в России: 2000-2013 гг.2014 год, кандидат наук Лащук, Ольга Ростиславовна
Критерии отбора и редактирования материалов для информационных выпусков "Первого канала"2010 год, кандидат филологических наук Искандарова, Негина Рустамовна
Структура и механизмы функционирования новостного поля: на примере информационных агентств "Интерфакс", ТАСС, МИА "Россия сегодня"2016 год, кандидат наук Курилов, Алексей Евгеньевич
Список литературы диссертационного исследования кандидат наук Новикова Ольга Александровна, 2021 год
СПИСОК ЛИТЕРАТУРЫ
1. Поздняков А.С. Применение метода Хольта-Винтерса при анализе и прогнозировании динамики временных рядов // Проблемы организации и управления на транспорте Сборник научных трудов студентов, магистрантов, аспирантов, молодых ученых и их научных руководителей (материалы межвузовской научно-практической конференции) . -2017. -С. 57-64.
2. Косовцева Т.Р., Беляев В.В. Технологии обработки экономической информации. Адаптивные методы прогнозирования. Учебное пособие. - СПб: Университет ИТМО. -2016. -31 с.
3. Кратович П. В. Предпрогнозный анализ временных рядов финансовых данных на основе методов фрактального анализа // Молодой ученый. - 2010. - №1-2. -Т. 1. -С. 11-18.
4. Бутаков В., Граковский А. Оценка уровня стохастичности временных рядов произвольного происхождения при помощи показателя // Computer Modelling and New Technologies. -2005. -Вып.9. -№ 2. -С. 27-32.
5. Кизбикенов, К. О. Прогнозирование и временные ряды [Электронный ресурс]: учебное пособие /К. О. Кизбикенов. -Барнаул: АлтГПУ. -2017.
6. Трегуб А.В., Трегуб И.В. Методика построения модели ARIMA для прогнозирования динамики временных рядов // Вестник Московского государственного университета леса - Лесной вестник. -2011. -№ 5. -С. 179183.
7. H. Achrekar, A. Gandhe, R. Lazarus, S.-H. Yu, and B. Liu. Predicting flu trends using twitter data. In IEEE Conference on Computer Communications Workshops. -April 2011. -P. 702-707.
8. B. O'Connor, R. Balasubramanyan, B.R. Routledge, and N.A. Smith. From tweets to polls: Linking text sentiment to public opinion time series. In Proceedings of the Fourth International Conference on Weblogs and Social Media. The AAAI Press. -2010.
9. A. Tumasjan, T. Sprenger, P. Sandner, and I. Welpe. Predicting elections with twitter: What 140 characters' reveal about political sentiment. In Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. - 2010. -P. 178-185.
10. N. Ramakrishnan, P. Butler, S. Muthiah, and et al. "Beating the News" with EMBERS: Forecasting Civil Unrest Using Open Source Indicators. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD, NY, USA. -2014. -P. 1799-1808.
11. Новикова О.А., Андрианова Е.Г. Роль методов интеллектуального анализа текста в автоматизации прогнозирования рынка ценных бумаг [Текст] / Cloud of Science. - 2018. - Т. 5. - № 1. - С. 196-211.
12. Avramov, D., Kaplanski, G., & Levy, H. Talking Numbers: Technical versus Fundamental Recommendations [Text]/Israel: The Hebrew University of Jerusalem. - 2015.
13. Abu EL-Taif. The impact of technical analysis on the traders' decisions in the Stock Exchange of Palestine. - 2011.
14. Devika, Poornima. Fundamental Analysis as a Method of Share Valuation in
Comparison with Technical Analysis [Text]/ Journal of Exclusive Management Science - December 2015. -2015. - Vol. 4. -Issue 12. - ISSN 2277-5684.
15. Evans, M., & Lyons, R. Exchange rate fundamentals and order flow / USA: Georgetown University. -2005.
16. Omrane, B., & Heinen, A. The Foreign Exchange Quoting Activity as an Informative Signal [Text] /Canada: Brock University. -2004.
17. Khadjeh Nassirtoussi, A., Ying Wah, T., & Ngo Chek Ling, D. A novel FOREX prediction methodology based on fundamental data. African Journal of Business Management. -Vol. 5. -2011. - P. 8322-8330.
18. Kaltwasser, P. R. Uncertainty about fundamentals and herding behavior in the FOREX market. Physica A: Statistical Mechanics and its Applications. -Vol. 389. -Issue 8, March 2010. -P. 1215-1222.
19. Chatrath, A., Miao, H., Ramchander, S., & Villupuram, S. Currency jumps, cojumps and the role of macro news. Journal of International Money and Finance. -Vol. 40, February 2014. -P. 42-62.
20. Fasanghari, M., & Montazer, G. A. Design and implementation of fuzzy expert system for Tehran Stock Exchange portfolio recommendation. Expert Systems with Applications. - 2010. -Vol. 37. - P. 6138-6147.
21. Robertson, C., Geva, S., & Wolff, R. What types of events provide the strongest evidence that the stock market is affected by company specific news? Proceedings of the fifth Australasian conference on Data mining and analystics. -2006. - Vol. 61.-P.145-153.
22. Kleinnijenhuis, J., Schultz, F., Oegema, D. & Atteveldt, W.H. van. Financial News and Market Panics in the age of high frequency trading algorithms. Journalism. -2013. -Vol. 14.
23. Kontopoulos, E., Berberidis, C., Dergiades, T., & Bassiliades, N. Ontologybased sentiment analysis of twitter posts. Expert Systems with Applications. -2013. -Vol. 40.-P. 4065-4074.
24. Balahur, A., Steinberger, R., Goot, E. v. d., Pouliquen, B., & Kabadjov, M. Opinion Mining on Newspaper Quotations. Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. -2009. -Vol. 03.- P. 523-526. -IEEE Computer Society.
25. Cambria, E., Schuller, B., Yunqing, X., & Havasi, C. New Avenues in Opinion Mining and Sentiment Analysis. Intelligent Systems, IEEE. - 2013. -Vol. 28.- P. 15-21.
26. Yu, L.-C., Wu, J.-L., Chang, P.-C., & Chu, H.-S. Using a contextual entropy model to expand emotion words and their intensity for the sentiment classification of stock market news. Knowledge-Based Systems. - 2013.
27. Huang, C.-J., Liao, J.-J., Yang, D.-X., Chang, T.-Y., & Luo, Y.-C. Realization of a news dissemination agent based on weighted association rules and text mining techniques. Expert Systems with Applications. -2010.-Vol. 37.-P. 6409-6413.
28. Anastasakis, L., & Mort, N. Exchange rate forecasting using a combined parametric and nonparametric self-organising modelling approach. Expert Systems with Applications. -2009. -Vol. 36. -P. 12001-12011.
29. Vanstone, B., & Finnie, G. Enhancing stockmarket trading performance with
ANNs. Expert Systems with Applications. -2010. -Vol. 37. -P. 6602-6610.
30. Vanstone, B., & Finnie, G. An empirical methodology for developing stockmarket trading systems using artificial neural networks. Expert Systems with Applications. -2009. -Vol. 36.-P. 6668-6680.
31. Sermpinis, G., Laws, J., Karathanasopoulos, A., & Dunis, C. L. Forecasting and trading the EUR/USD exchange rate with gene expression and psi sigma neural networks .Expert Systems with Applications. -Vol. 39. -Issue 10, August 2012. -P. 8865-8877.
32. Bahrepour, M., Akbarzadeh, T. M.-R., Yaghoobi, M., & Naghibi, S. M.-B. An adaptive ordered fuzzy time series with application to FOREX. Expert Systems with Applications. -2011. -Vol. 38.-P. 475-485.
33. Huang, S.-C., Chuang, P.-J., Wu, C.-F., & Lai, H.-J. Chaos-based support vector regressions for exchange rate forecasting. Expert Systems with Applications. -2010. -Vol.37.-P. 8590-8598.
34. Premanode, B., & Toumazou, C. Improving prediction of exchange rates using differential EMD. Expert Systems with Applications. -2013. -Vol. 40.-P. 377-384.
35. Mabu, S., Hirasawa, K., Obayashi, M., & Kuremoto, T. Enhanced decision making mechanism of rule-based genetic network programming for creating stock trading signals. Expert Systems with Applications. -2013. -Vol. 40.-P. 6311-6320.
36. Yu, H., Nartea, G. V., Gan, C., & Yao, L. J. Predictive ability and profitability of simple technical trading rules: Recent evidence from Southeast Asian stock markets. International Review of Economics & Finance.-2013.-Vol. 25.-P.356-371.
37. Lupiani-Ruiz, E., García-Manotas, I., Valencia-García, R., García-Sánchez, F., Castellanos-Nieves, D., Fernández-Breis, J. T., et al. Financial news semantic search engine. Expert Systems with Applications. -2011. -Vol. 38.-P. 15565-15572.
38. Friesen, G., & Weller, P. A. Quantifying cognitive biases in analyst earnings forecasts /Journal of Financial Markets. -2006. - Vol.9.-P. 333-365.
39. Bollen, J., Huina, M., & Zeng, Xiao-Jun. Twitter mood predicts the stock market/Journal of Computational Science. -2010. -Vol. 2.-P. 1-8.
40. Khadjeh Nassirtoussi, A., Aghabozorgi, S., Ying Wah, T., & Ngo, D. C. L. Text mining for market prediction: A systematic review. Expert Systems with Applications. -2014. -Vol. 41. -P. 7653-7670.
41. Schumaker, R. P., Zhang, Y., Huang, C.-N., & Chen, H. Evaluating sentiment in financial news articles. Decision Support Systems. -2012. -Vol. 53.- P. 458-464.
42. Peramunetilleke, D., & Wong, R. K. Currency exchange rate forecasting from news headlines. Australian Computer Science Communications. - 2002.- Vol. 24. -P. 131-139.
43. Hagenau, M., Liebmann, M., & Neumann, D. Automated news reading: Stock price prediction based on financial news using context-capturing features. Decision Support Systems. -2013. -Vol. 55, Issu 3.-P. 685-697.
44. Te-Min Chang, Ming-Fu Hsu, Guo-Hsin Hu, Keng-Pei Lin. Salient Corporate Performance Forecasting based on Financial and Textual Information. Computer Science. IEEE International Conference on Systems, Man, and Cybernetics (SMC). -2016.
45.G.B. Huang, Q.Y. Zhu, C.K. Siew, "Extreme learning machine: a new learning
scheme of feedforward neural networks, in: Proceedings of the International Joint Conference on Neural Networks (IJCNN2004), Budapest, Hungary, 25-29 July 2004.
46.G. B. Huang, Q. Y. Zhu, C. K. Siew, "Extreme learning machine: Theory and applications," Neurocomputing. -2006. -Vol.70.-P. 489-501.
47. Ghiassi, M., Skinner, J., & Zimbra, D. Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural network. Expert Systems with Applications. -2013. - Vol. 40. -P. 6266-6282.
48. Mostafa, M. M. More than words: Social networks' text mining for consumer brand sentiments. Expert Systems with Applications. -2013.-Vol. 40. - P. 42414251.
49. К. Яковлева. Оценка экономической активности на основе текстового анализа. Серия докладов об экономических исследованиях [Текст] / Центральный банк Российской Федерации. - №25. -Октябрь 2017.
50. D. Gruhl, R. Guha, R. Kumar, J. Novak, A. Tomkins. The predictive power of online chatter, in: KDD '05: Proceeding of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, ACM Press, New York, NY. -2005. -P. 78-87.
51. G. Mishne, M.D. Rijke. Capturing global mood levels using blog posts, in: N. Nicolov, F. Salvetti, M. Liberman, J.H. Martin (Eds.), AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs, The AAAI Press, Menlo Park, CA/Stanford University, CA, August. -2006. -P.145-152.
52. Y. Liu, X. Huang, A. An, X. Yu, ARSA: a sentiment-aware model for predicting sales performance using blogs, in: SIGIR '07: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Infor-mation Retrieval, ACM, New York, NY. -2007. -P. 607-614.
53. H. Choi, H. Varian, Predicting the Present with Google Trends, Tech. rep., Google. -2009.
54. L.Zhao, Q. Sun, J. Ye, F. Chen and and et al. Multi-task learning for spatiotemporal event forecasting. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD, NY, USA. -2015. -P. 1503-1512.
55. L.Zhao, F. Chen, C. Lu, and N.Ramakrishnan. Spatiotemporal event forecasting in social media. In Proceedings of the SIAM International Conference on Data Mining, Vancouver, BC, Canada. -2015. -P. 963-971.
56. S. Laxman, V. Tankasali, and R.W. White. Stream prediction using a generative model based on frequent episodes in event sequences. In Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD, NY, USA. -2008P. 453-461.
57. Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren. Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning. Social and Information Networks. -2016. -P. 1095-1104
58. Yingyuan Xiao, Pengqiang Ai, Ching-hsien Hsu, Hongya Wang, Xu Jiao. Time-ordered Collaborative Filtering for News Recommendation / China Communication. - Vol. 12. - № 12. - P. 53-62.
59. Daqiang Zhang, Ching-Hsien Hsu, Min Chen, Quan Chen, Naixue Xiong, Jaime Lloret. Cold-Start Recommendation Using Bi-Clustering and Fusion for Large-Scale Social Recommender Systems. / IEEE Transactions on Emerging Topics in Computing. -2014. - Vol. 2. -№ 2.-P. 239-250.
60. Bagnoli, F., Rechtman, R. Topological bifurcations in a model society of reasonable contrarians. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics. -2013.-88(6).-062914.
61. Bagnoli, F., Rechtman, R. Topological bifurcations in a model society of reasonable contrarians. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics. -2013.-88(6).-062914.
62. Jun Pang, Yang Zhang. Event Prediction with Community Leaders / 10th International Conference on Availability, Reliability and Security. IEEE. -2015. -P. 238-243.
63. Резников В.В., Замотайлова Д. А. Использование Big Data для планирования и прогнозирования событий в сфере общественного транспорта / Экономическое прогнозирование: модели и методы. Воронежский Центральный научно-технический институт. -2016. - С. 172-174.
64. Matthew S. Gerber. Predicting crime using Twitter and kernel density estimation/ Decision Support Systems. Elsevier. -2014. -Vol. 61. -P.115-125.
65. P. G. Preethi, V. Uma, Ajit kumar. Temporal Sentiment Analysis and Causal Rules Extraction from Tweets for Event Prediction / Procedia Computer Science. Elsevier. 2015. Vol. 48, P. 84-89.
66. Charu C. Aggarwal, ChengXiang Zhai. Mining Text Data, Springer. - 2012. -524 p.
67. Suraj Singh Chouhan, Ravi Khatri. Data Mining based Technique for Natural Event Prediction and Disaster Management / International Journal of Computer Applications. Foundation of Computer Science. -2016. -Vol. 139. -P. 34-39.
68. Kira Radinsky, Eric Horvitz. Mining the Web to Predict Future Events. / Proceedings of the 6th ACM International Conference on Web Search and Data Mining. ACM. -P. 255-264.
69. Desmet, B., & Hoste, V. Emotion detection in suicide notes. Expert Systems with Applications. -2013. -40. -P. 6351-6358.
70. Yoon H-J, Ramanathan A, Tourassi G. Multi-task deep neural networks for automated extraction of primary site and laterality information from cancer pathology reports. Advances in big data. -2016. -P. 195-204.
71. Beaulieu-Jones BK, Greene CS, Pooled Resource Open-Access ALS Clinical Trials Consortium. Semi-supervised learning of the electronic health record for phenotype stratification. J Biomed Inform. -2016. -64. -P. 168-178.
72. Miotto R, Li L, Kidd BA, et al. Deep patient: An unsupervised representation to predict the future of patients from the electronic health records. Sci Rep. -2016.
73. Choi E, Bahadori MT, Schuetz A, et al. Doctor ai: Predicting clinical events via recurrent neural networks. JMLR Workshop Conf Proc. - 2016. -56. -P.301-318.
74. Pham T, Tran T, Phung D, et al. DeepCare: A deep dynamic memory model for predictive medicine. Advances in knowledge discovery and data mining. - 2016. -P.30-41.
75. Nguyen P, Tran T, Wickramasinghe N, et al. $mathtt {Deepr}$: A convolutional net for medical records. IEEE Journal of Biomedical and Health Informatics. -2017. -21. -P. 22-30.
76. Zhukov D.O., Lesko S.A. Trends, self-similarity and forecasting of news events in the information domain, its structure and director. / 2015 IEEE International Conference on Smart City/SocialCom/SustainCom together with DataCom 2015 and SC2 2015, December 19-21, Chengdu, Sichuan, China. - 2015. -P. 870-873.
77. Asela Gunawardana, Christopher Meek, Puyang Xu. A Model for Temporal Dependencies in Event Streams. / Microsoft Research. - 2011. -P. 1-8.
78. Шемелина Ю.В. Лингвокогнитивные аспекты английских новостных текстов (на материале британской качественной прессы): дис. ... канд. филол. наук: 10.02.04. Белгород, 2008. 193 с.
79. Леонтьев А. А. Психолингвистические особенности языка СМИ // Язык средств массовой информации. — М.: Академический проект: Альма Матер, 2008. С. 146—152
80. Воронцова Т. А., Ковальчукова М. А. Образ события в новостном интернет-дискурсе // Вестн. Удмурт. ун-та. Сер.: История. Филология. 2015. Т. 25. № 4-3. С. 102—108.
81. Чернышова Т. В. Медиатекст: введение в заблуждение как прием создания выразительности и как уловка // Вторая Междунар. конф. «Стилистика сегодня и завтра: медиатекст в прагматическом, риторическом и лингвокультурологическом аспектах». Пленарные доклады. — М.: МедиаМир, 2012. С. 194—201.
82. Сметанина С.И. Медиатекст в системе культуры. - СПб., Издательство Михайлова, 2002. - С. 11
83. Добросклонская Т.Г. Вопросы изучения медиатекстов.
84. Крупнов В.В. Язык современной прессы. Англо-русский словарь-справочник. - М., Высшая школа, 1993. - С. 112.
85. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008, 544 pp.
86. Pang-Ning Tan, Steinbach M., Kumar Vipin. Introduction to Data Mining, Pearson Addison-Wesley, 2006, 169 pp.
87. Andrews N.O., Fox E.A. Recent Developments in Document Clustering, 2007, 25 pp.
88. Feldman R., Sanger J. The Text Mining Handbook. Cambridge: Cambridge University Press, 2009, 410 pp.
89. О.А. Новикова. Методы регулирования процесса кластеризации неструктурированных групп текстов на основе семантико-энтропийного
подхода. Магистерская диссертация. -2013.
90. Первый канал Общественного Российского Телевидения [Электронный ресурс]. - URL: https://www.1tv.ru/news/ (дата обращения: май 2017)
91. Журнал «Intelligent magazine» [Электронный ресурс]. - URL: https://www.iemag.ru/news/ (дата обращения: май 2017)
92. РОСБИЗНЕСКОНСАЛТИНГ [Электронный ресурс]. - URL: www.rbc.ru (дата обращения: май 2017)
93. «Коммерсантъ» [Электронный ресурс]. - URL: https://kommersant.ru/archive/news/ (дата обращения: май 2017)
94. «Ведомости» [Электронный ресурс]. - URL: https://www.vedomosti.ru/archive/ (дата обращения: май 2017)
95. РМГ 83-2007
96. Субетто А.И. Квалиметрия. — С-Пб.: Астерион, 2002. — 288 с., Перегудов Ф.И., Тарасенко Ф.П. Введение в системный анализ. — М., «Высшая школа», 1989. — 367 с.
97. Перегудов Ф.И., Тарасенко Ф.П. Введение в системный анализ. — М., «Высшая школа», 1989. — 367 с.
98. Субетто А.И. Качество непрерывного образования в Российской
Федерации: состояние, тенденции, проблемы и перспективы. — СПб. - М.:
Исследовательский центр проблем качества подготовки специалистов, 2000— 498
с.
99. П. А. Пархоменко, А. А. Григорьев, Н. А. Астраханцев. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды ИСП РАН.
100. Huang Anna. Similarity measures for text document clustering // Proceedings of the sixth New Zealand computer science research student conference (NZCSRSC2008), Christchurch, New Zealand, 2008, page 49.
101. М.В. Хачумов. Задача кластеризации текстовых документов// Информационные технологии и вычислительные системы// Информационные технологии и вычислительные системы. -№2. -2010. -С. 42-46.
102. Bafna, P., Pramod, D., Vaidya, A. Document clustering: TF-IDF approach // International Conference on Electrical, Electronics, and Optimization Techniques, ICEEOT 2016, 2016, pages 61-66.
103. Rahmawati, D., Putri Saptawati, G.A., Widyani, Y. Document clustering using sequential pattern (SP): Maximal frequent sequences (MFS) as SP representation// Proceedings of 2015 International Conference on Data and Software Engineering, ICODSE 2015, 2016, pages 98-102.
104. Kadhim, A.I., Cheah, Y.-N., Ahamed, N.H. Text Document Preprocessing and Dimension Reduction Techniques for Text Document Clustering // Proceedings -2014 4th International Conference on Artificial Intelligence with Applications in Engineering and Technology, ICAIET, 2015, pages 69-73.
105. Saravanapriya, D., Karthikeyan, M. Clustering sentences to discover events from multiple news articles using Buckshot and Fractionation // 2014 IEEE International Conference on Computational Intelligence and Computing Research, IEEE ICCIC 2014, 2015.
106. Mohammed, A.J., Yusof, Y., Husni, H. Determining number of clusters using firefly algorithm with cluster merging for text clustering // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 9429, 2015, pages 14-24.
107. Chen, C.-H. Improved TFIDF in big news retrieval: An empirical study/ Pattern Recognition Letters, 2017, №93, pages 113-122.
108. Bouras, C., Tsogkas, V. Enhancing news articles clustering using word N-grams // DATA 2013 - Proceedings of the 2nd International Conference on Data Technologies and Applications 2013, pages 53-60.
109. Bouras, C., Tsogkas, V. A clustering technique for news articles using WordNet // Knowledge-Based Systems, 2012, 36, pages 115-128.
110. Elahi, A., Alitappeh, R.J., Rostami, A.S. Improvement tfidf for news document using efficient similarity // Research Journal of Applied Sciences, Engineering and Technology, 2012, 4(19), pages 3592-3600.
111. Singh, V.K., Siddiqui, T.J., Singh, M.K. Evaluating hard and soft flat-clustering algorithms for text documents // Advances in Intelligent Systems and Computing 179 AISC, 2012, pages 63-76.
112. О.А. Безверхий, С.Г. Самохвалова. Кластеризация большого объёма текстовых поисковых запросов // «Ученые заметки ТОГУ». - 2016, Том 7, № 3.
113. Н. Солошенко, Ю. А. Орлова, В. Л. Розалиев. Автоматическое выделение сюжетов и тем из потока новостных сообщений // Известия Волгоградского государственного технического университета. -2015, С. 84-90.
114. By Вьет Тханг. Ускорение алгоритма кластеризации DBSCAN за счет использовании алгоритма K-means // Информационные технологии. - 2016, №2. Том 22, С. 109—115.
115. Нейский И.М. Методика адаптивной кластеризации фактографических данных на базе Fuzzy C-means и MST // Автореферат диссертации на соискание ученой степени кандидата технических наук, Москва, 2010.
116. Нейский И.М., Филиппович А.Ю. Методика адаптивной кластеризации фактографических данных на основе интеграции алгоритмов MST и Fuzzy C-means. [Электронный ресурс]. URL: http://it-claim.ru/Library/Articles/publications_Phiiippovich_Andrew/Clusterization.pdf (дата обращения: 01.08.2019).
117. Sadaaki Miyamoto, Hidetomo Ichihashi, Katsuhiro Honda. Algorithms for Fuzzy Clustering: Methods in c-Means Clustering with Applications (Studies in Fuzziness and Soft Computing). - Springer, 2008. - 247 c.
118. Шеннон К. Работы по теории информации и кибернетике. - М.: Изд. иностр. лит., 2002.
119. Отраднов К.К., Жуков Д.О., Новикова О.А. Модель кластеризации слабоструктурированных текстовых данных // Современные информационные технологии и ИТ-образование. 2017. - Т. 13. - № 3. - С. 100-115.
120. Добров Б.В., Лукашевич Н.В. Автоматическая обработка больших массивов англоязычных текстов // Труды межд. семинара «Когнитивное моделирование», Пущино. - 1999. - fccl.ksu.ru/winter.99/cog_model/ englproc.pdf.
121. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов // НТИ. Сер. 2. - 1997. - № 3 - www.cir. ru/docs/ips/publications/1997_nti_thes.pdf.
122. Mandelbrot B. B. The Fractal Geometry of Nature. // W. H. Freeman, SunFrancisco, 1982.
123. Федер Е. Фракталы. -М.: Мир, 1991. - 254 с.
124. Иванов С.А. Стохастические фракталы в Информатике / Научно-техническая информация. -Сер. 2. - 2002. - № 8. - С. 7-18.
125. Ландэ Д.В. Фрактальные свойства тематических информационных потоков из Интернет // Регистрация, сбор и обработка данных. - К. - 2006. - Т 8. - № 2. - С. 93 - 99.
126. 5. Orlov Yu.N., Shagov D.O. Indicative statistics for non-stationary time series. Keldysh Institute preprints. 2011. № 53. pp. 1 - 20 (in Russian).
127. 6. Гнеденко Б.В. Курс теории вероятностей. - М.: Физматлит, 1961. - 406 с.
128. 7. Fuentes, M. Non-Linear Diffusion and Power Law Properties of Heterogeneous Systems: Application to Financial Time Series. Entropy, 2018, 20(9), 649, pp. 1 - 8.
129. 8. Ю.Н. Орлов, С.Л. Федоров. Генерация нестационарных траекторий временного ряда на основе уравнения Фоккера - Планка. ТРУДЫ МФТИ. 2016. Том 8, № 2, с. 126 - 133.
130. Новикова О.А. Алгоритм анализа модели стохастической динамики формирования новостных событий // Компьютерные науки и информационные технологии: Материалы Междунар. науч. конф. - Саратов: Издат. центр «Наука». - 2018. -С. 290-296.
131. О.А. Новикова, Д.Е. Кошкин. Энтропийная оценка качества автоматического разбиения категорийных данных алгоритмом Fuzzy C-means // Информатизация образования и науки. - 2013. - № 1(17). - С. 113-121.
132. Виноградов И.М. Математическая энциклопедия. - М.: Наука, 1977, - т.5,
с. 287
ПРИЛОЖЕНИЯ
Приложение 1: Алгоритм уточнения кластеризации текстовых данных на основе энтропийных оценок
• Матрица, полученная в результате кластеризации Еи22у-С-МеапБ (БСМ), содержит вероятности попадания текстов в кластеры. Задается параметр, названный в работе «критерием принадлежности» (КП). Для начала будем считать КП равным 75% (для того, чтобы более точно определить этот параметр нужно провести ряд экспериментов, меняя его в большую или меньшую сторону). Далее выкидываем из всех кластеров те документы, вероятность нахождения которых в кластере меньше критерия принадлежности. Соответственно получаем кластеры, с высокой вероятностью принадлежности документов и отдельные документы вне кластеров. С геометрической точки зрения происходит сужение радиуса гиперсфер с сохранением центра гиперкластера [89].
• Все удаленные из кластеров документы заносятся в список Т={1л,12,...,18} (1.1). После чего для каждого документа из этого списка, ищется другой кластер на основе энтропийных оценок.
• В диссертации используется классическое определение геометрической вероятности. Вероятность попадания текста в кластер зависит от объёма гиперсферы (кластеры после БСМ представляют собой гиперсферы) и места нахождения центроида.
Объём гиперсферы радиуса Я с центром в точке а={а1,а2,...а«} вычисляется по формуле [132]:
Уп=СпЯп, (1.2)
гп/2
Г — 7
где Сп —
А Г(х) - гамма функция. Этому выражению можно придать другой вид:
С2к =^7
2х+17х (13)
С2^+1 (2к+1)!
Так как
}п+1/!г = 2яЯ
Таким образом объёмы шаров удовлетворяют рекуррентному соотношению:
1п=^1п-2 (1.4)
Соответственно, зная только 2 значения объёма для п=2 и п=3, мы сможем найти объем любой гиперсферы.
• Типичной мерой для оценки качества кластеризации является энтропия: чем она меньше, тем лучше результат алгоритма кластеризации.
Для кластера у значение энтропии вычисляется по следующей формуле
[118]:
к ■
£/ = -Е.^РСУ^РС; , (15)
где р.; - вероятность того, что /-ый элемент принадлежиту-ому кластеру, -число документов в у-ом кластере.
Вероятность попадания /-ого документа в у-ый кластер будем вычислять по формуле:
(1.«)
где - объем гиперсферы с центром в той же точке, что и кластер у и радиусом, равным расстоянию от центра у-ого кластера до /-го документа, принадлежащего этому кластеру, а V) - объем гиперсферы, которую представляет собой у-ый кластер. Для расчёта объёмов будем использовать рекуррентные соотношения (1.4).
• Алгоритм:
✓ Шаг 1. Вычисляется внутренняя энтропия каждого кластера по формуле (5). Обозначим внутреннюю энтропию 7-ого кластера как
✓ Шаг 2. Далее берем документ tq из списка Т, (^ — 1 , 5) (1.1) и по той же формуле вычисляется дополнительная энтропия (энтропия нового кластера при условии, что этот новый документ будет входить в кластер). Обозначим дополнительную энтропию как . Вероятности для всех документов из
кластера пересчитываются по формуле (6), где V7 - расстояние от центра кластера до нового документа tq.
✓ Шаг 3. Находим все разности: ДЕ, = Е^0" — Ej3",/ = 1 , с. Выбираем
среди разностей наименьшую: = min ДЕ.-Д = 1 , с.
7 = 1, с 1
✓ Шаг 4.
1. Если то документ присоединяется к кластеру.
2. Если ^¿>0, то мы делаем проверку, насколько сильно присоединение нового документа к кластеру изменяет внутреннюю энтропию этого кластера. Для этого задаём параметр точности Z и
> если ^k<C, то документ присоединяется к кластеру,
> иначе документ становится новым кластером и число кластеров увеличивается на 1 (c=c+1) и q=q+1.
✓ Шаг 5. Если список Т не пуст (g<s+1), то переходим к Шагу 1, иначе - к Шагу 6.
✓ Шаг 6. Конец.
Эффективность разработаной математической модели кластеризации категорийных данных, подтверждена проведенными экспериментами в работе [89]. Однако для работы с огромными массивами текстовых данных такое уточнение сильно увеличивает время их обработки.
Приложение 2: Решение краевой задачи на дифференциального уравнения второго порядка
основе
Для глубины памяти т=2, получим уравнение:
Для решения поставленной задачи необходимо представить уравнение (2.1) в каноническом виде. Запишем )(*, +) в следующем виде:
(0-0О)-у£
)>(*,+) = е • +) при * > *0 (2.2а)
)2(*, +) = е • +) при * < *0 (2.2 Ь)
Подставим (2.2а) в уравнение (2.1). Получим:
т „ «У1(*, с) + т +т )„2<У1(*'С) 2„ + Г_
©
= (£2 - £( + (2) +) + +
©2 ©
9* 9*2
(2.3а)
Если приравнивать коэффициенты в правой и левой частях уравнения (2.3а) можно либо избавиться от членов содержащих $>(*, +) и —, либо от
-и-, что является наиболее оптимальным, т.к. в таком случае
останутся члены, которые содержат только вторые производные и $>(*, +), а во втором случае останутся одна из первых производных и обе вторые производные.
У
т — 2т2 = 0 ©
2(£2-£( + (2) ©
Получим: © =---, у =--—
Подставим г и у в уравнение (2.3а). Получим:
1 1 (£-<02 - +) + +) + т2-9+2-= 4(£2-£(т + ^2)#1(*' +
_ _ (е —г)2 1
+(е2 - + г2)----т^-гГГ2:^1(*'+) — 7<91(*>0
+ т
™*2 2(е2 — + г2) 4'
2Э2^1(*, р
а+2
(е —г)2 0 0 а2о1(*,+)
4(е2 — е^ + г2) ' ™*2 '
или:
(*,+)= ег ( ) + е2 —ег + г2™2^1(*,+)
а+2 4т2(е2 —ег + г2) + т2 а*2
£2-£<+<2 £< Обозначим: а1 —-(—, а2 —
4=2(£2-£<+<2) '
Получим:
Э&2 = 91 Э$2 + О (2.4а)
Подставим выражение (2.2Ь) в уравнение (2.1) получим (2.3Ь):
т «У2(*' ^ т т ~ тт 1 2 ^2+) 2 Д. +
©
— (е2 — ег + г2) (©2^2 — 2 ^ —(е — «{—
(2.3Ь)
Приравнивая коэффициенты в правой и левой частях уравнения (2.3Ь) либо можно избавиться от членов содержащих #2(%, +) и —, либо (что
более оптимально) от членов-и-. Лучше избавиться от членов,
содержащих обе первые производные, т.к. в этом случае остаются члены, содержащие только вторые производные и (*, +) , а во втором случае остаются и вторые производные и одна из первых производных.
Г т —2т2©—0
)2(е2 —ег + г2) --— г) — 0
„ 2(£2-£<+<2) (£2-£< + <2)
Получим: © =----, у =---—
£ < =(£-<)
Подставим г и у в уравнение (2.3Ь). Получим:
1 1 9а2^2(*,+)
2^2 (*, +) +4^2 (*, +) + Т2-— =
(£-()2 о о 92^2(*,+)
' ^ -^2(*,+) + (£2-£( + (2) ^
4(£2 -£( + (2Г^ ™*2
(£-()2 1 9а2^2(*,+)
-^2(*,+) -7#2(*> +) +Т2-
(£-()2 Л . , 2 , .
^2(*,+) + (£2-£( + (2)
4(£2 -£( + (2Г^ 9*2
9 + 2 4Т2(£2-£( + (2)^2(*'+)+ Т2 9*2
£2-£<+<2 £< Обозначив: % = --- , 92 = 4=2(£2-£< + <2) , получим:
3&2 = 91 3$2 + 92^2(*. О (24Ь)
Рассмотрим решение уравнений (2.4а) и (2.4Ь), но сначала определим начальное условие для (*, +) в случае * > *0:
(Х-Хр)-У&
)>(*,+) = е ^
($-$О)
)1(*|+ = 0) = е 2 = 0) = П(*-*0)
- (0-0О)
= 0) = ^>(*,0) = е • П(* - *о) (2.5а)
П(*-* ) = (/п(*-*о)^* = 1,* = *о
( 0) I 0,*^*0'
Определим граничное условия для функции (*, +) в случае * > *0
)1(*,01х=@ = 0 ¿-%О-у£
е 2 01(*,+) = 0
ь-0о-у£
т.к. при любом конечном е • ^ 0, то получим, что
^1(*,+)1$=@ = 0 (а)
Определим начальное условие для функции (*, +) в случае * < *о:
($0-$)-у&
)2(*,+) — в г ^2 (*, +)
($о-$)
)2(*1+ — 0) — в г ^2(*, 1+ — 0) — П(* — *о)
- (0р~0)
^2(*, — 0) — ^2 (*, 0) — в • П(* — *о) (2.5Ь)
П(* —* ) — П/п(* — *о)^* — 1,* — *о 0 Ш, * Ф *0'
Определим граничное условие для (*, +) в случае, когда * < *0
)2(*,+)1$=о — 0 в г ^2(*,+) — 0
т.к. при любом конечном £ в • ф 0, то получим, что
^2(*,+)1$=о — 0 (Ь)
Сделаем в уравнениях (2.4а и 2.4Ь) преобразование Лапласа по 1 и перейдем от оригиналов к изображениям (2.6).
р2^(*,р)— р^(*,0) — 1&=о —+ (2.6а)
р2£2(*,р) — р^(*,0) — ^^ |&=о —91!^)+а2б?^(*,р) (2.6Ь)
9$2
где С^*, р) и р) - изображение функции точечного источника В общем виде для (2.6а) и (2.6Ь) запишем:
а2С(*, р) 2 _ дС(*,+)
а1—а*2—+ (а2 — р2)^(*,р) — —р£(*,0)--——
или
™2С(*,р) р2 —а. р
■ь(*, р) —--ь(*, 0) —
&=о
&=о
а*2 а1 а1 а1а+
Решение уравнений (2.6а и 2.6Ь) будем искать в виде системы уравнений (2.7):
С7(*,р) — С1вк(х-$о) + С2в-к(х-$о),при* > *о
_ (2.7)
С2(*,р) — С3вк($о-$) + С4в-к($о-$),при * < *о
где а— а С1, С2, Сз, С4 - постоянные коэффициенты.
Наличие 5-функции в уравнениях (2.6а) и (2.6Ь) приводит к тому, что решение испытывает разрыв производной в точке * = *0 , оставаясь непрерывным. В связи с этим решение разбивается на два, а в точке * = *0 необходимо использовать условие сшивки решений, при х=хо, С^*, р) = СС2(*, р) . Интегрируя уравнения (2.6) по х вдоль отрезка от хо-0 до хо (в окрестности точки * = *0 =Ь) получаем:
9*
асс2(*,р)
$О+0
а*
$О+0
р
$О-0
- I С(*,р)й* =---
а1 ] а1
$о-0
$О + 0
1 I г9С(*, +)
а1 ^ I
&=0«
й*
$о-0
9*
- Й) I с(*,р)й*
Ч$о-0
$О+0
$О+0
$О+0
9*
р
$о-0
&=0
-92 I
91 ^
$о-0
р
С(*, р)й* =---
91
Так как функция О (*, р) является непрерывной, то /$°-0 С(*, р)й* = 0, а~!& {^$О-0° С(*, р)й*| 1&=0 = 0 (равенство нулю данного интеграла позволяет
не задавать начальное условие для производной
&=0 в явном виде)
следовательно:
йСх(*, р)
й*
йСС2(*,Р)
$О + 0
й*
$О-0
р_
91
Используя систему уравнений (2.7) получим:
р
С1 С2 + Сз С4 _
а 91
Из граничных условий (а) и (Ь) получим: С1еа(@-$о) + С2е-а(@-$о) = 0
Сзеа$о + С4е-а$о = 0
Сшивка решений в точке * — *о дает: С1 + С2 — С3 + С4 Таким образом:
г — р
С1 — С2 + С3 — С4 — —
а а1
С1ва(@-$о) + С2в-а(@-$о) — 0 С3ва$о + С4в-а$о — 0 ^С1 + С2 — С3 + С4 С2 — —С1в2а(@-$о) С4 — —С3в2а$о
С1 + С1в2а(@-$о) + с3 + С3в2а$о — — С1 — С1в2а(@-$о) — с3 — С3в2а$
р
а а.
о
р
С1ва(@-$о)(в-а(@-$о) + ва(@-$о)) + С3в*$о(в-*$о + в*$о) — —. 1 3 а а1
С1ва(@-$о)(в-а(@-$о) — ва(@-$о)) — С3в*$о(в-*$о — в*$о)
С1ва(@-$о)с^(а (I — *о)) + С3ва$о с^(а *о) — р
2 а а1
С1ва(@-$о)5^(а (I — *о)) — С3ва$о *о)
п , ва(1-$о)5^(а (I — *о)) С1ва(@-$о)сй(а (I — *о)) + С1-^ *о)-— сЛ(а *о) —
р
2 а а1
С ва(@-$о) с^(а (I — *о))^(а *о) + ^(а (I — *о))с^(а *о) — р 1 *о) 2 а а1
С —__р в-д(@-$о)5^(а*о)
1 2 а а1 I)
С-^^в«(@-$о)^(<Х *о)
2 2 а а1 I)
р
Сз = е-а$о
2 а 91 р
С4 = еа$о
(I - *0)) I)
(I - *0))
2 а 91 I)
Подставив С1, С2, С3 и С4 в систему уравнений (2.7), получим:
р ^(а *0)^(а (I - *)) Сд*, р) =--———-, при * > *0
а 91
I)
р (I - *0))^(а *) бС2!(*,р) = ----, при * < *0
а 91
I)
Найдем оригиналы С^*, р) и р) , учитывая, что а= —82
"V а1
запишем: рр
а9
1
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.