Методы прогнозирования временных рядов и инструментальные средства автоматизации операций на финансовом рынке тема диссертации и автореферата по ВАК РФ 08.00.13, кандидат экономических наук Боровиков, Илья Михайлович
- Специальность ВАК РФ08.00.13
- Количество страниц 164
Оглавление диссертации кандидат экономических наук Боровиков, Илья Михайлович
Введение.
1. Критический анализ современного аппарата моделирования динамики финансового рынка.
1.1. Специфика временных рядов финансового рынка: свойства, модели
1.2. Подходы и методы оценки показателя фрактальности и обобщённых фрактальных размерностей временного ряда.
1.3. Современные методы прогнозирования временных рядов, с учётом специфики финансового рынка.
1.4. Теоретические аспекты прогнозирования нестационарных рядов с использованием аппарата искусственных нейронных сетей.
2. Предложения по анализу и прогнозированию временных рядов на финансовом рынке.
2.1. Методика анализа паттернов знаков временных рядов.
2.2. Метод оценки показателя фрактальности на основе вероятности поворотной точки временного ряда.
2.3. Агрегирование ряда цен в соответствии с гипотезой варьирующейся скорости хода времени на финансовом рынке.
2.4. Выбор значимых предикторов для прогнозирования временных рядов доходностей.
3. Предложения по получению прогнозов временных рядов на финансовом рынке и их использованию в арбитражных операциях.
3.1. Оптимальное управление ставкой на шаге серии знаков фрактального гауссового шума.
3.2. Прогнозирование временных рядов на финансовом рынке с использованием искусственных нейронных сетей.
3.3. Прогнозирование знаков доходности на основе образа математического ожидания прибыли индикативного показателя.
3.4. Автоматизация арбитражных операций на финансовом рынке РФ, на примере фьючерсов ФОРТС.
Рекомендованный список диссертаций по специальности «Математические и инструментальные методы экономики», 08.00.13 шифр ВАК
Модели и алгоритмы поддержки принятия решений по управлению краткосрочным инвестиционным портфелем2012 год, кандидат технических наук Журавлёва, Юлия Николаевна
Математические методы статистики и нелинейной динамики для оценки валютных рисков на базе предпрогнозного анализа2005 год, кандидат экономических наук Болатова, Лилия Руслановна
Моделирование прогноза значений котировок ценных бумаг с использованием нейроных сетей2011 год, кандидат экономических наук Сергиенко, Анатолий Геннадьевич
Методические основы применения фрактального анализа для формирования инвестиционных портфелей на международных финансовых рынках2023 год, кандидат наук Гарафутдинов Роберт Викторович
Математические методы анализа фрактальных свойств динамики цен фондовых рынков2010 год, кандидат экономических наук Марков, Андрей Аркадьевич
Введение диссертации (часть автореферата) на тему «Методы прогнозирования временных рядов и инструментальные средства автоматизации операций на финансовом рынке»
Диссертационная работа посвящена исследованию, разработке и совершенствованию методов прогнозирования временных рядов на финансовом рынке, а также созданию автоматизированных систем проводящих арбитражные операции на основе этих прогнозов.
Актуальность проводимого исследования
В странах с развитой рыночной экономикой, высока доля сектора финансовых услуг в ВВП и финансовый рынок является важнейшим институтом, который влияет на все субъекты экономики. Российская экономика движется по пути создания и совершенствования рыночных институтов. Само понятие инвестиций и в частности финансового инвестирования подразумевает прогнозирование в том или ином виде. По этой причине разработка и совершенствование методов, стратегий и алгоритмов прогнозирования показателей финансового рынка является актуальной задачей. Особую ценность для участников финансового рынка представляют прогнозы динамики цен финансовых активов. Таким образом, разработка методов прогнозирования временных рядов на финансовом рынке является актуальной задачей.
Сама возможность успешных прогнозов динамики цен финансовых активов на протяжении 20 и начала 21 века является спорным вопросом, который сформулирован в виде т.н. гипотезы эффективного рынка. До настоящего времени ряд вопросов связанных с гипотезой эффективного рынка остаётся без ответа.
Большинство из множества существующих методов прогнозирования применимо для стационарных и/или временных рядов с линейными зависимостями между значениями ряда. С другой стороны, временные ряды на финансовом рынке, в общем случае, имеют свойство нелинейности и нестационарности. Совершенствование методов прогнозирования нелинейных и нестационарных процессов, для прогнозирования временных рядов на финансовом рынке, является актуальной задачей.
Область исследования. Диссертационная работа выполнена в рамках п. 1.6. «Математический анализ и моделирование процессов в финансовом секторе экономики .», п. 1.9. «Разработка и развитие математических методов и моделей анализа и прогнозирования развития социально-экономических процессов общественной жизни.» паспорта специальности 08.00.13 - «Математические и инструментальные методы экономики».
В научном и методическом отношениях неоценим вклад Давниса В.В. и Яновского Л.П.
Степень разработанности проблемы
Моделирование динамики ценообразования рискового актива опирается на аппарат теории вероятностей, математической статистики и теории случайных процессов, основы которых заложили: Бернштейн С.Н., Гирсанова И.В., Гнеденко Б.В., Колмогоров А.Н., Ляпунов A.M., Марков A.A., Прохоров Ю.В., Розанов Ю.А., Хинчин А.Я., Чебышев П.Л., и др. В области стохастической финансовой математики центральное место занимают фундаментальные труды А.Н. Ширяева и др.
Попытки аппроксимации динамики цен на фондовых рынках случайными процессами начались с работ Л. Башелье. В дальнейшем его результаты были дополнены и развиты в прикладных работах Г. Марковича, Р. Мертона, П. Самуэльсона, У. Шарпа, а также теоретических трудах М. Осборна, Э. Фама и др.
Фрактальный анализ финансовых временных рядов опирается на работы исследователей: Дубовиков М.М., Ким С., Клочихина Л.В., Ло А., Мандельброт Б., Петере Э., Старченко Н.В., Такку М., Теверовский В., Теплова С.Е., Уиллинджер У., Филатов Д.А., Чен С., Чоу В.
Аппарат эконофизики и нелинейной динамики заложен в работах: Арнольда В.И., Берже П., Видаля К., Лоскутова А.Ю., Мантеня Р., Михайлова A.C., Помо И., Романовского М.Ю., Шустера Г., Стенли X.
Цель и задачи исследования
Цель исследования - решение научной проблемы создания и совершенствования методов прогнозирования временных рядов на финансовом рынке и автоматизации арбитражных операций, с использованием этих прогнозов. >
В диссертационной работе решаются следующие задачи: изучение современных подходов к анализу и прогнозированию временных рядов на финансовом рынке; разработка и совершенствование методов анализа и прогнозирования рядов доходности; исследование эффективности методов анализа и прогнозирования временных рядов на финансовом рынке; альтернативное агрегирование ряда цен в соответствии с гипотезой варьирующейся скорости хода времени на финансовом рынке; оценка качества прогнозирования временных рядов финансового рынка и тестирование эффективности арбитражных операций на основе этих прогнозов; автоматизация арбитражных операций, совершаемых на основе индикаторов, использующих методы прогнозирования временных рядов.
Объект и предмет исследования
Объект исследования - финансовый рынок России. Предмет исследования - свойства финансовых временных рядов и методы их прогнозирования, а также возможности автоматизации арбитражных операций.
Методологические и теоретические основы исследования
Теоретическая и методологическая основа исследования -теоретические и методологические положения, содержащиеся в трудах российских и зарубежных авторов в таких областях науки, как теория вероятностей и математическая статистика, теория случайных процессов, стохастическая финансовая математика, фрактальная геометрия, нелинейная динамика.
Важнейшую роль при написании работы сыграли работы в области исследования свойств фрактального броуновского движения и его финансовых приложений, теории искусственных нейронных сетей.
Программно-технический комплекс анализа и прогнозирования временных рядов реализован с использованием компьютерных программ MATLAB, STATISTICA и Microsoft Excel. Для автоматизации арбитражных операций используется торговая платформа QUIK.
Информационная база исследования
В числе информационных источников диссертации использованы:
• научные источники в виде данных из монографий, а также работ российских и зарубежных авторов в области теории вероятностей и математической статистики, теории случайных процессов, стохастической финансовой математики, фрактальной геометрии, нелинейной динамики, опубликованных в периодической печати, в виде препринтов, научных докладов, материалов конференций и семинаров;
• статистические источники в виде итогов торгов на фондовых площадках, свободно доступных через сеть Internet;
• результаты собственных расчетов.
Научная новизна исследования
Результаты, обладающие элементами научной новизны:
1. Разработан алгоритм и реализована программа, вычисляющая статистику паттернов знаков приращений временных рядов. Статистика паттернов эффективно используются для анализа и прогнозирования временных рядов на финансовом рынке.
2. Разработан новый метод оценки показателя фрактальности на основе вероятности поворотной точки временного ряда.
3. Предложен подход для повышения качества прогнозирования временных рядов, производных от ряда цен, путём альтернативного агрегирования ряда цен в соответствии с гипотезой варьирующейся скорости хода времени на финансовом рынке.
4. Разработана и доказана стратегия оптимального управления ставкой на шаге серии знаков фрактального гауссового шума с точки зрения задачи максимизации капитала.
5. Создан алгоритм программы, автоматизирующей арбитражные операции, а также выполнена её программная реализация в математическом пакете МАТЬАВ в связке с торговым терминалом СНЛК. Аналитическая часть алгоритма опирается на методики прогнозирования на основе искусственных нейронных сетей и др., показавших свою эффективность в результате настоящего исследования.
Теоретическая и практическая значимость исследования
Теоретическая значимость научных результатов заключается в том, что основные выводы и положения диссертации развивают теоретико-методологическую базу анализа динамики цен на фондовых рынках, адаптируя ее к современным условиям.
Практическая значимость исследования заключается в том, что сформулированные выводы и предложения, разработанные модели и алгоритмы могут быть использованы финансовыми учреждениями, частными инвесторами, разработчиками информационно-аналитических систем, другими субъектами рынка ценных бумаг в качестве инструментария для получения дополнительной информации, способствующей повышению степени обоснованности инвестиционных решений. Результаты исследования также могут быть использованы в процессе преподавания аналитических дисциплин студентам экономических специальностей.
Апробация результатов исследования проводилась в рамках следующих мероприятий:
• Экономическое прогнозирование: модели и методы VI Международная научно-практическая конференция, 6 апреля 2010 года, Воронежский государственный университет.
• Математика и её приложения. Экономическое прогнозирование: модели и методы, Международная научно-практическая конференция, г Орёл 2011.
• Проблемы менеджмента, маркетинга и финансов: IV международная научно-практическая конференция молодых учёных, 7 декабря 2011, Воронеж. - Воронеж: АОНО ВПО «Институт менеджмента, маркетинга и финансов», 2011.
• Системное моделирование социально-экономических процессов: 34-ая Международная научная школа-семинар, Светлогорск, Калининградская обл., 2011.
Внедрение
Предложенные методы, модели и программы прошли успешную верификацию на реальных временных рядах российского фондового рынка. Отдельные результаты диссертационного исследования нашли применение в практической деятельности компании ООО «Развитие» (официальный представитель ОАО «Брокерский дом «Открытие»).
Материалы исследования используются кафедрой «математики и математических методов экономики» АОНО ВПО «Институт менеджмента маркетинга и . финансов» в преподавании учебных дисциплин «Математическая статистика», «Интеллектуальные методы анализа бизнес-информации». Внедрение результатов исследования в указанных организациях подтверждено соответствующими документами.
Публикации
По теме диссертации опубликовано 10 печатных работ (в том числе 3
- в изданиях, определенных ВАК) общим объемом 5,55 п.л. (авторский объем
- 3,8 п.л.).
Структура диссертационной работы
Структура диссертации обусловлена целью, задачами и логикой исследования. Работа состоит из введения, трех глав, заключения, списка использованной литературы и приложения.
Похожие диссертационные работы по специальности «Математические и инструментальные методы экономики», 08.00.13 шифр ВАК
Алгоритмы и программное обеспечение оценивания параметров волатильности и прогнозирования стоимости финансовых инструментов2007 год, кандидат технических наук Истигечева, Елена Валентиновна
Коллокационные модели прогнозирования фондового рынка2001 год, доктор экономических наук Бабешко, Людмила Олеговна
Фрактальный метод анализа ценных бумаг и формирования портфелей активов2007 год, кандидат экономических наук Янчушка, Златица Игоревна
Методы нелинейной динамики и инструментальные методы моделирования бюджетных финансовых потоков: на материалах Управления Федерального казначейства по Карачаево-Черкесской Республике2006 год, кандидат экономических наук Леншова, Татьяна Михайловна
Математические и инструментальные методы моделирования туристско-рекреационной деятельности: На материалах Карачаево-Черкесской республики2006 год, кандидат экономических наук Шебзухова, Мадина Владимировна
Заключение диссертации по теме «Математические и инструментальные методы экономики», Боровиков, Илья Михайлович
Выводы параграфа 2.З.:
1. Гипотеза варьирующейся скорости хода времени на финансовом рынке позволяет объяснить, по крайней мере частично, гетероскедастичность и не гауссовость временных рядов доходностей.
2. Использование альтернативных агрегаций временных рядов цен по сравнению с рядами равного астрономического времени:
- снижает гетероскедастичность,
- даёт распределение значительно более близкое к нормальному распределению доходностей,
- позволяет получить ряды с иными свойствами, важными для прогнозирования, например, для рядов доходностей фьючерса на индекс РТС значительно улучшается линейная прогнозируемость на коротком таймфрейме, при использовании агрегации на равные суммы квадратов приращений.
2.4. Выбор значимых предикторов для прогнозирования временных рядов доходностей
Формализованное прогнозирование будущих значений ряда на 1 шаг вперёд, осуществляется на основе некоторого множества показателей, представленных в виде рядов, от значения каждого из которых в разной степени может зависеть будущее значение ряда (прогнозное значение). Для получения прогноза необходимо выбрать из множества показателей такие показатели-предикторы, на основе которых можно получить наиболее качественный прогноз. При выборе предикторов возникают следующие проблемы:
1) потенциальных рядов предикторов бесконечное множество, и требуется выбрать некоторые из них;
2) зависимость прогнозного значения от векторов предикторов может сильно различаться, поэтому требуется использовать наиболее значимые предикторы.
3) вектора предикторов, как правило, зависимы между собой, поэтому возникает сложная задача подбора наилучшей комбинации предикторов.
Решение первой проблемы опирается на использование опыта в прогнозировании данного временного ряда, состава наличной формализованной информации, свойств временного ряда. Для
80 прогнозирования финансовых временных рядов, на наш взгляд, можно выделить следующие блоки потенциальных предикторов:
Показатели во временной области: непосредственно прошлые значения рядов, причём как самого прогнозируемого ряда, так и прочих рядов, оказывающих влияние; некоторые функции от значений рядов, указанных в предыдущем пункте.
Показатели в частотной области: спектры Фурье преобразования, и функции от спектра; коэффициенты вейвлет преобразования, и функции от коэффициентов.
Показатели, характеризующие свойства множества значений ряда в пространстве предыдущих значений: показатель Харста; обобщённый спектр размерностей.
Среди предикторов в качестве функций от значений во временной области может быть использовано множество различных показателей: знаки; локальные максимумы/минимумы разных уровней; компоненты разложения методом «гусеница» (SSA-Singular spectrum analysis); амплитуды; коэффициенты корреляции и регрессионной аппроксимации; так называемые технические индикаторы; и т.д.
Далее представлен обзор формируемого множества предикторов, на основе которых будет выполняться прогнозирование и даётся краткое описание каждого из них.
Непосредственно значения ряда. Выберем первые 4 значения ряда, прилегающих к прогнозному значению, и ещё 4 значения представляющие суммы каждого из интервалов по 4 значения исходного ряда (за нулевое значение принимаем прогнозное). Итого 8 показателей, иллюстрация на рисунке 2.6.
Время
Рисунок 2.6. Иллюстрация получения 8 значений предикторов интервального ряда покрывающих 16 значений исходного ряда.
Оценки показателя Харста. Для расчёта оценок используем метод на основе вейвлет-коэффициентов, рассмотренный в параграфе 1.2 и оценки на основе вероятности поворотных точек, которая предложена в параграфе 2.2. Окно п=100. Итого 2 показателя.
Спектр фрактальных размерностей. Оценки фрактальных размерностей вычисляются по методу максимальных модулей вейвлет коэффициентов. Алгоритм указанного метода описан в параграфе 1.2. Степени размерности: 1, 2, 3, 4, 5. Окно ряда длиной п=100. Итого 5 показателей.
Объёмы торгов. Предикторы в виде объёмов торгов получаем путём приравнивания к значениям объёмов непосредственно соответствующих первым 3 значениям прилегающих к значению соответствующему прогнозному значению. Итого 3 показателя.
Коэффициенты корреляции Пирсона, Спирмена рассчитываются на окне п=100. Итого 2 показателя.
Локальные экстремумы. Значения первых 3 локальных экстремумов первого уровня и первых 3 локальных экстремумов второго уровня. Итого 6 показателей. Процедура расчёта локального экстремума следующего уровня аналогична процедуре расчёта локальных экстремумов первого уровня с тем исключением, что в качестве ряда данных используется ряд локальных экстремумов предыдущего уровня.
Вейвлет коэффициенты. Для анализа сигналов применяется непрерывное вейвлет преобразование. Вещественные базисы часто конструируются на основе производных функций Гаусса. Более высокие производные имеют больше нулевых моментов и позволяют извлекать информацию об особенностях более высокого порядка, содержащихся в сигнале, что подходит для анализа более сложного сигнала. Принято использовать вейвлеты с компактными носителями: Добеши и Калмана (койфлет), которые наиболее качественно выделяют локальные особенности сигналов [8]. оо
С(т,т) = (2.31), со где т - коэффициент масштаба, Т - параметр сдвига, х( - функция сигнала, у/(т,т,1) - вейвлет функция.
Вейвлет преобразование порождает матрицу СО,г), содержащую множество коэффициентов, что противоречит требованию минимизации числа предикторов используемых в нейронной сети. По этой причине следует отобрать наиболее значимые коэффициенты вейвлет преобразования. Из априорных рассуждений можно заключить, что на мелких масштабах значимость коэффициентов будет падать очень быстро при переходе к коэффициентам соответствующим моментам времени удалённым всё дальше в прошлое. На больших масштабах высок эффект сглаживания, поэтому близкие во времени вейвлет коэффициенты одного масштаба будут иметь близкие значения, что позволяет рассредоточить предикторы с более широким шагом. Иллюстрация положения предикторов на матрице С(т,т), в соответствии с рассуждениями, представлена на рисунке 2.7. --—----►
I Время
Масштаб
Рисунок 2.7. Схематичное распределение выбора наиболее значимых коэффициентов в качестве предикторов.
Можем экспериментально определить наиболее значимые коэффициенты-предикторы в матрице вейвлет-коэффициентов для прогнозирования будущего значения ряда. Например, с точки зрения линейной значимости оцениваемой на основе модуля коэффициента корреляции Пирсона или кросс энтропии.
10 20 30 40 50 10 20 30 40 50
Рисунок 2.8. Модуль коэффициентов корреляции ве йвлет коэффициентов со следующим значением ряда в будущем, для модельных рядов фрактального гауссового шума слева Н=0,6, справа Н=0,4 (белый цвет соответствует значению более 0,1).
Из рисунка 2.8 видно, что для модельных рядов значимые вейвлет коэффициенты локализованы в треугольнике аналогичному тому, что получен из теоретических соображений на рисунке 2.7.
10 20 30 40 50 ю 20 30 40 50
Рисунок 2.9. Модуль коэффициента корреляции вейвлет коэффициентов со следующим значением ряда в будущем (будущее по оси абсцисс вправо) слева направо: 10 минут, 1 минута. Индекс РТС 2011. (белый цвет соответствует значению более 0,05).
Из сравнения рисунка 2.8 для модельных данных и рисунка 2.9 для фактического индекса РТС можно обнаружить значительное сходство распределения линейно значимых вейвлет коэффициентов в матрице коэффициентов.
Создана функция, которая определяет координаты точек на матрице вейвлет коэффициентов, которые будут использоваться как предикторы, с учётом анализа значимости вейвлет-коэффициентов проведённого выше. Указанная функция имеет 2 основных параметра: а) число предикторов на уровне масштаба; б) коэффициент расхождения по временной оси при увеличении масштаба, пример на рисунке 2.10. о
10 20 30 40 50 10 20 30 40 50
Рисунок 2.10. Пример схем выбора вейвлет коэффициентов в качестве предикторов, слева 49 значений, справа 20.
Для экономии числа предикторов выберем вариант справа соответствующий 20 предикторам на рисунке 2.10.
Компоненты разложения непараметрическим методом гусеница-Целью метода 88А является разложение временного ряда на интерпретируемые аддитивные составляющие. При этом в условиях применимости ряда нет требования к его стационарности [144].
Кратко опишем алгоритм «Гусеница»-88А. Временной ряд ^ = длины N (N>2). Ряд F не нулевой. Считается что /; = /О'Д) для некоторой функции /(0, где * - время, А - некоторый временной интервал. Числа / = 0,.,АГ-1 могут быть интерпретированы как дискретные моменты времени.
Одномерный временной ряд представляется как многомерный состоящий из векторов вложения. Ь - длина окна (некоторое целое число), 1 < Ь < N. Процедура вложения образует К = Ы-Ь +1 векторов вложения:
Траекторная матрица ряда Б:
2.32), которая состоит из векторов вложений в качестве столбцов. Матрица X является ганкелевой т.к. имеет одинаковые элементы на диагоналях.
В результате сингулярного разложения Хт получаем Мк М, -правый и левый сингулярный вектор соответственно, а также матрицу Я квадратных корней собственных значений на главной диагонали с нулевыми остальными значениями. Данное разложение удобно проводить в пакете МАТЬАВ с помощью функции [М1,Мк ] = ).
В силу X = М^М],, и если I = {/„.,/„}, то результирующая матрица X,, соответствующая группе I может быть получена по формуле:
Х,=МЬ8(:,1)М(-.,1)ТК (2.33), где запись (:,/) означает индексацию на часть матрицы содержащей все строки исходной матрицы, а столбцы только с индексам I.
Матрицы X, вычисляются для / = /,,.,/,„> поэтому можем переписать
2.33) в сгруппированном виде:
Х = Х71+.Х1т (2.34),
Восстановление. Восстановленный ряд получим диагональным усреднением. Каждая матрица (2.34) переводится в новый ряд длины N. Если 7 матрица ЬхК с элементами уи, то ряд gk образуется по формуле:
1 4+1 тЧе^:,™ о
8 к = к л"
-\
1 М-К +1
-7ГТ
N ~'С т=к-К'+2 где V =юш(ЦК), К* =тах(Ь,К), Ы = 1 + К-\.
Выражение (2.35) соответствует усреднению элементов матрицы вдоль «диагоналей» /+/ = * + 2. Применяя (2.35) к матрицам Х!к, получаем ряды =(70{к\.,/Ц1к\), а значит, исходный ряд /0 раскладывается в сумму ш рядов: т = £7.(4) (2-36). к=\
Можем использовать в качестве предикторов некоторое число первых компонент разложения, как наиболее информационно насыщенных. Пример разложения модельного сигнала показан на рисунке 2.12.
I1I-1-1-1-1
50 100 150 200 250 300 350 400 4150
Рисунок 2.12. Изображение сигнала (вверху), первой компоненты (посередине) и второй компоненты (внизу) Б8А разложения с длиной окна вложений в 50 значений.
Длину анализируемого ряда выберем равной 100 значениям с окном вложений 50 значений, в предикторы отнесём первые 2 значения первых 2 компонент, итого 4 показателя.
Таким образом, множество предикторов состоит из 50 показателей. В общем случае предикторы зависимы, поэтому невозможно выбрать множество наиболее значимых предикторов без перебора разных
87 комбинаций. Число комбинаций является очень быстро возрастающей функцией от числа предикторов, поэтому непосредственный полный перебор, на практике невозможен.
Решить эту проблему можно путём перехода к ортогональным линейным функциям предикторов, построенных с точки зрения некоторого показателя значимости. В качестве показателя значимости можно использовать линейную меру связи - коэффициент корреляции, но в общем нелинейном случае необходимо использовать показатель кросс энтропии. Рассмотрим алгоритм ортогонализации на примере критерия кросс энтропии.
Алгоритм формирования ортогональных линейных функций предикторов в направлениях максимальной кросс-энтропии:
1) Обозначим номер итерации j.
2) На нулевой итерации j = О имеется матрица векторов предикторов XU) =xu)(i,k) = x(iJ), где i - индекс показателя (вектора), к -индекс элемента вектора, и вектор прогнозируемого значения у(к) = у.
3) Переходим к следующей итерации, т.е. j = j +1.
4) Подбираем вектор весов w\j) = wu) таким образом, чтобы максимизировать значение функции кросс энтропии на j-ой итерации: f(zu),у) > шах (2.37), где jco = z(J) (к) = ^х(л(1,к)м>:л - вектор линейной комбинаций x;J) и весов ¿=1
X0)(U) = xlJ) = х[Н) -pr(x(kH\w(J}) - разность матрицыx[Hi с её —(л проекцией на wU), pr(a,b) - функция проекции а вектора на вектор Ъ : pr(a,b) = Щь = F£atb, f^bfi, (2.38). b,b) i / i
5) Переходим к шагу 3 и повторяем процедуру. Условиями останова можно принять снижение модуля приращения значения функции (2.37) ниже критического уровня или фиксированное число итераций.
6) На практике используют следующую приближённую формулу оценки кросс энтропии:
1(Х,¥) = \п(ЫхМу/Мху) (2.39), где
Ылу - полное число ячеек в пространстве X ® У;
Ых - число проекций ячеек на пространство X;
Иу - число проекций ячеек на пространство У.
В результате такой процедуры получаем набор векторов весов и>\л, а значит, можем получить новые предикторы г(Л в виде линейной функции от х{кл и ч>\п.
Задачу оптимизации (2.37) путём подбора ч>и) предлагаем решать с использованием генетических алгоритмов, как одноного из наиболее современных, универсальных и эффективных методов. Описанная процедура реализована с использованием пакета МАТЬАВ.
Компоненты строятся в направлении наибольшей кросс энтропии, т.е. наибольшей значимости (в том числе нелинейной) прогнозного значения для описания прогнозного показателя. Однако алгоритм расчета кросс энтропии не обладает высокой чувствительностью и устойчивостью оценки, что может не позволить уловить малые различия в кросс энтропии и привести к неустойчивости компонент. Поэтому можно предложить так же иные методы понижения размерности матрицы предикторов: а) выделение ортогональных главных компонент в направлении наибольших дисперсии матрицы нормированных векторов: где и) к — собственные вектора матрицы хк,
Л - собственные значения. б) выделение ортогональных компонент (линейных функций предикторов) с максимизацией модуля коэффициента корреляции компонент с прогнозным вектором;
В варианте «а» не делается разделения на дисперсию предикторов влияющую на прогнозный показатель и на дисперсию не влияющую на прогнозный показатель, поэтому существует возможность, что вместе с малыми компонентами будут отброшены значимые составляющие.
В варианте «б» компоненты строятся в направлении наибольшей дисперсии значимой с точки зрения предсказания прогнозного значения, однако только с точки зрения линейных зависимостей.
В соответствии с описанным выше алгоритмом ортогонализации на основе исходных 50 векторов предикторов получены веса перехода к ортогональным компонентам в направлении наибольшей корреляции и кросс энтропии, таблица 2.12.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.