Применение методов агрегации экспертов и регрессии на основе гауссовских процессов для построения метамоделей тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Приходько, Павел Викторович

  • Приходько, Павел Викторович
  • кандидат науккандидат наук
  • 2013, Москва
  • Специальность ВАК РФ05.13.17
  • Количество страниц 121
Приходько, Павел Викторович. Применение методов агрегации экспертов и регрессии на основе гауссовских процессов для построения метамоделей: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. Москва. 2013. 121 с.

Оглавление диссертации кандидат наук Приходько, Павел Викторович

Оглавление

Введение

Основные положения

Научная новизна

Теоретическая и практическая значимость

Апробация работы

Публикации

1 Задача восстановления зависимости и основные определения

1.1 Базовый аппроксиматор

1.1.1 Искуственные Нейронные Сети (ИНС)

1.1.2 Регрессия на основе гауссовских процессов

1.2 Представление экспериментальных

результатов

1.2.1 Кривые Долана-Мора

2 Слишком простой класс базовых моделей

2.1 Постановка задачи построения ансамбля регрессионных моделей

2.2 Основные подходы к построению

ансамблей

2.3 Процедура БегБуст для построения

ансамблей аппроксиматоров

2.3.1 Необходимые предположения

2.3.2 Алгоритм БегБуст

2.3.3 Оценка скорости сходимости

2.3.4 Проверка справедливости теоретических предположений

2.3.5 Сравнение теоретических свойств алгоритмов SquareLev.R и БегБуст

2.4 Заключение по главе

3 Избыточность в признаках

3.1 Выделение значимых направлений с помощью аппроксимации градиента

3.2 Эффективное снижение размерности на основе гауссовских процессов

3.2.1 Задача эффективного снижения размерности

3.2.2 Сравнение точности методов эффективного снижения размерности

3.2.3 Оценка эффективной размерности данных

3.2.4 Эксперименты по оценке размерности

3.3 Заключение по главе

4 Неоднородность в данных

4.1 Обзор методов построения смесей

экспертов

4.1.1 Одновременное параллельное построение

экспертов

4.1.2 Последовательное построение экспертов

4.2 Предложенные процедуры

4.2.1 Неравномерная выборка

4.2.2 Приближение разрывных функций

4.3 Заключение по главе

Заключение

Литература

А Приложение

А.1 Доказательства

А. 1.1 Доказательство Леммы 1

А. 1.2 Доказательство Теоремы 2

А. 1.3 Доказательство Теоремы 3

А. 1.4 Доказательство Утверждения 1

А.1.5 Доказательство Утверждения 2

А.1.6 Доказательство Утверждения 3

А.1.7 Доказательство Утверждения 4

А.2 Экспериментальные результаты

А.2.1 Экспериментальные результаты по методу Бег Б уст

А.2.2 Экспериментальные результаты по методу VEGA

А.2.3 Экспериментальные результаты по смесям экспертов

А.2.4 Оптимизация веса обшивки корпуса самолета

Список иллюстраций

Список таблиц

Список обозначений

В работе используются следующие обозначения:

• X — матрица размера m х d,

• х^ — вектор, i-я строка матрицы X или i-e наблюдение, i = 1,

• х^ — j-й компонен'т вектора х(1\ или г j-й элемент матрицы X, j =

• [X, 1] — расширенная матрица X, к которой добавлен столбец из единиц размера rn х 1,

• для простоты везде далее предполагается, что вектор выходов у^ одномерный, поэтому вместо у(г) будем писать у(1\

• если номер наблюдения не важен для изложения, а речь идет только о некотором входе и соответствующем ему выходе, то будут использоваться сокращенные обозначения х и у соответственно.

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Применение методов агрегации экспертов и регрессии на основе гауссовских процессов для построения метамоделей»

Введение

Последнее десятилетие с развитием вычислительной техники при проектировании инженерных объектов возник спрос на построение метамоде-лей (суррогатных моделей) [23,35] для анализа результатов экспериментов или сложных вычислительных кодов.

Спрос обусловлен следующей проблемой: инженеру требуется оптимизировать или исследовать поведение некоторой зависимости, являющейся функцией от ряда параметров1, однако, вычисление значения этой функции для новых значений параметров (в новой точке) затратно в смысле вычислительных ресурсов, времени или даже невозможно. Зачастую такое происходит, если для вычисления значения функции в новой точке требуется проводить натурный эксперимент или использовать "тяжелый" вычислительный код (например, обсчет модели конечных элементов даже на современных вычислительных мощностях может занимать несколько дней).

Для случаев, когда инженеру достаточно получить лишь приближенное решение задачи, одним из популярных подходов, позволяющих проанализировать зависимость, стало построение по имеющимся данным математической модели (метамодели), которая, насколько это вообще возможно, имитирует поведение рассматриваемой зависимости, однако, при этом может быть очень быстро вычислена в произвольных точках. При таком под-

1 Также в дальнейшем в том же смысле употребляются термины "признаки" и "входы".

ходе построенная метамодель полностью заменяет собой (аппроксимирует) исходную зависимость во всех последующих расчетах (по этой причине ме-тамодели также иногда называют суррогатными моделями). Качество ме-тамодели обычно определяется тем, насколько она хорошо воспроизводит поведение исходной зависимости в смысле некоторой заданной метрики, например, среднеквадратичной разности между предсказаниями метамодели и истинными значениями зависимости на некоторой репрезентативной выборке данных.

Довольно часто на практике исходная зависимость существенно нелинейна, характер ее поведения неизвестен, а в наличии имеется только выборка пар "параметры"—"значение зависимости". В этом случае для построения метамоделей как правило применяются универсальные методы построения регрессионных моделей из статистики и машинного обучения, такие как: искуственные нейронные сети |12| или регрессия на основе гаус-совских процессов (кригинг) [411. Соответствующие базовые метамодели (далее будем называть их также просто моделями), построенные с помощью этих методов, не предполагают априори какой-то специальный вид аппроксимируемой зависимости, и их параметры могут быть настроены так, чтобы приблизить довольно широкий класс функций.

Построенная по данным базовая модель может не обеспечивать требуемую точность приближения, однако, в некоторых ситуациях качество аппроксимации можно повысить введением дополнительных алгоритмических надстроек над процессом построения моделей.

В работе рассматриваются такие надстройки для нескольких специальных случаев:

Недостаточная сложность модели. В ряде работ |45| показывает-

ся, что в случае "простой" базовой модели, точность аппроксимации может быть существенно повышена, если итоговая модель определенным образом строится как линейная комбинация (ансамбль) некоторого количества базовых моделей.

Кроме того, в случае использования искуственных нейронных сетей (ИНС) в качестве базовой модели на практике не всегда возможно заранее оценить сложность зависимости и соответственно подобрать адекватную ей сложность (определяемую количеством узлов) ИНС, что приводит к необходимости итеративного выбора структуры модели в соответствии с некоторым дополнительным критерием. В этом смысле построение ансамблей может быть альтернативой прямому увеличению сложности ИНС.

Случай неоднородной выборки. Методы построения регрессионных моделей обычно неявно предполагают, что в выборке данных значения входов равномерно заполняют пространство дизайна, а сама функция ведет себя достаточно однородно в том смысле, что она не содержит разрывы или области с качественно разным поведением (то есть для выбранного типа базовой модели можно задать такой набор параметров, что модель будет хорошо приближать рассматриваемую зависимость на всей области определения). Нарушение этого условия может приводить к проблемам при построении моделей, таким как низкая точность в определенных областях пространства дизайна, вырождение модели и т.п.

Для описания неоднородного поведения функции в работе рассматриваются следующие распространенные модели неоднородности:

1. данные порождены смесыо нормальных распределений, у каждого элемента смеси имеется свой вид зависимости2,

2 Имеется в виду, что. если для элемента смеси построить базовую модель только но тем дай-

2. данные описываются набором областей, разделенных линейными гиперплоскостями, причем в каждой области имеется свой вид зависимости.

Первая модель неоднородности позволяет эффективно описывать случаи, в которых обучающая выборка неравномерно заполняет пространство признаков (пространство дизайна); вторая модель подходит для описания задач, в которых аппроксимируемая зависимость имеет разрывы.

Избыточность в признаках. Набор признаков обычно может быть избыточен в одном из следующих смыслов:

1. Входные признаки могут быть скоррелированы,

2. Функция слабо зависит или не зависит вовсе от некоторых исходных признаков,

3. Функция зависит только от проекции входов на некоторое подпространство.

Отметим, что третий сценарий является наиболее общим и включает в себя предыдущие два.

Наличие избыточности в признаках при построении базовой модели может затруднять аппроксимацию и приводить к различным вырождениям или нестабильностим в алгоритме обучения.

Кроме того, снижение размерности данных, если при этом не теряется информация о зависимости, также эффективно уплотняет выборку (плотном, которые порожденым этим, элементом смеси, то такая модель будет существенно точнее аппроксимировать рассматриваемый элемент смеси, че.м, модель, построенная по всей обучающей выборке.

ность точек в проекции на подпространство меньшей размерности получается выше, чем по всему пространству), что упрощает задачу аппроксимации.

В литературе присутствует множество процедур [47], позволяющих находить проекцию входов на некоторое подпространство. Однако при использовании таких процедур как правило необходимо заранее указывать размерность сжатия, а также строить ядерные оценки зависимости (требующие подбора параметров, например, посредством кросс-проверки), которые хорошо работают лишь в случае малых размерностей. Указанные особенности делают эти методы малоприменимыми на практике.

Работа имеет следующую структуру

• В главе 1 приводится используемая в работе постановка задачи восстановления зависимости, а также описываются используемые типы базовых моделей построения аппроксимаций.

• В главе 2 рассматривается случай, если базовая модель слишком проста для того, чтобы описать неизвестную зависимость, приводится описание специального разработанного алгоритма построения ансамблей базовых моделей.

• В главе 3 разбирается случай, когда во входных признаках модели содержится избыточность.

• И, наконец, в главе 4 обсуждается ситуация, когда выборка неоднородна и/или аппроксимируемая зависимость имеет разрывы.

• Каждая из глав 2-4 устроена следующим образом:

— дается формулировка решаемой проблемы,

— проводится обзор существующих в литературе решений,

— описывается авторская процедура,

— проводится теоретический анализ и экспериментальное сравнение методов.

• В Заключении собраны основные выводы, полученные в работе.

• В Приложение вынесены доказательства теорем и утверждений, а также результаты некоторых экспериментов.

Основные положения

Целью данной работы является анализ существующих и разработка новых алгоритмов анализа данных, которые работают в сочетании с методом построения базовых моделей и позволяют специальным образом учитывать ситуации, когда базовая модель слишком проста для восстановления рассматриваемой зависимости, имеется избыточность во входных признаках, обучающая выборка неравномерна, и за счет этого повышать качество построенных моделей.

На защиту выносятся следующие положения:

1. Метод VEGA (Variable Extraction via Gradient Approximation) нахождения подпространства эффективной размерности для заданной функции по выборке. Вычислительно эффективный способ оценки матрицы ковариаций градиентов зависимости.

2. Метод БегБуст построения ансамблей базовых метам одел ей.

3. Верхняя граница ошибки обобщающей способности метода БегБуст.

4. Метод построения метамоделей на основе кластеризации данных с помощью гауссовских смесей. Метод построения метамоделей на основе кластеризации данных через разделение линейными гиперплоскостями пространства дизайна. Вычислительно эффективный способ оценки параметров базовых моделей на основе оценки ошибки скользящего контроля для случая линейных экспертов.

Научная новизна

Научная новизна результатов, полученных в

диссертации, заключается в том, что в ней предложен набор оригинальных процедур.

• Разработана процедура построения метамодели в случае, если функция зависит лишь от проекции признаков на некоторое неизвестное линейное подпространство, что позволяет существенно улучшить качество модели при выполнении этого предположения, а также дает-возможность линейно снизить размерность данных. Кроме того, качество построенной модели становится устойчивым к повороту координатных осей пространства дизайна. Предлагается метод оценки размерности линейного подпространства, а также способ нахождения базиса в этом подпространстве.

• Разработана процедура БегБуст построения ансамблей базовых метамоделей. Получена верхняя граница на ошибку обобщающей способности процедуры.

• Разработана процедура построения метамоделей на основе кластеризации данных с помощью гауссовских смесей или разделения линейными гиперплоскостями, а также приводится пример успешного применения процедуры в задаче построения высокоточной модели для оптимизации веса корпуса самолета.

Теоретическая и практическая значимость

Описанные в работе методы широко применяются для решения прикладных задач аэрокосмической отрасли в компании DATADVANCE. Кроме того, для метода построения ансамблей БегБуст получена верхняя граница на ошибку обобщающей способности. Развитые при этом теоретические подходы можно использовать при анализе других алгоритмов построения ансамблей.

Апробация работы

Результаты работы докладывались и обсуждались на следующих российских и международных конференциях:

• "Интеллектуализация обработки информации"(2012, Будва, Черногория):

• 1st International Conference on Composites Structures Dynamics (2012, Аркашон, Франция). Было сделано два доклада, один из которых пленарный.

• Uncertainty in Computer Models 2012 Conference (2012, Шеффилд, Англия)

• "Математические методы распознавания образов"(2011, Петрозаводск, Россия);

• "Информационные Технологии и Системы"(2009, Бекасово, Россия; 2010, 2011 Геленджик, Россия; 2012, Петрозаводск, Россия);

• Third International Workshop on Surrogate Modelling and Space Mapping For Engineering Optimization (2012, Рейкьявик, Исландия);

• 9th International Conference "Computer Data Analysis and Modeling: Complex Stochastic Data and Systems" (2010, Минск, Белоруссия)

• 52-я, 53-я, 54-я научные конференции Московского физико-технического института (2009-2012, Долгопрудный, Россия)

• Sixth conference "Mathematical Methods in Reliability"(2009, Москва, Россия)

Также полученные в работе результаты обсуждались на научных семинарах лаборатории структурных методов анализа данных в предсказательном моделировании МФТИ (2012, 2013), а также на семинаре сектора 8.1 Института Проблем Передачи Информации им А.А.Харкевича.

Описанные в работе методы были реализованы в программном продукте MACROS, разработанном компанией DATADVANCE. и используются при решении практических задач такими компаниями как Airbus. Eurocopter и др. В диссертации приводится несколько примеров приклад-

ных задач, в которых применение предложенных процедур позволило существенно улучшить качество соответствующих метамоделей.

Публикации

По теме диссертации опубликовано 11 печатных работ, из них 4 работы - статьи в ведущих рецензируемых научных журналах, 7 работ в трудах ведущих российских и международных конференций.

1. Бурнаев Е.В., Приходько П.В. Методология построения суррогатных моделей для аппроксимации пространственно неоднородных функций // Труды МФТИ. Т. 5, No. 4. 2013. С. 122-132.

2. Бурнаев Е.В., Ерофеев П.Д., Приходько П.В. Выделение главных на-првлений в задаче аппроксимации на основе гауссовских процессов // Труды МФТИ. Т. 5, No. 3. 2013. С. 24-35.

3. Бурнаев Е.В., Приходько П.В. Об одной методике построения ансамблей регрессионных моделей // Автоматика и телемеханика. 2013. Т. 10, С. 36-54.

4. S. Grihori, Е. Burnaev, P. Prikhodko et al. Surrogate Modeling of Stability Constraints for Optimization of Composite Structures // Surrogate-Based Modeling and Optimization for Engineering applications / Eds. by S. Koziel, L. Leifsson. Springer, 2012. P. 359-391.

5. Burnaev E., Prikhodko P., Struzik A. Surrogate models for helicopter loads problems // Proceedings of 5th European Conference for Aerospace Sciences, 2013, 11 P.

6. Бурнаев Е.В., Приходько П.В. Эффективное снижение размерности на основе гауссовских процессов // Сборник докладов конференций ИОИ-9. 2012. С. 188-192.

7. Grihori S., Alestra S., Burnaev E., Prikhodko P. Surrogate Modelling of Bucking Analysis of approximation based on linear Expansions in parametric dictionaries // Proceedings of 1st International Conference on Composite Dynamics. Archanon, France, 2012.

8. Grihori S., Alestra S., Betebghor D., Burnaev E., Prikhodko P. Comparison of different techniques for surrogate modeling of stability constraints for composite structures // Proceedings of 1st International Conference on Composite Dynamics, Archanon, France, 2012.

9. Бурнаев E.B., Приходько П.В. Теоретические свойства процедуры построения регрессионного ансамбля на основе беггинга и бустинга // Тр. конф. Информационные Технологии и Системы. 2011. С. 438-443.

10. Ерофеев П.Д., Приходько П.В. Эффективное снижение размерности на основе аппроксимации гауссовскими процессами и его применение при оптимизации крыла самолета // Труды 54-й научн. конф. МФТИ. Долгопрудный, ФУПМ, 2011. С. 82-83.

11. Burnaev. E.V., Belyaev M.G., Prikhodko P.V. Approximation of multidimensional dependency based on an expansion in the parametric functions from dictionary // Proc. of 9th International Conference '■'Computer Data Analysis and Modeling: Complex Stochastic Data and Systems". Vol. 2. 2010. pp. 223-226.

Основные результаты представлены в работах [1|, [2|, [3|, [4|.

В работах |1],|2|,|3| вклад автора был определяющим. В работе [4] автор отвечал за часть связанную с построением суррогатных моделей, в то время как Б. СпЬоп отвечал за запуск оптимизации и валидацию результатов.

Во всех работах Бурнаев Е.В. как научный руководитель отвечал за глобальную постановку задачи, кроме того автор хотел бы выразить ему благодарность за огромную помощь в написании и правке текстов статей.

1. Задача восстановления зависимости и основные определения

В работе рассматривается стандартная постановка регрессионной задачи. Имеется выборка значений неизвестной функции / и метод построения базовых аппроксиматоров д из некоторого семейства С. Необходимо построить достаточно близкий к / аппроксиматор / при условии, что метод построения базовых аппроксиматоров д не обеспечивает необходимой точности.

Пусть задана обучающая выборка 5т = (Хт,У7Л)1, Хт = =

1,. .., га}, = — 1,. .., га} такая, что

• входные векторы (входы) х^ Е X С (X — произвольное компактное множество) порождаются независимым образом некоторым неизвестным непрерывным распределением Р(х), х € X,

• между выходным значением (выходом) у^ Е ¥ С И1 и входным вектором х^ Е X есть некоторая неизвестная функциональная зависимость у^> = / (х^).

Задача восстановления неизвестной зависимости у = /(х) состоит в построении по обучающей выборке 8т регрессионной зависимости (аппрок-симатора) /(х) = / (х|8т) такой, что её обобщающая способность |6,53,54|

1если размер выборки не важен, то для краткости записи будет писаться просто X и У.

высока, т.е. величина (риск)

erPJ

Е (/(х) - /(х

))2 = ^(/(х)-/(х))^Р(х) (1.1)

мала с вероятностью, близкой к единице. В главах 1 и 2 Е обозначает математическое ожидание по распределению Р(х).

На практике распределение Р(х) неизвестно, поэтому вместо (1.1) оценивают среднеквадратичную ошибку (эмпирический риск)

Введем определение базового аппроксиматора д. Обозначим через G пространство гипотез, т.е. рассматриваемое семейство функций, которые осуществляют отображение из X в ¥.

Будем называть базовым аппроксиматором функцию д = Train(Sw, w) Е G, порождаемую некоторым методом обучения Train(-), применённым к обучающей выборке S^ и, возможно, зависящим от некоторого набора гиперпараметров w G О (например, от1 случайной инициализации начальных значений параметров базового аппроксиматора).

В качестве метода обучения могут быть использованы многие алгоритмы машинного обучения, такие как: линейная регрессия, регрессия на основе гауссовских процессов (кригинг). регрессия на основе опорных векторов, искуственные нейронные сети (ИНС), регрессионные деревья (CART) (детальнее см. в |9,29]).

у т обозначает выборочную норму функции v.

1.1 Базовый аппроксиматор

В работе рассматривается два основных типа базовых апнроксимато-ров:

• Искуственные нейронные сети (ИНС),

• Регрессия на основе гауссовских процессов.

1.1.1 Искуственные Нейронные Сети (ИНС)

Апироксиматор ИНС |6,29| может быть представлена в виде

р

= (1.3)

к=1

где ик Е К1, к — 1,...,р, сигмоидальная функция активации (сигмоид) имеет вид

ф(к,в) = а((3т-х + (3°), = геЯ1, (1.4)

б~ ~г е ~

/3 е К"1, (3° е 0 = ((3,(3°) Е © С И^1 (0 - произвольное компактное множество), Т — обозначает знак транспонирования.

Стандартный метод обучения Тгат(-) ИНС устроен следующим образом [4,12]:

• Выборка 8т разделяется на подвыборки Б^агп и Эща/.

• Параметры {ик, вк}рк=1 настраиваются за счет минимизации ¿г§1тагп{д) с помощью градиентных алгоритмов оптимизации. При этом для получения более робастной модели д нередко вводят ограничение на коэффициенты {ик}рк=] вида \ик\ < В для некоторого заданного В, см. |29].

• Обобщающая способность модели д контролируется посредством ранней остановки алгоритма минимизации |9, 29|, осуществляемой при росте ошибки ersval{g)-

Заметим, что функция ошибки erstiain(9) не является выпуклой и результаты обучения будут сильно зависеть от начальных условий, а именно, от

• инициализации значений весов {Uk, Qk}Pk=v

• разбиения выборки Sm на подвыборки Strain и Sya/,

осуществляемых обычно случайным образом. Указанные начальные условия и представляют собой гиперпараметры w метода обучения Train(-)

инс.

Таким образом, в случае ИНС существует два источника неопределенности, влияющих на построение модели д:

• случайность выборки STO,

• выбор гиперпараметров w.

1.1.2 Регрессия на основе гауссовских процессов

Гауссовский процесс |41] является одним из возможных способов задания распределения на пространстве функций. Гауссовский процесс ,/(х) полностью определяется своей функцией среднего т(х) = Е[/(х)] и ковариационной функцией cov{y,y') = /с(х,х') = Е[(/(х) — т(х))(/(х') — т(х'))]. Если положить функцию среднего нулевой т(х) = Е[/(х)] = 0, а ковариационную функцию считать известной, то функция апостериорного

(для заданной обучающей выборки) среднего значения гауссовского процесса в точках контрольной выборки X* имеет вид [41] /(X*) = где К, = 7фС*,Х) = [А;(х(г),х^),г = = 1,...,ш],К0 =

К(Х,Х) = [А;(х^;х^),г,.7 = 1 ,...,т].

Зачастую предполагается, что данные наблюдаются с шумом, то есть,

г/(х) = /(х) + ф),

1де е(х) ~ Л/*(0, ¿г2) — белый шум. В таком случае наблюдения у(х) являются реализацией гауссовского процесса с нулевым средним и ковариационной функцией сог>(у(х), ?/(х')) = /с(х, х') + ст25(х — х'), где <5(х) — дельта-функция. Таким образом, функция апостериорного (для заданной обучающей выборки) среднего значения гауссовского процесса /(х) в точках контрольной выборки X* принимает вид

/(X*) = К,(Кп + а21)_1У, (1.5)

где I — единичная матрица размера т, х т.

Заметим, что наличие в формуле (1.5) дисперсии шума а2 фактически приводит к регуляризации, что позволяет улучшить обобщающую способность аппроксиматора. При этом апостериорная ковариационная функция гауссовского процесса в точках контрольной выборки имеет1 вид

¥|Х] = /Г(Х*,Х*)+^21* -К,(К0 + а21)~]К^, (1.6)

где /С(Х*,Х*) = j = 1 ,...,т*], I* — единичная матрица

размера т* х т*.

Дисперсии гауссовского процесса в 'точках контрольной выборки могут быть использованы как оценки ожидаемой ошибки аппроксимации в этих

точках. Заметим, что для этого нет необходимости вычислять но формуле (1.6) всю матрицу ¥[Х*], а достаточно вычислить только элементы ее главной диагонали, которые и являются искомыми дисперсиями.

Оценка параметров гауссовского процесса

При работе с реальными данными ковариационная функция породившего их гауссовского процесса как правило неизвестна, поэтому необходимо уметь идентифицировать ее по данным.

Предположим, что ковариационная функция гауссовского процесса принадлежит некоторому параметрическому семейству &(х,х') = А;(х,х'|(9), где О Е Ш.к — вектор параметров ковариационной функции. Семейство /с(х, х'|0) обычно берется из класса так называемых стационарных ковариационных функций, т.е. функций, значения которых зависит только от разности значений аргументов /с(х,х'|#) = /с(х — х'|#). Стандартный способ оценки значений параметров в по обучающей выборке S^ состоит в использовании принципа максимума правдоподобия. Логарифм правдоподобия гауссовского процесса в точках обучающей выборки |41| при этом имеет вид

log p(Y|X,0,cr) - -iYT(Ko + a2I)-1Y-ilog|Ko + a2/|-^log27T, (1.7)

где |Ко + д21\ — детерминант матрицы Ко + сг21.

Кроме параметров в ковариационной функции параметром функционала (1-7) является также значение дисперсии шума наблюдений <т2, которое также можно настраивать по обучающей выборке. Таким образом, нахождение оптимальных значений параметров сводится к отысканию максимума правдоподобия по параметрам log p(Y|X, 0, о) птах^.

Ковариационная функция

Выбор конкретного семейства ковариационных функций к(х, х'|0) обычно продиктован соображениями удобства, а также априорными представлениями о свойствах аппроксимируемой зависимости.

Для моделирования ковариационной функции часто используется экспоненциальное семейство /с(х, х') = о$ ехр(—¿¿(х, х')), где ¿¿(х, х') — расстояние между точками хих'в некоторой метрике. Наиболее распространены два типа расстояния:

• Взвешенное евклидово расстояние

с1

х') = 0Цхг - (х')г)2, X = (.х-ь • • • , (1.8)

1=1

где вг Е К, г = 1,..., т. При использовании такого расстояния возникает необходимость настроить с1 параметров 01,..., 0^.

• Расстояние Махалонобиса

¿¿(х, х') = (х - х')А(х - х')Т, (1.9)

1де А Е Ш.'1х<1 — некоторая положительно определенная матрица. Для параметризации этой матрицы в силу положительной определенности А можно использовать разложение Холецкого А = ЬТЬ, где Ь — верхняя треугольная матрица с положительными элементами на главной диагонали. В таком случае необходимо настроить па-

раметров, задающих матрицу Ь.

В приложении А.2.2 показано, что использование ковариационной функции на основе расстояния Махаланобиса обеспечивает инвариантность точ-

ности аппроксимации по отношению к степени коллинеарности направлений наиболее значимого изменения аппроксимируемой функции и направлений координатных осей в пространстве данных.

В то же время при использовании ковариационной функции на основе взвешенного евклидова расстояния получаются аппроксимации, точность которых существенно зависит от взаимного расположения направлений наибольшей изменчивости аппроксимируемой зависимости и координатных осей в пространстве данных.

Однако, качество построенных моделей, использующих ковариационную функцию на основе расстояния Махаланобиса, зачастую существенно ухудшается с ростом размерности. Это связано с квадратичным ростом числа настраиваемых параметров при увеличении размерности задачи.

1.2 Представление экспериментальных результатов

В разделах с экспериментами будет проводиться одновременное сравнение набора методов сразу на нескольких наборах данных. Удобным для восприятия способом представить такие результаты являются профиля (или кривые) Долана Мора [19].

1.2.1 Кривые Долана-Мора

Опишем методологию построения кривых Долана-Мора, используя следую] цие обозначения:

• Ак, к — 1,.... К — сравниваемые методы,

• Т/, / = 1,.... Ь — различные задачи,

• е(А&,7]) — ошибка (1.2) метода Ак на задаче 7],

• ё(7}) = гшп/с 7}) — минимальная ошибка среди всех методов на задаче 7].

Для рассматриваемого метода Л^ и масштабного множителя а > 1 определим величину

рк{а) =-^-,

где ф{М) — мощность множества М. Фактически, величина Р/с(а) показывает, на какой части задач ошибки аппроксимации, полученной с помощью данного метода Ак, не больше чем в а раз минимальных (среди всех рассматриваемых методов) ошибок для соответствующих задач. При этом чем выше кривая Р/с(а) и чем быстрее она выходит на 1, тем более высокое качество имеет соответствующий метод. Величина Р/с(1) равна доле задач, на которой метод Ак имеет наименьшую ошибку.

2. СЛИШКОМ ПРОСТОЙ КЛАСС БАЗОВЫХ МОДЕЛЕЙ

Рассмотрим случай, когда находящаяся в распоряжении базовая модель д £ С слишком проста и не позволяет построить достаточно точную аппроксимацию /. В ряде работ (например, в [21,36,45]) показывается, что точность аппроксимации может быть существенно повышена, если модель / определенным образом строится как линейная комбинация (ансамбль) моделей из С.

Глава имеет следующую структуру. В разделе 2.1 приводится постановка задачи построения ансамбля, в 2.2 дается краткий обзор основных методов построения ансамблей. В разделе 2.3 описывается предлагаемый в статье подход и приводятся результаты о некоторых теоретических свойствах метода, кроме того, проводится его сравнение с другими современными методами построения ансамблей. Экспериментальный анализ работы предложенного метода приводится в приложении А.2.1.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Приходько, Павел Викторович, 2013 год

Литература

[lj Global optimization test problems. http://www-optima.amp.i.kyoto-u.ac.jp/merriber/studerit/hedar/Hedar_files/TestGO_files/Page364.htrri.

[2j Matlab neural network toolbox. http://www.rnathworks.com/pro ducts/neural-rietwork/index.html.

|3| Mixrnod software, http://www.rriixrnod.org/.

|4] Neural network toolbox documentation, the mathworks, inc. ht tp: / / www. mathworks. corn/help / nnet / index, ht ml.

[51 Pirrkus A. Approximation theory of the mlp model in neural networks. Acta Numerica. V. 8. Cambridge: Univ. Press, 8:143-195, 1999.

[6] Bartlett P. L. Anthony M. Neural Network Learning: Theoretical Foundations. Cambridge: Cambridge University Press, 2002.

[7| Yu B. Bruhlrriariri P. Explaining bagging. Technical report, University of California at Berkeley, 2000.

[8] Yang J. Bura E. Dimension estimation in sufficient dimension reduction: A unifying approach. Journal of Multivariate Analysis. 2011.

[9j Prihodko P. Burnaev E., Belyaev M. About hybrid algorithm for tuning of parameters in approximation based on linear expansions in parametric

functions. In Proc. 8th Int. Conf. "Intelligent Information Processing, 2010.

110] Prikhodko P. Burnaev E., Erofeev P. Extraction of the most sensitive directions via gaussian process modelling. In Uncertainty in Computer Models Conference, 2012.

[11] Grihon S. Burnaev E.V. Construction of the metamodels in support of stiffened panel optimization. In Proceedings of the International Conference on Mathematical Methods in Reliability, 2009.

|12] Хайкин С. Нейронные сети. Полный курс. ООО "И. Д. Вильяме", 2006.

[13] R. Dennis Cook and Liqiang Ni. Sufficient Dimension Reduction via Inverse Regression. Journal of the American Statistical Association, 100(470) :410-428, June 2005.

1141 R.D. Cook. SAVE: A method for dimension reduction and graphics in regression. Communications in statistics. Theory and methods, 29(9-10):2109-2121, 2000.

[15] Marquardt D. An algorithm for least-squares estimation of nonlinear parameters. SI AM J. Applied Mathematics, 1(2):431-441, 1963.

[16] S. Grihon J. Morlie D. Bettebghor, N. Bartoli. Surrogate modelling approximation using a mixture of experts based on em joint estimation. Structural and Multidisciplinary Optimization, 43(2):243, 2011.

[17] Spokoiny V. Dalalyan A. S., Juditsky A. A new algorithm for estimating the effective dimension reduction subspace. Journal of Machine Learning Research, 9:1647, 2008.

118] Dorioho D.L. Aide-Memoire. High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality. 2000.

[19] More J. Dolari E. D. Benchmarking optimization software with performance profiles. Math. Programming manuscript, 91(2):201—213, 2002.

[20] Ridella S. Drago G. P. Statistically controlled activation weight initialization (scawi). IEEE Trans. Neural Networks, 3(4):627-631, 1992.

|21] Helmbold D. Duffy N. Boosting methods for regression. Machine Learning, 47(2):153 - 200, 2002.

[22] Vivarelli F. and Williams C. K. Discovering hidden features with gaussian processes regression. In Advances in Neural Information Processing Systems 11, 1999.

[23] Keane A. Forrester A., Sobester A. Engineering Design via Surrogate Modelling. A Practical Guide. Wiley, 2008.

[24] Schapire R. Freund Y. A decision-theoretic generalization of on-line learning and an application to boosting. In Proc. Second Eur. Conf. Cornput. Learning Theory, 1995.

|25] J. Friedman. Multivariate adaptive regression splines. Annals of Statistics, 1(19):1, 1991.

[26| Burnaev E. Prikhodko P. Grihorr S., Alestra S. Surrogate modeling of buckling analysis in support of composite structure optimization. In Proceedings of the 1st International Conference on Composite Dynamics, 2012.

[27] Zhou Z. H. Ensemble Methods: Foundations and Algorithms. Boca Raton, FL: Chapman & Hall/CRC, 2012.

[28] C. Hametner and S. Jakubek. Neuro-fuzzy modelling using a logistic discriminant tree. In American Control Conference, 2007.

[29| Friedman J. Hastie T., Tibshirani R. The Elements of Statistical Learning: Data Mining, Inference and Prediction. NY: Springer, 2008.

[30] Friedman J. Hastie T., Tibshirani R. The elements of statistical learning: data mining, inference, and prediction. Springer, 2008.

[31 [ M. Hristache, A. Juditsky, J. Polzehl, and V. Spokoiny. Structure adaptive approach for dimension reduction. Annals of Statistics, 29(6): 1537-1566, 2001.

[32] Friedman J. Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5):1189 - 1232, 2001.

[33] M.I. Jordan. Hierarchical mixtures of experts and the erri algorithm. Neural Cornput., 6(2):181, 1994.

[34j Li K. Sliced inverse regression for dimension reduction. Journal of the American Statistical Association, 86(414):316—327, 1991.

[35] Burnaev E.V. Kuleshov A.P., Bernstein A.V. Adaptive models of complex systems based on data handling. Proceedings of the 3rd International Conference on Inductive Modelling, page 1, 2010.

[36| Breiman L. Bagging predictors. Machine Learning, 24(2):123 - 140, 1996.

[37] R. Olshen L. Breimari, J. Friedman and C. Stone. Classification and Regression Tree. Monterey, CA: Wadsworth and Brooks.

|38] Yehua Li and Tailen Hsing. Deciding the dimension of effective dimension reduction space for functional and high-dimensional data. Ann. Statist., 38(5):3028—3062, 2010.

[39] Sorners K. Peres-Neto P., Jackson D. How many principal components? stopping rules for determining the number of non-trivial axes revisited. Computational Statistics and Data Analysis, page 974, 2005.

[40| S. J. Nowlan R. A. Jacobs, M. I. Jordan and G. E. Hinton. Adaptive mixtures of local experts. Neural Cornput., 3(1):79, 1991.

|41| Williams C.K.I. Rasmussen C.E. Gaussian Processes for Machine Learning. MIT Press, 2006.

[42] P. Prikhodko et al. S. Grihon, E. Burnaev. Surrogate modeling of stability constraints for optimization of composite structures. In Surrogate-Based Modeling and Optimization Engineering applicaitons, 2012.

[43] Solomatine D. P. Shrestha D. L. Experiments with adaboosting.rt, an improved boosting scheme for regression. Neural Computation, 18(7): 1678 - 1710, 2006.

[44] Vinzia V.E. Chatelinc Y-M. Laurob C. Tenenhaus, M. Pis path modeling. Computational Statistics and Data Analysis, 48:3028-3062, 2005.

|45] Nakano R. Ueda N. Generalization error of ensemble estimators. In Proc. Int. Conf. on Neural Networks, 1996.

[46j Zhu Y. arid Zeng P. Fourier methods for estimating the central subspace and the central mean subspace in regression. Journal of the American Statistical Association, 101:1638, 2006.

[47] W. K. Li Yingcun Xia, Howell Tong and Li-Xing Zhu. An adaptive estimation of dimension reduction space. Journal of the Royal Statistical Society: Series В (Statistical Methodology), 64(3):363-410, 2002.

[48] S.E. Yuskel. Twenty years of mixture of experts. 2012.

[49] Ratsimalahelo Z. Strongly consistent determination of the rank of matrix. Econometrics, 2003.

[50] Tang W. Zhou Z., Wu J. Ensembling neural networks: Many could be better than all. Artificial Intelligence, 137(1):239-263, 2002.

|51] С. А. Гуз. А. А. Натан, О. Г. Горбачев. Основы теории случайных процессов. МЗ-Пресс.

[52] Любин А. Д. Беляев М. Г. Особенности оптимизационной задачи, возникающей при построении аппроксимации многомерной зависимости. In Тр. конф. "Информационные технологии и системы" (ИТиС'11), 2011.

[53] Михаильский А. И. Ванник В. Н. О поиске зависимостей методом упорядоченной минимизации риска. АиТ, 10:86-97, 1974.

[54| Червоненкис А. Я. Вапник В. Н. О методе упорядоченной минимизации риска. АиТ, 8, 9:21-31, 29-40, 1974.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.