Беспереборные методы кросс-валидации для оценивания обобщающей способности регрессионных моделей тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Черноусова, Елена Олеговна
- Специальность ВАК РФ05.13.17
- Количество страниц 87
Оглавление диссертации кандидат наук Черноусова, Елена Олеговна
Оглавление
Введение
1 Проблема численной реализации кросс-валидации при оценивании обобщающей способности регрессионных моделей
1.1 Проблема оценивания обобщающей способности регрессионных моделей
1.2 Классический информационный критерий Акаике
1.3 Методы кросс-валидации
1.4 Основные задачи исследования
2 Принцип неявной кросс-валидации
2.1 Основные предположения о неизвестной регрессионной модели данных
2.2 Мысленный эксперимент наблюдателя Критерий, основанный на идее неявной кросс-валидации
2.3 Критерий неявной кросс-валидации для общей линейной нормальной модели
2.3.1 Общая линейная нормальная модель
2.3.2 Свойства линейной нормальной модели
2.3.3 Критерий неявной кросс-валидации
2.3.4 Гауссовская модель данных с известным параметром дисперсии шума, как частный случай линейной нормальной модели
2.3.5 Связь принципа неявной кросс валидации с методом несмещенного оценивания риска (среднего значения квадрата отклонения истинного значения скрытой характеристики от оцененного)
2.3.6 Частный случай: Классический информационный критерий Акаике40
2.3.7 Гауссовская модель данных с неизвестным параметром дисперсии шума, как частный случай линейной нормальной модели
3 Частные виды квадратичной модели линейной регрессии и особенности применения метода неявной кросс-валидации для них
3.1 Критерий для линейной нормальной модели с требованием гладкости вектора коэффициентов
3.1.1 Регуляризация оценки регрессионной модели по гладкости вектора коэффициентов
3.1.2 Критерий неявной кросс-валидации
3.2 Критерий для модели линейной нестационарной регрессии
3.2.1 Модель линейной нестационарной регрессии
3.2.2 Критерий неявной кросс-валидации
3.2.3 Эксперименты
3.3 Линейная нестационарная регрессия с регуляризацией по критерию релевантности признаков
3.3.1 Гипер-априорная модель нестационарной регрессии
3.3.2 Критерий неявной кросс-валидации для коэффициентов нестационарной регрессии
3.4 Линейная нормальная модель с регуляризацией по методу релевантности признаков
3.4.1 Гипер-априорная модель данных
3.4.2 Критерий неявной кросс валидации для сложной гребневой регрессии
3.5 Неквадратичный выпуклый критерий оценивания коэффициентов в линеной регрессионной модели данных с квадратично-модульной регуляризацией
3.5.1 Две версии критерия оценивания коэффициентов регрессионной модели с квадратично-модульной регуляризацией: Elasic Net и Naïve Elasic Net
3.5.2 Нечисловой структурный параметр модели - оптимальное разбиение множества признаков
3.5.3 Принцип неявной кросс-валидации для линейной регрессионной зависимости с квадратично-модульной регуляризацией (полное подавление признаков)
3.5.4 Беспереборное вычисление скользящего контроля для линейной регрессионной зависимости с квадратично-модульной
регуляризацией (полное подавление признаков)
Заключение
Литература
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Выпуклые критерии и параллелизуемые алгоритмы селективного комбинирования разнородных представлений объектов в задачах восстановления зависимостей по эмпирическим данным2013 год, кандидат наук Разин, Николай Алексеевич
Методы обучения распознаванию образов в условиях нестационарности решающего правила2017 год, кандидат наук Турков Павел Анатольевич
Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах2014 год, кандидат наук Абрамов, Вадим Игоревич
Методы распознавания образов в массивах взаимосвязанных данных2001 год, доктор физико-математических наук Двоенко, Сергей Данилович
Байесовские методы опорных векторов для обучения распознаванию образов с управляемой селективностью отбора признаков2014 год, кандидат наук Татарчук, Александр Игоревич
Введение диссертации (часть автореферата) на тему «Беспереборные методы кросс-валидации для оценивания обобщающей способности регрессионных моделей»
Введение
Актуальность темы исследования и степень ее разработанности
Задача восстановления объективно существующей зависимости между наблюдаемыми свойствами объектов реального мира и их некоторой скрытой характеристикой, доступной для наблюдения лишь в пределах конечной обучающей совокупности, является центральной задачи интеллектуального анализа данных [1]. В частности, если скрытая характеристика принимает значения из конечного неупорядоченного множества, то такую задачу принято называть задачей обучения распознаванию образов, а в случае числовой скрытой характеристики говорят о задаче восстановления регрессионной зависимости. В диссертационной работе рассматривается именно последний случай.
Вероятностная интерпретация задачи обучения основана на предположении, что с каждым объектом из некоторого множества объектов реального мира, привлекающего внимание наблюдателя, объективно связаны значения двух его характеристик, одна из которых доступна для непосредственного наблюдения, а другая скрыта. В теории обучения обычно предполагается, что природа, случайным образом выбирая один объект, генерирует, тем самым, случайную пару значений его наблюдаемой и скрытой характеристик, причем соответствующее совместное распределение вероятностей объективно существует, но наблюдателю неизвестно. Наблюдатель всякий раз видит значение лишь наблюдаемой характеристики, в то время как природа требует, чтобы он «угадывал» значение скрытой характеристики объекта, штрафуя неправильное оценивание в соответствии с известной функцией потерь. Наблюдатель вынужден выработать решающее правило, связывающее с каждым наблюденным значением доступной характеристики объекта предполагаемое значение его скрытой характеристики. Как правило, на-
блюдатель формирует свое решающее правило на основе предположения о некотором параметрическом классе зависимостей, так что выбор наблюдателем конкретного решающего правила полностью задается выбором параметра. Естественной объективной оценкой «качества» решающего правила является математическое ожидание потерь, которое в теории обучения принято называть средним риском ошибки. Очевидно, что наблюдатель, выбирая вариант решающего правила, а именно значение параметра, не может вычислить средний риск ошибки, поскольку совместное распределение наблюдаемой и скрытой характеристик случайно появляющегося объекта ему неизвестно.
Единственную объективную информацию о свойствах природы, доступную наблюдателю, несет обучающая совокупность, под которой понимается конечное множество пар значений как наблюдаемой, так и скрытой характеристики объектов, случайно выбранных природой в соответствии с объективно существующим распределением вероятностей. Выбирая решающее правило, наблюдатель может лишь вычислить для всякого его варианта среднее арифметическое значение функции потерь, называемое эмпирическим риском ошибки. При выборе решающего правила общепринятым соображением, основанным на данных, является минимизация эмпирического риска в некотором классе решающих правил {variance minimization в англоязычной литературе).
Однако параметрический класс решающих правил, изначально принятый наблюдателем, может оказаться слишком широким для ограниченного объема обучающей совокупности, и средний риск ошибки результата обучения по критерию минимума эмпирического риска, может оказаться неприемлемо большим. Такое явление принято называть переобучением. Другим общепринятым соображением, направленным на уменьшение опасности переобучения, является использование априорной (регуляризующей) информации об «ожидаемом» решающем правиле восстановления зависимости. Другими словами, наблюдатель пытается сузить параметрический класс зависимостей, накладывая на параметр априорные регуляризирующие требования, в свою очередь контролируемые структурным параметром. Как правило, такие требование наблюдатель может формулировать в
виде системы расширяющихся (с увеличением значения структурного параметра) подмножеств. Тем самым, структурный параметр регуляризации можно рассматривать как степень сложности предполагаемой зависимости. Это дополнительное соображение при построении метода обучения касательно выбора решающего правила называется в англоязычной литературе bias, поскольку управляет «смещением» выбираемого решающего правила от выбранного на основе минимизации эмпирического риска.
В современной теории обучения эти два соображения объединяются в единый критерий обучения, получая тем самым регуляризованный критерий минимизации эмпирического риска. Естественно, что результат обучения - решающее правило, получаемое в качестве решения задачи условной минимизации, зависит от структурного параметра, отвечающего за сложность, предполагаемой априори наблюдателем, зависимости между ненаблюдаемой и наблюдаемой компонентами объекта.
Очевидным показателем «качества» выбора структурных параметров и, следовательно, получаемого решающего правила, является средний риск ошибки оценивания скрытой характеристики нового случайного объекта, не входящего в обучающую совокупность. Однако, вычисление среднего риска принципиально невозможно, поскольку наблюдателю неизвестно совместное распределение вероятностей на множестве пар значений наблюдаемой и скрытой характеристик объектов в генеральной совокупности. В качестве общепринятого компромисса на практике обычно заменяют критерий минимума среднего риска ошибки при выборе структурного параметра на его суррогат, вычисленный путем кросс-валидации единственной обучающей совокупности, доступной наблюдателю. Метод кросс-валидации заключается в том, что обучающая совокупность многократно разбивается на две части, по одной из которых определяется решающее правило для каждого пробного значения структурного параметра, а по другой оценивается среднее значение ошибки.
Проблемная ситуация заключается в том, что методы кросс-валидации требуют многократного повторения обучения при разных разбиениях обучающей со-
вокупности, что определяет их чрезвычайно высокую вычислительную сложность. Наиболее популярным видом кросс-валидации является метод скользящего контроля, заключающийся в выделении поочередно одного объекта в качестве контрольного и обучения по оставшимся объектам (leave-one-out cross-validation в англоязычной терминологии). При этом число повторений обучения равно числу объектов в обучающей совокупности.
Для разрешения этой проблемной ситуации в диссертации предлагаются два метода, имеющие разные области применимости.
Первый метод (по порядку изложения, а не по предпочтительности) основан на некотором предположении наблюдателя о возможном параметрическом классе совместных распределений наблюдаемой и скрытой характеристик случайно появляющегося объекта, и назван в диссертации методом неявной кросс-валидации. Метод основан на мысленном эксперименте, заключающемся в получении трех независимых выборок, по первой из которых находится решающее правило как по обучающей совокупности, по второй оцениваются некоторые параметры предполагаемого совместного распределения двух характеристик случайного объекта, а на третьей измеряется эмпирический риск ошибки восстановления скрытой характеристики объекта. В качестве критерия выбора значений структурных параметров предлагается использовать математическое ожидание эмпирического риска ошибки. Выделен класс совместных распределений наблюдаемой и скрытой характеристик случайного объекта, для которых несмещенная оценка этого математического ожидания выражается через элементарные функции. Показано, что частным случаем такого критерия выбора структурных параметров при некоторых специальных предположениях о модели данных является известный информационный критерий Акаике.
Второй метод использует вычислительную простоту использования критерия скользящего контроля в случае, когда штраф за неправильное оценивание ненаблюдаемой характеристики объекта (потери наблюдателя) является квадратичным, а решающее правило является линейной функцией от вектора из ненаблюдаемых характеристик объектов, представленных в обучающей совокупности.
При выполнении перечисленных выше ограничений ошибка предсказания (значение функции потерь) на выделенном в качестве контроля объекте с использованием оценки решающего правила, построенной по сокращенной обучающей совокупности (без контрольного объекта), выражается через значение функции потерь для этого объекта, но с использованием оценки решающего правила, полученной по полной обучающей совокупности. Таким образом, в таком случае результат применения метода скользящего контроля для оценивания обобщающей способности выбранной модели зависимости явно выражается через результат обучения по исходной обучающей выборки, а значит и не требует выполнения полного перебора возможных контрольных объектов и обучения на всех соответствующих сокращенных выборках. Однако иногда эти требования являются ограничительными, а значит, применение процедуры скользящего контроля для оценивания качества выбранной регрессионной зависимости не является больше беспереборной и требует честного выполнения всех шагов, равных числу объектов в обучении. В частности, в работе рассматривается задача оценивания линейной регрессионной модели с квадратично-модульной регуляризацией и квадратичной функцией потерь. Решающее правило наблюдателя теперь характеризуется двумя параметрами, отвечающими за квадратичную и модульную регуляризацию. Для оценивания адекватности выбранной пары структурных параметров (обобщающей способности выбранной регрессионной модели) использование метода скользящего контроля приводит к его честному переборному варианту, что естественно сопряжено с большими вычислительными сложностями.
Предложенный метод основан на характеристическом свойстве решающих правил (то есть вектора коэффициентов регрессии), полученных согласно критерию с квадратично-модульной регуляризацией - разбиению множества признаков на три непересекающихся подмножества, полученных с учетом знака и обнуления коэффициента при соответствующем признаке в модели регрессии. В качестве вторичного нечислового структурного параметра модели предлагается использовать именно такое разбиение, полученное согласно решению задачи обучения. Важно, что при фиксации введенного структурного параметра критерий обучения
(в исходном варианте не являющийся квадратичным, а только выпуклым) является квадратичным по активным (ненулевым) коэффициентам регрессии, а значит процедура скользящего контроля для оценивания обобщающей способности регрессионной модели, характеризуемой нечисловым структурным параметром (разбиением множества признаков) становится беспереборной.
Цели и задачи диссертации
1. Разработка критерия выбора структурного параметра, характеризующего сложность регрессионной модели, на основе принципа неявной кросс-валидации. Показано, что частным случаем такого критерия выбора структурных параметров при некоторых специальных предположениях о модели данных является известный информационный критерий Акаике.
2. Разработка беспереборного метода скользящего контроля для задачи оценивания линейной регрессионной модели с квадратично-модульной регуляризацией.
3. Экспериментальная проверка полученных методов беспереборной кросс-валидации.
Научная новизна
В работе предложены два метода оценивания обобщающей способности регрессионных моделей, отличающихся областью применимости. Оба метода являются альтернативами классическим способам оценивания обобщающей способности, основанным на принципе кросс-валидации.
Положения, выносимые на защиту
1. Принцип неявной кросс-валидации для оценивания обобщающей способности линейно-квадратичных моделей числовых зависимостей.
2. Исследование природы классического информационного критерия Акаике как простейшего частного случая критерия неявной кросс-валидации.
3. Критерий неявной кросс-валидации для выбора степени волатильности модели нестационарной регрессии.
4. Критерий неявной кросс-валидации для выбора степени подавления нерелевантных регрессоров влинейно-квадратичной модели числовой регрессии.
5. Критерий неявной кросс-валидации для выбора уровня селективности формирования подмножества релевантных регрессоров в квадратично-модульной модели Elastic Net.
Достоверность полученных результатов
подтверждается доказательствами сформулированных теорем и проверкой полученных результатов на модельных экспериментах и на реальных данных.
Практическая ценность
результатов диссертации заключается в том, что предложенные беспереборные методы кросс-валидации для оценивания обобщающей способности регрессионных моделей являются вычислительно эффективными в сравнении с классическими методами кросс-валидации, основанными на многократном повторении процедуры обучения и контроля качества решающего правила, полученного на этапе обучения, на различных разбиениях исходной выборки.
Связь с плановыми научными исследованиями
Работа выполнена при поддержке грантов Российского фонда фундаментальных исследований №№ 11-07-00409-а, 11-07-00634-а, 12-07-13142-офи-м.
Апробация работы
Основные положения и результаты диссертации докладывались на конференциях: «Интеллектуализация обработки информации ИОИ-2010» (Республика Кипр, г. Пафос, 2010 г.), «Интеллектуализация обработки информации ИОИ -2012» (Черногория, г. Будва, 2012 г.), «Математические методы распознавания образов ММРО - 2009» (г. Суздаль, 2009 г.), «Математические методы распознавания образов ММРО - 2013» (г. Казань, 2013).
Публикации
По тематике работы опубликовано 8 статей, в том числе 2 статьи в журналах, рекомендованных ВАК.
Структура и объем работы.
Диссертация состоит из введения, 3 глав основного содержания, заключения и библиографии. Работа содержит 87 страниц основного текста.
1 Проблема численной реализации кросс-валидации при оценивании обобщающей способности регрессионных моделей
1.1 Проблема оценивания обобщающей способности регрессионных
моделей
Проблема восстановления зависимостей по эмпирическим (экспериментальным, статистическим) данным стала весьма актуальной в очень широком круге приложений. Методы решения этой задачи известны под названием «методы машинного обучения» (Machine Learning). Сюда входят методы построения регрессионных зависимостей, решения обратных задач математической физики и статистики, методы машинного обучения распознаванию образов (как зрительных, так и абстрактных - представленных набором признаков) и многие другие.
Общая классическая постановка задачи восстановления зависимостей у объектов произвольной природы по эмпирическим данным основывается на следующих центральных понятиях:
- гипотетическое множество (генеральная совокупность) Q объектов реального мира cog q;
- наблюдаемая характеристика объектов реального мира х(со): Q —> X;
- скрытая, подлежащая оцениванию, характеристика объектов реального мира ^(со): Q —» Y.
В качестве объектов реального мира могут выступать изображения, тексты, подписи, сигналы и т.д. Для хранения и компьютерного анализа объектов произвольной природы требуется их числовое описание. Поэтому, как правило, X с Е", то есть наблюдаемая характеристика есть не что иное, как числовой вектор признаков объекта. По тем же соображения можно условиться, что Ycl, и
тогда в действительности имеет смысл говорить о задаче оценивания числовых зависимостей. Если ¥ - конечное подмножество натуральных чисел, то в теории машинного обучения такие задачи называются задачами распознавания или классификации (т.е. ненаблюдаемая компонента объекта является номером класса). Проблемы оценивания регрессионной зависимости оперируют с действительными числами в качестве ненаблюдаемых характеристик объектов У=М. В диссертационной работе рассматривается задача оценивания регрессионных моделей.
Итак, пусть имеется некоторое множество объектов реального мира О, привлекающее внимание наблюдателя. Пусть с каждым объектом со е связаны значения двух его характеристик х(со): £2 —> X и .у(со): —» ¥, первая из которых доступна для непосредственного наблюдения, а наблюдение второй невозможно, либо, по крайней мере, затруднено. Предположим, что природа случайным образом многократно и независимо выбирает один объект из множества , генерируя, тем самым, пару значений
сое £2: (х,у) = (х(ш), у(со)), хе X, (1)
согласно неизвестной наблюдателю «истинной» совместной плотности распределения /*(х,.у)>0:Хх¥^1К, Ц/*(х,у)фс/х = 1.
X У
Всякий раз наблюдатель видит значение первой характеристики хе X, в то время как значение второй уе ¥ недоступно для наблюдателя, хотя объективно определено. Задача наблюдателя заключается в угадывании значения ненаблюдаемой характеристики объекта у е ¥. Другими словами, наблюдатель хочет найти зависимость (объективно существующую, но ему неизвестную) между наблюдаемой и ненаблюдаемой характеристиками объекта ;)(х):Х—>¥, так чтобы предсказанное значение у(х) как можно лучше аппроксимировало фактическое значение у, соответствующее наблюдаемой компоненте х. Природа искомой зависимости может быть различной. Например, в одних случаях связь между ненаблюдаемой и наблюдаемой компонентами является детерминированной, но наблюдения искажены мультипликативным или аддитивным шумом, независящим
или зависящим от компонент объекта. Возможно и так, что сама связь по своей природе оказывается стохастической. Как правило в задачах регрессионного анализа, предполагается что между скрытой характеристикой-объекта и наблюдаемой существует функциональная зависимость, искаженная шумом на обучающем множестве.
В качестве меры качества аппроксимации наблюдатель предполагает некоторую действительнозначную (чаще всего неотрицательную) функцию потерь ¥хУ —» (как правило, такую что ЬоБ8{у,у) = 0). Тогда желание
наблюдателя заключается в выборе решающего правила, минимизирующего потери.
Предполагается, что наблюдатель формирует свое решающее правило на основе предположения о некотором параметрическом классе зависимостей: у(х, а): X —» У , а е А, так что выбор оценки ненаблюдаемой компоненты полностью определяется выбором параметра а, а функция потерь Ьо88^у,у{х)) есть функция от трех переменных д(у,х,а) = Ьо88^у,у{х,а)). Как правило, предполагается, что параметр а является числовым вектором, но в целом его природа может быть произвольной. Не уменьшая общности, в работе предполагается, что АсМ",
Тогда желание наблюдателя минимизировать средние потери оценивания скрытой характеристики (риск ошибки решающего правила) формулируется в виде следующей задачи оптимизации:
гау О) = гт [Я-, а)] = 1/д(х,у, а)/* (х, , (2)
XV
гт(я)-»шш(аеГ). (3)
Понятно, что такой выбор принципиально невозможен, поскольку неизвестно «истинное» распределение /*(х,у).
Единственную объективную информацию о свойствах природы, доступную наблюдателю, несет конечное множество пар {(*/>>;) = (^Ой/Х.У^)), У = в котором наблюдателю доступны обе характеристики объектов, как наблюдае-
мая, так и ненаблюдаемая. Это множество принято называть множеством прецедентов или обучающей совокупностью.
Обучающая совокупность и есть тот массив данных, который подлежит анализу с целью формирования некоторого «наилучшего» решающего правила оценивания у(х,а), т.е. модели зависимости ненаблюдаемой характеристики объекта от его наблюдаемой характеристики.
Взамен минимизации функции риска (3) наблюдатель может организовать обучение, т.е. выбор параметра решающего правила оценивания скрытой характеристики объекта, на основе минимизации эмпирического риска ошибки построенного по обучающей совокупности:
1 м 1 гетр (а) = Л X 0 = — У, а),
7=1 (4)
N 4 у
Гетр (а) т1п(а € )> еСЛИ X > У] ' а) Ш1п(а 6 )
7=1
Если предполагаемый параметрический класс зависимостей у(х, а): X —> ¥ (а е А) достаточно широк, то наблюдатель сможет достаточно хорошо аппроксимировать зависимость на обучающей совокупности. Однако, в силу конечности обучающей совокупности выбранная зависимость может хорошо описывать регрессионную модель в рамках имеющейся у наблюдателя выборки, но быть неадекватной на генеральной совокупности. Чтобы избежать этой проблемы, наблюдатель пытается сузить параметрический класс зависимостей, накладывая на параметр ае Ах априорные регуляризирующие требования, в свою очередь контролируемые структурным параметром Хе [^т1п;^тах], так что Ах с Ах, для Х<Х\
Тем самым наблюдатель выбирает семейство вложенных подмножеств допустимых значений вектора параметров, задающего регрессионную зависимость компонент объектов.
В качестве примеров выбора регуляризирующих требований наблюдателя можно привести следующие семейства вложенных подмножеств допустимых значений параметра а, приводящие задачу обучения к классическим постановкам теории условной оптимизации.
1) Пусть Ах ={ае R" :а = (а,---ох0"-0)} = ]ае R" : £ a) = о[, XeN. Дру-
1 i=\+1 J
гими словами, наблюдаемая характеристика объекта представлена совокупностью из п упорядоченных «по степени своей значимости» признаков; оценка скрытой характеристики объекта ищется как функция только первых X значимых признаков. Ясно, что выбор адекватного значения наибольшего номера «релевантного» признака (признаки с большим номером, но с «меньшей значимостью» будут отброшены), способствует успеху оценивания скрытой характеристики объекта.
2) Семейство ограничений Ах =i?2(A,) = {ae R" ^аЦ^ <Ä,j на выбор параметра решающего правила приводит к классическому методу регуляризации по методу Тихонова,
3) Ак = В] (к) - ja g R" : ЦаЦ, < - к регуляризации типа Лассо,
4) Ах = BQ(k) = jae R" : ||а||0 = *о} - ^ j _ к Регуляризации с требованием на «разреженность» вектора параметров (в англоязычной литературе «sparse vector» или BIC-метод),
5) A(VX2)=5l(^)n52(^2)={aGR'I:||a||i<^,||a||2<^2} - к квадратично-
модульной регуляризации (в англоязычной литературе имеющей название «Elastic Net»),
Теперь выбор параметра решающего правила осуществляется с помощью регуляризованного критерия минимизации эмпирического риска:
N
Гетр (а) = 0(Х>У> а) = X > Уj»а) -> min(a)
У=1
ае А^
(5)
ах (х, у) = arg min Q(x, у, а)
аеАх
В работе предлагается накладывать регуляризующие требования в терминах минимизации терминах минимизации некоторого функционала
V(a,X) —> min(a),
здесь ^скалярный или векторный структурный параметр, контролирующий нежелательность отклонения параметра ае М", т.е. решающего правила у(х,а), от
некоторого подмножества наиболее «простых» правил А е R".
Итоговое компромиссное решение для выбора вектора параметров а решающего правила осуществляется с помощью критерия минимизации регуляризован-ного эмпирического риска
кх (х, у) = arg min {ß(x, у, а) + V(a, А,)} .
а
Выбор адекватного значения структурного параметра, отвечающего за степень регуляризации параметрического класса зависимостей у(х, а): X —> Y, а значит и за сложность модели, описывающей искомую зависимость, является одной из ключевых задач машинного обучения.
Действительно, если рассмотреть «наибольшее» по включению регуляри-зующее множество А^ или «наименее регуляризующее» априорное требование
F(a,A/) = const, ае М", то процедуры машинного обучения, как правило, стремятся подобрать параметрическую зависимость у(х,а), которая «слишком хорошо» сопоставляет наблюдаемую и скрытую характеристики для объектов из обучающей совокупности, но оказывается неадекватной для произвольных объектов генеральной совокупности. В литературе такое явление получило термин «переобучения» (overfitting).
И напротив, выбор «наименьшего» регуляризующего множества А^ или
«сильного регуляризующего» априорного требования V(a,X") ~ 0, ai Ае R"приводит к проблеме «недообучения» (underfitting), когда регрессионная модель слишком проста и не подходит для описания эмпирических данных.
Итак, проблема выбора структурного параметра, или иначе выбора модели (в англоязычной литературе «the problem of model selcetion») регрессионной зависимости, адекватно описывающей связь между компонентами объектов генеральной совокупности, является одной из основных задач теории машинного обуче-
ния. Проблема заключается в том, что у наблюдателя имеется в распоряжении единственная совокупность объектов, которая в силу своей конечности не может содержать в себе всю информацию о генеральной совокупности (проблема проклятия единственной выборки).
В теории машинного обучения литература на тему выбора модели достаточно обширна. В частности, на практике для оценки обобщающей способности класса моделей (характеризующихся структурным параметром) и последующим выборе «наилучшей» (выбором структурного параметра) обычно применяются методы кросс-валидации, основанные на эвристических соображениях: как по одной единственно доступной наблюдателю выборке оценить обобщающую способность предполагаемой модели, (то есть адекватность выбранной зависимости на генеральной совокупности объектов), а затем выбрать значение структурного параметра (характеризующего решающее правило наблюдателя, выбранную им зависимость между скрытой и наблюдаемой компонентами объекта), доставляющее наилучшую обобщающую способность. Методы кросс-валидации резервируют часть исходной выборки для обучения алгоритма, а оставшуюся часть используют для контроля качества. Выполняя некоторое достаточно большое количество независимых разбиений исходной выборки на обучение и контроль, в качестве оценки обобщающей способности модели предлагается брать среднее арифметическое значение качества контроля, вычисленных на каждом этапе разбиения. Основным обоснованием эвристики, лежащей в основе методов перекрестной проверки, является закон больших чисел, утверждающей сходимость среднеарифметического значения к математическому ожиданию - то есть методы перекрестной проверки дают несмещенную оценку качества модели. Однако дисперсия отклонения от математического ожидания, то есть от истинного качества модели, может быть и большой, так что в целом выбор структурных параметров по принципу перекрестной проверки достаточно случаен. Несмотря на это такие методы широко используются в машинном обучении. Нетрудно заметить, что, тем не менее, такие способы оценивания обощающей способности построенных моделей чрезвычайно вычислительно трудоемки.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы оптимизации и оценивания параметров в многомерных задачах с произвольными помехами2020 год, кандидат наук Сенов Александр Алексеевич
Марковские модели и методы распознавания образов в сигналах с изменяющимися вероятностными свойствами1993 год, доктор технических наук Моттль, Вадим Вячеславович
Методы минимаксного оценивания в многомерных линейных моделях наблюдения при наличии геометрических ограничений на моментные характеристики2010 год, доктор физико-математических наук Семенихин, Константин Владимирович
Разработка и обоснование методов параллельного покоординатного спуска для обуения обобщенных линейных моделей с регуляризацией2019 год, кандидат наук Трофимов Илья Егорович
Улучшенное оценивание параметров регрессии с импульсными помехами2012 год, кандидат физико-математических наук Пчелинцев, Евгений Анатольевич
Список литературы диссертационного исследования кандидат наук Черноусова, Елена Олеговна, 2013 год
Литература
[1] Вапник В. Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука. - 1979.
[2] Tikhonov, A.N. and Arsenin, V. A. Solution of Ill-posed Problems. // Preface by translation editor Fritz John. Scripta Series in Mathematics. V. H. Winston & Sons, Washington, D.C.: John Wiley & Sons, NewYork .- 1977.
[3] Akaike, H. Information theory and an extension of the maximum likelihood principle. // Proc. 2nd Intern. Symp. Inf. Theory, Petrov P.N. and Csaki F. eds. Budapest. - 1973. - P. 267281.
[4] Takeuchi, К Distribution information statistics and a criterion for model fitting // Math-ematic Sciences. - 1976. - V. 153.-P. 12-8.
[5] Schwarz, G Estimating the dimension of a model. // Annals of Statistics. - 1978. - V. 6. -P. 461-464.
[6] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection // 14th International Joint Conference on Artificial Intelligence, Palais de Congres Montreal, Quebec, Canada. - 1995. - P. 1137-1145.
http://citeseer.ist.psu.edu/kohavi95study.html.
[7] Вапник В. H. Восстановление зависимостей по эмпирическим данным. - М.: Наука. - 1979.
[8] Akaike Н. A new look at the statistical model identification // IEEE Trans, on Automatic Control. - 1974. - V. 19. - no. 6. - P. 716-723.
[9] Kitagawa G., Akaike H. A procedure for the modeling of no-stationary time series. // Ann. Inst. Statist. Math. - 1987,- V. 30. - Part B. - P. 351-363.
[10] Bozdogan H. Model selection and Akaik's Information Criterion (AIC): The general theory ands its analytical extensions. // Psychometrica. - 1987. - V. 52. - no. 3. - P. 342-352.
[11] Spiegelhalter D., Best N., Carlin B. Van der Linde A. Bayesian mesures of model complexity and fit. // Journal of the Royal Statistical Society. Series B (Statistical Methodology). -2002. - V. 64. - no.4. - P. 583-639.
[12] Rodrigues C. C. The ABC of model selection: AIC, BIC and new CIC. // AIP Conference Proceedings. - 2005. - V. 803. - no. 23. - P. 80-87.
[13] Markov M., Krasotcina O., Mottl V., Muchnik I. Time-varying regression model with unknown time-volatility for nonstationary signal analyses. // Proceedings of the 8th IASTED International Conference on Signal and Image Processing. Honolulu, Hawaii, USA. - 2006. -August 14-16, 2006.
[14] R. Tibshirani. Regression shrinkage and selection via the lasso. // Journal of the Royal Statistical Society, Series B. - 1996. - V. 58. - no. 96. - P. 267-288.
[15] B. Efron, T. Hastie, I, Johnstone, R. Least angle regression. // The Annals of Statistics. -2004.-V. 32.-P. 407-499.
[16] H. Zou, T. Hastie. Regularization and variable selection via the elastic net. // Journal of the Royal Statistical Society, Series B. - 2005. - V. 67. - Part 2. - P. 301-320.
[17] R. Christensen. Plane Answers to Complex Questions. The Theory of Linear Models. Third Edition. Springer Verlag. New York, Inc. - 2010.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.