Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Смирнов, Павел Олегович
- Специальность ВАК РФ05.13.18
- Количество страниц 182
Оглавление диссертации кандидат наук Смирнов, Павел Олегович
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
Общая характеристика работы
ГЛАВА 1. РОБАСТНЫЕ ВЫСОКОЭФФЕКТИВНЫЕ ОЦЕНКИ
МАСШТАБА
1.1 Оценивание параметра масштаба в параметрической статистике
1.1.1 Основные определения
1.1.2 Метод моментов
1.1.3 Метод квантилей
1.1.4 Метод максимального правдоподобия
1.2 Робастные подходы к оцениванию масштаба распределений
1.2.1 Основные определения
1.2.2 Медиана абсолютных отклонений МАБп
1.2.3 Квартиль абсолютных разностей
1.2.4 Класс М-оценок параметра масштаба
1.3 Новые оценки масштаба МС£п и
1.3.1 Построение новой М-оценки
1.3.2 Одношаговый алгоритм оценивания
1.3.3 Пороговые точки предложенных оценок
1.3.4 Функции влияния
1.3.5 Асимптотическая дисперсия и эффективность
1.3.6 Поведение оценок на распределении Коши
1.3.7 Оценка параметра масштаба для распределения Коши
1.4 Имитационное моделирование методом Монте-Карло
1.4.1 Предварительные соображения
1.4.2 Оценивание числа повторений эксперимента
1.4.3 Оценивание параметра масштаба нормального распределения
1.4.4 Оценивание параметра масштаба в модели больших ошибок Тьюки
1.4.5 Оценивание масштаба распределения Коши
1.5 Выводы
ГЛАВА 2. РОБАСТНЫЕ ВЫСОКОЭФФЕКТИВНЫЕ ОЦЕНКИ
КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
2.1 Оценивание коэффициента корреляции в классической статистике
2.1.1 Выборочный коэффициент корреляции Пирсона
2.1.2 Оценка максимального правдоподобия
2.2 Робастные аналоги коэффициента корреляции
2.2.1 Квадрантный коэффициент корреляции
2.2.2 Коэффициент ранговой корреляции Кендалла
2.2.3 Коэффициент ранговой корреляции Спирмена
2.2.4 Комедианный коэффициент корреляции
2.3 Альтернативные подходы к оцениванию коэффициента корреляции
2.3.1 Оценивание коэффициента корреляции через регрессию
2.3.2 Оценивание коэффициента корреляции через оценки масштаба
2.4 Класс распределений в независимых компонентах
2.4.1 Определение
2.4.2 Естественная оценка коэффициента корреляции
2.4.3 Асимптотические смещение и дисперсия
2.4.4 Оценка максимального правдоподобия и М-оценки
2.4.5 Минимаксное асимптотическое смещение и дисперсия
2.5 Робастное оценивание корреляционных и ковариационных матриц
2.5.1 Классическая оценка корреляционной матрицы
2.5.2 Попарные корреляции
2.5.3 Эллипсоид минимального объема
2.5.4 Минимальный определитель ковариационной матрицы
2.5.5 Класс распределений в независимых компонентах
2.6 Методы коррекции псевдокорреляционных матриц
2.6.1 Общие соображения
2.6.2 Исправление собственных чисел корреляционной матрицы
2.6.3 Исправление элементов корреляционной матрицы
2.6.4 Поиск ближайшей корреляционной матрицы
2.7 Имитационное моделирование методом Монте-Карло
2.7.1 Оценивание коэффициента корреляции нормального распределения
2.7.2 Оценивание коэффициента корреляции в модели больших ошибок Тьюки
2.8 Выводы
ГЛАВА 3. ПРИЛОЖЕНИЯ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ В СТАТИСТИКЕ МНОГОМЕРНЫХ ДАННЫХ И ВРЕМЕННЫХ РЯДОВ
3.1 Применение в теории временных рядов
3.1.1 Робастные оценки автоковариационной функции
3.1.2 Робастные непараметрические оценки спектральной плотности мощности^
3.1.3 Робастные оценки спектральной плотности процесса
авторегрессии
3.2 Применение в разведочном анализе
3.2.1 Новые варианты боксплотов
3.3 Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
СПИСОК ИЛЛЮСТРАЦИЙ
СПИСОК ТАБЛИЦ
ПРИЛОЖЕНИЕ А. РАСПЕЧАТКИ ПРОГРАММ
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация1999 год, кандидат технических наук Хватова, Татьяна Юрьевна
Робастные оценки параметров на основе взвешенного метода максимального правдоподобия2016 год, кандидат наук Черепанов Олег Сергеевич
Асимптотическая теория устойчивого оценивания2002 год, доктор технических наук Шурыгин, Александр Михайлович
Алгоритмы оценивания параметров регрессионных моделей и планирования эксперимента при наличии выбросов и неоднородности распределения ошибок2013 год, кандидат технических наук Хайленко, Екатерина Алексеевна
Робастное и непараметрическое оценивание характеристик случайных последовательностей2009 год, доктор физико-математических наук Китаева, Анна Владимировна
Введение диссертации (часть автореферата) на тему «Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба»
ВВЕДЕНИЕ
Общая характеристика работы
Актуальность темы исследования. При исследовании закона распределения одномерных случайных величин по результатам наблюдений основное внимание уделяется описанию таких двух главных характеристик как его мера положения (некоторое типичное значение) и мера разброса значений вокруг этой центральной точки. Так, широко использующийся нормальный закон распределения случайных величин полностью характеризуется первыми двумя моментами — математическим ожиданием (положением) и дисперсией (масштабом), и для их оценки в классической статистике чаще всего используются выборочные аналоги: среднее арифметическое и среднеквадратичное отклонение.
При наличии нескольких случайных величин или одной многомерной величины встаёт вопрос о взаимосвязи составляющих этой системы. Мерой их линейной зависимости является коэффициент корреляции или, в случае размерности больше двух, корреляционная матрица, которая наряду с математическим ожиданием и дисперсией полностью описывает нормально распределённые случайные величины.
Тем не менее, любые модели лишь приближённо описывают реальные явления, и на практике мы сталкиваемся с различными отклонениями от них. В силу этого, использование классических параметрических моделей распределений для оценивания их параметров не всегда оправдано, может привести к некорректным результатам, и, соответственно, поставить под сомнение "обоснованность применения связанных с ними процедур. Возникшая на смену классическим моделям непараметрическая статистика [126], отказавшись от всяких предположений о конкретном виде закона распреде-
ления случайных величин, позволила находить приемлемое решение части задач по сравнению законов распределения и некоторых их производных характеристик. В то же время, полное игнорирование параметрических моделей приводит к большой потере информации о форме распределения.
Компромиссное решение предложила робастная статистика, возникшая в середине XX века. Сам термин «робастный» («грубый, сильный, крепкий») ввёл Дж. Бокс в 1953 году [41], но систематическое развитие она получила с работы Дж. Тьюки [123], исследующей модели загрязнения распределений. Полноценный теоретический подход к робастности в статистике был предложен Дж. П. Хьюбером в 1964 году [72], и получил широкую известность в 1981 году с выходом книги, посвящённой минимаксным методам поиска оценок, оптимальных в окрестности предполагаемого распределения. Альтернативный подход через функции влияния был предложен Ф. Хампелем в диссертации в 1968 году и рассмотрен более подробно в книге 1986 года [15].
Основная идея робастности — это построение статистических процедур, устойчивых к возможным отклонениям от принятых вероятностных моделей распределений данных. Подходы Хьюбера и Хампеля отличаются различным выбором используемых мер устойчивости рассматриваемых робастных оценок, но, несмотря на эти различия, как правило, «хорошие» робастные оценки в смысле Хьюбера практически близки «хорошим» ро-бастным оценками в смысле Хампеля, а иногда они и совпадают [15, 25].
В нашей стране теория устойчивых статистических методов также активно развивается, одной из первых вех была вышедшая в 1931 году статья А. Н. Колмогорова «Метод медианы в теории ошибок» [10], подробно рассматривающая преимущества медианы перед средним арифметическим в том случае, если «гипотеза нормального распределения не удовлетворяет фактам». Изучение и дальнейшая разработка вероятностно-статистических
методов, их внедрение в научную, инженерную и медицинскую практику было одной из задач, поставленных перед Межфакультетской («колмого-ровской») лабораторией статистических методов при кафедре теории вероятностей МГУ. Похожие на хьюберовские оценки параметров многомерных распределений, при которых занижается вклад выдающихся значений на периферии, рассматривал Л. Д. Мешалкин [1, 89], предложивший в 1970 году экспоненциальное взвешивание наблюдений. Этот подход и связанные с ним результаты развил А. М. Шурыгин [32, 33], исследуя применимость методов классической статистики и теории вероятностей к решению реальных задач геофизики.
Значительный вклад в теорию робастного (учитывающего фактор неопределённости) управления внёс Я. 3. Цыпкин [26, 27], с 1956 года и до своей кончины в 1997 году заведующий лабораторией №7 Института автоматики и телемеханики (в настоящее время — лаборатория адаптивных и робастных систем им. Я. 3. Цыпкина Института проблем управления РАН). За цикл работ «Робастность в задачах оценивания, оптимизации и устойчивости» Я. 3. Цыпкин и Б. Т. Поляк [12-14] были награждены премией А. А. Андронова.
Научная школа непараметрической и робастной статистики была создана в Томске Ф. П. Тарасенко [17], первоочередное внимание в которой уделялось непараметрическим методам. Характерной особенностью томской группы статистиков является последовательное использование функционального представления статистических процедур, при которой статистики порождаются путем подстановки различных оценок распределений в характеристический функционал рассматриваемой задачи [18]. Много усилий на обобщение и развитие именно робастных статистических процедур направил В. П. Шуленин, в 1993 году опубликовавший монографию по робастной статистике [28], и совсем недавно, в 2012 году, выпустивший учебное
пособие в трёх томах [29-31], посвящённых отдельно достижениям в параметрической, непараметрической и робастной статистике.
Ю. С. Харин в связи с организацией кафедры теории вероятностей и математической статистики был приглашён в Минск, где впоследствии занял пост заведующего новой кафедрой математического моделирования и анализа данных Белорусского государственного университета и директора НИИ прикладных проблем математики и информатики БГУ. Тематика научных интересов основанной им кафедры связана с разработкой математических моделей, методов, алгоритмов и программных средств робастного распознавания и анализа стохастических данных для компьютерных систем защиты информации и информационных технологий [21-24].
В связи с развитием теории ошибок измерений, изучения случайных ошибок и грубых промахов, возникших в ходе эксперимента, наиболее полно исследованным оказалось робастное оценивание параметра положения распределений случайных величин. В чуть менее разработанной области робастного оценивания параметра масштаба, а тем более, коэффициента корреляции двух зависимых случайных величин остаётся ещё потенциал для исследования с точки зрения увеличения эффективности алгоритмов оценивания (уменьшения разброса значений вычисленных по выборкам оценок).
Внедрение и практическое использование предлагаемых новых ро-бастных методов оценивания параметра масштаба и корреляционных характеристик данных предполагает разработку программно-алгоритмического комплекса, их реализующего.
Цель работы. Целью настоящей диссертационной работы является разработка комплекса новых методов, алгоритмов и программ робастного оценивания корреляционных характеристик данных, обладающих высокой устой-
чивостью к загрязнениям данных и другим отклонениям от предполагаемой параметрической модели при сохранении высокой асимптотической эффективности.
Задачи исследования.
1. Изучить различные робастные методы оценивания коэффициента корреляции и корреляционных матриц, включая оценки, основанные на оценках масштаба.
2. Исследовать поведение асимптотического смещения и дисперсии оценок коэффициента корреляции, определённых через оценки масштаба, на семействе распределений в независимых компонентах (которое включает в себя двумерное нормальное распределение).
3. Построить оценки максимального правдоподобия для коэффициента корреляции семейства распределений в независимых компонентах.
4. Предложить быструю высокоэффективную оценку параметра масштаба для использования при оценивании коэффициента корреляции и связанных с ним величин.
5. Исследовать применение предложенных оценок параметра масштаба и коэффициента корреляции в других статистических методах (многомерном статистическом анализе, теории временных рядов).
Научная новизна. В диссертационной работе получены и обоснованы следующие новые результаты, выносимые на защиту:
1. Разработаны робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба.
2. Предложено параметрическое семейство новых робастных М-оценок масштаба с абсолютной асимптотической эффективностью на нормальном распределении от 80 до 95%, максимально возможной пороговой точкой 50% и асимптотически линейным ростом времени работы алгоритма 0{п) при увеличении размера выборки п.
3. Исследовано применение оценок масштаба для оценивания коэффициента корреляции и корреляционных матриц многомерных распределений из класса распределений с независимыми компонентами, и доказана прямо пропорциональная зависимость асимптотического смещения и дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
4. Получены оценки максимального правдоподобия и М-оценки для коэффициента корреляции семейства распределений в независимых компонентах, уравнение правдоподобия выражено через оценочную функцию параметра масштаба, и доказана прямо пропорциональная зависимость асимптотической дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
5. Предложено теоретическое и практическое обоснование необходимого числа повторений эксперимента 50000) в исследованиях оценок методом Монте-Карло.
6. Разработаны алгоритмы и комплекс программ и библиотек функций, реализующих предлагаемые оценки параметров масштаба, корреляции и корреляционных матриц случайных распределений, а также предоставляющих экспериментальную среду для проведения испытаний Монте-Карло.
Теоретическая и практическая значимость. Доказанная зависимость между асимптотическими дисперсиями оценок коэффициента корреляции и параметра масштаба, на которых они основаны, позволяет повышать статистическую эффективность корреляционных алгоритмов оценивания за счет использования более эффективных оценок масштаба.
Полученные робастные, высокоэффективные оценки параметра масштаба, коэффициента корреляции и корреляционных матриц помогают с большей точностью и устойчивостью к помехам и ошибкам измерений проводить статистический анализ данных.
Методология и методы исследования. Для решения поставленных задач использовался аппарат теории алгоритмов, линейной алгебры, вычислительной математики, математического анализа, теории вероятностей, параметрической и робастной математической статистики.
Степень достоверности результатов. Приведённые в диссертации теоретические результаты подтверждаются как аналитическими исследованиями, так и прямым имитационным моделированием Монте-Карло для различных, в том числе и больших, размеров выборок.
Внедрение результатов исследования. Подготовлена к публикации в свободном доступе библиотека функций для широко используемой бесплатной программной среды статистических вычислений и обработки данных R Project, содержащая предложенные в данной работе процедуры оценивания масштаба распределений, коэффициентов корреляции и корреляционных матриц многомерных случайных величин, автоковариационных функций и коэффициентов авторегрессии случайных временных рядов [116].
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на международных конференциях: «International Conference on Robust Statistics» (Чехия, Прага, 2010 год; Испания, Ва-льядолид, 2011 год), «International Conference on Computer Data Analysis and Modeling» (Беларусь, Минск, 2010 и 2013 год), «IEEE International Conference on Acoustics, Speech and Signal Processing» (Канада, Ванкувер, 2013 год). По материалам диссертации опубликовано двенадцать печатных работ и одна работа в электронном виде, из них две — в ведущих российских изданиях, включённых в перечень ВАК, и две работы опубликованы в международных профильных реферируемых журналах.
Структура и объем работы. Диссертация состоит из введения, трёх глав и заключения, содержит 157 страниц основного текста, включая 18 рисунков и 15 таблиц. Приложение содержит распечатки программных реализаций основных алгоритмов. В списке литературы 128 наименований.
14
ГЛАВА 1
РОБАСТНЫЕ ВЫСОКОЭФФЕКТИВНЫЕ ОЦЕНКИ МАСШТАБА
1.1 Оценивание параметра масштаба в параметрической
статистике
1.1.1 Основные определения
Параметрической моделью масштаба будем называть семейство вероятностных распределений
^(я) = 0 < $ < оо, (1.1)
где ^ — некоторая базовая функция распределения, принимаемая за эталон. Параметр г? в этом случае выступает в качестве параметра масштаба.
Параметрической моделью положения-масштаба будем называть семейство вероятностных распределений
= ~ -оо < р < оо, 0 < д < оо, (1.2)
где ^ — некоторая базовая функция распределения, принимаемая за эталон. Параметр р в этом случае выступает в качестве параметра положения, а д — параметра масштаба.
В классической теории статистического вывода строго придерживаются параметрических моделей и предполагают, что независимые одномерные наблюдения имеют одинаковое распределение С, совпадающее с одним из распределений решая задачу оценки параметров по данным выборки
(#1,... ,хп). Свяжем с выборкой эмпирическое распределение Сп, формально определяя его как
Сп = -У2Ахо (1.3)
п '
г=1
где Ах есть единичная точечная масса, сосредоточенная в х.
В современной математической статистике для записи математических ожиданий часто используются интегралы Стильтьеса по функции распределения:
оо
Мс1Нх)} =
¡г(х) ¿¿С?.
-00
Его преимущество состоит в том, что он сводится к интегралу Коши-Рима-на, если функция плотности д(х) непрерывна, и к обычному суммированию, если /(я) дискретна [6, с. 34].
Также, следуя Хампелю [15, стр.114], в качестве оценок параметра $ будем рассматривать вещественнозначные статистики
= Зп — Зп(Х1...., Хп) = 5П(СП),
причём только те, которые являются функционалами, т.е.
для любых п и Сгг, или могут быть заменены ими асимптотически. Наряду с этим часто принимается допущение об асимптотической нормальности, т.е. имеет место слабая сходимость к нормальному распределению
п—>оо
где £ обозначает распределение указанной величины, а У(3: (?) называется асимптотической дисперсией. Для двух асимптотически нормальных оценок можно определить относительную асимптотическую эффективность как обратное отношение .их дисперсий.
Будем также требовать состоятельность оценок по Фишеру
=
т.е. корректную работу функционала на модельном распределении.
Метод моментов был предложен К. Пирсоном ещё в конце XIX века [94]. Он предполагает поиск неизвестных параметров распределения путём приравнивания теоретических (построенных по генеральной совокупности) и эмпирических (выборочных) моментов.
Моментом порядка к называется математическое ожидание степенной функции Хк, где случайная величина X имеет функцию распределения
Выборочным моментом порядка к называется математическое ожидание степенной функции Хк, где случайная величина X считается распределённой по эмпирическому закону с функцией распределения Сп,
В параметрической модели масштаба оценку параметра *& можно получить, приравнивая, например, вторые моменты, если они существуют:
1.1.2 Метод моментов
<2,
тк = Мс(Хк) = хк(Ю(х).
(1.4)
тк = МСп(Хк)= хк сЮп{х)
т2 = х2 (1Г(х/$) = д2 у1 (1Р{у) = $2 • МР(х2)
Для семейств симметричных распределений базовое распределение удобно выбрать таким образом, чтобы его второй момент был равен единице: М^(.т2) = 1. Оценкой параметра масштаба по методу моментов, таким образом, будет служить среднеквадратичное отклонение от нуля
Его вероятностным аналогом является корень из второго момента распределения
Следует отметить, что выбор конкретных теоретических моментов для построения системы уравнений и поиска неизвестных параметров не является однозначным, приводя к неоднозначности получаемых оценок, что считается существенным их недостатком. В общем случае метод моментов не гарантирует эффективности полученной оценки, но тем не менее приводит к состоятельным, асимптотически нормальным и асимптотически несмещённым оценкам [29].
К сожалению, также, метод не позволяет получить оценку параметра масштаба некоторых распределений, для которых интеграл (1.4) не сходится и моменты не существуют (например, распределение Коши). В этом случае формальное применение оценки (1.5) приводит к бессмысленным результатам.
(1.6)
1.1.3 Метод квантилей
Метод квантилей похож на метод моментов в том, что приравниваются теоретические и эмпирические величины, а из полученной системы уравнений находятся оценки искомых параметров. В данном случае уравнения
составляются на основе квантилей распределения, т.е., для непрерывных распределений, значений qa которые случайная величина X не превышает с заданной вероятностью а:
qa : Р{Х ^ ga} = a. а £ [0,1]
В случае непрерывных строго монотонных распределений
Qa = G~l{a),
это же обозначение для удобства будем использовать и в дискретном случае.
В параметрической модели положения-масштаба (1.2) имеем
а = G(qa) = F((qa - fjL)/ti) qa = ¡i +
выбрав верхний и нижний квартили а = 1/4 и а = 3/4, получаем систему уравнений
Jin + dnF-\l/A) = G-1(l/A), Дп + 5nF-1(3/4) = G"1(3/4),
из которой находим оценку масштаба
? ^G-\3/4)-G-\l/4) = IQRGn п IQRF ' { J
где IQR называется межквартильным размахом (interquartile range). При нормальном распределении IQR Ф = 2Ф_1(3/4) « 1.3490, и оценкой параметра масштаба $ будет
Зп = 0.7413 IQRn{xJ. 1.1.4 Метод максимального правдоподобия
Ещё один важный метод оценивания неизвестных параметров распределения, получивший распространение после работы Фишера 1922 г_о-
да [56], это метод максимального правдоподобия, который в качестве оценки выбирает наиболее «правдоподобное» значение т.е. то, при котором достигается максимальная вероятность получить заданную выборку. Для этого максимизируется т.н. функция правдоподобия.
Функцией правдоподобия называется совместная плотность распределения элементов выборки, рассматриваемая как функция от параметра д при фиксированной выборке ..., хп). Для независимой выборки
п
х) = /0гь ..., я„; 0) = П Мхг). (1.8)
1=1
Задача оценивания тогда может быть сформулирована как поиск значения параметра, максимизирующего функцию правдоподобия
дп = argmaxlT /?5(x'¿),
■д т
г=1
или, что эквивалентно, но более удобно на практике, её логарифм
п
= argmax Y^ln/,?(£,). (1.9)
* tí
Если функция правдоподобия дифференцируема, то её экстремумы даются корнями уравнения
din L п д
— = 0, или ^ 1п/„(ж,)=0. (1.10)
г=1
В параметрической модели масштаба имеем
dF(x/d) 1
и уравнение правдоподобия (1.10) преобразуется в n 9 у rr \ ST 1 1АЛ f'(x¡/4) Л
Вводя новое обозначение
хО) = - 1 + х
(1-11)
№ J'
окончательно перепишем задачу оценивания параметра масштаба как решение уравнения
п
= (1.12)
¿=i
В функциональной форме задача записывается в виде интегрального уравнения
X(x/S(G))dG(x) = 0. (1.13)
Следует заметить, что уравнение (1.12) является частным случаем (1.13) при подстановке эмпирической функции распределения (1.3): я?п = S(Gn).
Очевидно, что базовое модельное распределение должно иметь единичный масштаб, т.е. S(F) — 1 является решением (1.13), или
Х(х) dF(x) = 0.
Это легко показать в случае достаточно быстро убывающей плотности рас-
пределенеия (т.е. lim xf(x) = 0):
х—»±00
Х(х) dF{x) =
1 + dF(x) =
fix
= 1 + xf(x)
+ 00
—оо
оо
dF{x) + /(:х) dx = 0.
х df{x)
—оо
Пример 1.1. Для нормального распределения
№
1 е~х2'2, f'{x) =--i= хе-х'2'2 = -xf(x),
\/Ъг ' у/Ъг
т.е. х{х) = — 1, и уравнение (1.12) даёт в качестве оценки среднеквадратичное отклонение
Пример 1.2. Для распределения Лапласа
/О) = о е = - о 8§П0Ф |:Е| =
1
1
— ж
т.е. х(х) = а^пя — 1 = |х| — 1, и уравнение (1.12) приводит к среднему абсолютному отклонению
т.е. х(ж) — 2ж2/(1 + х2) — 1 = {х2 — 1)/{х2 + 1), и уравнение правдоподобия преобразуется к виду
В явном виде это уравнение не решается, для поиска корней требуется применять численные методы.
Оценочные функции х Для этих трёх распределений приведены на рисунке 1.1. Первые две являются неограниченными, что обуславливает плохие робастные свойства соответствующих оценок (см. п. 1.2.4).
Оценки максимального правдоподобия могут быть смещёнными, но всё же являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками [7, 29].
Ещё одно важное свойство оценок максимального правдоподобия заключается в том, что если существует несмещённая оценка с минимальной граничной дисперсией, то она должна получаться методом максимального правдоподобия [7]. Минимальная граничная дисперсия задаётся неравенством Крамера-Рао
Пример 1.3. Для распределения Коши
^ 7Г(1+Х2)' ^ 7Г(1 +Х2)2
□(?„) ^ 1/ЛЙ)
(1.14)
х(х) о
х
Рисунок 1.1 - Оценочные функции х максимального правдоподобия для распределений Гаусса (жирной линией), Лапласа (сплошной) и Коши
(пунктирной).
где называется количеством информации Фишера, содержащейся в
выборке, и определяется через функцию правдоподобия (1.8)
~д21п Ь
= м
дЫ V д'д
= -М
(1.15)
Количеством информации, содержащимся в одном наблюдении называют следующую величину
J(Fд) = М
/01n.fr V V дд )
' д_ дд
(1.16)
При выполнении условий регулярности для независимых испытаний имеет место </п =
1.2 Робастные подходы к оцениванию масштаба
распределений
1.2.1 Основные определения
Пионером в теории робастности принято считать Тьюки [122], который в своей работе 1960 года [123] исследовал поведение стандартного отклонения
/ п 4 1/2
SDn = U - х)2)
в случае смеси двух нормальных распределений, так называемой, модели больших ошибок Тьюки
Ge = {G : £ = (1-г)Ф(а:) + еФ(:с/3)}, £<5 [0,1], (1.17)
и показал, что уже при минимальном загрязнении (достаточно 2 наблюдений из 1000) оценка SDn теряет в эффективности по сравнению со средним отклонением
1 "
MDn = - У^ \хг - х\. п
i=i
В современном понимании MDn не является робастной оценкой, но её дисперсия оказываются более устойчивой, чем SDn в такой модели. Эти выводы и привели к развитию теории робастности, большой вклад в которую сделал Хьюбер [25, 72], рассматривая более общие, чем (1.17) окрестности истинного распределения в том числе модель больших ошибок с произвольным засорением
ge(Fv) = {G: G = (1- e)F$ + еН, Н — любое}, еб[0,1], (1.18)
и минимизируя на этом классе максимум отклонения оценки или её дисперсию в самом худшем случае (минимаксный подход Хьюбера).
С другой стороны исследовал проблему Хампель [15, 67], заметив что при добавлении нового наблюдения х к выборке (xi,..., хп) оценка претерпевает изменения,
СП2 _ СП2 _ X2 - SDl bDn+1 bUn- n+i ,
имея возможность неограниченного роста при |а;| —> оо. Таким образом всего лишь одно ошибочное наблюдение может кардинально изменить значение оценки, а так как в естественных науках типичные выборки «хороших данных» довольно точно моделируются законом вида (1.17), где е лежит в пределах от 0.01 до 0.1 [25, с. 11], то весьма вероятно появление указанных больших ошибок.
Функцией влияния (influence function) функционала S при распределении F называется функция
4 у £->0 £ при тех х, с которыми этот предел существует [15, с. 117]. Условия существования функции влияния достаточно слабые, и во всех реальных ситуациях её можно вычислять не заботясь об условиях регулярности. Более того, оказывается, что асимптотическая дисперсия бценки определяется её функцией влияния,
V(S, F) = IF2(ж; 5, F) dF(x).
Функция влияния описывает локальный эффект, оказываемый на оценку загрязнением распределения в точке х. Также вводится понятие чувствительности к большой ошибке функционала
>y*(S,F)= sup|IFOr;S,F)|, (1.19)
X
которая показывает верхнюю границу для нормированного асимптотического смещения оценки. Желательно, чтобы 7* была конечной, в таком случае говорят, что S есть В-робастный при F функционал (oxJbias — смещение).
Вторая обобщённая характеристика описывает малые флуктуации в наблюдениях. Искажения при округлении или группировке влияют и на вычисляемую по ним оценку. Мерой этого эффекта может служить чувствительность к локальному сдвигу
' Л* =suplIF(2/;x, Ф) - 1Р(я:;Х,Ф)|/|2/- rrj. (1.20)
хфу
Перечисленные характеристики описывают локальную устойчивость оценки к загрязнениям. Бывает полезным иметь и глобальную меру робастности, которая позволяла бы знать, как далеко можно отклониться от распределения, принятого в модели, и при этом получать из оценки полезную информацию. Более формально, для конечной выборки можно ввести величину выборочной пороговой точки, как наибольшее соотношение
£*1{х1,.. .,хп) = т/п,
при котором замена т элементов выборки на произвольные значения не приводит к выходу оценки из допустимого диапазона, т.е. для оценок параметра масштаба
max sup \zi,..., zn\ < oo, min inf \zi,..., zn\ > 0,
¿1 ,-Лт
где выборка (zi,...,zn) получена из исходной заменой элементов с индексами ¿1,..., гт на значения у\,..., ут. Часто, пороговая точка е*п не зависит от выборки, и во многих случаях предел отношения совпадает с асимптотической пороговой точкой с*, определение которой даётся в [15].
Функция влияния и пороговая точка рассматривают экстремальные ситуации, в которых засорение либо очень мало, либо, наоборот, максимально велико, при условии, что оценка ещё справляется со своей задачей. Интерес, однако, представляют также.и промежуточное поведение оценки
при засорении. В модели больших ошибок (1.18) определим кривые внешнего и внутреннего смещения оценки масштаба 5 как графики функций В$(е) и Вд(е) в зависимости от доли загрязнения е:
= (1.21)
В-3{е) = Ы (5(С)/5(^)),
они соответствуют «взрыву» и «коллапсу» значений оценки [84, 85].
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами2015 год, кандидат наук Есаулов Даниил Михайлович
Методы устойчивого оценивания параметров моделей по статистическим данным2005 год, кандидат технических наук Гаврилов, Константин Викторович
Устойчивое оценивание статистических моделей при распределении наблюдений по закону минимальных значений2010 год, кандидат технических наук Грюнер, Дмитрий Александрович
Методы вероятностно-статистического анализа данных в задачах судостроения2000 год, доктор физико-математических наук Золотухина, Лидия Анатольевна
Робастное и непараметрическое оценивание параметров авторегрессионного поля2013 год, доктор физико-математических наук Горяинов, Владимир Борисович
Список литературы диссертационного исследования кандидат наук Смирнов, Павел Олегович, 2013 год
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян, С. А. Прикладная статистика: Основы моделирования и первичная обработка данных [Текст] / С. А. Айвазян, И. С. Енюков, JI. Д. Мешалкин. — М. : Финансы и статистика, 1983.
2. Андреа, К. Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции [Текст] / К. Андреа, П. Смирнов, Г. Шевляков // Вестник Томского государственного университета. Управление. Вычислительная техника и информатика. — 2013. — Т. 22, N°. 1,- С. 25-31.
3. Визуализация данных двумерными .Р(5п-боксплотами [Текст] / К. Андреа, Г. М. Лаврентьева, П. О. Смирнов, Г. J1. Шевляков // Высокие технологии, фундаментальные исследования, экономика. — Т. 1. — Санкт-Петербург, Россия : Изд-во Политехи, ун-та, 2011.— С. 59-66.
4. Дженкинс, Г. Спектральный анализ и его приложения [Текст] / Г. Дженкинс, Д. Ватте. — М. : Мир, 1971.
5. Калиткин, H. Н. Численные методы [Текст] / H. Н. Калиткин. — М. : Главная редакция физико-математической литературы изд-ва «Наука», 1978.
6. Кендалл, М. Теория распределений: Пер. с англ. [Текст] / М. Кендалл, А. Стыоарт. — М. : Наука, 1966.
7. Кендалл, М. Статистические выводы и связи: Пер. с англ. [Текст] / М. Кендалл, А. Стьюарт. — М. : Наука, 1973.
8. Кендалл, М. Многомерный статистический анализ и временные ряды [Текст] / М. Кендалл, А. Стьюарт. — М. : Наука, 1976.
9. Кнут, Д. Искусство программирования, Т.2. Получисленные алгоритмы [Текст] / Д. Кнут. — М. : Вильяме, 2007.
10. Колмогоров, А. Н. Метод медианы в теории ошибок [Текст] /
А. Н. Колмогоров // Математический сборник. — 1931.— Т. 38, № 3-4. - С. 47-50.
11. Кормен, Т. Алгоритмы: построение и анализ [Текст] / Т. Кормен, Ч. Лейзерсон, Р. Ривест. - М. : МЦНМО, 1999.
12. Поляк, Б. Т. Робастная устойчивость при комплексных возмущениях параметров [Текст] / Б. Т. Поляк, Я. 3. Цыпкин // Автоматика и телемеханика. — 1991. — № 8. — С. 45-55.
13. Поляк, Б. Т. Робастный критерий Найквиста [Текст] / Б. Т. Поляк, Я. 3. Цыпкин // Автоматика и телемеханика. — 1992. — № 7. — С. 25-31.
14. Поляк, Б. Т. Робастная устойчивость и управление [Текст] / Б. Т. Поляк, П. С. Щербаков. - М. : Наука, 2002. - 303 с.
15. Робастность в статистике. Подход на основе функций влияния: Пер. с англ. [Текст] / Ф. Хампель, Э. Рончетти, П. Рауссеу, В. Штаэль. — М. : Мир, 1989.
16. Смирнов, П. О. Приближение оценки (5П параметра масштаба с помощью быстрых М-оценок [Текст] / П. О. Смирнов, Г. Л. Шевля-ков // Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. — 2010. — Т. 31, № 5. — С. 83-85.
17. Тарасенко, Ф. П. Непараметрическая статистика [Текст] / Ф. П. Та-расенко. — Томск : Изд-во ТГУ, 1976. — 289 с.
18. Тарасенко, Ф. П. 30 лет ФПМК — 30 лет кафедре теоретической кибернетики [Текст] / Ф. П. Тарасенко // Вестник Томского государственного университета. — 2000. — № 271. — С. 13-18.
19. Тьюки, Д. Анализ результатов наблюдений. Разведочный анализ [Текст] / Дж. Тьюки. - М. : Мир, 1981.
20. Фишер, Р. А. Статистические методы для исследователей: Пер. с англ.
[Текст] / Р. А. Фишер. — М. : Госстатиздат, 1958.
21. Харин, Ю. С. Робастность в статистическом распознавании образов [Текст] / Ю. С. Харин. - Минск : Изд-во БГУ, 1992. - 232 с.
22. Харин, Ю. С. Оптимальность и робастность в статистическом прогнозировании [Текст] / Ю. С. Харин. — Минск : Изд-во БГУ, 2008. — 263 с.
23. Харин, Ю. С. Математические основы криптологии [Текст] / Ю. С. Харин, В. И. Берник, Г. В. Матвеев. — Минск : Изд-во БГУ, 1999.- 319 с.
24. Харин, Ю. С. Робастное оценивание коэффициентов авторегрессии в условиях «выбросов» и «пропусков» [Текст] / Ю. С. Харин, В. А. Во-лошко // Теория вероятностей, случайные процессы, математическая статистика и приложения. — Минск : Изд-во БГУ, 2008. — С. 379-387.
25. Хьюбер, Д. П. Робастность в статистике: Пер. с англ. [Текст] / Дж. П. Хьюбер. - М. : Мир, 1984.
26. Цыпкин, Я. 3. Адаптация и обучение в автоматических системах [Текст] / Я. 3. Цыпкин. - М. : Наука, 1968. - 400 с.
27. Цыпкин, Я. 3. Основы информационной теории идентификации [Текст] / Я. 3. Цыпкин. - М. : Наука, 1984. - 336 с.
28. Шуленин, В. П. Введение в робастную статистику [Текст] / В. П. Шу-ленин. — Томск : Изд-во ТГУ, 1993. — 227 с.
29. Шуленин, В. П. Математическая статистика. Ч. 1: Параметрическая статистика [Текст] / В. П. Шуленин. — Томск : Изд-во НТЛ, 2012. — 540 с.
30. Шуленин, В. П. Математическая статистика. Ч. 2: Непараметрическая статистика [Текст] / В. П. Шуленин. — Томск : Изд-во НТЛ, 2012. — 388 с.
31. Шуленин, В. П. Математическая статистика. Ч. 3: Робастная стати-
стика [Текст] / В. П. Шуленин. — Томск : Изд-во НТЛ, 2012. — 520 с.
32. Шурыгин, А. М. Оценки параметров нормального распределения с экспоненциальным взвешиванием наблюдений [Текст] / А. М. Шурыгин // Алгоритмическое и программное обеспечение прикладного статистического анализа / Под ред. Т. Рябушкин, В. Симчера, С. А. Айвазян, И. С. Енюков. — М. : Наука, 1980,- С. 241-258.
33. Шурыгин, А. М. Прикладная стохастика: робастность, оценивание, прогноз [Текст] / А. М. Шурыгин. — М. : Финансы и статистика, 2000. - 224 с.
34. Andrea, К. Detection of outliers with boxplots [Text] / K. Andrea, G. L. Shevlyakov, P. O. Smirnov // Proceedings of the 11th International Conference on Computer Data Analysis and Modeling. — Minsk, Belarus : Publishing center of BSU, 2013. - P. 141-144.
35. Asymptotically minimax bias estimation of the correlation coefficient for bivariate independent component distributions [Text] / G. L. Shevlyakov, P. O. Smirnov, V. I. Shin, K. Kim // Journal of Multivariate Analysis. — 2012,- Vol. 111.- P. 59-65.
36. Becketti, S. Rangefinder box plots: A note [Text] / S. Becketti, W. Gould // The American Statistician.- 1987.- Vol. 41, no. 2.— P. 149.
37. Bickel, P. J. One-step Huber estimates in the linear model [Text] / P. J. Bickel // Journal of the American Statistical Association. — 1975. — Vol. 70, no. 350. - P. 428-434.
38. Bickel, P. J. Descriptive statistics for nonparametric models. III. Dispersion [Text] / P. J. Bickel, E. L. Lehmann // The Annals of Statistics. - 1976. - Vol. 4, no. 6. - P. 1139-1158.
39. Bickel, P. J. Descriptive statistics for nonparametric models. IV. Spread [Text] / P. J. Bickel, E. L. Lehmann // Contributions to Statistics, Häjek
Memorial Volume. - 1979. - P. 33-40.
40. Blomqvist, N. On a measure of dependence between two random variables [Text] / N. Blomqvist // The Annals of Mathematical Statistics. - 1950. - Vol. 21, no. 4. - P. 593-600.
41. Box, G. E. P. Non-normality and tests on variances [Text] / G. E. P. Box // Biometrika. - 1953. - Vol. 40. - P. 318-335.
42. Boyd, S. Least-squares covariance matrix adjustment [Text] / S. Boyd, L. Xiao // SIAM Journal on Matrix Analysis and Applications. — 2005. - Vol. 27, no. 2. - P. 532-546.
43. Budden, M. On the generation of correlation matrices [Text] / M. Budden, P. Hadavas, L. Hoffman // Applied Mathematics E-Notes. — 2008. - Vol. 8. - P. 279-282.
44. Croux, C. Influence functions of the Spearman and Kendall correlation measures [Text] / C. Croux, C. Dehon // Statistical Methods and Applications. - 2010. - Vol. 19, no. 4. - P. 497-515.
45. Croux, C. Projection pursuit based measures of association [Text] : Rep. : 0341 / Katholieke Universiteit Leuven ; Executor: C. Croux, P. Filzmoser. — Leuven, Belgium : 2003. — 32 p.
46. Croux, C. An easy way to increase the finite-sample efficiency of the resampled minimum volume ellipsoid estimator [Text] / C. Croux, G. Haesbroeck // Computational Statistics & Data Analysis. — 1997. — Vol. 25.- P. 125-141.
47. Croux, C. Location adjustment for the minimum volume ellipsoid estimator [Text] / C. Croux, G. Haesbroeck, PJ Rousseeuw // Statistics and Computing. - 2002. - Vol. 12. - P. 191-200.
48. Croux, C. Time-efficient algorithms for two highly robust estimators of scale [Text] / C. Croux, P. J. Rousseeuw // Computational Statistics. — 1992,- Vol. 1,- P. 411-428.
49. Croux, C. Generalized S-estimators [Text] / C. Croux, P. J. Rousseeuw, O. Hossjer // Journal of the American Statistical Association. — 1994. — Vol. 89, no. 428.- P. 1271-1281.
50. Cui, X. Computing the nearest correlation matrix using difference map algorithm [Text] : Rep. / University of Waterloo ; Executor: X. Cui. — Ontario, Canada : 2010. - P. 36.
51. David, H. A. Early sample measures of variability [Text] / H. A. David // Statistical Science. - 1998. - Vol. 13, no. 4. - P. 368-377.
52. Devlin, S. J. Robust estimation and outlier detection with correlation coefficients [Text] / S. J. Devlin, R. Gnanadesikan, J. R. Kettenring // Biometrika. - 1975. - Vol. 62, no. 3. - P. 531-545.
53. Falk, M. On MAD and Comedians [Text] / M. Falk // Annals of the Institute of Statistical Mathematics.- 1997,- Vol. 49, no. 4.-P. 615-644.
54. Falk, M. A note on the comedian for elliptical distributions [Text] / M. Falk // Journal of Multivariate Analysis. - 1998. - Vol. 67, no. 2. -P. 306-317.
55. Fast low-complexity bivariate boxplots based on highly efficient and robust estimates of dispersion and correlation [Text] / G. Shevlyakov, K. Andrea, G. Lavrentyeva, P. Smirnov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2011).— Valladolid, Spain : University of Valladolid, 2011. - P. 72.
56. Fisher, R. A. On the mathematical foundations of theoretical statistics [Text] / R. A. Fisher // Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character. - 1922. - Vol. 222. - P. 309-368.
57. Fisher, R. A. Statistical tables for biological, agricultural and medical research [Text] / R. A. Fisher, F. Yates. — Edinburgh : Oliver and Boyd,
1963.
58. Galassi, M. Gsl — gnu scientific library [Electronic resource]. — [S. 1. : s. n.], 1996-2011. — URL: http://www.gnu.org/software/gsl/ (online; accessed: 06.12.2013).
59. Gauss, C. F. Bestimmung der Genauigkeit der Beobachtungen [Text] / C. F. Gauss // Z. Astron. and Verw. Wiss. - 1816,- Vol. 1,-P. 109-119.
60. Gentle, J. E. Computational statistics [Text] / J. E. Gentle. — [S. 1.] : Springer, 2009.
61. Genton, M. G. Asymptotic variance of M-estimators for dependent Gaussian random variables [Text] / M. G. Genton // Stat. Probabil. Lett. - 1998.-Vol. 38, no. 3. - P. 255-261.
62. Gervini, D. A class of robust and fully efficient regression estimators [Text] / D. Gervini, V. J. Yohai // Annals of Statistics.- 2002,-Vol. 30, no. 2.- P. 583-616.
63. Gnanadesikan, R. Robust estimates, residuals, and outlier detection with multiresponse data [Text] / R. Gnanadesikan, J. R. Kettenring // Biometrics. - 1972. - Vol. 28, no. 1. - P. 81-124.
64. Goldberg, K. M. Bivariate extensions of the boxplot [Text] / K. M. Goldberg, B. Iglewicz // Technometrics. - 1992,- Vol. 34, no. 3,- P. 307-320.
65. Grubbs, F. E. Procedures for detecting outlying observations in samples [Text] / F. E. Grubbs // Technometrics.— 1969.— Vol. 11, no. 1,— P. 1-21.
66. Haahr, M. RANDOM.ORG — True random number service [Electronic resource]. — [S. 1. : s. n.], 2010.— URL: http://www.random.org/ (online; accessed: 06.12.2013).
67. Hampel, F. R. The influence curve and its role in robust estimation
[Text] / F. R. Hampel // Journal of the American Statistical Association. - 1974.- Vol. 69, no. 346. - P. 383-393.
68. Hawkins, D. M. Improved feasible solution algorithms for high breakdown estimation [Text] / D. M. Hawkins, D. J. Olive // Computational Statistics & Data Analysis.— 1999.— Vol. 30, no. 1,— P. 1-11.
69. Higham, N. J. Matrix nearness problems and applications [Text] / N. J. Higham // Applications of Matrix Theory. — [S. 1.] : Oxford University Press, 1989.-P. 1-27.
70. Higham, N. J. Computing the nearest correlation matrix — a problem from finance [Text] / N. J. Higham // IMA Journal of Numerical Analysis. - 2002. - Vol. 22, no. 3. - P. 329-343.
71. Hoare, C. A. R. Algorithm 65: Find [Text] / C. A. R. Hoare // Communications of the ACM. - 1961. - Vol. 4, no. 7. - P. 321-322.
72. Huber, P. J. Robust estimation of a location parameter [Text] / P. J. Huber // Ann. Math. Statist. - 1964. - Vol. 35, no. 1. - P. 73-101.
73. Hubert, L. J. A note on the restriction of range for Pearson product-moment correlation coefficients [Text] / L. J. Hubert // Educational and Psychological Measurement. - 1972. - Vol. 32, no. 3. - P. 767-770.
74. Hubert, M. Minimum covariance determinant [Text] / M. Hubert, M. Debruyne // WIREs Computational Statistics.- 2010,— Vol. 2, no. 1,- P. 36-43.
75. ISO/IEC 14882:2011. Information technology — Programming languages — C++ [Text].— Geneva, Switzerland : International Organization for Standardization, 2011.— URL: http://www.iso.org/iso/ catalogue__detail. htm?csnumber=50372 (online; accessed: 06.12.2013).
76. Kendall, M. G. A new measure of rank correlation [Text] /
M. G. Kendall // Biometrika. - 1938. - Vol. 30, no. 1-2. - P. 81-93.
77. Kurowicka, D. A parameterization of positive definite matrices in terms of partial correlation vines [Text] / D. Kurowicka, R. Cooke // Linear Algebra and its Applications. - 2003. - Vol. 372. - P. 225-251.
78. Kurowicka, D. Completion problem with partial correlation vines [Text] / D. Kurowicka, R. M. Cooke // Linear Algebra and its Applications. — 2006. - Vol. 418, no. 1. - P. 188-200.
79. L'Ecuyer, P. TestUOl: A C library for empirical testing of random number generators [Text] /.P. L'Ecuyer, R. Simard // ACM Transactions on Mathematical Software. - 2007. - Vol. 33, no. 4.
80. Lopuhaa, H. P. Asymptotics of reweighted estimators of multivariate location and scatter [Text] / H. P. Lopuhaa // Annals of statistics. — 1999. - Vol. 27, no. 5. - P. 1638-1665.
81. Ma, Y. Highly robust estimation of the autocovariance function [Text] / Y. Ma, M. G. Genton // Journal of time series analysis. — 2000. — Vol. 21, no. 6,- P. 663-684.
82. Maronna, R. A. Robust Statistics: Theory and Methods [Text] / Ricardo A. Maronna, R. Douglas Martin, Victor J. Yohai. — Chichester, England : John Wiley & Sons, 2006. - 417 p.
83. Marsaglia, G. The marsaglia random number cdrom including the diehard battery of tests of randomness [Electronic resource].— [S. 1. : s. n.], 1995. — URL: http://www.stat.fsu.edu/pub/diehard/ (online; accessed: 06.12.2013).
84. Martin, R. D. Asymptotically min-max bias robust M-estimates of scale for positive random variables [Text] / R. D. Martin, R. H. Zamar // Journal of the American Statistical Association. — 1989.— Vol. 84, no. 406,- P. 494-501.
85. Martin, R. D. Bias robust estimation of scale when location is unknown
[Text] : Rep. : 184 / Department of Statistics, University of Washington ; Executor: R. D. Martin, R. H. Zamar. — Seattle, Washington 98195 USA : 1989.- P. 1-43.
86. Matsumoto, M. Mersenne twister: A 623-dimensionally equidistributed uniform pseudo-random number generator [Text] / M. Matsumoto, T. Nishimura // ACM Transactions on Modeling and Computer Simulation. - 1998. - Vol. 8, no. 1. - P. 3-30.
87. McCullough, B. D. A review of TESTU01 [Text] / B. D. McCullough // Journal of Applied Econometrics. - 2006. - Vol. 21, no. 5. - P. 677-682.
88. McGill, R. Variations of box plots [Text] / R. McGill, J. W. Tukey, W. A. Larsen // American Statistician.— 1978.— Vol. 32, no. 1.— P. 12-16.
89. Meshalkin, L. D. Approximation of multidimensional densities by normal distributions [Text] / L. D. Meshalkin // 7th International Biometrie Conference. — Hannover : [s. n.], 1970.
90. Mishra, S. K. The nearest correlation marix problem: Solution by differential evolution method of global optimization [Text] / S. K. Mishra // MPRA. - 2007. - no. 2760.
91. Mosteller, F. On some useful "inefficient" statistics [Text] / F. Mosteller // The Annals of Mathematical Statistics. - 1946. - Vol. 17, no. 4. - P. 377-408.
92. Olkin, I. Range restrictions for product-moment correlation matrices [Text] / I. Olkin // Psychometrika. - 1981,- Vol. 46, no. 4.-P. 469-472.
93. Olkin, I. Unbiased estimation of certain correlation coefficients [Text] / I. Olkin, J. W. Pratt // The annals of mathematical statistics. — 1958. — Vol. 29, no. 1,- P. 201-211.
94. Pearson, K. Contributions to the mathematical theory of evolution
[Text] / K. Pearson // Philosophical Transactions of the Royal Society of London. - 1894. - Vol. 185. - P. 77-110.
95. Pison, G. Small sample corrections for LTS and MCD [Text] / G. Pison, S. Van Aelst, G. Willems // Metrika. - 2002. - Vol. 55. - P. 111-123.
96. Qi, H. A quadratically convergent Newton method for computing the nearest correlation matrix [Text] / H. Qi, D. Sun // SIAM Journal on Matrix Analysis and Applications. — 2006. — Vol. 28, no. 2. — P. 360-385.
97. R Core Team. — R: A Language and Environment for Statistical Computing [Text]. — R Foundation for Statistical Computing, Vienna, Austria, 2013.— URL: http://www.r-project.org/ (online; accessed: 06.12.2013).
98. Robust versions of the Tukey boxplot with their application to detection of outliers [Text] / Georgy L. Shevlyakov, Kliton Andrea, Lakshminarayan Choudur [et al.] // IEEE International Conference on Acoustics, Speech, and Signal Processing. — Vancouver, Canada : IEEE, 2013,- P. 6506-6510.
99. Roelant, E. The minimum weighted covariance determinant estimator [Text] / E. Roelant, S. Van Aelst, G. Willems // Metrika. - 2009. -Vol. 70, no. 2,- P. 177-204.
100. Rousseeuw, P. J. Least median of squares regression [Text] / P. J. Rousseeuw // Journal of the American statistical association.— 1984.- Vol. 79, no. 388. - P. 871-880.
101. Rousseeuw, P. J. Multivariate estimation with high breakdown point [Text] / P. J. Rousseeuw // Mathematical Statistics and Applications Vol. B.- [S. 1. : s. n.], 1985.- P. 283-297.
102. Rousseeuw, P. J. Explicit scale estimators with high breakdown point [Text] / P. J. Rousseeuw, C. Croux // LI-Statistical Analysis and Related
Methods. - 1992. - Vol. 1. - P. 77-92.
103. Rousseeuw, P. J. Alternatives to the median absolute deviation [Text] / P. J. Rousseeuw, C. Croux // J. Am. Stat. Assoc. — 1993. — Vol. 88, no. 424.-P. 1273-1283.
104. Rousseeuw, P. J. The bias of k-step M-estimators [Text] / P. J. Rousseeuw, C. Croux // Stat. Probabil. Lett. - 1994,- Vol. 20, no. 5,- P. 411-420.
105. Rousseeuw, P. J. The shape of correlation matrices [Text] / P. J. Rousseeuw, G. Molenberghs // The American Statistician. — 1994. - Vol. 48, no. 4. - P. 276-279.
106. Rousseeuw, P. J. The bagplot: A bivariate boxplot [Text] / P. J. Rousseeuw, I. Ruts, J. W. Tukey // American Statistician. — 1999.- Vol. 53.
107. Rousseeuw, P. J. A fast algorithm for the minimum covariance determinant estimator [Text] / P. J. Rousseeuw, K. Van Driessen // Technometrics. - 1999. - Vol. 41, no. 3. - P. 212-223.
108. Schuster, A. On the investigation of hidden periodicities with application to a supposed 26 day period of meteorological phenomena [Text] / A. Schuster // Terrestrial Magnetism. - 1898. - Vol. 3. - P. 3-41.
109. Shevlyakov, G. L. Some remarks on robust estimation of power spectra [Text] / G. L. Shevlyakov, N. S. Lyubomishchenko, P. O. Smirnov // Proceedings of the 11th International Conference on Computer Data Analysis and Modeling. — Minsk, Belarus : Publishing center of BSU, 2013.- P. 97-104.
110. Shevlyakov, G. L. Highly efficient robust estimators of a correlation coefficient for bivariate independent component distributions [Text] / G. L. Shevlyakov, P. O. Smirnov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2010).— Prague, Czech
Republic : Charles University, 2010.- P. 93-94.
111. Shevlyakov, G. L. Robust estimation of a correlation coefficient: An attempt of survey [Text] / G. L. Shevlyakov, P. O. Smirnov // Proceedings of the 9th International Conference on Computer Data Analysis and Modeling. — Vol. 1.— Minsk, Belarus : Publishing center of BSU, 2010,- P. 108-115.
112. Shevlyakov, G. L. Robust estimation of the correlation coefficient: An attempt of survey [Text] / G. L. Shevlyakov, P. O. Smirnov // Austrian Journal of Statistics. - 2011. - Vol. 40, no. 1&2. - P. 147-156.
113. Shevlyakov, G. L. Robustness in Data Analysis: criteria and methods [Text] / G. L. Shevlyakov, N. O. Vilchevski. - [S. 1.] : VSP, 2002.
114. Shevlyakov, G. L. Minimax variance estimation of a correlation coefficient for epsilon-contaminated bivariate normal distributions [Text] / G. L. Shevlyakov, N. O. Vilchevsky // Statistics & Probability Letters. - 2002. - Vol. 57. - P. 91-100.
115. Siegel, A. F. Robust regression using repeated medians [Text] / A. F. Siegel // Biometrika. - 1982. - Vol. 69, no. 1. - P. 242-244.
116. Smirnov, P. O. robcor: Robust correlations. R package version 0.1-5 [Electronic resource]. — Vienna, Austria : The Comprehensive R Archive Network, 2013.— URL: http://CRAN.R-project.org/package= robcor (online; accessed: 06.12.2013).
117. Smirnov, P. O. On approximation of the Qn-estimate of scale by fast M-estimates [Text] / P. O. Smirnov, G. L. Shevlyakov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2010). - Prague, Czech Republic : Charles University, 2010. - P. 94-95.
118. Spangl, B. Robust estimation of power spectra via the autocovariance function [Text] / B. Spangl, R. Dutter // Robust Modeling of Environmental Data. - Vol. 41. - [S. 1. : s. n.], 2003.
119. Spangl, B. On robust estimation of power spectra [Text] / B. Spangl, R. Dutter // Austrian Journal of Statistics. - 2005. - Vol. 34, no. 2. -P. 199-210.
120. Spangl, B. Computing the nearest correlation matrix which is additionally Toeplitz [Text] / B. Spangl, P. Ruckdeschel // Book of Abstracts: International Conference on Robust Statistics (ICORS 2010).— Prague, Czech Republic : [s. n.], 2010,- P. 96-97.
121. Spearman, C. The proof and measurement of association between two things [Text] / C. Spearman // The American journal of psychology.— 1904,- Vol. 15, no. 1.- P. 72-101.
122. Stigler, S. M. The changing history of robustness [Text] / ' S. M. Stigler // The American Statistician. - 2010. - Vol. 64, no. 4. -
P. 277-281.
123. Tukey, J. W. A survey of sampling from contaminated distributions [Text] / J. W. Tukey // Contributions to probability and statistics. — I960. - Vol. 2.- P. 448-485.
124. Van Aelst, S. Minimum volume ellipsoid [Text] / S. Van Aelst, P. J. Rousseeuw // WIREs Computational Statistics. - 2009. — Vol. 1. -P. 71-82.
125. Walker, J. Hotbits: Genuine random numbers [Electronic resource].— [S. 1. : s. n.], 1996, —URL: http://www.fourmilab.ch/hotbits/ (online; accessed: 06.12.2013).
126. Wolfowitz, J. Non-parametric statistical inference [Text] / J. Wolfowitz // Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability. — Berkeley : University of California Press, 1949.- P. 93-113.
127. Yohai, V. J. High breakdown-point and high efficiency robust estimates for regression [Text] / V. J. Yohai // The Annals.of Statistics. — 1987. —
Vol. 15, no. 2.- P. 642-656. 128. Zani, S. Robust bivariate boxplots and multiple outlier detection [Text] / S. Zani, M. Riani, A. Corbellini // Computational Statistics & Data Analysis. - 1998. - Vol. 28, no. 3. - P. 257-270.
СПИСОК ИЛЛЮСТРАЦИЙ
1.1 Оценочные функции х максимального правдоподобия для распределений Гаусса (жирной линией), Лапласа (сплошной) и Коши (пунктирной)......................... 22
1.2 Функция влияния оценки MAD в сравнении с нормальным законом распределения....................... 30
1.3 Функция влияния оценки Хьюбера для параметра масштаба
с эффективностью 95% (с* = 2.38)................. 37
1.4 Пороговая точка г* оценки MQn в зависимости от параметра
а................................... 44
1.5 Чувствительность к большой ошибке 7* оценки MQn в зависимости от параметра а...................... 46
1.6 Функция влияния оценок FQn, MQn при а = 0 (жирной линией) и MADn (пунктирной).................... 47
1.7 Асимптотическая эффективность оценки MQn в зависимости
от параметра а............................ 49
1.8 Результаты испытаний Монте-Карло для оценки SDn в зависимости от числа повторений эксперимента т.......... 59
1.9 Приведённое абсолютное среднее смещение |6т| и стандартизованная дисперсия vm различных оценок масштаба на нормальном распределении....................... 65
1.10 Среднее смещение различных оценок в модели больших ошибок Тьюки G(x) = (1 — е)Ф(х) + еФ(х/3) в зависимости от доли засорения е.......................... 67
1.11 Стандартизованная дисперсия различных оценок в модели больших ошибок Тьюки G(x) = (1 -г)Ф(х) + еФ(х/3) в зависимости от доли засорения е.................. 68
2.1 Асимптотическая эффективность непараметрических оценок коэффициента корреляции р двумерного нормального распределения в зависимости от значения р............... 82
2.2 Множество коэффициентов корреляции, порождающих положительно определённые матрицы в трёхмерном пространстве. 120
3.1 Пример временного ряда процесса авторегрессии хь = хг-\ —
0.9жг_2 + £4 и его 10%-ного аддитивного засорения уг = xt -Ь 145
3.2 Периодограмма процесса авторегрессии хь = х^г — 0.9хг_2+£4
и его аддитивного засорения = ^ + ^.............147
3.3 Оценки спектра зашумлённого процесса ^ по методу Юла-Уокера................................147
3.4 Пример сравнения искусственно полученных загрязнённых рядов данных при помощи боксплотов..............149
3.5 Двумерный боксплот, основанный на робастных оценках масштаба и коэффициента корреляции................149
175
СПИСОК ТАБЛИЦ
1.1 Результаты испытаний Монте-Карло для различных оценок масштаба при нормальном распределении G{x) — Ф{х!пд). . . 64
1.2 Результаты испытаний Монте-Карло для различных оценок масштаба при 10%-загрязнённом нормальном распределении в модели больших ошибок Тьюки G(x) — (1 — е)Ф{х/'6) + еФ(х/Ы\ е = 0.1.......................... 66
1.3 Результаты испытаний Монте-Карло для различных оценок масштаба при распределении Коши G(x) = F(x/'d) = 1/2 + sxctg(x / д) /1г............................. 70
2.1 Значения коэффициента корреляции р в зависимости от ко-медианного коэффициента 5................... 88
2.2 Доля не-ППО матриц среди всех псевдокорреляционных матриц разных размерностей, полученный в результате испытаний Монте-Карло .........................120
2.3 Доля не-ППО матриц среди оценок корреляционных матриц разных размерностей, полученных методом попарных корреляций в результате испытаний Монте-Карло..........121
2.4 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении G(x, у) = Фр(х,у),р = 0............................130
2.5 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении G(x, у) = Фр{х,у), р = 0.5...........................131
2.6 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении G(x, у) = Фр(х,у), р = 0.9............................132
2.7 Результаты испытаний Монте-Карло для различных оценок корреляционных матриц при р-мерном нормальном распределении = 0.9)...........................134
2.8 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении с 10%-ным некоррелированным внешним загрязнением в модели больших ошибок Тьюки й(х.у) = (1 — е)Фр(х, у) + £ф0(х/3, у/3),
р = 0.9, £ — 0.1............................135
2.9 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении с 10%-ным некоррелированным внутренним загрязнением в модели больших ошибок Тьюки 0(х,у) — (1 — е)Фр(х,у) + еФо{Зх,Зх),
р = 0.9, £ = 0.1............................136
2.10 Результаты испытаний Монте-Карло для различных оценок корреляции при двумерном нормальном распределении с 10%-ным противоположно коррелированным загрязнением в модели больших ошибок Тьюки <2(я, у) = (1 — е)Фр(х) у) + еФ-р(х/3, у/3),
р — 0.9, е — 0.1............................137
2.11 Результаты испытаний Монте-Карло для различных оценок корреляционных матриц при 10%-ном внешнем загрязнении р-мерного нормального распределения (р^ = 0.9) в модели больших ошибок Тьюки......................139
2.12 Результаты испытаний Монте-Карло для различных оценок корреляционных матриц при 10%-ном внутреннем загрязнении р-мерного нормального распределения (р^ — 0.9) в модели больших ошибок Тьюки.....................139
177
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.