Многомерный непараметрический линейный регрессионный анализ тема диссертации и автореферата по ВАК РФ 01.01.05, кандидат физико-математических наук Бусарова, Дарья Алексеевна
- Специальность ВАК РФ01.01.05
- Количество страниц 119
Оглавление диссертации кандидат физико-математических наук Бусарова, Дарья Алексеевна
Введение.
1 Робастное непараметрическое оценивание для задачи многомерной линейной регрессии
1.1 Оценки, основанные на выборочной медиане Оя.
1.1.1 Определения.
1.1.2 Асимптотические распределения оценок Вп и Вп.
1.1.3 Робастность и аффинная эквивариантность оценок Вп и Вп.
1.1.4 Доказательство состоятельности оценок Вп и Вп.
1.1.5 Доказательство асимптотической нормальности оценок Вп*Вп.
1.1.6 Доказательство робастности оценок Вп и Вп.
1.1.7 Доказательство аффинной эквивариантности оценок Вп и Вп.
1.2 Оценки, основанные на "взвешенной" выборочной медиане Оя.
1.2.1 Определения.
1.2.2 Асимптотические распределения оценок В'п и В'п.
1.2.3 Робастность и аффинная эквивариантность оценок В'п и В'п.
1.2.4 Доказательство состоятельности оценок В'п и В'п.
1.2.5 Доказательство асимптотической нормальности оценок К* К.
1.2.6 Доказательство робастности оценок В'п и В'п.
1.2.7 Доказательство аффинной эквивариантности оценок В'п и В'п.
1.3 Асимптотическая эффективность и методы вычисления представленных оценок.
1.3.1 Определения асимптотической эффективности.
1.3.2 Пример подсчета асимптотической эффективности
1.3.3 Методы вычисления оценок.
2 Проверка гипотез о матрице коэффициентов для задачи многомерной линейной регрессии
2.1 Основные определения и распределения статистик при нулевой гипотезе.
2.1.1 Постановка задачи.
2.1.2 Определения статистик Тп и Т'п и их распределения при нулевой гипотезе.
2.1.3 Определения статистик фп и ф'п , их распределения при нулевой гипотезе и аффинная инвариантность.
2.1.4 Доказательства теорем разделов 2.1.2 и 2.1.3.
2.2 Предельные распределения статистик критериев при альтернативах
2.2.1 Основные результаты
2.2.2 Эффективность по Питману.
2.2.3 Пример подсчета эффективности по Питману.
2.2.4 Доказательства теорем.
Рекомендованный список диссертаций по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Многомерный непараметрический анализ линейных моделей2002 год, кандидат физико-математических наук Топчий, Анна Валентиновна
Улучшенное оценивание параметров регрессии с импульсными помехами2012 год, кандидат физико-математических наук Пчелинцев, Евгений Анатольевич
Методы вероятностно-статистического анализа данных в задачах судостроения2000 год, доктор физико-математических наук Золотухина, Лидия Анатольевна
Непараметрическое оценивание функционалов от распределений случайных последовательностей2000 год, доктор физико-математических наук Кошкин, Геннадий Михайлович
Асимптотическая теория устойчивого оценивания2002 год, доктор технических наук Шурыгин, Александр Михайлович
Введение диссертации (часть автореферата) на тему «Многомерный непараметрический линейный регрессионный анализ»
Общая характеристика работы
Актуальность темы. Непараметрические методы статистики - методы математической статистики, не предполагающие знания функционального вида генеральных распределений. Одна из задач многомерного непараметрического анализа - задача многомерной линейной регрессии: т
Уг = А] хг + i = 1, 2, . . . , П, где у{ = (yih yi2,yiq)T и Xi = (хп, xi2,xip)T, г = 1,2,., п - значения отклика и фактора, случайные ошибки £i,£2, . ,£п- независимые одинаково распределенные (q х 1)-векторы, £\ = —£\\ задача - оценить неизвестную (р х q)-матрицу регрессионных коэффициентов Во
Наиболее известным методом решения этой задачи является метод наименьших квадратов (МНК). МНК-оценка аффинно-эквивариантна (т.е. изменяется соответствующим образом при аффинных преобразованиях данных) и, в случае когда случайные ошибки имеют гауссовское распределение, оптимальна. Однако хорошо известно, что эта оценка крайне чувствительна к выбросам - единственное постороннее наблюдение может произвести на нее неограниченное влияние.
Разработка робастных методов оценивания для многомерных и многофакторных линейных моделей привлекает внимание многих авторов. Пу-ри и Сен ([25]) предложили покоординатные ранговые оценки. Рао ([27]) предложил использовать одномерный метод наименьших модулей отдельно для каждой координаты отклика. Конкер и Портной ([18]) обобщили метод Рао и предложили робастные М-оценки, заменив модуль на произвольную функцию. Оценка, предложенная Баи и др. ([7]) минимизирует среднее евклидовых норм остатков. Все эти методы, однако, не являются аффинно-эквивариантными. Руссиу и др. ([30]) в случае случайного фактора предложили робастную аффинно-эквивариантную оценку матрицы регрессионных коэффициентов, основанную на робастной оценке ковариационной матрицы вектора = (жf,2/f)T (но не исследовали ее асимптотические свойства). Оллила и др. ([22]) предложили аналогичный подход, использовав вместо оценки ковариационной матрицы Руссиу выборочную знаковую ковариационную матрицу вектора z\. Их оценка аффинно-эквивариантна, однако не робастна, хотя и более устойчива к выбросам, чем МНК-оценка.
Цель работы. Построение робастных аффинно-эквивариантных непараметрических оценок и проверка гипотез для задачи многомерной линейной регрессии. Исследование асимптотических свойств предложенных оценок и статистических критериев.
Методы исследования. Методика исследования основана на общих методах теории вероятностей, математического анализа и математической статистики. Широко используется теория U-статистик.
Научная новизна результатов. Предложены четыре робастные афинно-эквивариантные оценки матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии, исследованы их асимптотические свойства.
Построены два новых аффинно-инвариантных критерия для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии. Изучены асимптотические свойства статистик критериев как при нулевой гипотезе, так и при последовательности близких альтернатив.
Основные результаты, выносимые на защиту.
• Предложены четыре новые робастные аффинно-эквивариантные оценки Вп, Вп, В'п, В'п матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии. Для этих оценок получены условия состоятельности и асимптотической нормальности, найдены функции влияния.
• Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии предложены две новые тестовые статистики Тп и Т'п, изучены их распределения как при нулевой гипотезе, так и при последовательности близких альтернатив. Построены состоятельные оценки ковариационных матриц этих тестовых статистик при нулевой гипотезе.
• Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии рассмотрены две новые аффинно-инвариантные асимптотически свободные от исходных распределений тестовые статистики фп и ф'п, найдены их распределения при нулевой гипотезе и асимптотическая эффективность по Питману соответствующих критериев.
Практическая ценность. Работа носит теоретический характер. Предложенные в работе критерии и оценки могут быть использованы для статистической обработки регрессионного эксперимента. Рекомендуется их использование в задачах, где важно свойство аффинной инвариантности и распределение случайных ошибок может иметь "тяжелые хвосты"по сравнению с нормальным распределением. Оценки ВП) Вп и тестовые статистики Тп, фп рекомендуется использовать в условиях активного эксперимента (когда экспериментатор сам выбирает план эксперимента); оценки В'п, В'п и тестовые статистики Т'п, ф'п могут быть использованы также и в пассивном эксперименте.
Апробация результатов диссертации. Результаты диссертации докладывались на Большом семинаре кафедры теории вероятностей МГУ под руководством член-корр. РАН, проф. А.Н. Ширяева в 2006 г.; на международной конференции "International Conference on Robust Statistics (ICORS) - 2005", Ювяскюля, Финляндия в 2005 г.; на семинаре кафедры теории вероятностей МГУ "Непараметрическая статистика и временные ряды "под руководством проф. Ю.Н. Тюрина, проф. В.Н.
Тутубалина, доц. М.В. Болдина в 2005 г.; на семинаре "Многомерный статистический анализ и вероятностное моделирование реальных процессов"под руководством проф. С.А. Айвазяна в ЦЭМИ РАН в 2006 г.; на семинаре под руководством профессора X. Оя в университете Тампере, Финляндия в 2004 г.
Публикации. Результаты диссертации опубликованы в 4 работах, список которых приведен в конце диссертационной работы.
Структура и объем работы. Диссертационная работа состоит из введения и двух глав. В первой главе исследуется задача робастного аффинно-эквивариантного оценивания в модели многомерной линейной регрессии. Вторая глава посвящена проверке простой гипотезы о матрице регрессионных коэффициентов в модели многомерной линейной регрессии. Текст диссертации изложен на 119 страницах. Список литературы содержит 35 наименований.
Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Исследование распределений статистик многомерного анализа данных при нарушении предположений о нормальности2004 год, кандидат технических наук Помадин, Сергей Сергеевич
Некоторые задачи теории вероятностей и математической статистики, связанные с распределением Лапласа2010 год, кандидат физико-математических наук Лямин, Олег Олегович
Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами2015 год, кандидат наук Есаулов Даниил Михайлович
Математическое моделирование некоторых методов проверки статистических гипотез, основанных на теории больших уклонений2001 год, кандидат физико-математических наук Романова, Татьяна Анатольевна
Робастное и непараметрическое оценивание характеристик случайных последовательностей2009 год, доктор физико-математических наук Китаева, Анна Владимировна
Заключение диссертации по теме «Теория вероятностей и математическая статистика», Бусарова, Дарья Алексеевна
2.2.1 Основные результаты
В этом разделе мы будем рассматривать исходную задачу (Но, На) как последовательность задач различения гипотез (Но, Нп), где гипотеза Ho : Bq = О проверяется против альтернативы Нп : Во = ггдД для некоторой ненулевой р х q матрицы А. В предыдущем разделе мы нашли предельное распределение статистик Тп, Т'п, фп и ф'п при гипотезе Но, благодаря чему мы смогли построить четыре критерия для проверки гипотезы Щ против альтернативы На. Предельные распределения статистик критериев при альтернативах важны с точки зрения свойств мощности соответствующих критериев. Поэтому, наша задача теперь найти предельные распределения статистик Тп, Т'п, фп и ф'п при альтернативе Нп.
Используя обозначения, введенные ранее, сформулируем теоремы о предельных распределениях статистик Тп и Т'п при гипотезе Нп : Bq = ггДД.
Теорема 2.8. Пусть выполнены условия теоремы 2.1, а также d) в окрестности нуля верно следующее разложение:
Т(р) = Т(О) + А0 + о(\\/3\\), где А - некоторая (pq X pq) -матрица, e) при {/i,., Ipq} £ 1р вероятность события det (b(h). b(Ipq)) = О} П {r(h,Ipq) = l} при гипотезе Щ равна нулю.
Тогда асимптотическое распределение случайного вектора л/пТп при альтернативе Нп есть pq-мерное нормальное с вектором математических ожиданий —Avec(A) и ковариационной матрицей p^q2Y.
Теорема 2.9. Пусть выполнены условия теоремы 2.2, а также d) в окрестности нуля верно следующее разложение: Т'(0) + Л!(3 + о(||/3||), где А! - некоторая (pq X pq) -матрица, e) при {/i,., Ipq} 6 Хр вероятность события det (b(h) . . . b(Ipq)) = о} n [r(Ih ., Ipq) = l} при гипотезе Hq равна нулю.
Тогда при альтернативе Нп предельное распределение статистики \/пТ'п есть Npq(-A'vec(A),pAq2T').
Как следствие теорем 2.8, 2.9, мы получаем следующие основные результаты этого раздела.
Теорема 2.10. Пусть выполнены условия теоремы 2.8 и матрица Г невырождена. Тогда предельное распределение статистики фп при гипотезе Нп - нецентральное х2-распределение с pq степенями свободы и параметром нецентральности ^ (vec(Д))Т АГ1А vec(A).
Теорема 2.11. Пусть выполнены условия теоремы 2.9 и матрица Г' невырождена. Тогда при гипотезе Нп предельное распределение статистики ф'п есть нецентральное х2-распределение с pq степенями свободы и параметром нецентральности (vec(A))T A!Y'~lA! vec(А).
2.2.2 Эффективность по Питману.
Теперь наша задача состоит в том, чтобы выяснить, в каких моделях предложенные нами критерии фп и ф'п являются более предпочтительными по сравнению с другими известными критериями. В предыдущем разделе мы нашли предельные распределения статистик фп и ф'п при нулевой гипотезе и показали, что они являются аффинно-инвариантными. Напомним, что при прочих равных условиях из двух критериев одинакового асимптотического размера а для данной модели лучшим считается тот, который имеет наибольшую предельную мощность. На основе этого соображения важным считается следующее понятие эффективности по Питману [21]:
Определение 2.4. Пусть {£п} и {£*} - две последовательности статистик критериев асимптотического размера а для проверки гипотезы Hq : 9 = 9 о против альтернативы На '■ 9 ф 9q. Пусть Нп : 9 = 9п - последовательность альтернатив и 9п —У до при п —> оо. Далее, обозначим 7п(9п) и 7п{@п) ~ мощности критериев {£п} и {£*} при гипотезе Нп, соответственно. Если
Ир 7П(0П) = lip 7ln){9n) = 7,
7 ф 0,1 и предел lim^oo ^ существует и ограничен, то этот предел называется относительной эффективностью Питмана статистики критерия {&} по отношению к статистике критерия {£*} для уровня значимости а, мощности 7 и последовательности альтернатив Нп.
Будем обозначать эту эффективность как е(£п, £*), помня при этом, что е(£п, £*) зависит также от а, 7 и 9п.
Итак, найдем асимптотические эффективности Питмана критериев на основе статистик if,'п и ф'п относительно оптимального критерия.
Дадим определения. Пусть распределение Fq имеет плотность f(0, х) ( везде далее будем определять плотность относительно лебеговской меры в абсолютно непрерывном случае, и относительно считающей меры - в дискретном случае). Предположим, что матрица информации
1(в)= E0(vin/(0,aOVln/(M)T) существует и положительно определена.
Пусть п д(0) = 5>/(мо i=i обозначает логарифм от функции правдоподобия, п
S[e) = VD(e) = -Y,L(e,Xi) г=1
- ее градиент (здесь Ь(в,х{) = — Vln/(0, ж^)), и вп обозначает оценку максимального правдоподобия.
Рассмотрим задачу проверки простой гипотезы Hq : в = G Rk- Ее решение может быть основано на одной из трех асимптотически эквивалентных статистик: n = 2(D(en)-D(eQ)), Wn = пвТп1п(вп)вп и vn = n-1s(0o)Ti;1(eo)S(Oo), где 1п(в) = ^ Ya=i xi)LT{®i xi) есть состоятельная оценка для 1(0). Статистика Хп основана на методе отношения правдоподобий и была введена Нейманом и Пирсоном (см. [19]), статистика Wn - Вальдом ([35]), a Vn - Рао ([26]). При некоторых условиях регулярности все три упомянутые тестовые статистики при гипотезе Щ слабо сходятся к ^-распределению с к степенями свободы, а при последовательности близких альтернатив Нп\в — Oq -к xl (<$т/(0о)^)-распределнию.
Согласно найденным нами в разделе 2.2.1 асимптотическим распределениям статистик фп и ф'п при гипотезе Нп, задача нахождения их асимптотических эффективностей Питмана упрощается с помощью следующей теоремы Ханнана [14]:
Теорема 2.12 (Ханнан). Предположим, что статистики критериев £п и £* при альтернативе Нп \ в = 9п слабо сходятся к случайным величинам с распределениями xl(Ai) и А2); соответственно. Тогда е(Сп)Сп) не зависит от а, но зависит от 7 и вп через параметры Ai и Х2.
В силу вышесказанного, асимптотические эффективности Питмана критериев на основе статистик фп и ф'п относительно оптимального критерия (например, на основе \п) есть, соответственно 8тАТ^А6 дтА'Г'~1А'д п)~ р^дт 1(0)6' где матрица информации 1(0) задается формулой (1. 137).
2.2.3 Пример подсчета эффективности по Питману.
Рассмотрим линейную регрессионную модель
Vi = Ал + А)2Жг + е», г = 1,., п где Xi ~ Bin(l, 1/2) и ~ F есть независимые одинаково распределенные случайные величины. Очевидно, что в этом случае статистики фп и ф'п, а значит и их асимптотические эффективности по Питману совпадают. Итак, вычислим 8тАТ~1А6 165т1(0)8'
L(zi) = hL(yi)x i, K(zi) - h\(yi)xi,
Поскольку где и где 1
ЛдМ = ^(г/з Sgn(2/22/4 - У1У3) I Zl), то есть векторы L(z\) я A(z{) коллинеарны, то в силу представления (1. И), определения матрицы Г и формулы (1.137), получим, что матрицы АТ~1А =
WY~lW (где матрица W определена в теореме 1.2) и 1(0) пропорциональны. Поэтому асимптотическая эффективность по Питману е не зависит от д и равна (см. раздел 1.3.2):
Ео{уФь(у1) sgn(y2yA - ут)\
Eo(h2L(yi))Eo[y3yQ sgn((y2|/4 - Уш)(2Ш - Ут))}'
Асимптотическая эффективность статистик фпиф'пв данном примере совпадает с асимптотической эффективностью оценок ВП} Вп, В'п и В'п, представленных в главе 1, поэтому можно воспользоваться результатами таблицы 1.2 раздела 1.3.2 (приведем их в таблице 2.1).
Список литературы диссертационного исследования кандидат физико-математических наук Бусарова, Дарья Алексеевна, 2006 год
1. Андерсон, Т. (196S. Введение в многомерный статистический анализ.Физматгнз, Москва.
2. Большев Л.Н., Смирнов Н.Б. (1983) Таблицы математической стати- стики. Наука, Москва.
3. Ермаков М., Жиглявский А. А. (1982), Математическая теория оп- тимального эксперимента. Наука, Москва.
4. Ильин В.А., Садовничий В.А., Сендов Бл. X. {1%7)Математический анализ. Изд-во МГУ, Москва.
5. Хьюбер П. (1984) Робастность в статистике. Мир, Москва.
6. Ширяев А.Н. (2004) Вероятность. МЦНМО, Москва.
7. Bai Z.D., Chen N.R., Miao B.Q. and Rao C.R. (1990) Asymptotic theory of least distances estimate in multivariate hnear models. Statistics, 21, 503 -519.
8. Bassett G.W. (1988) A p-Subset property of Li and regression quantile estimates. Computational Statistics and Data Analysis., 6, 297 - 304.
9. Bickel P.J. (1964) On some alternative Estimates of Shift in the P-Variate One Sample Problem. Ann. Math. Statist, 35, 1079 - 1090.
10. Cramer H. (1946) Mathematical Methods of Statistics. Princeton Univ. Press, Princeton.
11. Hampel F.R. (1968) Contributions to the theory of robust estimation. Ph. D. Thesis. Berkeley: Univ. California
12. Hampel F.R. (1974) The influence curve and its role in robust estimation. J. Amer. Statist. Ass., v. 69, 346, p. 383 - 393116
13. Hampel F.R., Ronchetti E.M., Rousseeuw P.J. and Stahel W.A. (1986) Robust Statistics: The Approach Based on Influence Functions, Wiley, New York.
14. Hannan E.G. (1956) The asymptotic power of tests based upon multiple correlation. J. Roy. Statist. Soc. Ser. B, 18, 227 - 233.
15. Hawkins D.M., Bradu D. and Kass G.V. (1984) Location of several outliers in multiple regression data using elemental sets. Technometrics, 26, 197 - 208.
16. Hawkins D.M. (1993) The accuracy of elemental set approximations for regression. J. Am. Stat. Assoc, 88, 580 - 589.
17. Koenker R. and Bassett G.W. (1978) Regression quantiles. Econometrica, 46, 33 - 50.
18. Koenker R. and Portnoy S. (1990) M-estimation of multivariate regressions. J. Am. Statist. Ass., 85, 1060 - 1068.
19. Neyman J. and Pearson E.S. (1928) On the use and interpretation of certain test criteria for purposes of statistical inference. Biometrica, 20A, 175 - 240and 263 -294.
20. Niinimaa A., Oja H., Nyblom J. (1992) Algorithm AS 277: the Oja bivariate median. Appl. Statist., 41, 611 - 617.
21. Noether G.E. (1995) On a theorem of Pitman, Ann. Math. Statist, 26, 64 -68.
22. Ollila E., Oja, H. and Hettmansperger T.P. (2002) Estimates of regression coefficients based on the sign covariance matrix. J. R. Statist. Soc. Ser. B,64, part 3, 447 - 466.
23. Oja H. (1983), Descriptive Statistics for Multivariate Distributions. Stat. Probab. Lett, 1, 327-332.
24. Pollard D. (1991) Asymptotics for least absolute deviation regression estimators. Econometric Theory, 7, 186 - 199.117
25. Puri M.L. and Sen P.K. (1985) Nonparametric Methods in General Linear Models. New York: Wiley.
26. Rao C.R. (1947) Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimations. Proc. Comb.Phil. Soc, 44, 50 - 57.
27. Rao C.R. (1988) Methodology based on Li-norm in statistical inference. Sankhya A, 50, 289 - 313.
28. Rockafellar R.T. (1970) Convex Analysis, Princeton, NJ: Princeton University Press.
29. Rousseeuw P. J. and Leroy A. (1987) Robust Regression and Outlier Detection. New York: Wiley.
30. Rousseeuw P.J., Van Driessen K., Van Aelst S. and Agullo J. (2004) Robust multivariate regression. Technometrics, 46, 293 - 305.
31. Serfling R.J. (1980), Approximation Theorems of Mathematical Statistics. John Wiley, New York.
32. Sheynin O.B. (1973) R.J. Boscovich's work on probability. Arch. Hist. Exact Sci., 9, 306-324.
33. Siegel A.F. (1982) Robust regression using repeated medians. Biometrica, 69, 242 - 244.
34. Theil H. (1950) A rank-invariant method of linear and polynomial regression analysis (Parts 1-3). Ned. Akad. Wetensch. Proc. Ser. A, 53, 386 - 392, 521- 525, 1397 - 1412.
35. Wald A. (1943) Tests of statistical hypotheses concerning several parameters when the number of observations is large . Trans. Amer. Math. Soc, 54, 426-482.118Публикации автора ио теме диссерта-ции.
36. Бусарова Д. А. (2006) Проверка гинотез о матрице коэффициентов мно- гомерной линейной регрессии. Вестн. Моск. ун-та. Сер. 1, Математи-ка. Механика., 4, с. 8 - 14.
37. Бусарова Д. А. (2006) Робастное оценивание матрицы коэффициентов в многомерной линейной регрессионной модели. Успехи математическихнаук, 61, вынуск 3, с. 169 - 170.
38. Бивагоуа D., Tyurin Y., Mottonen J. and Oja Н. (2006) Multivariate Theil estimator with the corresponding test. Mathematical methods of statistics,15, 1, pp. 1 - 19.
39. Busarova D. (2005) Robust multivariate regression. ICORS-2005 (International Conference on Robust Statistics), Abstracts, p. 9.119
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.