О скорости сходимости статистик критериев согласия со степенными мерами расхождения к хи-квадрат распределению тема диссертации и автореферата по ВАК РФ 01.01.05, кандидат физико-математических наук Зубов, Василий Николаевич
- Специальность ВАК РФ01.01.05
- Количество страниц 98
Оглавление диссертации кандидат физико-математических наук Зубов, Василий Николаевич
На протяжении многих десятилетий критерии согласия, предназначенные для проверки соответствия имеющихся выборочных данных заданному распределению, не теряют своей значимости в математической статистике. Выдающиеся результаты, полученные в этом направлении, связаны с именами А. Н. Колмогорова, Н. В. Смирнова, К. Пирсона. Один из подходов состоит в следующем: данные выборки группируются на основе попадания в непересекающиеся подмножества (ячейки) области возможных значений элементов выборки, с тем чтобы затем сопоставить частоты попадания в эти подмножества с теоретическими вероятностями, которые могут быть вычислены. При этом проверка соответствия выборки исходному распределению заменяется проверкой соответствия сгруппированных данных полиномиальному распределению. Несомненное достоинство такого подхода состоит в его универсальности.
Классический критерий согласия, предложенный К. Пирсоном и основанный на вышеупомянутой методологии, использует так называемую статистику %2 (см. [26]). Эта статистика имеет простой вид и удобна в применении. Вместе с тем, для получения хорошей точности с помощью этого критерия необходимо иметь достаточно большой объем входных данных (в сумме и по отдельности в каждой ячейке). Кроме того, на практике чаще всего приходится заменять распределение статистики асимптотическим. Точность этой аппроксимации зависит от числа ячеек, а величина ошибки чаще всего неизвестна. Непонятно и то, является ли статистика х2 оптимальной на малых объемах выборки.
В связи с этим многие ученые исследовали другие подходы к построению критериев согласия с целью найти наиболее эффективный в том или ином статистическом смысле. Здесь можно упомянуть работы С. Е. Фейнберга [23], X. О. Ланкастера [42], Д. С. Мура [43], Г. С. Вотсона [53]. Неплохой сводный анализ различных альтернатив приведен в работе С. Хорна [34]. Особое место в этих исследованиях принадлежит работам Н. Крисси [20] и Т. Рида [47]. Эти авторы ввели в употребление и произвели первичный анализ семейства степенных статистик согласия, предназначенного для построения критериев согласия по сгруппированным данным с использованием степенных мер расхождения между эмпирическими частотами и теоретическими вероятностями. Семейство параметризовано вещественным параметром А, при этом как собственно статистика х2 > так и часто используемые статистики являются частными случаями.
Хотя при фиксированной процедуре группировки и неизменном количестве ячеек все статистики семейства асимптотически эквивалентны (имеют одинаковое предельное хи-квадрат распределение), между ними можно провести ряд разграничений на конечных объемах выборки. Например, в работе [20] вычисляются асимптотические разложения моментов статистик семейства при справедливой основной гипотезе. Оказывается, что моменты наиболее близки к моментам хи-квадрат распределения при А = 1 и А = 2/3. Значение 1 ожидаемо, поскольку соответствует хи-квадрат критерию, однако второе значение появляется достаточно неожиданно. Также, в статье [48] показывается, что относительно симметричной основной гипотезы (равновероятное попадание в любую из ячеек) и определенным образом заданных альтернативных гипотез оптимальность в терминах мощности на малых объемах выборки достигается при Л 6 [1/3,2/3], то есть хи-квадрат критерий в этой постановке не является оптимальным. В статьях [20], [48], а также в книге [21] статистика, соответствующая Л = 2/3, выделяется отдельно и рекомендуется к применению на основании проведенного в этих работах сравнительного анализа с другими членами семейства.
Таким образом, в определенных ситуациях вопрос использования альтернативных представителей семейства может быть решен положительно. При этом для практической реализации альтернативных критериев (например, при вычислении критических значений и доверительных интервалов) необходимо четко понимать, насколько хороню статистики семейства аппроксимируются предельным хи-квадрат распределением, и как это соотносится с точностью аппроксимации для статистики х2 ■ В связи с этим актуальной является задача исследования степенных статистик согласия на предмет скорости их [слабой] сходимости к хи-квадрат распределению (при выполнении основной гипотезы и фиксированном количестве полиномиальных ячеек).
Из работ [25], [52] известны оценки скорости сходимости в частном случае статистики х2 j также в работах [47], [49] (с использованием [52]) получены различные асимптотические разложения функции распределения произвольной статистики из семейства степенных статистик согласия. Тем не менее, ни одна из этих работ не позволяет построить оценки скорости сходимости произвольных степенных статистик согласия.
В настоящей работе для всех статистик семейства вне зависимости от числа ячеек группировки впервые получены оценки скорости слабой сходимости к хи-квадрат распределению, имеющие степенной порядок по объему выборки п . По порядку эти оценки соответствуют наилучшим из имеющихся оценок для статистики хи-квадрат (кроме результатов работ [18], [24] и [25], накладывающих ограничения на число ячеек группировки). Дополнительно для случая трех ячеек группировки получены более точные оценки скорости сходимости, превосходящие ранее известные оценки для статистики хи-квадрат. В процессе работы разработан новый метод построения оценок скорости сходимости степенных статистик согласия, основанный на сведении исходной задачи к задаче о приближении числа точек решетки в заданном выпуклом множестве его нормированным объемом (в дальнейшем обобщенная задача Гаусса).
С методологической точки зрения необходимо отметить, что хотя тема исследования происходит из проблем математической статистики, в процессе решения задачи среди прочих были использованы методы теории оптимального управления, тензорного исчисления, а также дифференциальной геометрии. В процессе научного поиска автору было необходимо так или иначе касаться и других областей математики.
Работа состоит из введения, двух глав, заключения и приложения. Во введении в более технических терминах обсуждается постановка задачи, проводится краткий анализ имеющихся результатов, формулируются основные идеи и методы доказательства. В главе 1 рассматривается частный случай, когда число ячеек группировки равно трем. В этом контексте мы получаем верхнюю оценку скорости сходимости к предельному распределению для произвольных статистик семейства, которая близка к нижней оценке, построенной в [28], [29] и [30]. Кроме того, отрабатывается методология (в частности связь с теорией чисел), которая затем используется в общем случае. В главе 2 ограничение на количество ячеек группировки снимается. Мы получаем новые оценки скорости сходимости, справедливые в самом общем случае. Наконец в приложение выведены некоторые вспомогательные результаты технического характера.
Работа докладывалась на научно-исследовательском семинаре кафедры математической статистики факультета ВМиК МГУ (20 марта 2009 г.), на Российско-японском симпозиуме [Математического Института им В. А. Стеклова РАН] "Стохастический анализ сложных статистических моделей"(15-17 сентября 2009 г.), а также принята к докладу на 28-й Конференции Европейских Статистиков (17-22 августа 2010 г., Университет Пирея. Греция). Основные результаты были опубликованы в журналах «Теория вероятностей и ее применения», «Обозрение прикладной и промышленной математики» и в Hiroshima Mathematical Journal.
Автор выражает благодарность своему научному руководителю доктору физ.-мат. наук и профессору МГУ Ульянову Владимиру Васильевичу. Его оптимизм, редкая интуиция в науке и в жизни, а также прекрасное отношение к студентам вызывают интерес и искреннее уважение. Я хотел бы поблагодарить его за дельные советы и в особенности за его настойчивость, без которой эта диссертация, возможно, никогда бы не была написана.
Я хотел бы также поблагодарить своих друзей и одногруппников с кафедры Математической Статистики ВМиК МГУ за совместно проведенные годы учебы в Московском Университете. Без них я бы пропустил немало приятных минут общения в кругу умных, творчески настроенных сверстников, многим из которых суждено добиться значительных высот в жизни. В особенности я хотел бы выразить благодарность Семену Гавриленко за мою первую написанную совместно с ним научную работу. Я думаю, что этот первый опыт был исключительно важен для нас обоих.
Я посвящаю эту работу моим родителям и брату Денису, чья поддержка вот уже на протяжении многих лет придает мне уверенности в своих силах.
Список условных обозначений
1.Х - произвольный вектор.
2. (-)т - транспонирование вектора.
3. Md - Евклидово пространство размерности d.
4. Bi - сечение множества В по координате с номером I.
5. [a;J - целая часть х.
6. - определитель матрицы А.
7. А- обратная матрица к матрице А.
8. Si(x) = х - [х\ - I
9. Ст - класс гладкости функций, имеющих непрерывные производные вплоть до порядка т.
10. С°° - класс функций, имеющих производные всех порядков.
11. д-^гс) производная функции / по направлению е.
12. haus(yi, В) - расстояние между множествами А и В в метрике Хаусдорфа.
13. В\(с) (или Вх) -множество {Та (ж) < с}
14. Bi - проекция множества Вх на ось х = 0.
15. sign(x) — <
1 x > О О х = О -1 х < 0. h(xb . .,xi-i,Xi(x*),xi+i,. .,xr).
Оглавление
Введение
1 Трехмерный случай
1.1 Основной результат и структура доказательства.
1.2 Редукция члена J2.
1.3 Применение теоремы Хаксли к последовательности множеств Вх(п)
1.4 Получение итоговой формулировки результата.
2 Общий случай
2.1 Формулировка результата и структура доказательства
2.2 Редукция члена J2.
2.2.1 Некоторые вспомогательные факты из дифференциальной геометрии.
2.2.2 Предварительные леммы
2.2.3 Преобразование исходного вида члена J2 к упрощенному виду.
2.3 Применимость теоремы Э. Главки к последовательности множеств Вх(п)
2.3.1 Выпуклость Вх
2.3.2 Достаточные условия для применимости теоремы
Э. Главки.
2.3.3 Выполнение достаточных условий для множеств Вх{п)
2.4 Получение итоговой формулировки результата.
Рекомендованный список диссертаций по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Некоторые задачи теории вероятностей и математической статистики, связанные с распределением Лапласа2010 год, кандидат физико-математических наук Лямин, Олег Олегович
Асимптотические свойства критериев согласия для проверки гипотез в схеме выбора без возвращения, основанных на заполнении ячеек в обобщенной схеме размещения2006 год, кандидат физико-математических наук Колодзей, Александр Владимирович
Оптимизация структуры моментных оценок точности нормальной аппроксимации для распределений сумм независимых случайных величин2013 год, доктор физико-математических наук Шевцова, Ирина Геннадьевна
Непараметрическое оценивание функционалов от распределений случайных последовательностей2000 год, доктор физико-математических наук Кошкин, Геннадий Михайлович
Предельные теоремы для статистик экстремального типа2024 год, кандидат наук Симарова Екатерина Николаевна
Введение диссертации (часть автореферата) на тему «О скорости сходимости статистик критериев согласия со степенными мерами расхождения к хи-квадрат распределению»
Мы рассматриваем вектор У = (Yi,., Yk)T, имеющий полиномиальное распределение 7г), т. е. iK'/ЧО. nj = о, 1,.,п 0' = 1,.д-)
Pr(Yi = щ,., Yk = пк) = < О и Ej=i «j = иначе где 7г = (-7Г1,., TXk)1, 7Tj > 0, i = 1 • Мы предполагаем, что число ячеек группировки к фиксировано. Далее будем считать выполненной основную гипотезу Hq: 7г = р. Если изначальное распределение было отлично от полиномиального, вектор р состоит из теоретических вероятностей попадания случайной величины, имеющей исходное распределение, в соответствующие ячейки.
Основным объектом изучения в настоящей работе является построенное по вышеуказанному распределению семейство степенных статистик согласия tx(Y) =
22-У jmJ l)
Замечание 1. При Л = 0,-1 эту запись следует понимать как результат предельного перехода.
Замечание 2. Эти статистики были впервые введены в работах [20] и [47] и обозначались 2nIx(Y). Полагая А = 1, А = — \ и А = 0 получаем статистику х2 > статистику Фримана-Тьюки и логарифмическую статистику отношения правдоподобия соответственно.
Предполагая выполненной основную гипотезу, рассмотрим преобразование
X,- = (Yj - nPj)/yfii, j = 1,., к, г = к - 1, X = (Хг, . ,ХГ)Т (2)
Здесь вектор X — это вектор, компоненты которого сосредоточены на решетке вида
L = {х = (xi,.,xry ] X = (~7=)(т - Tip), p=(pi,. ,рг)г, т - (щ,. .,пг)Т}, v п где rij — неотрицательные целые числа. Кроме того, поскольку компоненты вектора Y в сумме всегда равны п, мы можем положить Xk = —{Xi + ■■■ + Xr). Величина г, таким образом, определяет размерность нашей задачи.
Замечание 3. Простой подстановкой легко проверить, что статистика t\(Y) может быть представлена как функция от X в виде к / / \ Л+1 rrw Ч 2П
Тх{х) =
А(А + 1)
- 1
3) а затем, посредством разложения по Тейлору, преобразована к виду n fx? (А — 1)(А — 2)xf / з\\ i2rfn +°И)- «
Хорошо известен тот факт, что распределение всех статистик семейства t\(Y) сходится к распределению хи-квадрат с к — 1 степенями свободы (см., например, работу [20], с. 443). Однако если мы захотим использовать асимптотические методы статистики, например, для расчета доверительных интервалов, нам необходимо будет знать меру близости исходного и предельного распределений. В связи с этим большой интерес представляет проблема оценки скорости сходимости членов семейства к предельному распределению хи-квадрат.
Функцию распределения статистик семейства Р(Т\(Х) < с) можно записать в виде вероятности попадания случайного вектора X, имеющего решетчатое распределение, в некоторое множество Вх{с).
Одним из важных источников по оценке такого рода вероятностей является работа Дж. Ярнольда [52]. Для того чтобы уяснить суть изложенных в ней результатов необходимо рассмотреть обобщение выпуклых множеств (с достаточно гладкой границей), которые в специальной литературе получили название обобщенных выпуклых множеств. Мы назовем множество В С Rr обобщенным выпуклым, если для V/ = 1 , г оно представимо в виде:
В = {х = (жь ., xr)T: Ai{x*) < xi < 9i{x*) и х* = (xi,., xii,xi+i,xr)T 6 Bi}, (5) где Bi - некоторое подмножество Mr1 и Ai(x*),9i(x*) представляют собой непрерывные функции на Rr1. Другими словами, сечения обобщенного выпуклого множества, параллельные каждой из наличествующих координатных осей, представляют собой интервалы.
В своей работе Ярнольд рассматривал многомерный случайный вектор с решетчатым распределением, вероятность попадания которого в некоторое борелевское множество необходимо оценить. Этот случайный вектор центрируется и нормируется, после чего соответсвующая вероятность оценивается с помощью многомерных разложений Эдж-ворта. В первом приближении они логичным образом дают аппроксимацию многомерным центрированным нормальным распределением. Предположим, что объектом изучения является вероятность попадания нормированного и центрированного указанным выше образом вектора X в обобщенное выпуклое множество В. Предполагается, что этот вектор имеет достаточное количество абсолютных моментов. Для такой вероятности Дж. Ярнольд в своей работе [52] получил асимптотическое разложение, которое в работе [49] было преобразовано к виду
Рг(Х е В) = J1 + J2 + 0{n~l). (6)
Члены этого разложения имеют следующий вид
J\ = J jl + -^/ii(aO + i/i2(®)j dx, где (7)
Ik -j /с ✓ >
2/ о X v л /
9) е •-Е
Шх
Ib,
Si(y/nxi + пр1)ф(х)]в^\ dxi,--- , dxi-\
10)
Lj — {x: Xj — {—={rij — npj)): rij и pj определены как и раньше}; V п
И)
Si(x) = х — L^cJ — L^J ~ целая часть х\ (12) ф(х) =-J-г ехр (-\xTtt~lx) . (13)
У J (2тг)5|П|1 V 2 J к J
Замечание 4. Матрица Q есть ковариационная матрица вектора X. Учитывая, что этот вектор получен из полиномиального вектора Y, нетрудно показать, что Г2 = (5j pi — PiPj) G R^-1)*^-1). Определитель этой матрицы равен Pi ■
Замечание 5. Если распределение абсолютно непрерывно, то известно, что для него выполнено так называемое условие Крамера: для характеристической функции h(t) имеем lim sup^.,^ \h(t)\ < 1. В работе [46] показывается, что для распределений, удовлетворяющих условию Крамера и имеющих достаточное количество моментов, справедливо разложение, аналогичное (6), но без члена J2 - Таким образом, величину J\ можно интуитивно понимать как разложение Эджворта до порядка 0(~) для непрерывной части распределения, в то время как величина J2 появляется как дополнительный корректирующий член для решетчатых распределений.
Определим Вх как {х \ Т\(х) < с}. Наша задача состоит в оценке аппроксимации функции распределения статистики Т\(Х), и, следовательно, в оценке вероятности попадания случайного вектора X в множество Вх. Из теоремы 2 работы [52], которую можно применить к множеству Вх, следует, что для члена J2 имеет место первоначальная оценка вида J2 = О . Однако для получения окончательных оценок необходимо также оценить J\ .
Вначале был получен ряд результатов для отдельных значений Л. Сам Ярнольд в той же работе [52] исследовал разложение (6) для наиболее известной из степенных статистик согласия — статистики хи-квадрат. Нетрудно показать, что множество В1 будет представлять собой эллипсоид, который является частным случаем ограниченного обобщенного выпуклого множества. Дж. Ярнольд сумел упростить сумму слагаемых J\ и J2 в этом простом случае и привел разложение (6) к виду
Pr(X G В1) = Кг{с)+ (N1 - n^V1) e-i/{{2im)r + (14) где К г (с) — функция распределения хи-квадрат с г степенями свободы, TV1 — число точек решетки L в множестве В1, V1 — объем множества В1. Опираясь на результат Эссеена для эллипсоидов [22], он получил оценку для второго слагаемого (14) вида 0{п~.
Замечание 6. Из сопоставления работ [52] и [24] вытекает, что для г ^ 5 (в случае статистики ) оценка второго члена может быть замена на О .
Позднее японские ученые М. Шиотани и Я. Фуджикоши в работе [49] показали, что в случаях Л = О, Л = — | имеет место представление аналогичное простейшему случаю статистики х2
Л = Кг{с) + 0(п~1) (15)
J2 = (Nx — rfiVx) е-у((21гп)г1[к.=1р^ (16)
Vх = Vl + О . (17)
Эти результаты были дословно перенесены Т. Ридом на случай произвольного Л 6 К. Из теоремы 3.1 его работы [47] вытекает, в частности, что функцию распределения статистики Т\ можно разложить в следующем виде
Рг (ТЛ < с) = Рг (хг < с) + J2 + О (тГ1) . (18)
Этим задача оценки погрешности аппроксимации предельным распределением сводится к оценке порядка малости члена ■
Замечание 7. Работа [49] стала широко известной после публикации в Hiroshima Mathematical Journal в 1984 г. Однако она была доступна еще в 1980 г. в виде технического отчета Статистической исследовательской группы университета г. Хиросима. Поэтому неудивительно, что обобщение результатов японских ученых на случай произвольной статистики семейства под авторством Т. Рида было опубликовано в том же 1984 г., но чуть раньше результатов М. Шиотани и Я. Фуджикоши.
Перейдем к основным идеям настоящей работы. Для того чтобы оценить скорость сходимости к хи-квадрат распределению, автору нужно было провести исследование в двух направлениях:
1. Во-первых, проверить, можно ли получить содержательную оценку остаточного члена в (16) (второе слагаемое в (16) не было оценено в предыдущих работах).
2. При условии, что задача оценки указанного остаточного члена выполнена, попытаться найти подходы к оценке главной части члена J2, доступной в явном виде благодаря работам [49] и [47], посвященным построению асимптотических разложений для функции распределения степенных статистик согласия.
Заметим, что в числителе главной части члена J2 мы имеем разность числа точек решетки, попападающих в множество Вх , и нормированного объема этого множества. С помощью преобразования масштаба задача оценки такой разности сводится к оценке разности числа точек с целочисленными координатами, попадающих в множество, полученное линейным расширением из исходного, и объема этого расширенного множества. В дальнейшем будем именовать эту задачу обобщенной задачей Гаусса (обычно задачей Гаусса называют случай, когда множество представляет собой круг на плоскости).
Хотя начало исследованиям задачи Гаусса было положено еще в XIX веке, в последние три десятилетия появилось много новых и порой неожиданных результатов. Они связаны, среди прочих, с именами таких ученых, как И. М. Виноградов [4], Д. А. Попов [13], И. Крятцель, В. Новак ([39], [40], [41], [45]), А. Ивич [27], а также В. Бенткус [18], Ф. Гётце ([24]) и М. Хаксли ([35], [36], [37], [38]). Современные формулировки оперируют вместо круга с выпуклыми множествами произвольной размерности, полученными линейным расширением из некоторого фиксированного множества. Это делается для того, чтобы можно было перейти от точек с целочисленными координатами (далее целых точек), попадающих в множество, к точкам на разнообразных решетках. Например, если решетка дана формулой (11), то мы можем рассматривать приближение числа точек этой рещетки, попадающих в множество В, нормированной площадью В. При этом мы можем использовать результаты исследования обобщенной задачи Гаусса для множества, полученного из В линейным расширением в л/п раз.
За более подробным изложением отдельных последних результатов решения обобщенной проблемы Гаусса автор отсылает читателя к вышеупомянутым работам, а также к работе [44]. Подробный сводный обзор приведен в [27]. Мы лее отстановимся более подробно лишь на двух результатах, существенно использованных в работе. Как уже упоминалось в предисловии, работа шла вначале над случаем, когда исследуемые статистики имеют лишь три слагаемых (что соответствует трем ячейкам группировки). Мы пытались отработать технику, которая могла бы быть использована при исследовании случая произвольной размерности.
За основу был взят относительно недавний и весьма точный результат Хаксли от 1993 г. Мы приводим здесь его полную формулировку.
Теорема 1. (Хаксли, 1993) Пусть В - выпуклая евклидова плоская область площади А, ограниченная простой замкнутой кривой С, состоящей из конечного числа частей Сг, каждая из которых три раза непрерывно-дифференцируема в следующем смысле: радиус кривизны р непрерывен относительно угла смежности (тангенциального угла) ф и не равен нулю на каждой части С{, а также непрерывно-дифференцируем относительно угла смеэюности. Пусть число М достаточно велико, и пусть MB обозначает множество, образованное увеличением множества В линейно в М раз. Тогда для любого изометрического влооюения множества MB в евклидову плоскость число целых точек (т, п) в MB есть
AM2 + О (lMm'T\log М)315/146) , (19) где I - число, зависящее от кривой С, но не от М и не от вложения множества MB.
Интерпретация этой теоремы, равно как и других утверждений такого рода, достаточно проста. Если выпуклое множество обладает достаточно гладкой регулярной границей, то количество целых точек, попадающих в его линейное расширение, может быть с хорошей степенью точности приближено площадью этого линейного расширения. Дополнительно теорема утверждает следующее.
Теорема. (Хаксли, 1993, дополнение) Если помимо вышеуказанного части Ci четырежды непрерывно дифференцируемы в том смысле, что р дважды непрерывно дифференцируем по отношению к углу смежности (тангенциальному углу) ф, то тогда мы можем взять 1 /Л ч 24-69/146 ^ (20)
1 + р2 + {dp/dif))2 J
69/146 dp йф при условии, что М достаточно велико для выполнения неравенств Mn(logM)387/8
• 1 1
М ^ - and —тт Р РЫ 53 dp дф по отдельности на каждом участке Ci.
Доказательство. Смотри [37, теоремы 5 и 6, стр. 294-295 ]. □
Это дополнение к теореме существенно для последующих рассуждений, поскольку оно позволяет нам оценить константу I. Особая сложность рассматриваемой в диссертации задачи состоит в том, что в действительности множества Вх и константа I зависят от п. В связи с этим получение итогового порядка ошибки по п возможно только после получения оценки сверху на I.
Необходимо отметить, что результат Хаксли не имеет прямого обобщения на случай множеств произвольной размерности, поскольку используемая им техника существенно использует тот факт, что мы находимся на плоскости. Поэтому при последующем исследовании многомерного случая был выбран другой результат из теории чисел. В виду больших технических сложностей, связанных с необходимостью проверять все условия применимости результата из теории чисел, автор был вынужден использовать результат, который не является самым точным из имеющихся, но такой, что сложность проверки условий теоремы представлялась приемлемой (это означает, что остается место для уточнения полученных в настоящей работе оценок на основе изложенной методологии).
Именно, в работе используется предложение 9 работы [32].
Теорема 2 (Е. Hlawka, 1950). Пусть D — компактное выпуклое множество в Шт, имеющее начало координат своей внутренней точкой. Объем этого множества обозначим через А. Предположим, что границей множества является т—1 -мерная поверхность класса С°°, причем всюду на ней гауссова кривизна не равна ни бесконечности, ни пулю. Также предполагается, что определенное специальным образом «каноническое» отображение единичной сферы на D взаимно-однозначно и принадлеэ/сит классу гладкости С°° . Тогда во множестве, полученном из исходного параллельным переносом на произвольный вектор и линейным расширением в М раз, количество целых точек равно
N = АМт + О где величина I зависит только от свойств кривой С, но не от параметров М или А.
Доказательство, см. [32], с.25-28. □
Как можно видеть, положив т = 2, этот результат дает оценку погрешности О(Мз), в то время как результат Хаксли 0(М^+е), что лучше. Также понятно, что проверка условий теоремы 2 сложнее, чем проверка условий теоремы 1. В частности, в теореме 2 константа / не задана в явном виде.
В заключение введения остановимся на идее и методах доказательства. Отметим, что исследование случая трех ячеек группировки и общего случая объединено общей концепцией. Вначале мы оцениваем остаточный член в (16), используя близость множества Вх = {х \ Т\(х) < с} и эллипсоида В1, соответствующего статистике хи-квадрат. Это означает, что, отталкиваясь от формулы (10), мы можем заменить функции 9i(x*) и Xi(x*) на функции §i(x*) и Лi(x*), соответствующие границе множества В1. Поскольку ф(х) на границе В1 есть константа, мы можем упростить подынтегральное выражение в (10) с некоторой погрешностью, которую можно подсчитать. Оказывается, что величина, остающаяся ведущим членом после этих преобразований, настолько похожа на соответствующий член из разложения для эллипсоидов, что к ней применимы рассуждения работы Ярнольда [52] (стр. 1571-1572), позволяющие свести оценку J2 к оценке величины
Nx - nWx) е-5/ ((2ттп)г J]*=i
На втором этапе мы рассматриваем линейное расширение множества Вх с фактором у/п, соответствующим преобразованию координат (2). Мы проверяем условия применимости соответствующей теоремы из теории чисел и получаем искомый результат.
Однако практическая реализация изложенного алгоритма для частного и общего случаев существенно раличается. Это связано не в последнюю очередь с тем, что используются разные вспомогательные результаты: в многомерном случае вместо радиуса кривизны приходится оперировать с Гауссовой кривизной; при этом возникает необходимость в использовании не только методов дифференциальной геометрии, но и оптимального управления, тензорного исчисления (эти методы изложены в работах [5], [11], [14], [19]). Помимо этого в случае трех ячеек группировки оказывается возможным напрямую использовать близость функций 9i(x*) и Oi{x*) (\i{x*) и Л/(ж*) соответственно). Однако в общем случае из-за наличия в J<i комбинированных подчле-нов, содержащих одновременно и суммы, и интегралы, оценка погрешности, полученная этим относительно простым способом, оказывается недостаточно хорошей. Поэтому автору пришлось использовать другой метод, основанный на сглаживающем эффекте гауссовской плотности ф(х), уменьшающем погрешность аппроксимации.
Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Методы вероятностно-статистического анализа данных в задачах судостроения2000 год, доктор физико-математических наук Золотухина, Лидия Анатольевна
Теория и алгоритмы вариационной сплайн-аппроксимации2003 год, доктор физико-математических наук Роженко, Александр Иосифович
Математические модели и методы статистического анализа случайных показателей, имеющих распределение, отличное от нормального2010 год, кандидат физико-математических наук Радионова, Марина Владимировна
Статистическая обработка данных с использованием априорной информации2000 год, доктор физико-математических наук Дмитриев, Юрий Глебович
Асимптотическая эффективность критериев согласия, основанных на характеризационных свойствах распределений2011 год, кандидат физико-математических наук Волкова, Ксения Юрьевна
Заключение диссертации по теме «Теория вероятностей и математическая статистика», Зубов, Василий Николаевич
Результаты работы, безусловно, очерчивают перспективу возможных дальнейших исследований на пути к получению полнофункциональных статистических критериев, использующих различные статистики семейства. Одно из возможных направлений — применение более точных результатов из теории чисел для уточнения оценок скорости сходимости к предельному распределению с частичным использованием наработанной техники. Также можно вместо основной гипотезы рассмотреть альтернативную и искать скорость сходимости к предельному распределению в этом случае. Наконец, важным аспектом является оценка констант, входящих в ошибку аппроксимации предельным распределением.
Заключение
В работе диссертанта исследуется скорость сходимости семейства степенных статистик согласия к хи-квадрат распределению. Рассматривается как случай на плоскости, так и общий случай без наложения ограничений на размерность. Подтверждена непосредственная связь задачи оценивания скорости слабой сходимости степенных статистик согласия с известной задачей из теории чисел, впервые указан алгоритм, посредством которого эта связь может быть использована для получения оценок скорости сходимости. Полученные в работе оценки справедливы для произвольных степенных статистик согласия; при этом они сопоставимы, а в некоторых случаях превосходят по точности имеющиеся результаты для хи-квадрат статистики.
Список литературы диссертационного исследования кандидат физико-математических наук Зубов, Василий Николаевич, 2010 год
1. Асылбеков Ж. А., Зубов В. Н., Ульянов В. В. Асимптотические свойства почти квадратичных форм, Теория вероятн. и ее применен, т. 55, вып. 3, 2010.
2. А. Бикялис. Асимптотические разложения для распределений сумм независимых одинаково распределенных решетчатых случайных векторов. Теория вероятностей и ее применения. 14, 3, 499-507, 1969.
3. М. М. вайнберг, в. А. Треногин. Теория ветвления решений нелинейных уравнений. Москва: изд. Наука, 1969.
4. И. м. виноградов. к вопросу о числе целых точек в шаре. Известия Академии Наук СССР, 27, 957-968, 1963.
5. А. Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа. Москва: изд. Наука, 1976.
6. Мищенко А. С., Фоменко А. Т. Курс дифференциальной геометрии и топологии. Изд. Факториал Пресс, 2000.
7. ПЕТРОВ В. В. Суммы независимых случайных величии. Изд. Наука, 1972.
8. Д. А. Попов. О числе целых точек в трехмерных телах вращения. Известия РАН, 64, 2, 121-140, 2000.14. тайманов И. А. Лекции по дифференциальной геометрии. м.Ижевск: НИЦ "Регулярная и хаотическая динамика"; Институт компьютерных исследований, 2006.
9. V. Bentkus, F. Gotze. On the lattice point problem for ellipsoids. Acta Arithmetica. 80, 101—125, 1997.
10. T. bonnesen, W. Fenciiel. Theorie der konvexen korper. Springer Verlag, Berlin. 1934.
11. N. A. C. CRESSIE, T. R. C. Read. Multinomial goodness-of-fit tests, Journal of the Royal Statistical Society, Series B, 46, No. 3, 440 -464, 1984.
12. N. A. c. cressie, T. R. c. Read. Goodness-of-fit Statistics for Discrete Multivariate Data. Springer, New York, 1988.
13. C. G. ESSEEN. Fourier analysis of distribution functions. Acta Mathematica, 77, 1-125, 1945.
14. S. E. FlENBERG. The use of Chi-squared statistics for categorical data problems. Royal Statistical Society B, 41, 54-64, 1979.
15. F. Gotze. Lattice point problems and values of quadratic forms. Inventiones Mathematical, 157, 195 226, 2004.
16. F. gotze, V. V. Ulyanov. On approximations for a distribution of a sum of lattice random vectors and its statistical applications. Hiroshima Statistical Research Group. Technical Report, 2003, 10 pp.
17. P. E. Greenwood, M. S. Nikulin. A Guide to Chi-squared Testing. Wiley, New York, 1996.
18. A. I vie, E. KrAtzel, M. Kuhleitner, and W. G. Nowak. Lattice points in large regions and related arithmetic functions: recent development in a very classic topic, Conference on Elementary and Analytic Number Theory, 89-128, 2006.
19. J. L. HAFNER. New omega results for two classical lattice point problems, Invent. Math. 63, 181-186, 1981.
20. G. h. hardy. On Dirichlet's divisor problem, Proceedings of London Mathematical Society, 2, 15, 1-25, 1916.
21. G. h. hardy On the expression of a number as the sum of two squares, Quart. J. Math. 46, 263 283, 1915.
22. J. H. HEINBOCKEL. Introduction to Tensor Calculus and Continuum Mechanics. Trafford Publishing, 1996.
23. E. HLAWKA. Uber integrale auf konvexen korpern I. Mh Math 54, 1-36, 1950.
24. E. hlawka. Uber integrale auf konvexen korpern II. Mh Math 54, 81-99, 1950.
25. S. HORN. Goodness-of-Fit tests for discrete data: a review and an application to a health impairment scale. Biometrics, 33, 1, pp. 237247, 1977.
26. M. N. HUXLEY. Exponential sums and lattice points, Proceedings of London Mathematical Society, 3, 60, 471-502, 1990.
27. M.N. HUXLEY. Exponential sums and the Riemann zeta function V, Proceedings of London Mathematical Society, 3, 90, 1-41, 2005.
28. M.N. Huxley. Exponential sums and lattice points II, Proceedings of London Mathematical Society, 3, 66, 279-301, 1993.
29. M. N. huxley. Exponential sums and lattice points III, Proceedings of London Mathematical Society, 3, 87, 591-609, 2003.
30. E. Kratzel, W. nowak. Effektive Abschatzungen fur den Gitterrest gewisser ebener und dreidimensionaler Bereiche, Monatshefte fur Mathematik, 146, 21-35, 2005.
31. E. kratzel, W. nowak. Lattice points in large convex bodies, Monatshefte fur Mathematik, 112, 61-72, 1991.
32. E. KrAtzel, W. NOWAK. Lattice points in large convex bodies II, Acta Arithmetica, 62, 285-295, 1992.
33. H. O. Lancaster. The Chi-squared Distribution. New York: Wiley. 1969.
34. D. S. moore. Recent developments in chi-square tests for goodness-of-fit. Mimeograph series 459, Department of Statistics, Purdue University. 1976.
35. W. Muller. Lattice points in large convex bodies. McGraw-Hill Math, 128, 315-330, 1999.
36. W. nowak. A mean-square bound for the lattice discrepancy of bodies of rotation with flat points on the boundary. Acta Arithmetica, 127, 285-299, 2007.
37. R. Rao. Some problems in probability theory. Ph.D. disseration, Calcutta University. Abstract in Bulletin of American Mathematical Society, 67, 359-361, 1961.
38. T. R. C. Read. Closer asymptotic approximations for the distributions of the power divergence goodness-of-fit statistics., The Annals of Mathematical Statistics, 36, Part A, 59-69, 1984.
39. T. R. C. read. Small sample comparisons for the power divergence goodness-of-fit statistics, Journal of the American Statistical Association, 79, 388, pp. 929-935, 1984.
40. M. slotani and Y. fujikoshi. Asymptotic approximations for the distributions of multinomial goodness-of-fit statistics, Hiroshima
41. V. V. Ulyanov, V. n. Zubov. Refinement on the convergence of one family of goodness-of-fit statistics to chi-squared distribution. Hiroshima Mathematical Journal, 39, 1, 133-161, 2009.
42. J. K. YARNOLD. Asymptotic approximations for the probability that a sum of lattice random vectors lies in a convex set, The Annals of Mathematical Statistics, 43, No. 5, 1566-1580, 1972.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.