Асимптотическая эффективность ранговых критериев независимости тема диссертации и автореферата по ВАК РФ 01.01.05, кандидат физико-математических наук Степанова, Наталья Александровна
- Специальность ВАК РФ01.01.05
- Количество страниц 97
Оглавление диссертации кандидат физико-математических наук Степанова, Наталья Александровна
Введение
1 Некоторые факты из теории вероятностей, математической статистики и теории экстремальных задач
1.1 Сведения из теории И-статистик.
1.2 О питменовском подходе к вычислению асимптотической эффективности
1.3 Несколько фактов из теории копул.
1.4 Две теоремы из теории гладких экстремальных задач.
1.5 Теорема Реймхарта-Шорака-ван Цвета.
2 Асимптотическая эффективность многомерных критериев Кендал-ла и Спирмена
2.1 Введение
2.2 Постановка задачи и применяемые статистики.
2.3 Многомерные коэффициенты корреляции Кендалла и
Спирмена как тестовые статистики для проверки независимости
2.4 Верхняя граница для питменовской мощности
2.5 Питменовская эффективность многомерных критериев Кендалла и Спирмена
2.6 Условия асимптотической оптимальности многомерных критериев Кендалла и Спирмена.
3 Асимптотическая эффективность критериев независимости, основанных на обобщениях кендалловского тау
3.1 Введение
3.2 Постановка задачи. Определение и простейшие свойства тестовых статистик
3.3 Питменовская эффективность критериев Кочара-Гупты для проверки независимости.
3.4 Условия асимптотичесой оптимальности критериев независимости Кочара— Гупты.
4 Взвешенные ранговые критерии независимости и их асимптотическая эффективность
4.1 Введение.
4.2 Постановка задачи и применяемые статистики.
4.3 Асимптотическая эффективность и асимптотическая оптимальность взвешенных ранговых критериев независимости
Рекомендованный список диссертаций по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Математическое моделирование некоторых методов проверки статистических гипотез, основанных на теории больших уклонений2001 год, кандидат физико-математических наук Романова, Татьяна Анатольевна
Разработка и исследование критериев проверки гипотез случайности, независимости и однородности1998 год, кандидат физико-математических наук Чепурко, Валерий Анатольевич
Матричнозначные корреляционные меры и многомерные тесты независимости2008 год, кандидат физико-математических наук Суханова, Екатерина Михайловна
Многомерный непараметрический анализ линейных моделей2002 год, кандидат физико-математических наук Топчий, Анна Валентиновна
Многомерный непараметрический линейный регрессионный анализ2006 год, кандидат физико-математических наук Бусарова, Дарья Алексеевна
Введение диссертации (часть автореферата) на тему «Асимптотическая эффективность ранговых критериев независимости»
Проверка гипотезы независимости принадлежит к числу наиболее важных задач математической статистики. Для проверки независимости нередко используют ранговые коэффициенты корреляции, наиболее известными среди которых, несомненно, являются коэффициенты корреляции Кендалла и Спирмена. Свойства этих мер зависимости изучены достаточно хорошо [48], [81], [3], [5], [7], [10], [17], [58].
В основе ранговых методов лежит идея перехода от последовательности наблюдений к набору рангов, поэтому они могут использоваться, когда известны лишь результаты упорядочения наблюдений. С этим свойством ранговых процедур связаны их многочисленные приложения в психологии, медицине, социологии и др. областях знаний. В последние десятилетия появилось большое количество задач, в которых на основе обработки данных требуется сделать вывод и дать практические рекомендации в ситуациях, когда традиционные методы оказываются либо неприменимыми, либо малоэффективными. Таким образом возникают разнообразные обобщения классических коэффициентов корреляции. Новые статистики предлагаются, как правило, из эмпирических соображений. По мнению их авторов они "должны работать" в той или иной задаче проверки гипотезы независимости. Поэтому важно понять, когда же эти статистики действительно работают и обладают максимальной эффективностью.
Новые коэффициенты корреляции, появившиеся в литературе и используемые на практике сравнительно недавно, изучены не столь хорошо, как их "предшественники" . Они обладают более сложной структурой, чем классические меры взаимосвязи, и исследование их свойств сопровождается значительными трудностями технического характера.
Настоящая диссертация посвящена изучению асимптотических свойств и вычислению асимптотической эффективности различных обобщений коэффициентов корреляции Кендалла и Спирмена, а также линейных ранговых статистик, используемых для проверки гипотезы независимости.
Асимптотическая относительная эффективность (АОЭ) — понятие, традиционно используемое для сравнения качества критериев. Оно позволяет упорядочить имеющиеся критерии и выявить среди них наилучший. Существуют различные подходы к определению АОЭ (см., например [10, гл. 1], [74, гл. 10]). Для статистик, имеющих при нулевой гипотезе и при альтернативе нормальное предельное распределение, обычно применяются идеи Питмена ([10, § 1.4], [17, § 2.6], [74, гл. 10]). Эффективность, вычисленная согласно этим идеям, носит название питменовской АОЭ.
Общий подход к вычислению АОЭ состоит в следующем. Пусть {Тп} и {14J — две последовательности статистик, построенные по выборке Xi,. ,Хп, с общим распределением Pq, в е ©, и проверяется гипотеза Н0 : в G во против альтернативы А : в Е ©1 = 0\©о- Определим Nt{ol, ß, в) как минимальный объем выборки Xi,. ,Хп, для которого последовательность {Тп} с заданным уровнем значимости а достигает мощности ß при альтернативном значении параметра в G Gi. Аналогично вводится Nv(a,ß,0). Отностительной эффективностью критерия, построенного по статистике Тп, по отношению к критерию, основанному на Vn, называется величина eT,v{a,ß,9) = —;—-г—г,
NT(a, ß, 9) то есть обратное отношение выборочных объемов. Относительная эффективность как функция трех аргументов даже для самых простых статистик не поддается вычислению в явном виде. Поэтому принято рассматривать пределы lim еТу(а, ß,9), а—>0 ' lim ету(сс, ß,9), lim еТу{а, ß, 9). В первом случае получается АОЭ по Бахадуру,
3—>1 в—>д®о второй предел определяет АОЭ по Ходжесу—Леману и, наконец, предел при 9 —> дО0 в некоторой подходящей топологии на 0 приводит к определению АОЭ по Питмену. Так как в практических приложениях наиболее интересны случаи малых уровней значимости, высоких мощностей и близких альтернатив, то все три определения представляются обоснованными и очень естественными. Предельные переходы, отличные от указанных, приводят к другим вариантам определения АОЭ (см. [74, гл. 10]).
Большое количество результатов, связанных с построением критериев независимости и вычислением их эффективности, получено для задачи двух признаков.
Пусть по выборке (Xi, Fi),. , (Хп, Yn) из непрерывного распределения с ф.р. F(x, у) и маргинальными ф.р. G(x) и Н(у) требуется проверить гипотезу независимости
H0:F(x,y) = G(x)H(y) при всех х и у из R. Кроме альтернативы общего вида
H1:F(x,y)^G(x)H(y) для хотя бы одной пары точек (х, у), обычно рассматриваются следующие гипотезы:
H2:F(x,y)>G(x)H(y) при всех х я у со строгим неравенством хотя бы для одной пары (х, у), называемая альтернативой строгой положительной квадрантной зависимости, а также гипотеза
H3 :Xi = X* + 6Zi, Vi = Y* + eZi, где X*, Y*, Zi — взаимно независимые случайные величины (с.в.), причем типы распределений X* и Y* известны, распределение Zi произвольно, в > 0 — малый вещественный праметр. Эта модель зависимости рассматривалась многими авторами, в том числе очень подробно Гаеком и Шидаком [3]. В [76] вводится взвешенный вариант Щ вида н4-.хг = х* + eq{x;)zl: f, = f; + вгг с некоторой монотонной функцией q(x). Аргументом в пользу Н4 служат различные практические приложения задачи о независимости двух признаков.
Широко распространенной, достаточно общей и удобной для вычисления эффективности критериев является альтернатива
Я5 : Fe{x,у) = С(х)Н(у) + 9П(С(х),Н(у)) для всех х и у и некоторого в > 0. Функция Q, называемая обычно функцией зависимости (ф.з.), задана на единичном квадрате I2 = [0,1] х [0,1], и удовлетворяет естественным ограничениям. Впервые эта модель появилась в [32], рассматривалась в [10, гл. 5] и при различном выборе Q встречается у многих авторов [11], [21], [51], [61], [63, гл. 8], [85] и др. Параметр в предполагается достаточно малым, так, чтобы Fg(x,y) действительно была функцией распределения. Гипотеза Щ является важным частным случаем модели Я2. Если Щх,у) = yg(G~1(x))/q(G~1(x))+xh(H~l(y)), где д и И — плотности, соответствующие (7 и Н, то альтернатива Н5 совпадает с предположением Н4. Частным случаем является также известная в робастной статистике модель Хьюбера [19, § 4.5]. В приложении к задаче о независимости двух признаков она имеет вид где G и Н — фиксированные, a F — произвольное вероятностные распределения, называемая обычно функцией Фарли—Гумбеля—Моргенштерна (ФГМ) [32], [37],
В диссертации альтернативой к Н0 является гипотеза Щ и ее многомерное обобщение
Я6 : Рв{хи . , хт) = ^1(3:1). Рт(хт) + 1),. ) Ртг(-^т)) для всех (а?!,. , хт) 6 Нт, т > 3, и некоторого 9 > 0. Функция Гв(х1,. , хт) — непрерывная ф.р. случайного вектора X = (Хх,. , Хт) с маргинальными ф.р. ^(ж,), г = 1,. ,т, Г1т — ф.з., заданная на единичном кубе 1т = [0,1]т, неотрицательная и ограниченная. Естественные априорные ограничения на £1т выделяют семейства Тт, гп > 3 непрерывных ф.р. Р0{х\1. , хт). Точное опредедление Тт содержится в параграфе 2.2.
Хорошо известные, классические способы проверки независимости основаны на коэффициентах корреляции Кендалла [48] и Спирмена [81]. Пусть имеется выборка (Хх, У)),. , (Хп, Уп) из двумерного распределения с некоторой непрерывной функцией распределения (ф.р.) Р(х,у). Кендалловским "тау" называется статистика
Переписанная через ранги В4 и <3г элементов Х% и У^, г = 1,. ,п, она имеет вид
7 : Fe(x, у) = (1 - e)G{x)H(y) + 9F(x, у), х,у Е R
9 — положительное число. В этом случае ф.з. Q(x, у) = F(x, y)—G(x)H(y). Наиболее известным примером ф.з. несомненно является функция
П(х,у) = Сх(1-х)у(1-у), 0 < х,у < 1, С> 0,
57]. где sign(a:) = —1, 0 или 1, когда х < 0, =0 или > 0.
Коэффициент корреляции Спирмена определяется как
Рп = П 1 г=1 4 Л ! V. г=1
За исключением крайних ситуаций, когда тп и рп принимают значения ±1, статистики (1) и (2), вообще говоря, не равны. В действительности их корреляция очень высока и при нулевой гипотезе они асимптотически эквивалентны [17, § 4.4].
Обобщения классических мер взаимосвязи (1) и (2), предложенные за последние десятилетия, носят самый разнообразный характер [20], [23], [34], [43], [47], [49], [50], [62], [73], [79], [82], [83]. Как правило их появление связано с практическими приложениями задачи о проверки гипотезы независимости (см. также [26], [42], [68], [76],
В настоящей диссертации изучаются : многомерные варианты статистик тп и рп, которым посвящена глава 2; семейства обобщенных коэффициентов корреляции Кочара—Гупты, включающие в себя как частный случай статистику тп (о них рассказывается в главе 3); взвешенный тау Кендалла и линейные ранговые статистики с монотонными функциями меток, используемые для определения точности прогнозов (им посвящена глава 4).
Все рассматриваемые в работе статистики удовлетворяют основным требованиям, предъявляемым к коэффициентам корреляции, которые были предложенны в 1959 г. Реньи [66]. Позже Швайцер и Вольф модифицировали список аксиом Реньи на случай непараметрических мер зависимости [73].
Остановимся кратко на основных результатах предлагаемой диссертации. Утверждения второй главы связаны с асимптотическими свойствами и асимптотической эффективностью многомерных критериев независимости.
Многомерные методы как один из разделов непараметрической статистики довольно сложны. Их развитие происходит далеко не механическим обобщением классических результатов. Многомерными обычно называют методы для таких задач, в которых каждое наблюдение % = 1,. ,п, есть т-мерный вектор с тп > 3. В многомерном пространстве не существует линейного упорядочения, согласованного с естественной топологией, так же как пока не существует стройной теории многомерного непараметрического анализа. В ряде исследований, посвященных проверке гипотезы независимости тп признаков, тп > 3, можно выделить работы Джо [43],
77], [78]).
44], Чои и Мардена [26], Саймона [79], Пури и Сена [63, гл. 8]. Как правило, все они связаны с различными, иногда очень непростыми, обобщениями статистик, применяемых для проверки независимости двух признаков. Интересными и обоснованными представляются идеи Джо, предложившего для упорядочения от-мерных распределений использовать то или иное понятие зависимости [44, гл. 2], [43]. Изучаемые в [43] тя-мерные обобщения коэффициентов корреляции Бломквиста, Кендалла и Спирмена возрастают относительно упорядочения распределений, определяемого на основе понятия положительной ортантной зависимости. Проблема асипмтотической эффективности критериев в [43] затронута при этом лишь частично, в простейших частных случаях.
В настоящей диссертации асимптотическая эффективность многомерных аналогов тп и рп вычисляется для достаточно широкого класса альтернатив, описываемых гипотезой #6- В главе 2 тестовыми статистиками для проверки Н0 против Н6 выступают средние коэффициенты корреляции Кендалла и Спирмена и многомерное "ро" Спирмена. Они определяются следующим образом.
Пусть Хг = (Хц,. ,Хгт), ъ = 1,. , п, — выборка из непрерывного распределения с ф.р. Г(х) — Р(х\,. , хт). Обозначим через Вк,т-к множество ортантов в пространстве В.т, такое, что каждая точка содержит либо к положительных и т — к отрицательных компонент, либо к отрицательных и т — к положительных. Среднее значение тау Кендалла есть статистика
-1
П = к—т'
Yl IBk,m-k(Xi ~ Xj) l<i<j<n
3) с весами wk = 2 ^ + ^^-к = т', . т, т' = .
V2 )
Джо [43] установил, что при данном выборе wстатистика (3) совпадает со средним тау [31], [38], вычисленным по всевозможным парам случайной т-мерной выборки Xi = (Хц,. , Xim), i = 1,. ,п.
Пусть, далее, Щ обозначает ранг Xij среди элементов Хц,. , Xnj. Среднее ро определяется как [5, § 6.5], [17, § 4.4] ave п2
-1 п / ~ ч 2
71+1 l<j<j'<m ¿=1
4)
Прямым аналогом рп в многомерном случае является статистика [43], [68], [84]
Определение многомерного аналога тау — задача несомненно более сложная. Некоторые идеи по этому поводу содержатся в [26], [43], [79] и нескольких других работах, однако в данной диссертации не рассматриваются.
Все три коэффициента (3)—(5) возрастают относительно упорядочения многомерных распределений по Джо (см. [43]) и не изменяются при строго возрастающем преобразовании компонент случайного вектора.
Несмотря на то, что средние коэффициенты Кендалла и Спирмена известны уже более полувека, а статистика }¥т:П — по крайней мере 20 лет, вопрос об асимптотической эффективности соответствующих критерив независимости до сих пор оставался малоизученным. Восполнить этот пробел — задача второй главы.
Вопрос об асимптотической эффективности критериев р^п и 1¥т,п решается, по существу, с помощью двух лемм из параграфа 2.5.
Пусть 7^(0), 7^(0): и — значения функций мощности в точке в для статистик Т™, Ргп%> и соответственно, а > 0 — заданный уровень значимости и \ д£1т(х\,. , функция и>т[хи . ,Хт) = -^---. иХ\ . . - С/кЬ
Лемма 2.5.1.
Нт7„т1(^) = Ит7Г га 2 га—>оо \ \/П / га->оо '
1 - Ф
Хг + 8 ^^ ^ ХгХ3 | (я) бIX
-1 Е т г<3 где х = (х|,. , хт) е 1т, Ф(га) = 1 — а, Ф — ф.р. стандартного нормального закона.
Лемма 2.5.2.
-1)т2т
Ит7гатз(^]=1-Ф га—> оо
КГ-*-Ч!"2 J &т(х) йх
Jm
Комбинация двух этих утверждений с результатом Рао (лемма 1.2.1) дает выражения для питменовской (абсолютной) эффективности многомерных критериев Кендалла и Спирмена. Лемма 2.5.1 показывает также, что асимптотическая эффективность критериев т^® и р^п одна и та же. Следующий по нашему мнению интересный и важный результат сформулирован в виде теоремы.
Теорема 2.5.1 Предположим, что ф.з. имеет вид п*,хт) = Д хк, (хъ. ,хт) е1т, т> 3, 7 где Ф(ж, у) — ограниченная неотрицательная функция, заданная на квадрате 12 =
О, I]2, равная нулю на его границе и имеющая, по крайней мере, в открытом мнор. ^ я х д2Щх, у) дЧ(х,у) жестве (0,1) производную щх.у) = ——-- = ——--. 1огда питменовская дхду дудх эффективность средних критериев Кендалла и Спирмена не зависит от т и равняется е^е(О^) = = 144 ^Ф(*,у)<Ыу^ у/^ф\х,у)йхйу.
Неожиданный эффект независимости качества критериев от количества признаков связан со структурой многомерных статистик и р^п. Так, для многомерного нормального закона с функцией Ф(х,у) = ^(Ф1(х))<^(Ф1(у)) питменовская эффективность, как и в случае двух признаков, равняется 9/ж2 & 0,9119. Для коэффициента \¥т>п обнаружить нечто подобное не удалось: в случае простейших и наиболее известных распределений качество критерия \¥т>п с ростом т понижается.
Результаты параграфа 2.6 связаны с вопросом об асимптотической оптимальности (АО) многомерных критериев Кендалла и Спирмена и сформулированы в виде двух теорем.
Теорема 2.6.1. Последовательности статистик {т^®} и {р^%} для проверки независимости являются АО в классе Тт лишь для распределения с ф.з. х 1 > ■ ■ ■ > хт) — Сх\ . . . Хт ( 1 хъ+ . - / ; гп т(т — 1) ' г 4 ' К]
Х^Ху I ,
КЗ хи. ,хт)е1т, с> о. (6)
Теорема 2.6.2. Последовательность тестовых статистик является
АО в классе Тт лишь для распределения с ф.з.
• ■ ■ ,Хт) = Сх 1.®т (П(2 - + - (га + 1)^ , хи. ,хт)е1т, С > 0. (7)
Таким образом, на достаточно широком классе абсолютно непрерывных распределений многомерные критерии Кендалла и Спирмена асимптотически оптимальны в точности для одного распределения. Для т^® и это распределение определяется функцией зависимости (6), а для WmjTl функцией зависимости (7). Функция зависимости (6) представима иначе в виде
ЖЬ . ,Xm)=CXi.Xm - - Xj), i<j xu. ,xm)elm, С > 0, (8) и определяет обобщенное ФГМ-распределение, впервые рассмотренное Джо [44, § 5.1]. Распределение с ф.з. (7) не имеет столь явной интерпретации и появляется в виде решения многомерной краевой задачи с нестандартными граничными условиями на гранях т-мерного куба размерности к = 1,. ,т — 1. Краевые задачи такого типа в пространстве R2 изучались Никитиным [10, гл. 5]. Непосредственно обобщить результаты [10] на m-мерный случай, однако, не удается. Построение функции Грина, определяющей решение данной краевой задачи, основано на известных фактах математической физики. Процесс построения подробно описывается при доказательстве теоремы 2.6.2.
Тестовые статистики третьей главы обобщают коэффициент корреляции тп и приводят к состоятельным критериям независимости против альтернативы Н2- Эти статистики были предложены Кочаром и Гуптой [49], [50]. Оказалось, что на распределении Блока—Базу и семействе распределений Вудворта [85] их эффективность выше, чем эффективность тау Кендалла [49], [50].
Коэффициенты корреляции Кочара—Гупты для произвольного натурального к > 1 задаются равенствами (* +1) Е +1>^+1))> ' = 1.2, (9) l<il<.<it+1<n где ядра U-статистик Ulk+l^n, когда / = 1,2, определяются следующим образом: Ф[+1((Х!, Ух),., равно единице, если max Xi и max Уг принадлежат одной и той же паре наблюдений (X,У), и равно нулю в противном случае; (Xk+i,Yk+i)) равно единице, если min Хг и min Yi принадлеl<Kfc+l 1<KA:+1 жат одной и той же паре (X, У), и нулю в остальных случаях.
Мы также предлагаем рассмотреть линейную комбинацию l<il<.<ifc + l<7l P<S>l+l((Xh,Yh),. ,(Xik+1,Yik+1))}, а,(3> 0, а + /3 = 1. (10)
Большинство критериев независимости в современной литературе по статистике ориентировано на симметричное распределение наблюдений. Новый тип коэффициентов (9)—(10) был предложен для задач с асимметричным распределением исходных наблюдений. Такие распределения встречаются, например, в теории надежности, когда случайные величины принимают неотрицательные значения.
Результаты параграфов 3.3 и 3.4 показывают, что в ряде случаев использование (9)—(10) для симметричных распределений также вполне оправданно. Так, в параграфе 3.4 мы доказываем, что на (симметричных) распределениях типа Вудворта критерии Ulk+1¡n, I = 1,2, и Vkfln являются асимптотически оптимальными по Пит-мену. Сформулируем соответствующие утверждения.
Теорема 3.4.1. Последовательность тестовых статистик {Щ+1п} является АО в классе распределений JF2 тогда и только тогда, когда ttk+lA{x,y) = Cx(l-xk)y(l-yk), 0<х,у<1, С> 0, к>1. (11)
Теорема 3.4.2. Последовательность тестовых статистик \Uki-i^} является АО в классе распределений T<¿ тогда и только тогда, когда lk+li2(x, у) = С( 1 - х)(1 - (1 - а;)*)(1 - у){ 1 - (1 - у)к),
0<х,у<1, С > 0, к > 1. (12)
Как следствие двух этих теорем получаем теорему 3.4.3. В ней утверждается, что для последовательности {V^ „} аналогичный результат имеет место только тогда, когда
V) = С [ах(1 - хк)+[3(1 - х)(1 - (1 - я)*)] х х [ау(1 — ук) + /3(1 — г/)(1 — (1 — у)к)] ,
0<х,у<1, к> 1, а,(3 > 0, а + (3 = 1. (13)
Функция зависимости (11), а вместе с ней (12) и (13), определяют еще один тип обобщенний ФГМ-распределения (ср. с (8)). По-видимому впервые обобщение (11) рассматривалось Вудвортом [85], несколько позже — Ледвиной [52], [53], Кочаром и Гуптой [50] и другими авторами. В [50] распределение, определяемое ф.з. (11), выступает как представитель семейства положительно квадрантно зависимых распределений. Мы же доказали, что именно в этом случае в классе Тъ критерий Щ+1п обладает максимальной питменовской эффективностью.
Доказательство теорем 3.4.1—3.4.2 опирается на общие факты теории Питмена (теорема 1.2.2. и лемма 1.2.1) и результаты, полученные в параграфе 3.3, об асимптотической нормальности статистик (9)—(10). В частности, согласно лемме 3.3.1 для функций мощности 7*д1 и критериев независимости и1+1п и Ц%+1п с уровнем значимости а и параметра 9 — вп = 6п~1/2, где 5 > 0 справедливо соотношение где Ф(2а) — 1—а, Ф(г) —ф.р. стандартного нормального закона, , (0) = <х| А+1(0) = к2/(2к + I)2, а /^+1(0), ¿ = 1,2, являются полиномами по 9 и при 9 —» 0
Питменовская эффективность критериев и £/|+1>п вычисляется в параграфе
3.3 и определяется величинами А41^+1(0)/сг1^+1(0) и /из соотношения (14).
При доказательстве теорем 3.4.1—3.4.2 применяется вариационный принцип Ла-гранжа (теорема 1.4.2). Он сводит задачу о минимизации информации Фишера на множестве ф.р., определяемом структурой тестовых статистик, к некоторой краевой задаче. В отличие от многомерного случая, когда функцию Грина приходится строить, здесь удается воспользоваться результатами Никитина [10, гл. 5] и с их помощью получить решения краевых задач для статистик и Щ+1п.
Примеры из параграфа 3.4, говорят о различной степени АОЭ критериев п и и1+1п по отношению к тау-критерию Кендалла. Так, для нормального закона следует использовать более эффективную, чем п и статистику тп, а для распределений типа Вудворта с различными показателями и двумерного экспоненциаль
14) Р ного распределения Блока—Базу [24], наоборот, более эффективными оказываются обобщенные коэффициенты (9)—(10). Важно отметить, что для ряда распределений, среди которых и нормальное распределение, оправдывает себя идея линейной комбинации коэффициентов 11]к+^п и С/|+1>п : при надлежащем выборе а, ¡3 и к основанный на У^+1 п критерий независимости оказывается эффективнее критериев Щ+\ ,п> и1л,п и классической процедуры тп.
Таким образом, результаты, полученные в третьей главе, подтверждают вывод Кочара и Гупты [49], [50] о конкурентоспособности мер зависимости (9)—(10) по сравнению с т„ и обосновывают идею их использования в качестве тестовых статистик для проверки гипотезы независимости.
Глава 4 сохраняет постановку предыдущей главы, когда имеются наблюдения У1),. , (Хп, У„), взятые из непрерывного распределения с ф.р. у) = С(х)Н(у) + 9П(С(х), Н(у)), х,у£11, и альтернативой к независимости выступает гипотеза Я5 : 9 > 0, переходящая при 9 = 0 в гипотезу Щ.
Тестовые статистики четвертой главы имеют взвешенную структуру и ориентированы на выявление определенного рода зависимости между случайными величинами X и У. Они определяются следующим образом: п
П-в 1 п где = — метки Сэвиджа [70];
Еад,-»
ТТ = г=1 „ 0-, (15)
3=1 (а- (гтт)"а) («■ (¡тг а
ТЩЧ> — п , , Ч ^ 2 > (16)
5 («. (^тт) -8 с функциями ап(х), заданными на интервале (0,1) и стремящимися по норме про
I п странства Ь2(0,1) к некоторой монотонной функции (р(х), а — — ап + 1));
Т1 ¿=1 -Г^—Т Е (17)
1,3 I где sign(a;) = —1, 0 или 1, когда х < 0, =0 или > 0, а функция — ги(г, : И2 —» И предполагается симметричной и ограниченной.
Статистика гт впервые рассматривалась Иманом и Коновером [42]. Она акцентирует внимание на нескольких первых рангах наблюдений Х^ У*, г = 1,. , п, и указывает на степень их согласованности. В практических приложениях с помощью гт определяют наиболее " влиятельные" элементы во входных данных в задачах компьютерного моделирования, а также устанавливают, насколько точными являются экономические, спортивные и другие прогнозы (см. [42] и [69]).
Коэффициент гт является важным частным случаем линейной ранговой статистики ТП;(р, которую мы предлагаем использовать в задачах подобного типа наряду со статистикой гт- Эта мера зависимости дает дополнительные, по сравнению с гт, возможности для определения характера и степени зависимости двух признаков (см. параграф 4.3).
Наконец, статистика взвешенный коэфициент корреляции Кендалла, впервые появляется в работе Ши [76] и связана с практическими приложениями задачи о проверке гипотезы независимости. Альтернативной к Н0 в [76] предлагается модель щ-.х1 = х; + вч{х*)г^ у = у; + вгг с монотонной функцией д. Выбор в качестве q индикатора некоторого множества позволяет использовать лишь "наиболее значимую" часть наблюдений, уменьшая, тем самым, экспериментальные затраты. В работе [76], посвященной изучению различных свойств взвешенной статистики г«,, вопрос об асимптотической эффективности основанного на ней критерия независимости остается открытым.
Четвертая глава посвящена вычислению асимптотической эффективности взвешенных критериев, основанных на статистиках (15)—(17) и определению условий, при которых данные критерии являются асимптотически оптимальными. Исследование асимптотического поведения и асимптотической эффективности в параграфе 4.3 основано на известных фактах теории линейных ранговых статистик [25], [3, § 6.2.6], [63, гл. 10], [67]. Наиболее общий из данных результатов сформулирован Реймхартом, Шораком и ван Цветом [67] (теорема 1.5.1). Проблема максимальной эффективности критерия решается с помощью теоремы 4.3.1.
Обозначим через М. класс монотонных, в определенном смысле регулярных функций, заданных на интервале (0,1). Строгое определение М. содержится в параграфе 4.3.
Теорема 4.3.1. Для любой функции (р £ Л4 последовательность тестовых статистик {ТЩ1р} является АО в классе Тъ тогда и только тогда, когда С ( J у{и)йи -xJ у{и)<1и I I J ср(у)ёу -у ^ ч>(у)йу I , \о о / \о о /
0<х,у<1, С>0.
Аналогичный результат для бахадуровской эффективности был получен Никитиным [10, § 6.6]. Если <р(х) = 1п —, то Тп!<р совпадает с коэффициентом гт, и тогда
2/
П^(х,у) = Сху]пх]пу, 0<х,у<1, С>0.
В параграфе 4.3 показывается, что качество критерия ТПгЧ>, который применим в несколько более общих задачах проверки гипотезы независимости, чем критерий гт, можно улучшить путем подходящего выбора функции <р (см. пример параграфа 4.3).
Основные результаты главы, полученные для статистики т№, содержатся в заключительной части параграфа 4.3. Коэффициент тц, представляет собой взвешенную невырожденную 11-статистику степени 2. Поэтому утверждение об асимптотической нормальности тт при альтернативе (см. теорему 4.3.2) есть прямое следствие результата Шапиро и Хуберта [75]. Предельное распределение взвешенных невырожденных и-статистик степени 2 изучали также О'Нэйл и Реднер [60]. Более общие результаты для взвешенных 11-статистик произвольной степени получены Майором [54]. На основании теоремы 4.3.2 вычисляется питменовская АОЭ критерия тш по отношению к классическому критерию, основанному на тп.
Результаты диссертации были представлены на Втором Норвежско-Российском симпозиуме по стохастическому анализу в Бейтостолене (Норвегия, 1999 г.) и Седьмой Всероссийской школе-коллоквиуме по стохастическим методам в Сочи (2000 г.), а также на городском семинаре по теории вероятностей и математической статистике под руководством И. А. Ибрагимова в Санкт-Петербурге (2000 г.) и на семинаре Геттингенского университета под руководством М. Денкера (Германия, 1999 г.). Основные результаты диссертации опубликованы в работах [12]—[15].
Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК
Асимптотическая эффективность критериев согласия, основанных на характеризационных свойствах распределений2011 год, кандидат физико-математических наук Волкова, Ксения Юрьевна
Робастные GM-тесты и оценки в авторегрессионных схемах с выбросами2015 год, кандидат наук Есаулов Даниил Михайлович
Проверка непараметрических гипотез в некоторых задачах теории надежности1983 год, кандидат физико-математических наук Тимонин, Владимир Иванович
Асимптотические свойства критериев симметрии и согласия, основанных на характеризациях2004 год, кандидат физико-математических наук Литвинова, Виктория Викторовна
Некоторые статистические задачи теории временных рядов2004 год, кандидат физико-математических наук Ольшанский, Кирилл Александрович
Список литературы диссертационного исследования кандидат физико-математических наук Степанова, Наталья Александровна, 2000 год
1. Алексеев В.M., Тихомиров В.М., Фомин C.B. Оптимальное управление. М.: Наука, 1979.
2. Буслаев B.C. Вариационное исчисление. JT.: Изд. Ленингр. ун-та, 1971.
3. Гаек. Я., Шидак 3. Теория ранговых критериев. М.: Наука, 1971.
4. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, 1971.
5. Кендэл М. Ранговые корреляции. М.: Статистика, 1975.
6. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976.
7. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.
8. Королюк В. С., Боровских Ю. В. Теория U-статистик. Киев: Наукова думка, 1989.
9. Маршалл А., Олкин И. Неравенства: теория мажоризации и ее приложения. М.: Мир, 1983.
10. Никитин Я. Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука, 1995.
11. Никитин Я.Ю., Панкратова А.Г. Бахадуровская эффективность и локальная асимптотическая эффективность некоторых непараметрических критериев независимости // Зап. научн. семинаров ЛОМИ. 1988. Т. 166. С. 112-127.
12. Никитин Я.Ю., Степанова H.A. Одно обобщение кендалловского may и асимптотическая эффективность основанного на нем критерия независимости // Зап. научн. семинаров ПОМИ. 1997. Т. 244. С. 227-237.
13. Степанова Н.А. Критерии независимости, основанные на обобщенных коэффициентах корреляции, и их асимптотическая эффективность // Вестник СПб-ГУ. 1999. Сер. 1, вып. 4, N 22. С. 54-59.
14. Степанова Н.А. Питменовская эффективность многомерных критериев независимости, основанных на обобщенных ранговых коэффициентах корреляции // Деп. в ВИНИТИ 1639-В00 от 06.07.00. 16 с.
15. Степанова Н.А. Асимптотическая эффективность обобщенных ранговых критериев независимости. В сб.: "Седьмая Всероссийская школа-коллоквиум по стохастическим методам. Сочи, 1-6 октября 2000 г. Тезисы докладов." М.: ТВП, 2000. С. 532.
16. Харди Г., Литтльвуд Дж., Полиа Г. Неравенства. М.: ИЛ, 1948.
17. Хеттманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987.
18. Холлендер М., Вулф Д.А. Непараметрические методы статистики. М.: Финансы и статистика, 1983.
19. Хьюбер П. Робастность в статистике. М.: Мир, 1984.
20. Albers W. A note on the Edgeworth expantion for the Kendall rank correlation coefficient // Ann. Statist. 1978. V. 6. P. 923-925.
21. Bajorski P. Local Bahadur optimality of some rank tests of independence // Statist. Probab. Letters. 1987. V. 5, N 6. P. 255-262.
22. Bhuchongkul S. A class of nonparametric tests for independence in bivariate population // Ann. Math. Statist. 1964. V. 35. P. 138-149.
23. Blest D.C. Choice and order: an extension to Kendall's r // The Statistician. 1999. V. 48, Pt. 2. P. 227-237.
24. Block H.W., Basu A.P. A continuous bivariate exponential distribution // Jour. Amer. Stat. Ass. 1974. V. 69. P. 1031-1037.
25. Chernoff H., Savage I.R. Asymptotic normality and efficiency of certain nonparametric test statistics // Ann. Math. Statist. 1958. V. 29. P. 972-994.
26. Choi K., Marden J. A multivariate version of Kendall's r // J. of Nonparnetric Statistics. 1998. V. 9. P. 261-293.
27. Conti P. L., Nikitin Ya. Yu. Pitman efficiency of independence tests based on Gini's rank association coefficient and Spearman's footrule. 1997. V. A15. Preprint. Dipartimento di Statistica, Università di Roma.
28. Convay D. Farlie—Gumbel—Morgenstern distributions // Encyclopedia of Statistical Scienca. N.Y.: Wiley, 1983. V. 3. P. 28-31.
29. Denker M. Asymptotic distribution theory in nonparametric statistics. Braunschweig: Vieweg, 1985.
30. Doksum K., Thompson R. Power bounds and asymptotic minimax results for one-sample rank tests // Ann. Math. Statist. 1971. V. 42, N 1. P. 12-34.
31. Ehrenberg A. S. C. On sampling from a population of rankers // Biometrika. 1939. V. 39. P. 82-87.
32. Farlie D.J.G. The performance of some correlation coefficients for a general bivariate distribution // Biometrika. 1960. V. 47. P. 307-323.
33. Farlie D.J.G. The asymptotic efficiency of Daniels's generalized correlation coefficient // J. Roy. Stat. Soc. 1961. V. B23. P. 128-142.
34. Fisher N.I., Lee A.J. Nonparametric measures of angular-angular association // Biometrika. 1982. V. 69, N 2. P. 315-321.
35. Groeneboom P., Oosterhoff J. Bahadur efficiency and small sample efficiency // Intern. Statist. Review. 1981. V. 49, N 2. P. 127-141.
36. Gross J. Statistical estimation by a linear combination of two given statistics // Statist. Probab. Letters. 1998. V. 39. P. 379-384.
37. Gumbel E.J. Distributions à plusieurs variables dont les marges sont données // C. R. Acad. Sci. 1958. V. 246. P. 2717-2719.
38. Hays W. L. A note on average tau as a measure of concordance // J. Amer. Statist. Assoc. 1960. V. 55. P. 331-341.
39. Hemelrijk J. A family of parameter-free tests for symmetry with respect to a given point. I, II. // Indagationes Math. 1950. Y.12. P. 340-350; 419-431.
40. Hoeffding W. A class of statistics with asymptotically normal distribution // Ann. Math. Statist. 1948. V. 18, N 3. P. 293-325.
41. Huang J.S., Kotz S. Correlation structure in Farlie—Gumbel—Morgenstern distribution // Biometrika. 1984. V. 71. P. 633-636.
42. Iman R.L., Conover W.J. A measure of top-down correlation // Technometrics. 1987. V. 29, N 3. P. 351-357.
43. Joe H. Multivariare Concordance // J. Multivariate Anal. 1990. V. 35. P. 12-30.
44. Joe H. Multivariate Models and Dependence Concepts. L.: Chapman & Hall, 1997.
45. Johnson N.L., Kotz S. On some generalized Farlie—Gumbel—Morgenstern distribution // Commun. Statistics. 1975. V. 4. P. 415-416.
46. Johnson N.L., Kotz S. On some generalized Farlie—Gumbel—Morgenstern distribution II11 Commun. Stat. Theor. Meth. 1977. V. A6. P. 485-496.
47. Jupp P.E. A nonparametric correlation coefficient and two-sample test for random vectors or directions // Biometrika. 1987. V. 74, N 4. P 887-890.
48. Kendall M.G. A new measure of rank correlation // Biometrika. 1938. V. 30. P. 81-93.
49. Kochar S.C., Gupta R.P. Competitors of the Kendall-tau test for testing independence against positive quadrant dependence // Biometrika. 1987. V. 74. P. 664-666.
50. Kochar S.C., Gupta R.P. Distribution-free tests based on sub-sample extrema for testing against positive dependence // Austral. J. Statist. 1990. V. 32, N 1. P. 45-51.
51. Konijn H.S. Positive and negative dependence of two random variables // Sankhya. 1959. V. 24, Pt. 2. P. 269-280.
52. Ledwina T. Large deviations and Bahadur slopes of some rank tests of independence 11 Sankhya. 1986. V. A24. P. 188-297.
53. Ledwina T. On the limiting Pitman efficiency of some rank tests of independence // J. Multivariate Anal. 1986. V. 30. P. 265-271.55
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.