Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Хватова, Татьяна Юрьевна

  • Хватова, Татьяна Юрьевна
  • кандидат технических науккандидат технических наук
  • 1999, Санкт-Петербург
  • Специальность ВАК РФ05.13.18
  • Количество страниц 131
Хватова, Татьяна Юрьевна. Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Санкт-Петербург. 1999. 131 с.

Оглавление диссертации кандидат технических наук Хватова, Татьяна Юрьевна

Содержание

Глава 1. Введение

1.1. Общая характеристика диссертационной работы и обзор ее содержания

1.2. Робастные методы обработки и анализа данных - основные подходы

1.2.1. Общие замечания

1.2.2. Количественная робастность: минимаксный подход Хубера

1.2.3. Качественная робастность: подход на основе функций влияния Хампеля

Глава 2. Алгоритмы робастного оценивания коэффициента корреляции

2.1. Общие замечания

2.2. Описание различных групп робастных алгоритмов оценивания коэффициента корреляции

2.2.1. Робастизация структуры выборочного коэффициента корреляции

2.2.2. Робастные алгоритмы, основанные на решении вспомогательной задачи регрессии

2.2.3. Робастные алгоритмы, основанные на линейных преобразованиях данных

2.2.4. Алгоритмы оценивания коэффициента корреляции, предложенные Л.Д.Мешалкиным и А.М.Шурыгиным

2.3. Статистическое моделирование поведения предложенных алгоритмов

2.3.1. Свойства алгоритмов при нормальном распределении данных

2.3.2. Свойства алгоритмов в условиях засорения

2.4. Асимптотическое поведение предложенных алгоритмов

2.4.1. Выборочный коэффициент корреляции

2.4.2. Квадрантный (знаковый ) коэффициент корреляции и ранговый коэффициент корреляции Спирмена

2.4.3. Медианная оценка коэффициента наклона линии регрессии

2.4.4. Медианный коэффициент корреляции

2.4.5. Некоторые численные результаты

2.5. Минимаксные свойства робастных алгоритмов, основанных на линейных преобразованиях данных

2.5.1. Класс двумерных распределений, допускающих преобразования к главным

осям

2.5.2. Класс М-оценок параметров масштаба в главных осях и соответствующий класс оценок коэффициента корреляции

2.5.3. Наименее информативные распределения и соответствующие минимаксные оценки

2.6. Сравнительный анализ предложенных алгоритмов

Выводы по главе 2

Глава 3. Алгоритмы отбраковки недостоверных данных в многомерном случае

3.1. Обзор методов и алгоритмов отбраковки

3.1.1. Введение

3.1.2. Алгоритм эллипсоидальной отбраковки с использованием расстояний Махаланобиса (МУТ)

3.1.3. Алгоритм отбраковки с использованием весовых коэффициентов (МЬТ)

3.1.4. Методы борьбы с маскирующим эффектом, предложенные Рауссеу и

Ван Зомереном

3.1.5. Алгоритм отбраковки, предложенный Аткинсоном

3.1.6. Комплексный алгоритм с отбраковки, предложенный Рокке и Вудрафом

3.2. Алгоритмы отбраковки „сорных" данных в двумерном случае

3.2.1. Двумерный боксплот

3.2.2. Алгоритм отбраковки в главных осях по правилу прямоугольника

3.2.3. Алгоритм отбраковки с переходом к главным координатам, усовершенствованный Виндзоризацией

3.2.4. Алгоритм отбраковки по правилу эллипса в главных координатах и две его модификации

3.2.5. Адаптивный алгоритм отбраковки

3.3. Двухэтапные алгоритмы робастного оценивания коэффициента корреляции, основанные на предварительной отбраковке выбросов в данных

3.4. Асимптотическое исследование поведения алгоритмов отбраковки

3.4.1. Правило отбраковки по прямоугольнику

3.4.2. Правило отбраковки по эллипсу

3.5. Результаты моделирования на конечных выборках

Выводы по главе 3

Глава 4. Алгоритмы робастного оценивания корреляционных матриц

4.1. Адаптивный алгоритм отбраковки

4.2. Процедура отбраковки по двумерных сечениям

4.3. Результаты моделирования

Выводы по главе 4

Глава 5. Программно-алгоритмическое обеспечение предложенных методов и их приложения в задачах обработки медико-кардиологических данных

5.1. Программный комплекс

5.2. Классический и робастный статистический анализ факторов риска внезапной смертности от сердечно-сосудистых заболеваний

Выводы по главе 5

Литература

Приложения

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация»

1. ВВЕДЕНИЕ

1.1. Общая характеристика диссертационной работы и обзор ее содержания

Одним из важнейших направлений прикладной математики является разработка методов и алгоритмов обработки данных, устойчивых к возможным отклонениям от принятых моделей их распределений, и обеспечение на их основе надежности принятия решений в условиях неопределенности. Статистические алгоритмы анализа данных широко применяются как в системах автоматизации научных исследований, так и при построении компьютерных систем принятия решений в таких областях науки, как физика, экономика, социология, медицина и т.д. Устойчивость статистических процедур обеспечивается при использовании робастных методов и алгоритмов, теория и приложения которых интенсивно развиваются в последние годы. В этой области уже выделилось и сформировалось несколько направлений, связанных с фундаментальными работами Л.Д.Мешалкина [34,35], Поляка [11], Я.З.Цыпкина [11], А.М.Шурыгина [14,15], Дж.Тьюки [39], П.Хубера [10], Ф.Хампеля [31]. Тем не менее, здесь имеется ряд нерешенных задач, имеющих как самостоятельное значение, так и важных с прикладной и вычислительной сторон. Отметим, что в рамках разных подходов к робастному оцениванию характеристик и параметров распределений гораздо полнее проработаны задачи робастного оценивания характеристик средних и рассеяния, или параметров положения и масштаба распределений, по сравнению с характеристиками взаимосвязи данных, например, коэффициентом корреляции. Представляется актуальным классифицировать известные и новые алгоритмы оценивания корреляционных связей (коэффициента корреляции, корреляционных матриц), проанализировать их поведение на моделях распределений, имитирующих отклонение от принятой базовой модели (как правило, гауссовской), и выявить наилучшие среди них.

Широкое внедрение в практику научных и прикладных исследований электронно-

вычислительной техники с сопутствующей автоматизацией обработки данных на всех этапах наряду с очевидными преимуществами породило ряд новых проблем. Одной из них является обеспечение надежности статистических выводов в условиях возможных сбоев в функционировании этих систем. Эти сбои зачастую могут проявляться в виде появления недостоверных, сомнительных или резко выделяющихся из основной массы данных. Они возникают на этапах сбора данных, их регистрации, обработки, интерпретации выводов и принятия решений.

Многие из такого рода недостоверных данных могли бы быть отбракованы визуально или при ручной отбраковке, но они легко могут быть незамечены при автоматической обработке данных, особенно больших массивов. Таким образом, актуальной является разработка алгоритмов автоматической отбраковки и выявления недостоверных (сомнительных) наблюдений, особенно в случае анализа многомерных данных, так как их отбраковка намного сложнее, чем в одномерном случае.

Различные критерии отбраковки сомнительных наблюдений рассматривали в своих работах Г.Дейвид [3, 26], Ф.Граббс [28] в случае одномерных наблюдений, и А.Аткинсон [21], П.Раусеу [38], Д.Роке и Д.Вудрафф [36] для многомерных данных.

Проблема отбраковки сомнительных наблюдений напрямую связана с построением робастных процедур обработки данных: во-первых, большинство известных роба-стных методов предусматривает автоматическое уменьшение статистического веса части данных, рассматриваемых как выбросы; во-вторых, предварительная отбраковка и чистка данных с последующим применением к оставшимся классических (неробаст-ных) процедур обработки может быть одним из подходов к обеспечению надежности статистических выводов.

В диссертационной работе рассматриваются и используются многие известные в настоящее время подходы к построению робастных алгоритмов оценивания корреляционных характеристик данных. Существенной особенностью рассматриваемых задач является то, что в литературе практически отсутствуют строгие математические результаты, достаточно исчерпывающе решающие задачу робастного оценивания коэффициента корреляции, аналогично тому, как это сделано в задачах робастного оценивания параметров положения и масштаба распределений или в задачах регрессии, например, в рамках минимаксного подхода Хубера [10]. По этой причине некоторые предлагаемые алгоритмы имеют эвристический характер, но базой для эвристики служат точные результаты в близких задачах.

В работе рассматриваются четыре группы робастных алгоритмов оценивания коэффициента корреляции. В литературе известны строгие результаты лишь для одной из этих групп оценок. В диссертации установлены оптимальные робастные свойства алгоритмов еще одной группы, позволяющие обоснованно рекомендовать их для практического использования.

В работе большое внимание уделяется развитию и анализу статистических процедур отбраковки многомерных данных - эти задачи, как было уже отмечено выше, помимо их непосредственной связи с робастными процедурами, имеют и самостоятельное значение.

Диссертационная работа состоит из списка обозначений, пяти глав, включающих вводную главу, выводы, списка использованной литературы из 47 наименований и приложений. Общий объем диссертации 140 страниц машинописного текста, включающих 27 рисунков и 40 таблиц.

Во вводной главе отмечается актуальность темы исследования, дается общая характеристика работы, а также приводится краткий обзор основных подходов к роба-стному оцениванию параметров распределений, используемых в дальнейшем в диссертации.

Во второй главе классифицируются и анализируются различные группы алгоритмов робастного оценивания коэффициента корреляции. Приводятся аналитические результаты, описывающие их асимптотическое поведение, и результаты статистического моделирования на конечных выборках. Выявляются наилучшие по робастным и вычислительным свойствам алгоритмы.

Третья глава посвящена разработке новых и усовершенствованию известных алгоритмов отбраковки сомнительных данных. В ней дается достаточно подробный обзор существующих критериев отбраковки. На различных моделях засорения анализируются аналитически и моделируются свойства известных и предложенных алгоритмов, выявляются наилучшие среди них. Особое внимание уделяется двухэтапным робастным алгоритмам оценивания коэффициента корреляции, основанным на предварительной отбраковке недостоверных данных с последующим использованием классического выборочного коэффициента корреляции для оставшихся данных. Показывается, что такой двухэтапный алгоритм имеет лучшие робастные свойства, чем многие прямые алгоритмы, описанные во второй главе.

В четвертой главе рассматривается ограниченный набор алгоритмов робастного

оценивания корреляционных матриц и их спектральных характеристик (собственных чисел и векторов), поведение которых моделируется на конечных выборках в условиях различных типов засорения базового нормального распределения.

В пятой главе описывается разработанный программно-алгоритмический комплекс, реализующий известные и разработанные в диссертации методы, а также приводится пример использования классических и робастных методов оценивания корреляционных связей в задаче выявления факторов риска внезапной смертности от сердечно-сосудистых заболеваний.

Результаты диссертационной работы докладывались на Международной конференции по стохастическим методам (Вологда, 1996, 1997), на Международной научно-технической конференции по применению многомерного статистического анализа в экономике и оценке качества продукции (Москва, 1997), на Международной научной конференции по математическому и программному обеспечению анализа данных (Минск, 1998), на Международной конференции „Электроника в медицине" (Санкт-Петербург, 1998), на Международной конференции MODA-5 (Model Oriented Data Analysis), (Марсель, 1998).

По материалам диссертации опубликовано 8 работ и 1 работа находится в печати.

1.2. Робастные методы обработки и анализа данных -основные подходы

1.2.1. Общие замечания

В последнее время в математической статистике развиваются методы построения статистических процедур, слабо зависящих от априорной неопределенности в описании распределений данных и устойчивых к возможным отклонениям от принятых моделей распределений. Свойство робастности проявляется в высокой помехозащищенности оптимальных процедур, в частности, в их нечувствительности к редким, но большим выбросам в результатах наблюдений.

„Робастность" метода в целом означает его слабую чувствительность к малым отклонениям от принятой модели распределения данных. В диссертации основное внимание уделено изучению робастности на распределениях, отклоняющихся от принятой базовой модели, в частности от нормального распределения.

Главными целями использования робастных статистических методов и алгоритмов являются [10]:

(1) Описание структуры наилучшей подгонки массива данных. Для достижения этой цели условно принимают параметрическую модель, а затем пытаются как можно лучше оценить параметры модели и проверять для них гипотезы, учитывая тот факт, что модель может быть искаженной. Сделанный вывод будет обусловлен той мерой, в которой мы можем сохранить модель как приближение для большинства данных; он будет безопасен в том смысле, что подвержен влиянию со стороны любого меньшинства данных в ограниченной степени.

(2) Определение отклоняющихся значений данных (резко выделяющихся наблюдений) или, если это необходимо, выделяющихся структур. Для решения этой задачи применяется робастная подгонка. Получающиеся в ней остатки позволяют автоматически отделять резко выделяющиеся наблюдения, не затрагивая „хороших" данных, гораздо лучше, чем, например, остатки в методе наименьших квадратов. На данный момент некоторые формальные правила обнаружения выделяющихся наблюдений очень ненадежны. Необходимость в надежном и быстром обнаружении этих наблюдений, а также в средствах их коррекции очевидна. Проблема состоит в том, что далеко не всегда резко выделяющиеся наблюдения являются „плохими" данными, появившимися вследствие больших ошибок; часто среди всех данных они оказываются наиболее ценными. Их автоматическое удаление без установления причины их появления оправдано только тогда, когда модель хорошо обкатана. Всегда можно назвать методы лучшие, чем полное принятие данных или их „жесткое" удаление, если они лежат за определенной чертой, например, те методы, в которых предусмотрена промежуточная зона, где вопрос о том, является ли данное наблюдение резко выделяющимся или нет, решается неоднозначно.

(3) Определение и предупреждение о появлении значений данных, оказывающих сильное влияние. Здесь изучаются те значения данных, которые оказывают на результат наибольшее влияние. Влияние, обусловленное положением в факторном пространстве, является важным инструментом анализа.

Приведем пример, иллюстрирующий выше упомянутые общие положения [38].

Пример. Пусть имеется большой набор случайных данных - смесь „хороших" наблюдений, которые распределены по нормальному закону N(11,а2), и „плохих", имеющих распределение Лг([Л,,9а2), то есть все наблюдения имеют то же самое сред-

нее, но ошибки некоторых из них увеличены в три раза. Каждое отдельное наблюдение х. является „хорошим" с вероятностью 1-е, а „плохим" - с вероятностью s, где 8 - малое число.

Это распределение описывается моделью смеси нормальных распределений или моделью засорения (больших ошибок)

F(x) = (1 - е)Ф(*)+еФ(х/3), где Ф - функция Лапласа с s, меняющимся от 0.01 до 0.1. (Из этого вовсе не следует то, что в этих примерах содержится от 1 % до 10 % больших ошибок, хотя чаще всего это и происходит - описание, приведенное выше, может быть удобным для распределения с хвостами длиннее, чем в нормальном случае). Другими словами, естественно возникающие отклонения от базовой модели достаточно велики для того, чтобы сделать бессмысленными традиционную теорию асимптотической оптимальности.

Рассмотрим две классические оценки параметра масштаба распределений: среднее абсолютное отклонение

и среднее квадратическое отклонение

Известно [38], что для наблюдений, распределенных точно по нормальному закону, sn на 12 % эффективнее dn.

Надо заметить, что эти две статистики измеряют различные характеристики распределения ошибок. Например, если ошибки распределены по нормальному закону, то sn сходится к а, в то время как dn сходится к « 0.80а. Существует способ, с

помощью которого можно сравнивать поведение этих статистик на основе относительной асимптотической эффективности АОЕ dn относительно

АОЕ(е) = lim = I. + 80.)/(1 + *)' -1

Результаты такого сравнения показательны: всего лишь двух „плохих" наблюдений из 1000 достаточно для того, чтобы свести на нет 12-процентное преимущество среднего квадратического отклонения, и АОЕ достигает максимума, большего 2, при s = 0.05.

Удлинение хвостов влечет за собой изменчивость sn (на dn это влияет меньше).

Укорачивание хвостов (т.е. сдвиг разбросанных данных с хвостов к центру распределения) дает незначительный эффект на распределения оценок. Таким образом, для большинства практических целей, термины „робастность" и „устойчивость к выбросам" являются взаимозаменяемыми. Любая формальная или неформальная процедура отбраковки сомнительных данных предотвратит худшее, однако только самые лучшие из правил отбраковки могут составить конкуренцию хорошим робастным оценкам.

В настоящее время известны два основных подхода к построению робастных процедур: минимаксный (в рамках количественной робастности) и подход, связанный с применением функций влияния Хампеля (качественная робастность).

1.2.2. Количественная робастность: минимаксный подход Хубера

Один из основных подходов к синтезу робастных методов обработки связан с использованием принципа минимакса. Минимаксный подход ориентирован на наименее благоприятную для задачи оценивания ситуацию и этим обеспечивает получение гарантированного результата. Реалистичность получаемых результатов в общем случае определяется спецификой конкретных задач. Один из наиболее удачных примеров применения минимаксного подхода дает метод М-оценок (оценок минимального контраста) для параметра положения и масштаба распределений, предложенный Хубером [10].

Для дальнейшего исследования представляют интерес М-оценки параметра масштаба Р семейства плотностей (3_1/(Х/Р) (параметр положения здесь полагается

равным нулю) по выборке хъ...,хп. М-оценка (3„ параметра [3 определяется как решение уравнения

¿Х(*А) = 0, (1.1)

¡=1

где %(х) - определяющая функция оценки, как правило, четная %(-х) = %(х).

Отметим, что выбор %(х) = х2 -1 приводит к оценке среднеквадратического отклонения Р„=зп, выбор х(*) = М -1 дает среднее абсолютное отклонение а выбор %(х) = 8§п(|х| -1) определяет в качестве оценки медиану абсолютных отклонений (девиаций):

ß„ = MADx = medial . (1.2)

Существенно, что если известна плотность распределения данных ß '/(x/ß) , то выбор определяющей функции в виде:

= (1.3)

дает оценку максимального правдоподобия (МП) для ß: ß„ = ßMn .

Суть минимаксного подхода Хубера в этом случае состоит в определении наименее благоприятного распределения, минимизирующего информацию Фишера для параметра масштаба семейства ß1/(x/ß):

Г = arg min /(/, ß),

1 00 H —cc

(1.4)

f(x)dx

с последующим использованием метода МП в М-оценках (1.1) с определяющей функцией (1.3)

Х'(*)=0.5)

При этом обеспечивается построение минимаксной по критерию асимптотической дисперсии М-оценки [10 ]

У(1,Л<У{г\Г)<¥{г,Г),

Г0с,/) = лБри(Х,/).

Отметим, что для приложений существенным является левое неравенство в двойном неравенстве (1.6), определяющее седловую точку (%*, /*) асимптотической дисперсии

У(г,Л<У(%\п, (1.7)

гарантирующую точность оценивания при использовании определяющей функции х* на классе распределений / е Т7.

Хубер получил и всесторонне исследовал минимаксное решение на классе е-загрязненных нормальных распределений

/(х) = (1 - е) £(х) + б /г(х), 0 < е < 1, (1.8)

где к(х) - симметричная плотность распределения, удовлетворяющая определенным условиям регулярности, а в остальном произвольная; £(х) = (2%у1/2 ехр(-х2/2) -стандартная плотность нормального распределения (без ограничения общности значе-

ние параметра Р полагается равным единице: 3=1).

Это решение дает М-оценку, близкую по структуре к усеченному среднеквадрати-ческому отклонению:

где х(1) - ¿-я порядковая статистика выборки, гх = (в) и г2 = г2 (в) число отброшенных наименьших и наибольших значений выборки соответственно. В предельном при е —^ 1 случае гх (в) —> [и/2], г, (в) —> [«/2] и минимаксная оценка дает медиану абсолютных отклонений

Ри = МАБх = тес!|хг|.

1.2.3. Качественная робастность: подход на основе функций влияния Хампеля

В рамках этого подхода, предложенного Ф.Хампелем [31], рассматривается класс оценок характеристик распределений 0 = д(Р'), которые на конечной выборке имеют

вид ёп-в(Рп), где Рп = й~'^1(х-х(;)) - эмпирическая функция распределения;

^ [0, ^<0

- функция Хэвисайда. Например, для оценки математического ожидания используется выборочное среднее

9(Рп) = |хсЛРп(х) = = п~'рх8(х-х(0)£к = ,

1 г

где 5(у) - 6-функция Дирака.

Функция влияния 1Б(х, б, Р) определяется следующим образом:

<-> о /

или

Щх, в; Г) = {[(1 - оад + М(У - *)]} ш

(1.9')

(=0

Она представляет, по существу, производную функционала Э(Р) по 5-образному возмущению в точке х и характеризует чувствительность оценки к этому возмущению.

Приведем два примера вычисления функции влияния известных оценок выборочного среднего и выборочной медианы.

1. Выборочное среднее х .

IF(x,х,F) = lim i• [f(1 -t)ydF{y) + Jtb(у-x)dy- JуdF(y)\ = x-\ydF{y) = x-V-

2. Выборочная медиана med xi.

Медиана распределения определяется из следующего отношения:

Ме ,

¡dF(y) = -,

2

или с использованием обозначения F~l для обратной функции распределения из формулы

Ме = F~l (1/2) .

Соответственно для выборочной медианы получим: med xt = F~] (1/2)

IF(x;Me;F) = Sgn(x-Me), f(x) = F'(x). V 2/(Me) JK J w

По виду функции влияния можно судить о робастных свойствах оценки: так, если sup IF(x, 6, F) < со, то оценка устойчива к большим по величине, но редким выбросам в

X

данных [31]. Из рассмотренных примеров видно, что ограниченность функции влияния медианы при /(Ме) ^ 0 предопределяет робастный характер этой оценки по сравнению с выборочным средним.

Другое важное свойство функции влияния состоит в том, что с ее помощью можно вычислить асимптотическую дисперсию оценки:

D9„ =Е[ё„ -ВОР)]2 = JEF2(х,8,F)dF(x). (1.10)

Для рассмотренных примеров легко получаются известные выражения: T>x = nl^{x-\ifdF(x), Dmedx,. - l/[4«/2(Me)]2.

Резюмируем изложенное. Сравнительно просто вычисляемая характеристика оценки - функция влияния - может быть использована: во-первых, для качественного суждения о робастных свойствах оценки и, во-вторых, для определения её асимптотической дисперсии. При этом существенно облегчается вывод точных выражений для асимптотической дисперсии по сравнению с традиционными методами. Для многих исследуемых в настоящей работе оценок асимптотические дисперсии были получены на основе этого подхода.

2. АЛГОРИТМЫ РОБАСТНОГО ОЦЕНИВАНИЯ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

В настоящем разделе работы вводятся и исследуются различные группы робаст-ных оценок коэффициента корреляции, причем робастность понимается как в смысле минимаксного подхода количественной робастности, так и в духе качественной роба-стности.

Раздел имеет следующее построение: вначале изучается обширное множество эвристически предложенных робастных оценок, выявляются наиболее перспективные среди них классы оценок, и затем на одном классе строятся робастные минимаксные по критерию асимптотической дисперсии оценки. Одна из таких оценок, называемая медианным коэффициентом корреляции, совпадает с одной из лучших из предложенных эвристик.

2.1. Общие замечания

Робастным методам оценивания корреляционных связей (характеристик взаимосвязи данных) в литературе уделено меньше внимания, чем задачам робастного оценивания параметров положения, масштаба и регрессии. Отметим работы Р.Гнанадесикана, Дж.Кеттенринга, С.Девлина [24,25], П.Хубера [10], А.Д.Мешалкина [2], Г.Л.Шевлякова и В.Р.Пасмана [13], А.М.Шурыгина [14,15]. В то же время необходимость изучения этих задач связана как с их широкой распространенностью (оценивание корреляционных и ковариационных матриц в задачах регрессии и многомерного статистического анализа), так и с тем, что классические методы оценивания корреляционных связей крайне ненадежны при наличии выбросов и сомнительных наблюдений в данных.

Среди задач корреляционного анализа простейшей и одновременно базовой является задача оценивания коэффициента корреляции двумерного распределения с плотностью /ху(х,У) по выборке {хп У,}" значений двумерной случайной величины

15

{X, У]. Классическая оценка коэффициента корреляции дается выборочным коэффициентом корреляции:

1>г ~х)(у, ~у)

Г= , =, (2.1)

где х = и У = п~]^1У1 - выборочные средние.

Оценка (2.1) представляет собой, с одной стороны, статистический аналог вероятностной характеристики коэффициента корреляции

р = соу , (2.2)

где Т)Х, Б Г, соу (Х,Т) - соответственно дисперсии и ковариация случайных величин X и Г, а с другой стороны - эффективную оценку максимального правдоподобия для р в случае двумерного нормального распределения.

1 1

гехР1

2р0-щ)(у-|0 , О-щ)2

(2.3)

— I-л _

2жо1о2У/1-р2 [ 2(1-р ) где Ц! = ЕХ, |12 = ЕГ - математические ожидания случайных величин X и Г, а а^=ВХ, а22=ВУ - их дисперсии.

В условиях засорения, описываемых, например, моделью смеси нормальных распределений (0 < е < 0.5)

/(х,у) = (1-8 )Щх,у | \xl,\l2,<5„<52,p)+ъN(x,y\y:l,\l^2,a[,o'2,p'), (2.4)

оценка (2.1) оказывается сильно смещенной относительно оцениваемого коэффициента корреляции р: для любого е>0 можно указать такие с' » а,, ст'2 » а2, что Ег = р'.

Отмеченный эффект подтверждает высокую чувствительность выборочного коэффициента корреляции к наличию в выборке „сорных" данных и обуславливает необходимость использования его робастных аналогов.

На практике это выражается в том, что одно или два наблюдения, резко отличающиеся от основной массы, могут сильно изменить классическую оценку в виде выборочного коэффициента корреляции. Сказанное иллюстрируется рис.2.1.

На первом этапе нашего исследования ставится следующая общая задача: описать возможные классы алгоритмов оценивания коэффициента корреляции нормального (или близкого к нему) распределения „чистой" части данных, устойчивых к появлению выбросов в данных, генерируемых моделью смеси распределений (2.4).

У

выброс

Л

р > О ("чистые" данные)

'' т4-

У1-

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Хватова, Татьяна Юрьевна

Выводы по главе 5

1. Разработан программно-алгоритмический комплекс, реализующий предложенные в диссертации методы, а также ряд известных в литература подходов к робастному оцениванию корреляционных связей и отбраковке многомерных данных, и ориентированный на пользователя, использующего статистические методы обработки данных.

2. Ряд разработанных алгоритмов использован наряду с классическими методами для решения задачи выделения факторов риска внезапной смерти, что позволило уточнить структуру факторов риска и выявить их формирующие устойчивые группы метео- и гелиофизических признаков.

Список литературы диссертационного исследования кандидат технических наук Хватова, Татьяна Юрьевна, 1999 год

Литература

1. Айвазян С.А., Буштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. - М.: Финансы и статистика, 1989,-608с.

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983,-472с.

3. У.Диксон. Отбраковка сомнительных наблюдений. В сб. „Введение в теорию порядковых статистик", Статистика, М., 1970, 274 - 307.

4. Л.Н. Болынев, Н.В. Смирнов. Таблицы математической статистики. М., Наука, 1983.

5. Кендалл М.Дж., Стюарт А., Теория распределений: М.: Наука, 1966, 588с.

6. Кендалл М.Дж., Стюарт А., Статистические выводы и связи: М.: Наука, 1973, 900с.

7. Крамер Г. Математические методы статистики. М.: Мир, 1978, 560с.

8. Пасман В.Р.,Шевляков Г.Л. Робастные методы оценивания коэффициента корреляции. Автоматика и телемеханика, 1987, N3.

9. Харин Ю.С. Робастность в статистическом распознавании образов. Минск, изд. БГУ, 1992, 230с.

10. Хубер П. Робастность в статистике. М.: Мир, 1984.

11. Цыпкин А.З., Поляк Б.Т. Огрубленный метод максимального правдоподобия. / / Динамика систем. 1977, Вып. 12, 22 -46.

12. Цыпкин А.З. Основы информационной теории идентификации. М.: Наука, 1984, 320с.

13. Шевляков Г.Л. Робастные минимаксные свойства медианной коррелации. / / Математические методы управления и обработки данных: Межвузовский сборник. Рязань: РРТИ, 1988, с109 -112.

14. Шурыгин А.М. Размерности многомерной статистики. Автоматика и телемеханика. N8, 1995.

15. Шурыгин A.M. Вариационная оптимизация устойчивости оценки. // Автоматика и телемеханика, 1994, N11, 73 -86.

16. Чирейкин Л.В., Шевляков Г.Л. Классический и робастный анализ факторов ВС от ССЗ. Автоматика и телемеханика, 1993, N1.

17. Atkinson, Anthony С. „Multivariate transportations, regresión diagnostics and seemingly inrelated regression ".MOD A 4 -advances in model oriented data analysis /spetses,1995/ 181 -192, Contrib.Statist.Physica, Heidelberg, 1995.

18. Atkinson, Anthony C., Koopman Siem, Jan, Shephard Neil „Outliers and switches in time series. Asymptotic statistics". (Prague 1993) 35 -48, Contrib. Statist, Physica, Heidelberg, 1994.

19. Atkinson A.C., Lawrance, A.J. „А comparison of asymptotically equivalent test statistics for regression transportation". Biometrica 76, 1989, no. 2, 223 - 229.

20. Atkinson, Anthony C. with Ponce de Leon, A.C. „Optimum experimental design for discriminating between two rival models in the presence of prior information", Biometrica 78(1991), no. 3, 601 -608.

21. Atkinson Antony C., Fast very robust methods for the detection of multiple outliers, Journal of the American Statistical Association, Vol.89, No.428, p. 1329 -1339, 1994.

22. Barnett V., Lewis T. Outliers in Statistical Data, John Wiley, 1978, New York.

23. Blomqvist N. „On a Measure of Dependance berween Two Random Variables", Ann.Math.Stat.,21, No 4., 593 -600, 1950.

24. S.J. Devlin, R. Gnanadesican, J.R. Kettenring. Robust Estimation of Dispersion Matrices and Principal Components. Journal of the American Statistical Association, v.76, 1981.

25. S.J. Devlin,R.Gnanadesican,J.R. Kettenring. Robust Estimation and Outlier Detection with Correlation Coefficient", Biometrika, 62, No.3, 531 -545, 1975

26. Dixon W.J. Analysis of extreme values. Ann.Math.Stat., v.21, N3, 1950.

27. R.Gnanadesican, J.R. Kettenring. Robust estimates, residuals, and outlier detection with multiresponse data .Biometrics, v.28, 1972.

28. F.E.Grubbs. Sample criteria for testing outlying observations Ann.Math.Statist., vol. 21, 1950, 27-28.

29. Hadi A.S., Identifying Multiple Outliers in multivariate data, Journal of the Royal Statistical Society, Ser. 13,54, 761 -771, 1992

30. Hawkins D.M. A feasible solution algorithm for the minimum volume ellipsoid estimator. Computational Statistics, 9, 95 -107, 1993.

31. Hampel P.J., Ronchetti E.M., Rousseeuw P.J. and Stahel W.A., Robust Statistics. The approach Based on Influence Functions, John Wiley, New York, 1950.

32. Maronna R.A. Robust M -estimators of multivariate location and scatter. Ann.Math.Statist., 1976, v.4, N1, 51 -57.

33. Maronna R.A., Yohai V.J. The behaviour of the Stahel -Donoho robust multivariate estimator. Journal of the American Statistical Association, Vol. 85, 330 -341, 1990.

34. Meshalkin L.D.Some mathematical methods for the study of noncommunicable diseases / / Proc/ 6th Intern. Meeting on Uses on Epidemiol. Primosten, Yugoslavia, 1973. V. 1.P.248 -278.

35. Meshalkin L.D. On the robustness of some characterizations of the normal distributions //Ann.Math.Statist., 1968, v.39, 1747-1750.

36. Rocke, David M, Woodruff, David L . „Identification of outliers in multivariate data", J.Amer.Statist. Assoc. 91(1996) no. 435,1047 -1061.

37. Rocke David M. Estimation of variation after outlier rejection. Comput.Statist.&Data Analysis. -1992 -13 N1 c9 -20.

38. Peter J. Rousseeuw, Bert C. Van Zomeren, Unmasking Multivariate Outliers and Leverage Points, Journal of the American Statistical Association, Vol. 85, No 411, p. 633 -648, 1990.

39. Tukey J.V. A survey of sampling from contaminated distributions. In: Contributions to Probability and Statistics (ed.Olkin). Stanf.Univ.press, 1960, 448 -485

Работы, опубликованные автором по теме диссертации

1. Робастные алгоритмы оценивания коэффициента корреляции. Тез.докл. IV -ой научной конференции стран СНГ „Применение многомерного статистического анализа в экономике и оценке качества продукции', Москва, авг. 1997 (соавт. Г.Л.Шевляков).

2. Робастные алгоритмы оценивания коэффициента корреляции. Математика в ВУЗе. Труды международной научно -методической конференции, Кострома, июнь 1996, с.204 -205.

3. Алгоритмы робастного оценивания корреляционных матриц. Математика в ВУЗе. Труды международной научно -методической конференции, Кострома, июнь 1996, с.206 -208.

4. Алгоритмы отбраковки в многомерном пространстве и робастное оценивание корреляционных матриц, Математика в ВУЗе, Труды международной научно -методической конференции, Псков, июнь 1997, раздел 8, с. 168 -169.

5. Робастный корреляционый анализ данных внезапной смертности. I Международный симпозиум «Электроника в медицине. Мониторинг, диагностика, терапия», Ст.Петербург, 1998 (соавт. Г.Л.Шевляков, Л.В.Чирейкин)

6. Robust estimation of a correlation coefficient and correlation matrix. MODA -5, Proceedings, Marseilles, June 1998, 153 -164 (coauth. G.L.Shevlyakov).

7. Detection of Multivariate Outliers by Using Bivariate Boxplots. 9 -й Российско -Французский семинар «Анализ данных и прикладная статистика», Саратов, август 1998, с. 17-18.

8. On Robust Estimation of Correlation Matrices. 5th Intern. Conference on Computer Data Analisys and Modelling. Minsk, June 8 -12, 101 -106.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.