Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам тема диссертации и автореферата по ВАК РФ 05.13.01, доктор физико-математических наук Маркович, Наталья Михайловна

  • Маркович, Наталья Михайловна
  • доктор физико-математических наукдоктор физико-математических наук
  • 2004, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 207
Маркович, Наталья Михайловна. Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам: дис. доктор физико-математических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2004. 207 с.

Оглавление диссертации доктор физико-математических наук Маркович, Наталья Михайловна

Введение

1 Принципы оценивания плотности.

1.1 Основные определения.

1.2 Схемы и принципы оценивания плотности.

1.3 Оценки финитных и легко-хвостовых плотностей.

1.4 Оценки тяжело-хвостовых плотностей.

1.4.1 Трансформированные оценки.

1.4.2 Ядерные оценки с переменной шириной окна.

1.4.3 Комбинированные оценки

1.5 Методы оценивания хвостового индекса.

2 Оценивание плотностей с тяжелыми хвостами.

2.1 Комбинированные параметрико-непараметрические оценки.

2.1.1 Описание оценки.

2.1.2 Оценивание хвостового индекса методом бутстреп.

2.1.3 Непараметрическое оценивание плотности методом структурной минимизации риска.

2.1.4 Примеры оценивания смесей плотностей.

2.2 Оценки, основанные на фиксированном трансформировании.

2.2.1 Описание оценок.

2.2.2 Исследование оценок методом Монте-Карло.

2.3 Оценки, основанные на адаптивном трансформировании.

2.3.1 Введение.

2.3.2 Алгоритм оценивания ПР с помощью адаптивной трансформации

2.3.3 Анализ алгоритма.

2.4 Точность трансформированных ядерных оценок плотностей распределения с тяжелыми хвостами.

2.4.1 Введение.

2.4.2 MISE трансформированных ядерных оценок.

2.4.3 Пограничные ядра.

2.5 Выводы и замечания.

3 Применение оценок тяжело-хвостовых плотностей для классификации.

3.1 Риск классификатора и качество оценивания ПР.j^j. • • • •

3.2 Скорость сходимости оценки риска классификации L(t]eb) к байесовскому риску L(r¡B).

3.3 Моделирование.

3.3.1 Исследование качества оценок ПР.

3.3.2 Исследование качества классификатора

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам»

4.2 Результаты моделирования.98

4.3 Распределения для оценок квантилей высоких порядков.99

4.4 Приложение .100

4.5 Выводы и замечания .103

5 Непараметрическое оценивание хвостового индекса (on-line оценивание). 105

5.1 Введение.105

5.2 Оценивание хвостового индекса.106

5.3 Оценивание в режиме on-line.108

5.3.1 Метод бутстреп для оценивания га.109

5.3.2 Применение к смоделированным данным.110

6 Непараметрическое оценивание функции интенсивности отказов. 114

6.1 Интенсивность отказов для распределений с тяжелыми хвостами. . . . 114

6.2 Интенсивность отказов для распределений с компактным носителем. . 116

6.2.1 Введение.117

6.2.2 Оценивание риска смерти из определения.118

6.2.3 Оценивание риска смерти из уравнения со специальным видом ядра.123

6.2.4 Приложение.125

6.3 Оценивание отношения функций интенсивностей отказов в двух популяциях. Применение к задаче выявления гормезиса в популяции.133

6.3.1 Введение.133

6.3.2 Оценивание функции отношения рисков смерти как некорректно поставленная задача.135

6.3.3 Численное решение интегральных уравнений по эмпирическим данным.138

6.3.4 Методы выбора параметра сглаживания.139

6.3.5 Примеры.140

6.3.6 Заключение.143

7 Непараметрическое оценивание функции восстановления. 145

7.1 Введение.145

7.2 Гистограммная оценка функции восстановления .148

7.2.1 Сходимость гистограммной оценки функции восстановления . . 149

7.2.2 Выбор к методом бутстреп.152

7.2.3 Визуальный выбор к.155

7.3 Экспериментальное исследование.155

7.4 Выводы и замечания.159

7.5 Приложение .159

8 Статистический анализ реальных данных измерений в Интернете. 170

8.0.1 Описание процесса передачи данных в Интернете.170

8.0.2 Проверка данных на тяжелые хвосты.171

8.0.3 Результаты анализа \¥еЬ-характеристик.173

8.0.4 Результаты анализа с помощью комбинированной оценки ПР. . . 174 8.0.5 Результаты анализа с помощью трансформированных оценок ПР. 175

8.1 Оценка высоких квантилей.186

8.2 Оценка функции восстановления.187

8.3 Применение классификации в Интернете.187

Заключение 191

Литература

193

Список иллюстраций

1.1 Оценка Хилла для 15 реализаций распределений Вейбулла (слева), Парето (середина) и Фреше (справа), все с параметром а = 0.5. Объем выборки п — 1000. 42

2.1 Оценивание смешанной ПР распределений гамма и Бурр комбинированной оценкой. 56

2.2 Оценивание смешанной ПР распределений гамма и Парето комбинированной оценкой. 57

2.3 Оценивание смешанной ПР двух гамма распределений комбинированной оценкой. 57

2.4 ПР трансформированной сл.в., генерируемые трансформацией (2.16). . 58

2.5 Ядерная оценка для различных значений параметра сглаживания h для распределения Фреше. 78

2.6 Ядерная оценка с ядром Епанечникова вблизи 1 при различном параметре сглаживания h: hi < 1 — T7(X(n)), h2 = 1 — T7(X(n)),

ДЗ > 1 - T7(X(n)), T7(X(n)) = 0.8. 79

2.7 (Слева) основная часть и (справа) хвостовая область оценки ПР Фреше (Frechet). 79

3.1 Выбор штрафных функций. 85

3.2 Jc(9eb) • Ю3 на [0, оо) для оценок PI, Plf, Ке, Kef: (слева) пара ПР Pareto(l)-Pareto(3) и (справа) пара ПР Frechet(l)-Frechet(2).89

3.3 Jc(gEB) • Ю3 для пары ПР Pareto(2)-Frechet(0.3) для оценок PI, Plf,

Ке, Kef: (слева) на [0, оо) и (справа) на [6, оо). 89

5.1 График {(m,l/zm — 1)} для распределения Парето с 7 = 1, истинное значение 7 показано пунктирной линией. Размеры выборок п = {150,500,1000}.108

5.2 Результаты моделирования оценки 7 для ПР Парето с 7 = 1 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра т (последние два графика справа).112

5.3 Результаты моделирования оценки 7 для ПР Фреше с 7 = 0.3 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра m (последние два графика справа).112

5.4 Результаты моделирования оценки 7 для ПР Вейбулла с 7 = 0.5 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра m (последние два графика справа).113

6.1 Интенсивность отказов (hazard rate) для распределений: Ж экспоненциального, нормального, Коши и Вейбулла с параметром s = 0.3.115

6.2 Модельные риски смерти (вверху) и соответствующие плотности распределения (внизу) в стресс- и контрольной группах для разных стрессов. Кривая 1 - контрольная группа, кривые 2-4 - стресс-группа при дозах 0.5; 2.5 и 4.2.142

6.3 Модельное отношение r(x,m) = ^д™) в зависимости от дозы стресса: слева - во время стресса для фиксированного возраста х — 7; справа -после стресса для фиксированного возраста х = 12.143

6.4 Кривые 1 и 2 - оценки ßs{x/z) для неоднородностей z = {1.25; 1.5}, •fy рассчитанных по формуле (6.39); кривые 3 и 4 - сгенерированный и модельный риск смерти fxs(x) в стресс-группе под стрессом m = 2.5. . 144

6.5 Кривые 1-3 - оцененное, сгенерированное и модельное отношение рисков смерти г(х) = для стресс-группы под стрессом m = 2.5. . . 144

7.1 Зависимость оценки гистограммного типа ФВ от к для распределения Вейбулла.155

7.2 Зависимость оценки гистограммного типа ФВ от к для распределения Вейбулла(в = 3) (вверху) и для распределения Гамма(в = 0.55, А = 1) (внизу) и соответствующие ФВ. к выбирается методом бутстреп (графики "Bootstrap к") и из графика (графики "Plot к"). Величины ФВ ("Weibull rf", "Gamma rf") взяты из таблиц работы Baxter, Мсф; Conalogue, Scheuer, Blischke, (1982). 156

7.3 Оценивание функции восстановления для распределения Вейбулла: зависимость оценки (7.4) от времени t при к = 1,3,5,8 и к, вычисленном методом бутстреп.160

7.4 Оценивание функции восстановления для распределения Парето: зависимость оценки (7.4) от времени t при к — 1,3,5,8 и Л;, вычисленном методом бутстреп.161

7.5 Оценивание функции восстановления для экспоненциального распределения: зависимость оценки (7.4) от времени t при k = 1,3,5,8 и к, вычисленном методом бутстреп.162

8.1 Графики функции е(и) для некоторых распределений. Для тяжело-хвостовых распределений типично, что е(и) стремится к бесконечности. Линейный график е(и) указывает на распределение Парето.176

8.2 График зависимости функции среднего превышения от уровня и для продолжительности подсессий (d.s.s.).177

8.3 График зависимости функции среднего превышения от уровня и для размера подсессий (s.s.s.).177

8.4 График зависимости Rn(p) от п при различных значениях р для продолжительности подсессий (d.s.s.).178

8.5 График зависимости Rn(p) от п при различных значениях р для размера подсессий (s.s.s.).178

8.6 Хилл-график для продолжительности подсессий (d.s.s.).179

8.7 Хилл-график для размеров подсессий (s.s.s.).179

8.8 QQ-графики для продолжительности подсессий (d.s.s.). Слева: экспоненциальные квантили и квантили GPD против порядковых статистик выборки d.s.s. Справа: эмпирические ФР сл.в. Ui = F(Xi). В качестве предполагаемых моделей для распределения d.s.s. F используются экспоненциальное, Парето, Вейбулла, логнормальное, нормальное распределения. График эмпирической ФР в случае экспоненциальных F и Xi близок к линейному.180

8.9 QQ-графики для продолжительности подсессий (s.s.s.). Слева: экспоненциальные квантили и квантили GPD против порядковых статистик выборки s.s.s. Справа: эмпирические ФР сл.в. Ui = F(Xi). В качестве предполагаемых моделей для распределения s.s.s. F используются экспоненциальное, Парето, Вейбулла, логнормальное, нормальное распределения. График эмпирической ФР в случае экспоненциальных F и Х{ близок к линейному.181

8.10 Оценивание ПР размеров подсессий (sub-session size) комбинированной оценкой.182

8.11 Оценивание ПР продолжительности подсессий (duration of sub-sessions) комбинированной оценкой.182

8.12 Оценивание ПР размера ответа (response size) комбинированной оценкой. 182

8.13 Оценивание ПР временных интервалов между ответами (inter-response time) комбинированной оценкой.183

8.14 Оценивание ПР размеров подсессий (s.s.s.) трансформированной ядерной оценкой (Ке) с параметрами h и hl и адаптивной трансформацией Т^(х) и полиграммой (PI).183

8.15 Оценивание ПР продолжительностей подсессий (d.s.s.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Ту(х) и полиграммой (Р1).184

8.16 Оценивание ПР временных промежутков между ответами (i.r.t.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Т7(а;) и полиграммой (Р1).185

8.17 Оценивание ПР размеров ответов (s.г.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Т^х) и полиграммой (Р1).186

8.18 Оценивание функции восстановления для времени между ответами, i.r.t.: зависимость оценки (7.4) от времени t при к = 1,3,5,8 и к, вычисленном из графика к — plot для каждого t.187

8.19 Оценивание функции восстановления для продолжительностей подсессий, d.s.s.: зависимость оценки (7.4) от времени t при к — 1,3,5,8 и к, вычисленном из графика к — plot для каждого t.188

Список таблиц

2.1 Сравнение методов оценивания для распределения гамма.62

2.2 Сравнение методов оценивания для логнормального распределения. . . 62

2.3 Сравнение методов оценивания для распределения Вейбулла.63

3.1 Качество оценок ПР.87

3.2 Качество классификатора.90

4.1 Точность оценивания квантилей.104

5.1 Доверительные интервалы для бутстреп-оценок 7 для различных тяжело-хвостовых распределений и различных с по 500 выборкам с п = 1000 наблюдений каждое.111

7.1 Качество оценки (7.4): Gamma (s = 2, А = 1, Er = 2), объем выборки

1 = 50.166

7.2 Качество оценки (7.4): Ехр (Л = 1, IEr = 1), объем выборки I = 50 . 167

7.3 Часть I: Gamma (s = 0.55, Л = 1, Er = 0.55) .168

7.4 Часть II: Gamma (s = 0.55, Л = 1, Er = 0.55) .168

7.5 Часть I: Weibull (s = 3, Er = 0.89) .169

7.6 Часть II: Weibull (s = 3, Er = 0.89) .169

8.1 Моделирование Web-traffic.171

8.2 Описание данных.171

8.3 Функция среднего превышения для некоторых распределений.172

8.4 Параметры комбинированной оценки.174

8.5 Векторы оптимальных коэффициентов.174

8.6 Параметры трансформированных оценок, полученных с помощью адаптивной трансформации.175

8.7 Высокие квантили для данных Web-traffic.187

Введение

Актуальность проблемы.

В последние годы возрос интерес к задачам прогноза рисков от экстремальных явлений. Измерения в Интернете (продолжительности сессий, длины передаваемых по Интернету файлов и др.), размеры страховок при катастрофах, наблюдаемые очень низкие или высокие температуры, уровень воды в реках при наводнениях, сильные ветры, концентрации редких полезных ископаемых, концентрации озона в атмосфере, разброс размеров пылевых частиц у комет могут быть описаны с помощью тяжело-хвостовых распределений.

К тяжело-хвостовым распределениям могут быть отнесены те распределения, хвост которых убывает на бесконечности медленнее, чем экспоненциальный хвост. Такие распределения могут не иметь конечного второго или даже первого моментов, и это, в частности, определяет специфику их исследования.

Например, центральная предельная теорема о сходимости распределения сумм независимых одинаково распределенных случайных величин (сл.в.) к нормальному распределению выполняется для огромного числа распределений: все, что нам нужно - это конечность дисперсии для слагаемых суммы. Если же эта дисперсия бесконечна, то в качестве предельных распределений для нормированных сумм мы получаем так называемые устойчивые распределения, Levy, (1925); Khintchine, Levy, (1936); Гнеденко, (1939). Условие Крамера о существовании производящей функции моментов не выполняется для тяжело-хвостовых распределений. Поэтому многие результаты теории больших уклонений, требующие выполнения этого условия (например, теорема Крамера о сходимости хвоста распределения суммы конечного числа независимых случайных величин к хвосту нормального распределения), нарушаются. В отсутствии 2-го момента изменяется линейная аппроксимация функции восстановления для больших времен наблюдения.

В статистическом рассмотрении, анализ характеристик случайных величин, распределение которых описывается тяжело-хвостовыми моделями, также требует специальных, отличных от классических, статистических методов. Например, гистограммы хорошо оценивают легко-хвостовые (без тяжелых хвостов) плотности распределения вероятностей (ПР), но на тяжело-хвостовых ПР и для конечных выборок дают результаты, вводящие в заблуждение: переглаживают ПР или показывают пики в хвостовой части ПР. Этот эффект наблюдается и для других непараметрических оценок таких, как ядерные, проекционные, сплайн оценки Ченцов, (1972); Silverman, (1986); Деврой и Дьерфи, (1985). Оценивание высоких квантилей для тяжело-хвостовых распределений не может быть проведено с помощью эмпирических функций распределения или взвешенных эмпирических квантильных оценок, использующих порядковые статистики выборки, как это обычно делается.

Игнорирование тяжело-хвостовости в данных, использование легко-хвостовых моделей могут привести к серьезным искажениям в оценивании и ошибкам в управлении системами.

Цель работы - разработка статистических методов анализа характеристик сл.в., распределенных с тяжелыми хвостами, по выборкам независимых одинаково распределенных сл.в. ограниченного объема.

Задача восстановления ПР по эмпирическим данным является центральной в математической статистике. ПР используется как для описания генеральной совокупности, так и для решения задач классификации, разладки, оценивания различных функционалов, как например, интенсивности отказов и многих других. Обычно в литературе предлагаются модели хвоста распределения, которые используются для построения оценок высоких квантилей, вероятностей и среднего числа превышения случайной величиной некоторого высокого уровня -характеристик, необходимых для оценки риска потерь от редких событий. Для этого используются параметрические модели, основанные на асимптотических моделях поведения максимума выборки, или "почти параметрические" (с точностью до функций со специально заданными свойствами) модели распределений, параметры которых (хвостовые индексы, "tail index") оцениваются по выборкам непараметрическими методами. На практике же (например, в задаче классификации или при оценивании математического ожидания) часто необходимо иметь оценку ПР в целом, т.е. хвостовой и основной части ПР. Параметрические модели хвоста для получения таких оценок не подходят.

Необходимость различного сглаживания в разных областях тяжело-хвостовых ПР привела к использованию ядерных оценок с переменной шириной окна Abramson, (1982); Hall, (1992); Silverman, (1986). Однако эти оценки непригодны, по-крайней мере для ядер с ограниченным носителем, для оценивания хвостовой части ПР, где наблюдения отсутствуют.

Поэтому актуальны развиваемые в работе подходы к оцениванию тяжело-хвостовых ПР с использованием предварительного преобразования (трансформации) данных и параметрико-непараметрического раздельного оценивания хвостовой и основной части ПР. Оба подхода нацелены на хорошее оценивание хвостовой и основной частей ПР.

В диссертации предлагается трансформировать данные к ограниченному интервалу (к выборке с более удобной для оценивания ПР), оценить ПР непараметрическим методом по трансформированным данным и растянуть эту оценку обратным преобразованием. Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные оценки. Этот естественный подход часто реализуется при использовании логарифмического преобразования. Однако преобразования, независящие от исходного распределения, как логарифмическое, могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания.

В диссертации много внимания уделяется предложению трансформаций и оценок ПР для трансформированных сл.в. таких, чтобы обеспечить наименьшую интегральную среднеквадратичную ошибку оценивания и правильный порядок убывания оценки ПР в хвостовой области.

Другая рассматриваемая идея - смешанное параметрико-непараметрическое оценивание, когда хвост ПР оценивается параметрической моделью, а основная часть ПР - какой-то непараметрической оценкой. Похожая идея реализована в оценках Barron, Györfi & van der Meulen, (1992), где параметрическая модель хвоста "накладывается" на гистограммную оценку основной части ПР. Оценки чувствительны к выбору параметрической модели хвоста и плохо оценивают основную часть ПР для выборок ограниченного объема. Между тем на практике часто встречаются многомодальные тяжело-хвостовые распределения. Поэтому актуально предложение комбинированных оценок, нацеленных на хорошее восстановление одновременно многомодальной основной части и хвоста ПР. Необходимость непараметрических оценок ПР с правильным поведением в хвостовой области очевидна. Это особенно важно, если сравниваются ПР нескольких классов. При использовании эмпирического байесовского классификатора наблюдения классифицируются путем сравнения оценок ПР каждого класса. Так как наблюдение может появиться как в области хвоста, так и в основной части ПР, точность оценивания на хвостах принципиальна для классификации. Известно много методов классификации, использующих оценки ПР, Silverman, (1986); Айвазян, (1989). Для тяжело-хвостовых наблюдений актуально рассмотреть процедуру, позволяющую усилить влияние редких наблюдений в хвостовой области на качество классификатора и, тем самым, предотвратить, возможно большие потери от маловероятных событий.

Оценки квантилей высоких порядков (т.е., например, 99, 99.9-процентных квантилей) для тяжело-хвостовых распределений применяются для определения значений характеристик наблюдаемых объектов, приводящих к редким, но возможно большим потерям, при установке порогов изменения параметров технических систем. Высокие квантили обычно располагаются на границе или за пределами выборки. Ввиду отсутствия наблюдений за пределами разброса выборки использование эмпирической функции распределения или взвешенных оценок, использующих порядковые статистики выборки, для оценивания таких квантилей невозможно. Оценивание высоких квантилей основано на выборе предварительной квантили внутри разброса выборки (порога) и затем экстраполяции ее к некоторому значению за пределами выборки. Для этого, как правило, используются асимптотические модели поведения хвостов распределения, основанные на асимптотическом распределении максимума выборки. Недостатком оценок высоких квантилей является их чувствительность к выбору порога и модели хвоста. Актуально предложение новых более точных оценок высоких квантилей.

Хвостовой индекс - другая характеристика, важная для анализа тяжело-хвостовых данных. С помощью него можно определить наличие в данных тяжелых хвостов, а также количество конечных моментов. Наконец, все оценки характеристик тяжелохвостовых сл.в. так или иначе базируются на оценке хвостового индекса. Известно много оценок хвостового индекса: оценка Хилла; момент-оценки, Dekkers, Einmahl, de Haan, (1989); UH-оценки, Berlinet, (1998); ядерные оценки, Csörgö, Deheuvels, Mason, (1985); оценка отношения, Goldie, (1987). Однако эти оценки не обладают свойством рекурсивности, важным для организации вычислений в режиме реального времени (on-line).

В диссертации исследуется оценка хвостового индекса, предложенная в Davy-dov, Paulauskas, Rackauskas, (2000), которая использует независимые отношения вторых наибольших порядковых статистик к наибольшим порядковым статистикам в подгруппах наблюдений и обладает свойством рекурсивности. Выбор параметра метода - числа наблюдений в подгруппах выборки, по выборкам ограниченных объемов, авторами не исследовался. Это было реализовано в диссертации. При решении задач популяционного анализа, связанных с выяснением причин наступления каких-то событий в популяции (например, заболеваемости, смертности), важную роль играет функция риска смерти. При исследовании надежности технических систем эта функция называется интенсивностью отказов. При оценивании этой функции по независимым экспериментальным данным часто применяется какая-либо параметрическая модель. Однако описать данные достаточно точно с ее помощью, привлекая в качестве параметров те или иные влияющие факторы бывает трудно. Параметрический подход проблематичен и при анализе популяционных процессов средствами полумарковских моделей, когда интенсивность наступления событий интерпретируется как интенсивность перехода из одного состояния в другое [3, 5, 17]. Следует учесть, что поведение интенсивности отказов на правом конце действительной оси разнится в зависимости от класса распределения: для финитных и легко-хвостовых распределений интенсивность отказов стремится к оо при х оо, для экспоненциального распределения эта функция постоянна, а для тяжело-хвостовых распределений она стремится к 0 при х —> оо. Это вызывает проблемы для непосредственного применения непараметрических методов при оценивании этой функции: предварительного оценивания ПР и функции распределения (ФР); ядерных оценок или оценок гистограммного типа, Prakasa Rao, (1983); метода регуляризации, Stephaniuk, (1992).

Для тяжело-хвостовых распределений можно провести предварительное преобразование выборки к конечному интервалу и оценивать интенсивности наступления событий, соответствующие финитным распределениям, непараметрическими методами. Это сделано в диссертации.

При анализе устойчивости технических систем, гарантийном контроле качества приборов, часто необходимо оценить функцию восстановления (ФВ), которая показывает среднее число появлений события (например, отказа прибора) за фиксированный интервал времени. Обычно измеряется число наступлений событий в интервале времени фиксированной длины, например, число звонков в фиксированное время в течение нескольких дней. В этом случае для оценивания ФВ необходимо иметь несколько реализаций процесса. В диссертации оценивание ФВ проводится по наблюдаемым временным промежуткам между событиями только одной реализации процесса, что важно при гарантийном контроле качества или, если многократное наблюдение процесса требует больших затрат. В аналитическом виде ФВ получена лишь для немногих распределений. Имеется много работ по численному восстановлению ФВ в случае, когда распределение временных интервалов между событиями известно. Так как предварительное оценивание ФР затруднительно особенно, когда распределение имеет тяжелые хвосты, актуально предложение методов непосредственного оценивания ФВ. Работы по этому направлению крайне немногочисленны, Frees, (1986а), (1986b); Grübel, Pitts, (1993); Schneider, Lin & O'Cinneide, (1990). Оценка Фриза требует большого объема вычислений уже при выборках объема 20-30 точек. Важно предложение непараметрических оценок ФВ, обеспечивающих хорошую точность оценивания при небольшом количестве вычислений и позволяющих вести расчеты для достаточно больших выборок. Это сделано в диссертации.

Общая характеристика диссертации.

Цели работы:

1. Разработать более точные непараметрические и параметрико-непараметрические методы оценивания тяжело-хвостовых ПР.

2. Применить полученные оценки ПР для задачи классификации.

3. Получить и исследовать оценки для квантилей высоких порядков тяжелохвостовых распределений.

4. Предложить выбор параметра для оценки хвостового индекса, предложенной в Davydov, Рагйаизкав, Наскаивкав, (2000).

5. Получить и исследовать непараметрические оценки функции интенсивности отказов (риска смерти в популяции).

6. Разработать непараметрический метод оценивания функции восстановления с хорошей точностью оценивания при небольшом количестве вычислений.

7. Продемонстрировать работу полученных методов на модельных и реальных данных.

Общая методика исследований базируется на результатах теории вероятностей, математической статистики, теории экстремальных величин, теории решения некорректных задач. Для исследования точности методов применяются как результаты теоретических исследований, так и моделирование на ЭВМ.

Научная новизна работы заключается в том, что:

1. Предложен параметрико-непараметрический метод оценивания тяжелохвостовых ПР, в котором основная часть ПР оценивается конечным разложением по базисным функциям, а хвостовая часть - параметрической моделью типа Парето.

2. Разработаны и исследованы методы восстановления тяжело-хвостовых ПР при помощи трансформаций данных, позволяющие сохранить порядок убывания хвоста истинной ПР и имеющие наименьшие интегральные среднеквадратичные ошибки.

3. Рассмотрено использование предложенных оценок ПР в задаче классификации.

4. Предложена и исследована новая оценка для квантилей высоких порядков в предположении, что хвост распределения типа Парето. Доказано, что распределение логарифма отношения предлагаемой оценки (и оценки Вайссмана, Weissman, (1978)) к истинной квантили асимптотически нормально.

5. Для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Rackauskas, (2000), предложен и исследован бутстреп-метод для оценки параметра метода. Показана рекурсивность оценки для расчетов в реальном времени.

6. Рассмотрено оценивание интенсивности отказов для распределений с тяжелыми хвостами. Используя трансформации данных к ограниченному интервалу, предлагается свести оценивание к оцениванию интенсивности отказов (риска смерти) для финитной ПР.

7. Для финитных ПР предложены оценки функции риска смерти из двух интегральных уравнений с разными ядрами и правыми частями методом стохастической регуляризации. При определенном выборе параметра регуляризации доказана сходимость оценок в С, а также скорость сходимости в Z/2 в случае ограниченного изменения к-ой производной функции риска смерти.

8. Получены оценки функций отношения рисков смерти и ПР продолжительности жизни в двух популяциях для финитных ПР как решение интегральных уравнений с неточно заданными правыми частями и операторами методом регуляризации. Оценки применяются для выявления эффекта гормезиса (т.е. "стимулирующего эффекта малых доз каких-либо веществ, которые в больших дозах вредны" British medical dictionary, (1961)) в популяции по эмпирическим данным.

9. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, t] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР, требующая меньшего объема вычислений по сравнению с известными оценками ФВ. Доказана равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными и правильно меняющимися хвостами доказана скорость равномерной сходимости.

Предложен выбор параметра оценки по выборке методом бутстреп и из графика зависимости оценки ФВ от этого параметра.

Практическая ценность работы определяется

1.) созданием новой методологии оценивания тяжело-хвостовых ПР по выборкам ограниченного объема, работоспособность которой продемонстрирована для задач классификации в Интернете, на многочисленных примерах имитационного моделирования и на реальных данных измерений в Интернете;

2.) созданием непараметрической оценки для квантилей высоких порядков, которая может быть применена, например, для контроля риска потерь от сужения области определения наблюдаемых случайных параметров в технических системах (например, в Интернете) до конечного интервала;

3.) созданием точного и экономичного в смысле вычислений метода оценивания ФВ, который может быть применен для контроля загрузки телефонных сетей, Интернета, гарантийного контроля качества приборов;

4.) выработкой рекомендаций по практическому определению параметров для одной оценки хвостового индекса, являющегося базовой характеристикой при анализе данных, распределенных с тяжелыми хвостами;

5.) выработкой практических рекомендаций по оцениванию интенсивностей наступления событий в популяционных системах, позволяющих выявлять влияние различных факторов на них;

6.) выработкой рекомендаций по статистическому анализу данных, распределенных с тяжелыми хвостами.

Апробация работы. Основные результаты работы доложены на 24 международных конференциях:

• International Heart Health Conference Barcelona (Catalonia-Spain) May-June 1995;

• 10th European Simulation Multiconference Budapest, Hungary, June 2-6, 1996;

• 3rd International Conference on Applied Informatics Eger-Noszvaj, Hungary, August 25-28,1997;

• Conference Inverse and ill-posed problems Moscow University, June 16-17, 1998;

• Workshop Heavy tails and queues, Eurandom, the Netherlands, April 1999;

• International Conferences on Control Problems Moscow,SICPRO'1999, 2000, 2003;

• 10th INFORMS Applied Probability Conference University of Ulm, July 26-28, 1999;

• First International IEEE/Popov Workshop on Internet Technologies and Services. October 25-28, 1999, Moscow;

• на Всероссийской научной конференции "Алгоритмический анализ неустойчивых задач" Екатеринбург, 26.02-2.03.2000;

• Workshop IP Netzplanung, IP Netzmanagement und Optimierung. 20.-21. Juli 2000, Universität Würzburg (Германия);

• Workshop Mathematical Modelling in Finance and Telecommunication Nagu/Nauvo,Finland, 18-22 August 2000;

• ECUMN 2000, Colmar, October, 2000;

• International Symposium Extreme Value Analysis Theory and Practice Leuven, August, 2001;

• IFAC Workshop Preprints Adaptation and Learning in Control and Signal Processing Cernobbio-Como (Italy), 29,30,31 August 2001;

• First Teletraffic congress, Brazil, Salvador, December 2001;

• International Gnedenko Conference, Kyiv June 2002;

• International Symposium Managing and analyzing data streams: towards unifying approaches from mathematical statistics and computer science 13-15 June 2002, Marburg, Germany;

• MASCOTS Workshop on Design and Performance Evaluation of 3G Internet Technologies 2002, Fort Worth, Texas, October 2002;

• Seminar Stochastic Dynamical Systems, Sudac, Crimea, Ukraine, 2003;

• Колмогоров и современная математика, МГУ, июнь, 2003;

• Teletraffic congress, Berlin, 2003;

• Conference on Asymptotic Statistics, Barcelona, Bellaterra, 2003, а также на семинарах

• в Институте проблем передачи информации РАН (1991),

• Max Planck Institute, Rostock, Germany (1997),

• Московском Государственном Университете им.M.B.Ломоносова (1998,2001, 2004),

• Munich Technical University (1998, 1999),

• Frankfurt Goethe University (1998-2003),

• Международном Институте Eurandom, Eindhoven, Нидерланды (1999),

• Lund University (Sweden) (2000),

• Würzburg University (Germany) (2000),

• Brunei University, London (2002),

• Weierstrass-Institute, Berlin (2003)

• ENTS, Paris (2004),

• ETH, Zürich (2004).

Публикации. Результаты работы представлены в 40 публикациях. Структура диссертации. Диссертация состоит из введения, восьми глав,

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Маркович, Наталья Михайловна

Основные результаты и выводы настоящей работы можно сформулировать следующим образом.

1. Рассмотрено два подхода к оцениванию тяжело-хвостовых плотностей по выборкам независимых одинаково распределенных случайных величин ограниченного объема: параметрико-непараметрическое раздельное оценивание хвостовой и основной части плотности и с использованием предварительного преобразования (трансформации) данных.

2. Разработана комбинированная параметрико-непараметрическая оценка для тяжело-хвостовых ПР. При этом основная часть ПР на конечном интервале от нуля до некоторой порядковой статистики оценивается непараметрически, линейной комбинацией базисных функций. Число членов и коэффициенты в разложении оцениваются методом структурной минимизации риска, Вапник, (1984), что дает минимум оценки среднего риска оценивания. Хвостовая часть ПР от некоторой порядковой статистики до бесконечности оценивается параметрической моделью типа Парето, где хвостовой индекс - параметр формы хвоста, оценивается методом Хилла. Параметр метода Хилла - число наибольших порядковых статистик, определяется методом бутстреп, что дает близкую к минимальной среднеквадратичную ошибку оценивания хвостового индекса. Оценка предназначена для оценивания многомодальных тяжелохвостовых ПР.

3. Разработаны методы оценивания тяжело-хвостовых ПР при помощи трансформаций. Предложена адаптивная трансформация от Парето-распределенной сл.в. к сл.в. с треугольным распределением, обеспечивающая непрерывную вблизи 1 ПР трансформированной сл.в., удобную для оценивания, для разных типов хвостов и при уклонениях в оценках хвостового индекса. В классе распределений с правильно меняющимися хвостами для адаптивной, логарифмической и аг^ап трансформаций получены ограничения для получения наименьшей интегральной среднеквадратичной ошибки. Для улучшения оценивания хвостовой области ПР ядерными оценками предложены пограничные ядра.

4. Трансформированные ядерные оценки и полиграмма (гистограмма с переменным окном) используются для построения эмпирических байесовских классификаторов, когда распределения классов тяжело-хвостовые. В качестве характеристики оценки тяжело-хвостовой ПР предлагается эмпирический риск ошибочной классификации эмпирическим байесовским классификатором. Доказывается скорость сходимости этого риска к байесовскому риску (минимально возможному) для полиграммы и ядерной оценки. Для адаптивной и ап^ап трансформаций качество оценок ПР и классификаторов для разных оценок ПР сравнивается по эмпирическому риску и риску ошибочной классификации, соответственно, методом Монте-Карло.

5. Разработана оценка квантилей высоких порядков для распределений с тяжелыми хвостами, более точная по сравнению с известными методами: РОТ- методом и оценкой Вайссмана. Доказана асимптотическая нормальность логарифма отношения этой оценки (и оценки Вайссмана) к истинной квантили.

6. Предложен и исследован метод бутстреп для оценивания параметра оценки хвостового индекса, предложенной в работе Оауус1оу, РаикиБкаэ, Яабкаизказ, (2000), по конечным выборкам. Установлено рекурентное свойство оценки, важное для анализа тяжело-хвостовых наблюдений в реальном времени.

7. Трансформационный подход распространен на оценивание функции интенсивностей отказов в случае тяжело-хвостовых распределений. Это позволяет свести оценивание к случаю финитных распределений. Предложены оценки функции интенсивностей отказов для финитных распределений методом стохастической регуляризации Тихонова из интегральных уравнений. Доказываются теоретические свойства регуляризованных оценок: равномерная сходимость, скорость сходимости в пространстве Ь2 в случае ограниченного изменения к-ой производной функции риска смерти. Получена оценка функции отношения рисков смерти в двух популяциях как решение интегрального уравнения с неточно заданной правой частью и оператором методом регуляризации. Оценка применяется для выявления эффекта гормезиса в популяции по эмпирическим данным.

8. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, ¿] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР. Доказывается равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными, а также правильно меняющимися хвостами доказана скорость равномерной сходимости. Новая оценка позволяет значительно сократить объем вычислений по сравнению с известной оценкой Фриза, и добиться лучшего среднеквадратичного отклонения за счет незначительного увеличения объема выборки и выбора сглаживающего параметра. Предложен выбор параметра предлагаемой оценки по конечным выборкам методом бутстреп и из графика зависимости предлагаемой оценки ФВ от этого параметра.

9. Предложенные в диссертации методы обработки информации применены к анализу реальных измерений в Интернете - продолжительностей и размеров сессий и страниц. Обсуждается применение построенных классификаторов для повышения эффективности управления Интернетом путем создания "умного"браузера и классификации Ьир-запросов.

Заключение

Список литературы диссертационного исследования доктор физико-математических наук Маркович, Наталья Михайловна, 2004 год

1. Айвазян, С.А., Бухштабер, В.М., Енюков, И.С., Мешалкин Л.Д. (1989). Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика. 607 с.

2. Айду, Ф.А., Вапник, В.Н. (1989). Оценивание плотности вероятностей на основе метода стохастической регуляризации. Автоматика и телемеханика. 4, с.84-97.

3. Бернштейн, С.Н. (1934). Теория вероятности. ГТТИ, Москва, Ленинград.

4. Болынев, Л.Н., Смирнов, Н.В. (1965). Таблицы математической статистики. Наука.

5. Вапник, В.Н., Стефанюк, А.Р. (1978). Непараметрические методы восстановления плотности вероятностей. Автоматика и телемеханика. 8. с.38-52.

6. Вапник, В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука. 1979. 448 с.

7. Алгоритмы и программы восстановления зависимостей/под ред. Вапник В.Н. М.: Наука, 1984.

8. Вапник, В.Н. Индуктивные принципы поиска эмпирических закономерностей. Распознавание. Классификация. Прогноз. М.: Наука, 1988а. с.16-76.

9. Вапник, В.Н. (1988). Принципы оценивания плотности распределения вероятностей. Дополнение к книге Деврой и Дьерфи, с.362-396.

10. Вапник, В.Н., Маркович, Н.М., Стефанюк, А.Р. (1992). О скорости сходимости в ¿2 проекционной оценки плотности вероятности. Автоматика и телемеханика, 5, с.64-74.

11. Гнеденко, Б.В. (1939). К теории областей притяжения устойчивых законов. Ученые записки МГУ. Математика, кн.З. Т.ЗО, с.61-81.

12. Дэйвид, Г. (1979). Порядковые статистики. М.: Наука, 336 с.

13. Деврой, JL, Дьерфи, JL (1988). Непараметрическое оценивание плотности. L\-подход. М.: Мир, 408 с.

14. Дубов, И.Р. (1998). Формирование наблюдений и аппроксимация функции плотности распределения непрерывной случайной величины. Автоматика и телемеханика. 4, с.84-93.

15. Иванов, В.К., Васин, В.В., Танана, В.П. (1978). Теория линейных некорректных задач и ее приложения. М.: Наука, 206 с.

16. Кириллов, A.A., Гвишиани, А.Д. (1979). Теоремы и задачи функционального анализа. М.Наука.

17. Маркович, Н.М. (1989). Экспериментальный анализ непараметрических оценок плотности вероятности и методов их сглаживания. Автоматика и телемеханика. 7, с.110-119.

18. Маркович, Н.М. (1991). Непараметрическое оценивание плотности распределения вероятности методом стохастической регуляризации. Кандидатская диссертация.

19. Маркович, Н.М., Михальский, А.И. (1995). Оценки показателей здоровья по данным выявленной заболеваемости. Автоматика и телемеханика 7, с. 151161.

20. Маркович, Н.М. (1998). Регуляризация некоторых линейных интегральных уравнений популяционного анализа. Автоматика и телемеханика 3, с. 139155.

21. Маркович, Н.М., Михальский, А.И., Моргенштерн, В. (1998). Оценивание эпидемиологических показателей заболеваемости по косвенным данным. Автоматика и телемеханика 6, с. 153-162.

22. Маркович, Н.М. (2000). Выявление эффекта гормезиса по эмпирическим данным как некорректно поставленная задача. Автоматика и телемеханика. 1, с.133-143.

23. Маркович, Н.М. (2001). Об одной оценке функции восстановления по эмпирическим данным. Тезисы докладов Всероссийской научной конференции, Екатеринбург, 26 февраля-2 марта, с.45-46.

24. Маркович, Н.М. (2002а). Трансформированные оценки плотностей распределения с тяжелыми хвостами и классификация. Автоматика и телемеханика. 4, с.109-123.

25. Маркович, Н.М. (2002b). Оценивание квантилей высоких порядков для распределений с тяжелыми хвостами. Автоматика и телемеханика. 8, с.63-79.

26. Маркович, Н.М. (2004). Точность трансформированных ядерных оценок плотностей распределения с тяжелыми хвостами. Автоматика и телемеханика, (в печати).

27. Морозов, В.А. (1968). О принципе невязки при решении операторных уравнений методом регуляризации. Журн.вычисл. математики и мат.физики. Т.8, 2. с. 295-309.

28. Надарая, Э.А. (1965). О непараметрических оценках плотности вероятности и регрессии. Теория вероятностей и ее примен. Т.10. Вып.1. с.199-203.

29. Стефанюк, А.Р. (1979). О скорости сходимости одного класса оценок плотности вероятности. Автоматика и телемеханика. 11, с.187-192.

30. Стефанюк, А.Р. (1986). Об оценивании отношения правдоподобия. Статистические проблемы управления. Вып.83. Вильнюс: ИМК АН Лит.ССР. с.127-131.

31. Стефанюк, А.Р. (1986). Оценка функции отношения правдоподобия в задаче о "разладке"случайного процесса. Автоматика и телемеханика. 9, с. 53-59.

32. Стефанюк, А.Р., Карандеев, Д.А. (1996). Выбор параметров настройки алгоритма при восстановлении функции плотности вероятности по эмпирическим данным. Автоматика и телемеханика. 10, с.95-111.

33. Стратонович, P.JI. (1969). Быстрота сходимости алгоритмов оценки плотности распределения вероятностей. Изв.АН СССР, сер.техн.киберн. 6(1), с.3-15.

34. Танана, В.П. (1981). Методы решения операторных уравнений. М.: Наука.

35. Тарасенко, Ф.П. (1976). Непараметрическая статистика. Томск. Изд-во. ТГУ, 294 с.

36. Тихонов, А.Н., Арсенин, В.Я. (1974). Методы решения некорректных задач. М.: Наука, 288 с.

37. Туманян, С.Х. (1955). О максимальном уклонении эмпирической плотности распределения. Научные труды Ереванского гос.университета, том.48, вып.2.

38. Фихтенгольц, Г.М. (1966). Курс дифференциального и интегрального исчисления. М. Наука.

39. Ченцов, H.H. (1972). Статистические решающие правила и оптимальные выводы. М.: Наука, 520 с.

40. Хасьминский, Р.З. (1978). О границе снизу рисков непараметрических оценок плотности в равнепараметрическихномерной метрике. Теория вероятностей и ее примен. Т.23. Вып.4. с.824-828.

41. Ширяев, А.Н. (1980). Вероятность. М.: Наука, 576 с.

42. Abramson, I.S. (1982). On bandwidth estimation in kernel estimators A square root law. Ann. Statist., 10, 1217-1223.

43. Asmussen, S. (1996). Renewal Theory and Queueing Algorithms for Matrix-Exponential Distributions, in: Matrix-Analytic Methods in Stochastic Models, S.R. Chakravarthy and A.A. Alfa, eds., New York, 313-341.

44. Athreya, K.B., Ney, P.E. (1972). Branching Processes. Springer-Verlag, Berlin.

45. Barron, A.R., Györfi, L., van der Meulen, E. (1992). Distribution estimation consistent in total variation and in two types of information divergence. IEEE Trans.Inform Theory, 38, 1437-1454.

46. Barron,A.R., Chyong-Hwa Sheu. (1991). Approximation of density functions by sequences of exponential families. Annals of statistics, 19, 3, 1317-1369.

47. Baxter, L.A., McConalogue, D.J., Scheuer, E.M., Blischke, W.R., 1982. On the Tabulation of the Renewal Function. Technometrics, 24, 2, 640-648.

48. Berlinet, A., Vajda, I., van der Meulen, E.C. About the asymptotic accuracy of Barron density estimates. IEEE Trans. Inf. Theory, 1998. N44. pp.999-1009.

49. Bickel, P.J., Sakov, A. (2002). Equality of Types for the Distribution of the Maximum for Two Values of n Implies Extreme Value Type. Extremes 5:1, 45-53.

50. Bolotin, V.A., Levy, Y., Liu, D. (1999). Characterizing data connection and messages by mixtures of distributions on logarithmic scale. In P. Key and D. Smith, eds., Teletraffic Engineering in a Competitive World, Vol. 3b, 887-896, Elsevier, Amsterdam.

51. British medical dictionary. (1961). Caxton Publ.Co.

52. Breiman, L. (1965). On some limit theorems similar to the arc-sin law. Theory of Probability and its Applications. 10, 323-331.

53. Breiman, L., Meisel, W., Purcell, E. (1977). Variable kernel estimates of multivariate densities. Technometrics, 19, 135-144.

54. Bowman, A.W. (1982). A comparative study of some kernel-based nonparametric density estimators. Manchester-Sheffield School of Probability and Statistics, Research Report No.84/AWBll.

55. Caers, J., Van Dyck, J. (1999). Nonparametric tail estimation using a double bootstrap method. Computational Statistics & Data Analysis, 29, 191-211.

56. Chaudhry, M.L. (1995). On Computations of the Mean and Variance of the Number of Renewals: a Unified Approach. Journal of the Operational Research Society, 46, 1352-1364.

57. Chistyakov, V.P. (1964). A theorem on sums of independent positive random variables and its applications to branching random processes. Theory Probab. Appl., 9, 640-648.

58. Chow, Y.-S., Geman, S., L.-D.Wu. (1983). Consistent cross-validated density estimation. Annals of Statistics, 11, 25-38.

59. Cox, D.R. and Dakes, D. (1984). Analysis of Survival Data. Chapman and Hall.

60. Csorgo, S., Deheuvels, P., &; Mason, D. (1985). Kernel estimates for the tail index of a distribution. Annals of Statistics. 13, 1050-1077.

61. Danielsson, J., de Haan, L., Peng, L. and de Vries, C. (1997). Using a bootstrap method to choose the sample fraction in tail index estimation. Technical report TI 97-016/4, Tinbergen Institute, Rotterdam.

62. Davydov, Yu., Paulauskas, V., Rackauskas, A. (2000). More on P-stable convex sets in Banach spaces. J.Theoret. Probab., 13, no.l, 39-64.

63. Dekkers, A.L.M., de Haan, L. (1989). On the estimation of the extreme-value index and large quantile estimation. Annals of Statistics 17(4), 1795-1832.

64. Dekkers, A.L.M., Einmahl, J.H.J., de Haan, L. (1989). A moment estiamtor for the index of an extreme-value distribution. Annals of Statistics 17, 1833-1855.

65. Delignul, Z.S. (1985). An approximate solution of the integral equation of renewal theory. J. Appl. Prob., 22, 926-931.

66. Devroye, L. (1986). A universial lower bound for the kernel estimate. Technical Report, School of Computer Science, McGill Univ.

67. Devroye, L. (1988). Asymptotic performance bounds for the kernel estimate. The Annals of Statistics, Vol.16. 3, 1162-1179.

68. Dielman T., Lowry C., Pfaffenberger R. (1994). A comparison of quantile estimators. Commun. Statist.-Simula. 23(2), 355-371.

69. Dietrich, D., de Haan, L., Husler, J. (2002). Testing Extreme Value Conditions. Extremes 5:1, 71-85.

70. Drees, H., Kaufmann, E. (1998). Selecting the optimal sample fraction in univariate extreme value estimation. Stochastic Processes and their Applications 75, 149-172.

71. Efron, B. and Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall, New York.

72. Embrechts, P., Goldie, C.M., Veraverbeke, N. (1979). Subexponentiality and infinite divisibility. Probability Theory and Related Fields 49, 335-347.

73. Embrechts, P., Klüppelberg, C., Mikosch, T. (1997). Modelling Extremal Events for Finance and Insurance. Springer, Berlin.

74. Engl, H.W., Gfrerer, H. (1988). A posteriori parameter choice for general regulariza-tion methods for solving linear ill-posed problems. Appl.Numer.Math. V. 4. 395-417.

75. Feinendegen L.E., Bond V.P., Booz J. and Muhlensiepen H. (1988). Biochemical and cellular mechanisms of low-dose effects. International Journal of Radiation Biology and Related Studies in Physics, Chemistry and Medicine. V.53(l), 23 -37.

76. Feller, W. (1941). On the integral equation of renewal theory. Ann. Math. Statist. 12, 243-267.

77. Feller, W. (1966). An Introduction to Probability Theory and Its Applications, Vol. 2. John Wiley, New York.

78. Ferreira, A., de Haan, L., Peng, L. (2000). Adaptive estimators for the endpoint and high quantiles of a probability distribution. Eurandom: Research Report No. 99-042.

79. Fisher, R.A. Theory of statistical estimation. (1925). Proc. Cambridge Phil.Soc. 700725.

80. Frees, E.W., (1986a). Warranty Analysis and Renewal Function Estimation. Nav. Res. Logist. Quart., 33, 361-372.

81. Frees, E.W., (1986b). Nonparametric renewal function estimation. Ann. Statist. 14, 1366-1378.

82. Gnedenko, B.V.(1943). Sur la Distribution Limite du Terme Maximum d'une Série Aléatoire. Annals of Mathematics 44, 423-453.

83. Gnedenko, B.W., Kowalenko, I.N. (1971). Einführung in die Bedienungstheorie. Oldenbourg Verlag, München.

84. Gomes, M.I., Oliveira, O. (2000). The bootstrap methodology for statistical extremes Choice of the optimal sample fraction. Notas e Comunica3yes, 04/2000, University of Lisbon.

85. Goldie, C.M., Klüppelberg, C. (1998). Subexponential distributions, in: A Practical Guide to Heavy Tails: Statistical Techniques for Analysing Heavy Tailed Distributions, R. Adler, R. Feldman and M.S. Taqqu, eds., Birkhäuser, Boston, 435-459.

86. Goldie, C.M., Smith, R.L. (1987). Slow variation with remainder: theory and applications. Quart. J.Math. Oxford. 38, 45-71.

87. Grama, I., Spokoiny, V. (2003). Pareto approximation of the tail by local exponential modeling. Weierstrass-Institute, Preprint, No. 819, Berlin.

88. Grübel, R., Pitts, S.M., (1993). Nonparametric estimation in renewal theory 1: the empirical renewal function. Ann. Statist. 21, 3, 1431-1451.

89. Györfi, L., Liese, F., Vajda, I. and van der Meulen, E.C. (1998). Distribution estimates consistent in x2-divergence, Statistics 32, 31-57.

90. Haan, L., de (1994). Extreme value statistics. In: Galambos et al. (Eds.) Extreme Value Theory and Applications, 93-122.

91. Hall, P. (1983a). Large-sample optimality of least squares cross-validation in density estimation. Ann.Statist., 11, 1156-1174.

92. Hall, P. (1983b). Asymptotic theory of minimum integrated square error for multivariate density estimation. Proceedings of the Sixth Intern. Symposium on Multivariate Analysis, Pittsburg.

93. Hall, P., Marron, J.S. (1988). Variable window width kernel estimates of probability densities. Probab. Theory Rel.Fields, 80, 1, 37-49.

94. Hall, P. (1990). Using the Bootstrap to Estimate Mean Squared Error and Select Smoothing Parameter in Nonparametric Problems. Journal of Multivariate Analysis, 32, 177-203.

95. Hall, P. (1992). On global properties of variable bandwidth density estimators. Annals of Statistics, 20, 2, 762-778.

96. Hall, P., Weissman, I. On the estimation of exreme tail probabilities. Annals of Statistics, 1997, 25(3), 1311-1326.

97. Häusler, E., &; Teugels, J. (1985). On the asymptotic normality of Hill's estimate for the exponent of regular variation .Annals of Statistics 13, 743-756.

98. Hall, P., & Welsh, A.H. (1985). Adaptive estimates of parameters regular variation. Annals of Statistics 13, 331-341.

99. Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Ann. Statist., 3, 1163-1174.

100. Horväth, A., Telek, M. (2000). Approximating heavy tailed behaviour with Phase type distributions. In Proc. Matrix-Analytic Methods in Stochastic Models, July.

101. JureÊkovâ, J., Picek, J. (2001). A class of tests on the tail index. Extremes. 4, 165-183.

102. Krieger, U.R., Markovitch, N.M., Vicari N. (2001). Analysis of World Wide Web traffic by nonparametric estimation techniques. In K. Guto et al., eds., Performance and QoS of Next Generation Networking, 67-83, Springer, London.

103. Khazaeli, A.A., Tatar, M., Pletcher, S.D., and Curtsinger J.W. (1997). Heat-Induced Longevity Extension in Drosophila. I. Heat Treatment, Mortality, and Thermotol-erance. Journal of Gerontology: Biological Sciences. Vol.52A. No.l. B48-B52.

104. Khintchine, A., Levy, P. (1936). Sur les lois stables. Comptes rendus Acad. Sei. Paris Vol.202, No.5, 374-376.

105. Knuth, D.E. (1973). The art of computer programming. 3, Addisow Wesley Publishing Company, London.

106. Koo, J.-Y., Kim, W.-C. (1996). Wavelet density estimation by approximation of log-densities. Statistics and Probability Letters. 26. 271-278.

107. Kooperberg, C., Stone, C.J., Truong Y.K. (1994). Hazard regression. Technical Report No. 389, May 1, University of California, Berkeley.

108. Ks, V., Vajda, I. (1996). A comparative study of nonparametric density estimates. Res. rep. 1892, Inst, of Inform. Theory, Czech Acad.ScL, Prague.

109. Leslie, J. (1989). On the non-closure under convolution of the class of subexponential distributions. Journal of Applied Probability 26, 58-66.

110. Levy, P. (1925). Calcul des probabilités. Paris: Ganthier - Villars.

111. Luckey T.D. (1980). Hormesis with Ionizing Radiation, CRC Press, Boca Raton, FL.

112. Maiboroda R.E., Markovich N.M. (2004). Estimation of heavy-tailed probability density function with application to Web data. Computational Statistics, 4.

113. Markovich N.M. (1995). Mathematical Concepts, In the book: Morgenstern, W., Ivanov, V.K., Michalski, A.I., Tsyb, A.F., Schettler, G., eds., Mathematical modelling with Chernobyl Registry Data, Springer, Heidelberg.

114. Markovich, N.M., Michalski, A.I., Morgenstern, W. (1995). Estimation of cardiovascular morbidity in risk groups, Proceedings of 2nd International Heart Health Conference, Barcelona, Catalonia, Spain, May-June.

115. Markovich, N.M., Morgenstern, W., Michalski, A.I. (1996). Semi-Markov identification based on the small samples approach. In Proceedings of the 199610th European Simulation Multiconference (Budapest, Hungary, June 2-6), 791-795.

116. Markovich, N.M., Morgenstern, W., Michalski, A.I. (1997). Nonparametric estimation of transition rate on empirical data. Proceedings of the 3rd International Conference on Applied Informatics, Eger-Noszvaj, Hungary, August 25-28.

117. Markovitch, N.M. (1998). Nonparametric estimation of the probability density and its functions by regularization method. Proceedings of the Conference Inverse and Ill-posed Problems, Moscow University, June 16-17.

118. Markovitch, N.M. (1999a). Estimation of heavy-tailed probability density and hazard rate functions and their application in teletraffic theory. Proceedings of the Workshop Heavy tails and queues, Eurandom, The Netherlands, April.

119. Markovitch, N.M. (1999b). Nonparametric estimation of probability density: the restoration of heavy-tailed distribution. Proceedings of the International Conference on Control Problems, Moscow, June 29 July 2, vol.2, 66-67.

120. Markovitch, N.M. (1999c). Nonparametric probability density and hazard rate estimation by the regularization method.Proceedings of the 10th INFORMS Applied Probability Conference University, Ulm, July 26-28, 228.

121. Markovitch, N.M., Krieger U.R. (2000a). Nonparametric estimation of long-tailed density functions and its application to the analysis of World Wide Web traffic. Performance Evaluation, 42(2-3), 205-222.

122. Markovitch, N.M., Krieger, U.R. (2000b). Estimation Of The Renewal Function: A Bayesian Approach. In Proceedings ECUMN 2000, Colmar, October, 293-300.

123. Markovitch, N.M. (2000). Nonparametric estimation of long-tailed distribution density function. In Proceedings of the International Conference System Identification and Control Problems, SICPRO'2000, Moscow, Russia, 26-28 September, 48.

124. Markovich, N.M. (2001). Nonparametric estimation of a heavy-tailed probability density function. In Proceedings of International Symposium Extreme Value Analysis Theory and Practice, Leuven, August.

125. Markovich, N.M., Krieger, U.R. (2001a). Retransformed heavy-tailed density estimates and classification problem. IF AC Workshop Preprints "Adaptation and Learning in Control and Signal Processing", Cernobbio-Como (Italy), 29,30,31 August, 187-192.

126. Markovitch N.M., Krieger, U.R. (2002a). Estimating Basic Characterestics of Arrival Processes in Telecommunication Network by Empirical Data. Telecommunication Systems, 20:1,2,11-31.

127. Markovitch, N.M. and Krieger, U.R. (2002b). The estimation of heavy-tailed probability density functions, their mixtures and quantiles. Computer Networks, Vol. 40, Issue 3, 459-474.

128. Markovitch, N.M. (2002a). High quantile estimation for heavy-tailed distributions. In Proceedings of the International Gnedenko Conference, Kyiv, June 3-7, 73.

129. Markovitch N.M. (2003a). Estimation principles of heavy-tailed distribution density function. In Proceedings of the II International Conference "System Identification and Control Problems"SICPRO'2003. Moscow, Russia, 29-31 January, 2122-2124.

130. Markovitch N.M. (2003b). Retransformed nonparametric density estimators with reduced bias. Proceedings of the International Summer Seminar Stochastic Dynamical Systems, May 30- June 7, Sudac, Crimea, Ukraine, 54.

131. Markovitch N.M. (2003c). Accuracy of retransformed kernel estimators for heavy-tailed densities. Proceedings of the International Conference Kolmogorov and Contemporary Mathematics, June, Moscow, 494.

132. Markovitch N.M., U.R.Krieger. (2003). On-Line Estimation of Heavy-Tailed Traffic Characteristics in Web Data Mining. In Proceedings of 18th International Teletraf-fic Congress, Berlin, Germany, 31 August 5 September vol. 5a, 571-580.

133. Markovich N.M. (2003). Estimation of heavy-tailed densities by a transformation. Proceedings of the Barcelona Conference on Asymptotic Statistics, 2-6 September, Barcelona, Bellaterra, 35-36.

134. Markovich, N.M. (2004a). Nonparametric renewal function estimation and smoothing by empirical data. Preprint Forschungsinstitut fur mathematik ETH, Zurich.

135. Markovich, N.M. (2004). Estimation of Heavy-Tailed Densities by a Transformation. SORT, (Submitted).

136. Markovich, N.M., Krieger, U.R. (2004). Nonparametric Estimation of the renewal function by empirical data. Stochastic Models, (Submitted).

137. Mason, D. (1982). Laws of large numbers for sums of extreme values. Annals Probability 10, 754-764.

138. McConalogue, D.J. (1981). Numerical treatment of convolution integrals involving distributions with densities having singularities at the origin. Comm. in Statistics, Series B10, 265-280.

139. McNeil, A.J. (1997). Estimating the tails of loss severity distributions using extreme value theory. Astin Bulletin. 27(1), 117-137.

140. Mikosch, T., Nagaev, A.V. (1998). Large deviations for heavy-tailed sums with applications to insurance. Extremes, 1, 81-110.

141. Mikosch, T. (1999). Regular Variation, Subexponentiality and Their Applications in Probability Theory. Technical Report 99-013, ISSN: 1389-2355, University of Groningen.

142. Mohan, N.R. (1976). Teugels' renewal theorem and stable laws. The Annals of Probability, 4(5), 863-868.

143. Murthy, V.K. (1966). Nonparametric estimation of multivariate densitites with applications. Multivariate Analysis, P.R.Krishnaiah, Ed. New York: Academic, 43-48.

144. Nabe, M., Murata, M., Miyahara, H. (1998). Analysis and modelling of World Wide Web traffic for capacity dimensioning of Internet access lines. Performance Evaluation, 34, 249-271.

145. Naito, K. (2001). On a certain class of nonparametric density estimators with reduced bias, and Probability Letters, 51, 71-78.

146. Novak, S.Y. (1998). Berry-Esseen inequalities for a ratio of sums of random variables. University of Sussex: Research Report No 98/07 SMS/CSSM.

147. Novak, S.Y. (1999). Generalised kernel density estimator. Theory Probab. Appl., 44 (3), 570-583.

148. Novak, S.Y. (2002). Inference on heavy tails from dependent date. Siberian Advances in Mathematics, 12 (2), 73-96.

149. Parzen, E. (1962). On estimation of a probability density function and mode. Ann.Math.Statist., 33, 3, 1065-1076.

150. Paulauskas, V. (2003). A new estimator for tail index. Acta Applicandae Mathe-matica. 79 (1/2) 167-175.

151. Petrov, V.V. (1975). Sums of Independent Random Variables. Springer, New York.

152. Pickands, J. (1975). Statistical inference using extreme order statistics. Annals of Statistics, 3, 119-131.

153. Planel, H. et al. (1966). Essai demonstration experimentale de l'activité biologigue des radiations ionisantes naturalle. Comptes Rendus de L Academie des Sciences. Serie III, Sciences de la Vie. V.262, P.27-67.

154. Polzehl, J., Spokoiny, V. (2002). Local likelihood modeling by adaptive weights smoothing. Weierstrass-Institute, Preprint, No. 181, Berlin.

155. Prakasa Rao, B.L.S. (1983). Nonparametric Functional Estimation. Academic, Orlando, Fla.

156. Reiss, R.-D. (1975). Consistency of a certain class of empirical density functions. Metrika, Vol.22, 4, 189-203.

157. Reiss, R.-D. ( 1989).Approximate distributions of order. Springer.

158. Resnick, S., Stàricà, С. (1999). Smoothing the Moment Estimate of the Extreme Value Parameter. Extremes, 1(3). 263-294.

159. Roppel, C. (1999). Estimating Cell Transfer Delay and Cell Delay Variation in ATM Networks: Measurement Techniques and Results. European Trans, on Telecommunications, 10(1), 13-21.

160. Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. Ann.Math.Statist. V.27, 3, 832-837.

161. Rudemo, M. (1982). Empirical choice of histogram and kernel density estimators. Scandinavian Journal of Statistics 9, 65-78.

162. Sachs, R.K., Hlatky, L., Hahnfeldt, P. and Chen, P.L. (1990). Incorporating doserate effects in Markov radiation cell-survival models. Radiation Research. V.124(2), 216-226.

163. Sagan, L.A. (1987). What is hormesis and why haven't we heard about it before? Health Physics. Vol.52, 5 (May), 521-525.

164. Schneider, H., Lin, B.-S., O'Cinneide, C., (1990). Comparison of Nonparametric Estimators for the Renewal Function. Appl. Statist. 39, 1, 55-61.

165. Schuster, E.F., Gregory, G.G. (1981). On the nonconsistency of maximum likelihood nonparametric density estimators. In: Computer Science and Statistics: Proceedings of 13th Symposium on the Interface. Ed.W.F.Eddy, 295-298, Springer Verlag, New York.

166. Scott, D.W. (1992). Multivariate Density Estimation Theory, Practice and Visualization. N.Y., Wiley.

167. Sigman, K. (1999). Appendix: A primer on heavy-tailed distributions. Queueing Systems 33, 261-275.

168. Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis, New York: Chapman&Hall.

169. Simonoff, J.S. (1996). Smoothing Methods in Statistics, Springer, New York.

170. Sgibnev, M.S. (1981). Renewal theorem in the case of an infinite variance. Siberian Math. J. 22, 787-796.

171. Stephaniuk, A.R. (1992). The Problem of Nonparametric Estimation of Mortality Risk function. Proceedings of a conference held in Sopron, Hungary, July, 53-67.

172. Teugel, J.L. (1968). Renewal theorems when the first or the second moment is infinite. Ann.Math.Statis. 39, 1210-1219.

173. Vapnik, V.N. (1982). Estimation of Dependences Based on Empirical Data. Springer, New York.

174. Vaupel, J.W., Manton, K.G. and Stallard, E. (1979). The Impact of Heterogeneity in Individual Frailty on the Dynamics of Mortality. Demography. V.16, 439-454.

175. Vicari, N. (1997). Measurement and modelling of WWW-sessions, Technical Report No. 184, Institute of Computer Science, University of Wiirzburg, September.

176. Wahba, G. (1981). Data-Based Optimal Smoothing of Orthogonal Series Density Estimates.Ann.Statist. 9, 146-156.

177. Wand, M.P., Marron, J.S., Ruppert, D. (1991). Transformations in density estimation Journal of American Statistical Association, Theory and Methods 86, 414, 343-353.

178. Weissman, I. (1978). Estimation of parameters and large quantiles based on the k largest observations. Journal of American Statistical Association, 73, 812-815.

179. Xie, M. (1989). On the solution of renewal-type integral equations. Commun. Statist.-Simula., 18, 1, 281-293.

180. Yakovlev, A.Yu., Tsodikov, A.D. and Bass, L. (1993). A stochastic model of horme-sis. Mathematical Biosciences. 116:197-21 9.

181. Yang, L., Marron, J.S. (1999). Iterated transformation-kernel density estimation. Journal of the American Statistical Association. 94(446), 580-589.

182. Yashin, A. I., Andreev, K.F., Khazaeli, A., Curtsinger, J. W. and Vaupel, J. W. (1996). Death-after- stress- data in the analysis of heterogeneous mortality. Proc. of a symposium, i anvendt statistik, Odense University. Jan 22-24, 24-36.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.