Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Тарима, Сергей Сергеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 149
Оглавление диссертации кандидат технических наук Тарима, Сергей Сергеевич
СПИСОК ОБОЗНАЧЕНИЙ
ВВЕДЕНИЕ б
ГЛАВА 1. МЕТОДЫ ИСПОЛЬЗОВАНИЯ ДОПОЛНИТЕЛЬНОЙ ИНФОРМАЦИИ
1.1. МЕТОД КОРРЕЛИРОВАННЫХ ПРОЦЕССОВ
1.2. МЕТОД ПРОЕКЦИЙ
ГЛАВА 2. АДАПТИВНЫЕ ОЦЕНКИ ВЕРОЯТНОСТЕЙ СОБЫТИЙ
2.1. ПЕРВАЯ АДАПТИВНАЯ ОЦЕНКА '
2.2. ВТОРАЯ АДАПТИВНАЯ ОЦЕНКА
2.3. ТРЕТЬЯ АДАПТИВНАЯ ОЦЕНКА
2.4. СРАВНИТЕЛЬНЫЙ АНАЛИЗ АДАПТИВНЫХ ОЦЕНОК
2.5. УЧЕТ ИНФОРМАЦИИ О ПОЛНОЙ ГРУППЕ СОБЫТИЙ В ПЕРВОЙ АДАПТИВНОЙ ОЦЕНКЕ
2.6. ОЦЕНКА С ИСПОЛЬЗОВАНИЕМ СГЛАЖЕННОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ
2.7. ОЦЕНКА С АПРИОРНОЙ ДОГАДКОЙ
2.8. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ОЦЕНОК С УЧЕТОМ ИНФОРМАЦИИ О ПОЛНОЙ- ГРУППЕ СОБЫТИЙ
ГЛАВА 3 . ОЦЕНКИ С УЧЕТОМ ПРОПОРЦИЙ И УСЛОВНЫХ
ВЕРОЯТНОСТЕЙ
3.1. ЗНАНИЕ ПРОПОРЦИЙ И УСЛОВНЫХ ВЕРОЯТНОСТЕЙ
3.2. МИНИМИЗАЦИЯ РАССТОЯНИЯ КУЛЬБАКА-ЛЕЙБЛЕРА
3.3. МИНИМИЗАЦИЯ РАССТОЯНИЯ ЕВКЛИДА
3.4. ПРОИЗВОЛЬНЫЙ КРИТЕРИЙ КАЧЕСТВА
3.5. УЧЕТ ЗНАНИЯ ВЕРОЯТНОСТЕЙ ДВУХ СОБЫТИЙ
ГЛАВА 4. ОЦЕНИВАНИЕ ПО ДАННЫМ С ПРОПУСКАМИ
4.1. СПОСОБЫ БОРЬБЫ С ПРОПУСКАМИ
4.2. ПРИВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ДРУГИХ ВЫБОРОК
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Статистическая обработка данных с использованием априорной информации2000 год, доктор физико-математических наук Дмитриев, Юрий Глебович
Модифицированные оценки линейных функционалов от распределений вероятностей с учетом дополнительной информации2007 год, кандидат физико-математических наук Головчинер, Ольга Николаевна
Методы и алгоритмы распознавания и оценки параметров случайных процессов в спектральной области при действии мешающих факторов2013 год, доктор технических наук Паршин, Валерий Степанович
Статистическая обработка экспериментальных данных с учетом различных типов симметрии распределения2005 год, кандидат физико-математических наук Зенкова, Жанна Николаевна
Непараметрическое оценивание функционалов от распределений случайных последовательностей2000 год, доктор физико-математических наук Кошкин, Геннадий Михайлович
Введение диссертации (часть автореферата) на тему «Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента»
Актуальность проблемы
В данной работе рассмотрена проблема оценивания вероятностей и распределений вероятностей при знании дополнительной информации.
Задачи статистической обработки данных часто формулируются в терминах функционалов от распределений вероятностей, выражающих различные вероятностные характеристики систем. Решение таких задач сводится к нахождению значений этих функционалов по результатам эксперимента. Так, в задаче оценки параметров функционалы являются количественными определениями этих параметров. Подстановка распределения вероятностей в функционал определяет его значение. Но в реальных ситуациях такое распределение неизвестно и его приходится оценивать по выборке, например, эмпирическим распределением. Широкое применение функционалов от распределений при формировании математических моделей сформировало устойчивую потребность в качественном оценивании распределений вероятностей. Простейшие случаи оценивания вероятностей по независимой выборке хорошо изучены, менее изучены оценки по данным с пропусками. На практике наряду с выборкой исследователь часто располагает различной дополнительной информацией. Актуальной становится проблема рационального учета этой информации с целью улучшения качества получаемых оценок за счет уменьшения дисперсии оценок или сокращения объема выборки при достижении заданной точности оценивания.
Проблема оценивания вероятностей с учетом дополнительной информации представленной в виде известных заранее вероятностей некоторых событий, условных вероятностей, пропорций (отношений двух вероятностей) , знания вероятностей событий, составляющих полную группу, оценок функционалов, построенных по другим выборкам или по наблюдениям с пропусками возникает во многих практических задачах: в проведении демографических обследований и анализе их результатов, при формировании базы знаний из обучающих выборок в экспертных системах, в обработке данных с пропусками, в анализе анкетных данных и др.
Обзор литературы
Задача статистического оценивания вероятностей событий по данным • натурного эксперимента давно привлекает внимание исследователей. Эта проблема рассматривается как в литературе по математической статистике и теории вероятностей (см., например, [2, 11, 13, 14, 35, 36, 46, 62, 63, 70] и др.), так и в более специализированных источниках (например, [7, 8, 37, 41, 51, 74, 75] и др.).
В условиях схемы Бернулли [5] наилучшей оценкой вероятности является относительная частота появления рассматриваемого события. Но во многих практических задачах схема Бернулли усложнена реальными условиями проведения статистического эксперимента . Такие условия часто определены планами выборочного наблюдения [45, 69], но ими не ограничены. Например, возможность ошибок в наблюдениях может существенно ухудшить качество статистических оценок (см., например, [10]). Так, согласно Kahneman [77], медицинские эксперты, определяя вероятность заболевания, часто дают смещенные оценки вероятности.
Ситуация по оцениванию вероятности усложняется, когда наблюдения фиксированы в разных шкалах. Большое количество информации по шкалам и способам сравнения разношкальных наблюдений находится в работах Айвазяна, Загоруйко и др. (см., [1, 30, 47, 50, 65] ) .
Желание исследователей уменьшить потерю точности в оценивании статистических характеристик (в частности вероятностей) от неправильного выбора статистической модели воплотилось в создании и развитии робастной статистики [64, 71]. Следующей сложностью, с которой сталкивается практик, является наличие пропусков в протоколе наблюдений. Над такой проблемой работали Литтл [42], Anderson [72], Bishop [73] и другие исследователи [68, 84].
В качестве дополнительной априорной информации, используемой в статистическом оценивании функционалов от распределений, может выступать знание симметричности распределения, знание моментов, информация, полученная из предыдущих экспериментов. Рациональное использование таких знаний может существенно улучшить качество оценок.
В данной работе дополнительная информация представлена в виде известных заранее вероятностей некоторых событий, пропорций, условных вероятностей, информации по вероятностям полной группы событий, а также в виде оценок, построенных по другим выборкам.
Базовыми методами для данной работы являются метод коррелированных процессов Пугачева [48] и метод проекций (Дмитриев Ю. Г., Устинов Ю. К., [28]), однако некоторые идеи, использованные в данной работе, заимствованы из следующих подходов.
Подход В.- П. Кузнецова [39] позволяет определять эмпирическую и дополнительную информацию в виде интервальных вероятностей, т.е. в виде нижней и верхней возможных границ вероятности события. Предложенная Кузнецовым теория интервального оценивания позволяет учитывать также и «интервальные» результаты опыта. Например, опрашиваемый может ответить: «С вероятностью 60-70 процентов я проголосую за пятого кандидата в предложенном списке». Отметим, что наличие пропусков хорошо укладывается в предлагаемую им теорию. Так, пропуск может интерпретироваться наблюдением с интервальной вероятностью [0,1] . Наблюдения в виде интервалов могут быть получены и во многих технических областях.
Подход Дж. Литтла [42] используется в параметрических семействах распределений и предназначается для обработки данных с пропусками. Суть подхода заключается во введении распределения пропусков в обработку. Подбор параметров заданного параметрического распределения осуществляется, исходя из максимизации логарифма правдоподобия. Причем упомянутое параметрическое семейство распределений включает не только распределение исследуемых признаков, но и распределение пропусков, как отдельную составляющую.
В [73] предложено разделять «вероятностные» и «структурные» пропуски. «Вероятностные» пропуски могут возникать в выборке по причине существования вероятности непопадания наблюдения в выборку, а «структурные» - связаны с выбранной моделью .
В работах Дмитриева Ю. Г. и Устинова Ю. К. [29], Тарасен-ко П. Ф. [51] разработаны процедуры по вовлечению дополнительной информации в оценивание функционалов от распределений .
Отметим работы Гуревича (например, [22]) по оцениванию функционалов от распределений с привлечением дополнительной информации. Гуревич предложил обобщение метода коррелированных процессов на случай учета (в качестве дополнительной информации) оценок функционалов, полученных на предыдущем эксперименте.
Цели исследования
• Построение, исследование и проведение сравнительного анализа на ЭВМ оценок вероятностей одних событий с учетом знания вероятностей полной группы других событий .
• Модификации эмпирических оценок вероятностей с учетом знания пропорций вероятностей, условных вероятностей, оценок вероятностей событий, построенных по данным предыдущих экспериментов, анализ свойств таких оценок.
• Построение оценок вероятностей по данным с пропусками, изучение их свойств.
• Анализ влияния учета дополнительной информации на качество оценок.
Методы исследования
Для построения оценок в работе использовались: метод проекций с расстоянием Кульбака-Лейблера [29]; метод коррелированных процессов [48]; метод максимального маргинального правдоподобия [42]. Свойства полученных оценок анализировались с помощью аппарата теории вероятностей и математической статистики. Для анализа качества оценок при конечных объемах наблюдений проводилось имитационное моделирование на ЭВМ. В качестве инструментальных средств использовались Microsoft Excel, Visual Basic for Application, С++, STL.
Научная новизна
• В явном виде посредством метода проекций с расстоянием Кульбака-Лейблера получена оценка вероятности события с учетом знания вероятностей полной группы событий.
• Построены и исследованы новые оценки вероятности с учетом знания вероятностей полной группы событий.
• Предложено обобщение метода коррелированных процессов на случай учета эмпирических оценок вероятностей, построенных по другим взаимно независимым выборкам. Доказана асимптотическая нормальность полученных оценок.'
• Предложен способ оценивания вероятностей событий по данным с пропусками, комбинирующий идею метода максимального маргинального правдоподобия и обобщение метода коррелированных процессов на случай учета несмещенных оценок вероятностей, сформированных по другим выборкам.
• Проведен сравнительный анализ качества оценок при конечных объемах наблюдений.
Практическая ценность
Имеется несколько предметных областей, в которых возникают проблемы, рассматриваемые в данной работе.
Первой отметим обработку данных с пропусками, представленными в табличном виде [4, 9, 12, 66, 67] . В большинстве пакетов программ, реализующих методики по статистическому анализу данных, допускается выделение отсутствующих элементов в таблице данных с помощью определенного кода. Например,
Microsoft Excel воспринимает пропущенные данные как нуль [9] (согласно установкам по умолчанию). Но, как правило, способы обработки данных в Excel [23, 59] обрабатывают такие данные неправильно, воспринимая нули как реальные наблюдения. Некоторые статистические процедуры, поставляемые в Statistica, SPSS, SAS и др., предусматривают обработку данных с пропусками. В основном эти алгоритмы осуществляют замену пропущенных данных, например, средними значениями переменной. Так, в системе Statistica используются три основных подхода: "casewise deletion" (удаление всех данных с пропусками), "pairwise deletion" (удаление всех данных с пропусками в двух данных компонентах) и заполнение пропусков данными [12]. Стратегия "casewise deletion" в общем случае неприемлема, поскольку интересны выводы относительно всей исследуемой популяции, а не только той её части, для которой отсутствуют пропуски [13, 82]. В некоторых случаях "pairwise deletion" может быть гораздо более полезна, чем "casewise deletion", например, в оценивании матриц ковариаций. С другой стороны, уже реализованы и используются специализированные методы обработки данных с пропусками. Например, ЕМ-алгоритм, основанный на численной реализации метода максимального маргинального правдоподобия [42] .
Другой областью, использующей оценки вероятностей, являются экспертные системы, осуществляющие принятие решений посредством логического вывода. Машины логического вывода многих систем искусственного интеллекта используют базы знаний, определенные набором правил. Представляется возможным использовать некоторые из предлагаемых методик для формирования и пополнения базы знаний из обучающих выборок [15, 43, 44, 6.1] .
Следующей предметной областью является проблема оценивания качества партии изделий. Как правило, эта проблема сводится к оценке доли дефектных деталей в изучаемой партии и решается на промышленных предприятиях различными международными (см., напр., [31 - 33]) и Советско-Российскими (см., напр., [17 - 21]) стандартами. Однако, привлечение дополнительной информации из некомплектных наблюдений не регламентируется этими документами, хотя она может повысить качество оценивания долей дефектных изделий.
Существует возможность использования предлагаемых оценок для проведения маркетинговых исследований. Например, для решения проблемы сегментирования рынка (проблема оценивания долей) [7, 37, 66, 67] .
Положения, выносимые на защиту
1. Новые оценки вероятностей событий, построенные с учетом знания вероятностей полной группы событий. Результаты исследования свойств этих оценок для конечного числа наблюдений и их асимптотических свойств.
2. Обобщение метода коррелированных процессов на случай оценивания вероятностей заданных событий с учетом оценок вероятностей других событий, полученных по предыдущим экспериментам. Результаты исследования свойств оценок, полученных по этому методу, для конечного числа наблюдений, асимптотическое поведение этих оценок.
3. Алгоритм оценивания вероятностей событий по данным с пропусками.
Структура диссертации
Работа состоит из введения, четырех глав, заключения, списка литературы и документов о внедрении результатов диссертационной работы.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Процедуры обучения алгоритмов распознавания стационарных случайных сигналов в радиотехнических системах в условиях априорной параметрической неопределенности2006 год, кандидат технических наук Егоров, Алексей Владимирович
Выбор оптимальной сложности класса логических решающих функций в задачах анализа разнотипных данных2006 год, доктор технических наук Бериков, Владимир Борисович
Методы вероятностно-статистического анализа данных в задачах судостроения2000 год, доктор физико-математических наук Золотухина, Лидия Анатольевна
Планирование эксперимента, оценивание параметров и выбор структуры при построении моделей многофакторных объектов по неоднородным, негауссовским, зависимым наблюдениям2006 год, доктор технических наук Лисицин, Даниил Валерьевич
Исследование специальных моделей кривых дожития в условиях неполных данных2010 год, кандидат физико-математических наук Коробейников, Антон Иванович
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Тарима, Сергей Сергеевич
Выводы.
Предложен метод привлечения дополнительной информации в виде эмпирических вероятностей Pmi(Bf), f=l,.,sir i=l,.fs, полученных по предыдущим экспериментам.
В классе линейных несмещенных оценок (4.1) построена оптимальная в смысле минимума дисперсии оценка (4.5). Эта
-126оценка является обобщением оценки (1.5), построенной при известных вероятностях Р{В(), f=l,.rs±, i=l,.,s. Найдена дисперсия оценки (4.5), из которой следует, что она больше дисперсии оценки (1.5) (что является следствием незнания точных значений Р(В{), £=l,.,s±, i=l,.,s) и не больше дисперсии эмпирической оценки.
3. Доказана асимптотическая нормальность оценки (4.5).
4. Построена адаптивная оценка (4.8), которая слабо сходится, при п—>оо к оценке (4.5) . т.
5. Показано, что если отношения п + т. сходятся к конечному пределу k.,i = l,.,s, (теорема 4.1), то выигрыш от использования дополнительной информации зависит от значений kf .
6. Полученные результаты позволяют обрабатывать данные с пропусками на новой методической основе, которая заключается в том, что все интересующие исследователя характеристики можно вычислить с помощью оценок распределений, построенных по комплектным наблюдениям с привлечением информации, содержащейся в некомплектных наблюдениях.
Результаты данной главы опубликованы в работах [27, 53, 56].
ЗАКЛЮЧЕНИЕ
Перечислим основные результаты, полученные в диссертации, и некоторые выводы, вытекающие из них.
1. В первой главе построена проекция Р"(А) (1.17) эмпирического распределения Рп (А) на основе расстояния Кульбака-Лейблера в априорный класс, определенный знанием вероятностей заданных событий Bl,B2,.,Bs (р(В1 ),Р{В2),.,Р{ВХ)), составляющих полную группу событий с произвольным конечным S. Показано, что проекция Р"(А) (1.17) совпадает с адаптивной оценкой (1.13), полученной по МКП, что дает пользователю больше аргументов для использования этой оценки. Но оценки (1.13) и (1.17) построены в случае Рп(В;) > 0,; = 1,.,л- , и не могут быть использованы, если /J„(5.) е {ОД},/= .
2. Найдено расстояние Кульбака-Лейблера dkl ' между проектируемым распределением Рп (А) и его проекцией в априорный класс Р^(А), которое может быть использовано для определения количества информации, содержащейся в реализации х выборки Х],Х2,.,Хп об априорном классе.
3. Во второй главе предложены адаптивные оценки Р*1 (А) (2.14) и Р"(А) (2.20) с учетом знания вероятности некоторого события В, которые в отличие от оценки Р*°(А) (1.11), предложенной Пугачевым и применимой лишь в случае Рп (В) е (ОД), определены, если Рп (В) е [ОД], т.е. оценки Р" (А) и Р^(А) являются работоспособными для любых реализаций выборок. Для оценки Р?(А), являющейся функционалом Мизеса, найдено математическое ожидание (см. (2.15)) и показано, что скорость убывания смещения оценки имеет порядок О Найдеnj на СКО этой оценки (см. (2.16)) отличающееся от дисперсии оптимальной оценки (см. (1.10)) в классе линейных несмещенных оценок (1.2) на величину порядка О г 1 ^
V"2 J Показано, что оценка Р" (А) является U-статистикой с дисперсией (2.22) и отличается от дисперсии (1.10) величиной порядка ' 1 ^ О v«2 J
Для оценки Р*(А) (2.2), применимой, если Рп(В)е\0,1], найдено математическое ожидание (см. (2.3)) и показано, что скорость убывания смещения к нулю имеет порядок o(max^";(l-£)"]) и выше по сравнению со смещением оценки Р™(А). Показано, что при выполнении условия (2.9), СКО оценки Р*(А) (см. (2.4)) отличается от дисперсии оптимальной оценки Р?(А) (см. (1.9)) на величину порядка о п,
Проведен сравнительный анализ поведения оценок Р*(А), Р? (А) и Р" (А) в условиях фиксированных значений Р(А),Р(В),п и изменяемой корреляционной связи между 1А(х) и 1в(х). Такой анализ показал, что СКО оценки Р*(А) в большинстве случаев ближе к дисперсии оптимальной оценки Р?(А), по сравнению с СКО оценки Р?(А) и дисперсией оценки Р" (А). В случаях малых значений Р(А) и малых объемов наблюдений, СКО оценки Р„м (А) может быть не только меньше СКО оценки Р*(А) и дисперсии оценки Р"(А), но и меньше дисперсии оценки Р„Л°(А) .
6. Предложена оценка Р"""'В,{А) (2.28), являющаяся обобщением оценки Р*(А) на случай учета знания вероятностей полной группы событий Bl,B2,.,Bs . Она применима, если Ри (Bj) е [о,ф = . Более того оценка Рв"'",в'(А) является обобщением оценки (1.13), на случаи /'„(Я,.) е {оД/= l,.,s . Для оценки РВ""'°'(А) найдены математическое ожидание (см. (2.29)) и смещение. Показано, что скорость стремления смещения к нулю имеет порядок 0{\-P{Pii(Bi)>0,Pn(B2)>0,--,Pn(Bs)>0))l и что нормированная асимптотическая дисперсия оценки PBl'"'B'(А) меньше нормированной асимптотической дисперсии (2.33) эмпирического распределения Р„(А) •
7. В качестве альтернативы для PBl' ''D" (А) предложены оценки (2.38) и (2.42), основанные на сглаженных эмпирических распределениях и определенные, если P„(Bt) е [0,ф" = 1,• Для этих оценок найдены соответственно математические ожидания (2.39) и (2.43), СКО (2.41) и (2.44).
8. В п. 2.8 с использованием статистического моделирования проведен сравнительный анализ оценок (2.28), (2.38), (2.42) и (2.45) который показал, что для малых объемов выборки оценки (2.28) и (2.45) имеют меньший разброс около среднего, чем оценки (2.38) и (2.45), однако с ростом п, все оценки сходятся по вероятности к Р(А) .
-1309. В третьей главе предложен способ учета информации, заданной как в виде равенств, так и в виде неравенств, для значений отношений двух вероятностей (пропорций) и условных вероятностей. Этот способ привлекателен тем, что в некоторых случаях он более удобен для практического применения .
10. В четвертой главе рассмотрена задача оценивания вероятностей событий с привлечением дополнительной информации в виде эмпирических вероятностей Рт\В{), f=l,.,Si, i=l,.,s, полученных по предыдущим экспериментам. Предложено обобщение метода коррелированных процессов для решения этой задачи. Так, в классе линейных несмещенных оценок (4.1) построена оптимальная в смысле минимума дисперсии оценка (4.5). Эта оценка является обобщением оценки (1.5), построенной при известных вероятностях Р(В?), f~l,.rsir
1=1,.,s. Найдена дисперсия оценки (4.5), из которой следует, что она больше дисперсии оценки (1.5) (вследствие незнания точных значений P(Bf), f=l,.,Si, i=l,.,s) и не больше дисперсии эмпирической оценки. Доказана асимптотическая нормальность оценки (4.5). Построена адаптивная оценка (4.8), которая слабо сходится при п—>со к оценке (4.5) . т
11. Показано, что если отношения --— сходятся к конечному n + mj пределу klr i=lr.,s, (теорема 4.1), то выигрыш от использования дополнительной информации зависит от значений к±.
12. Полученные результаты позволяют обрабатывать данные с пропусками на новой методической основе, которая заключается в том, что все интересующие исследователя характери
-131стики можно вычислить с помощью оценок распределений, построенных по комплектным наблюдениям с привлечением информации, содержащейся в некомплектных наблюдениях. Этот подход объединяет идею метода максимального маргинального правдоподобия и предложенное обобщение метода коррелированных процессов.
ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ
Результаты диссертационной работы внедрены в учебный процесс на факультете прикладной математички и кибернетики Томского госуниверситета, в анализе геологических данных при выполнении хоздоговорной темы №24 5 «Петрографическое и петрост-руктурное изучение пород Кингашского месторождения», выполняемой по заказу ОАО «Красноярскгеология», в программно-аппаратном комплексе «Video Observer» на предприятии ООО «ТВ-система» .
1. Внедрение в учебный процесс ФПМК ТГУ.
В практические занятия курса «менеджмент» добавлены задачи, при решении которых используется метод проекций, изложенный в главе 3.
Пример.
Банковский служащий для определения вероятности возвращения кредита некоторым предприятием может воспользоваться результатами предыдущих сделок с предприятиями. В этом случае эмпирическая информация представлена выборкой из л предприятий Xi,.,Xn, характеризующихся признаками А (со значениями AL и А2) , В (со значениями Вх, В2 и В3) и С (со значениями Сх, С2 и С3). Применительно к рассматриваемой задаче А - признак возвращения кредита (Ах - кредит возвращен в срок, А2 - не в срок или не возвращен), В - классификация предприятий по количеству работников (Вх - малое, В2 - среднее, В3 - крупное) , С -форма собственности (Сх - ООО, С2 - ОАО, С3 - общественная организация) . В дополнение к выборочным данным самого банка из открытых источников (например, Госкомстат) известны доли малых, средних и крупных предприятий в обслуживаемом банком регионе (т.е. P(Bx)-blr P(B2)=b2f Р(В3)=Ь3). Аналогичная информация доступна .и по формам собственности предприятий (т.е. Р(С1)=с1, Р(С2)=с2, Р(С3)=с3). Это и есть дополнительная информация .
Далее студентам ставилась задача нахождения вероятности возвращения кредита с использованием имеющейся дополнительной информации. Студенты находили эти вероятности посредством проектирования эмпирического распределения в класс распределений, заданный дополнительными условиями.
2. Внедрение в анализ геологических данных.
Для оценивания доли благородных металлов в породах были предложены данные по апробации пород, взятых на различных глубинах разных скважин в виде. Данные представляются таблицей следующего вида
SKV Р ГР
1 17
2 17
3 17
4 17
14 18
15 18 1 1
16 18
17 18
18 18 2
19 18
20 18 2 2
21 18 14 8
22 18
23 18 1 1
24 18
25 18
26 18
Где № - номер пробы, SKV - номер скважины, Р - породы, ГР -группы пород. Причем признаки Р и ГР определены следующими значениями:
Породы (Р) : 1-дуниты; 2-дуниты, серпентинизированные (лизар-дитовые); 3-дуниты, серпентинизированные антигорит-лизардитовые; 4-дуниты, серпентинизированные (лизардит-антигоритовые) ; 5-пироксеновые дуниты; б-серпентиниты (лизардитовые); 7-серпентиниты (антигорит-лизардитовые); 8-серпенититы (лизардит-антигоритовые); 9-серпентиниты (антигоритовые); 10-серпентиниты с магнетитом;
11-серпентиниты антигоритовые, карбонатизированные
12-регенерированные Ол-Ант-породы; 13-граниты; 14-амфиболиты; 15-гнейсы; 1б-мрамора; 17-метасоматиты; 18-оливин-тремолитовая порода.
Группы пород (ГР) : 1-дуниты; 2-дуниты, серпентинизированные; 3-серпениниты лизардитовые (лизардитовые, антигорит-лизардитовые); 4-серпениниты антигоритовые (антигоритовые, лизардит-антигоритовые), 5-верлиты, пироксеновые дуниты; 6-оливин-тремолитовые породы; 7-габброиды; 8-амфиболиты; 9-гранитоиды; 10-гнейсы; 11-мраморы; 12-метасоматиты; 13-скарнированные породы.
Для оценивания долей пород, а соответственно и содержания благородных металлов, использована методика из главы 4 . Согласно предложенной методике данные из наблюдений с пропусками привлечены для повышения точности оценивания долей по наблюдениям без пропусков.
3. Внедрение в программно-аппаратный комплекс «Video-Observer» .
Программно-аппаратный комплекс «Video-Observer» предназначен для отслеживания сектора местонахождения объекта в областях, контролируемых видеокамерами. Специализированный алгоритм проводит анализ видеоизображения с видеокамеры и определяет наличие объекта в контролируемых этой видеокамерой секторах. Однако в ряде случаев алгоритм не работает. Так происходит когда объект находится слишком близко к видеокамере, из-за этого возникают нелинейные искажения изображения, не позволяющие достоверно определить конкретный сектор местонахождения объекта; при нахождении объекта на границе контролируемой видеокамерой области; при выходе из строя видеокамеры.
Согласно методике главы 4 реализован программный модуль вторичной обработки информации, поступающей после работы алгоритма идентификации местонахождения объекта.
Информация после специализированного алгоритма может быть представлена в виде:
Видеокамера 1 Видеокамера 2 Видеокамера 3
0 3 0
0 0
0 0 2
Программный модуль позволяет определить вероятности нахождения объекта в том или ином секторе, в случае наличия пропуска или пропусков в наблюдении.
-137
Список литературы диссертационного исследования кандидат технических наук Тарима, Сергей Сергеевич, 2002 год
1. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификациямногомерных наблюдений. М.: Статистика, 1974.
2. Айвазян С. А., Мхитарян B.C. Теория вероятностей и прикладная статистика. М. : Изд-во ЮНИТИ-ДАНА, 2001, 656 с.
3. Амосов А.А., Колпаков В.В. Характеризация информационныхмер различия вероятностных распределений // Мат. стат. и ее прилож., Томск: Изд-во Том. ун-та, , 1974.
4. Ахаян Р., Горев А., Макашарипов С. Эффективная работа с
5. СУБД. СПБ: Питер Пресс, 1997, 750 с.
6. Бажан Н.П., Бабий Б.М., Белодед И. К. и др. Энциклопедиякибернетики. Киев: Гл. ред. УСЭ, 1975, т. 1, 607 с.
7. Бажан Н.П., Бабий Б.М., Белодед И. К. и др. Энциклопедиякибернетики. Киев: Гл. ред. УСЭ, 1975, т. 2, 618 с.
8. Бахтадзе Н.Н., Потоцкий В.А., Максимов Е.М., Никулина
9. И.В., Яралов А.А. Информационно-статистический подход к организации маркетинга // Экономика и математические методы, М. : Наука, т. 32, в. 4, 1996.
10. Беляев Ю.К. Вероятностные методы выборочного контроля.1. М.: Наука, 1975, 407 с.
11. Биллиг В.А., Дехтярь М.И. VBA и Office 97 офисное программирование. М.: Изд-во «Русская редакция» ТОО "Channel Trading Ltd.", 1998, 673 с.-14110. Большаков В.Д. Теория ошибок наблюдений. М.: Недра, 1983,205 с.
12. Болыиев JI.H., Смирнов Н.В. Таблицы математической статистики. М. : Наука, 1983, 416 с.
13. Боровиков В.П., Боровиков И. П. Statistica. Статистическийанализ и обработка данных в среде Windows. М. : Информационно-издательский отдел «Филинъ», 19 97, 389 с.
14. Боровков А.А. Курс теории вероятностей. М. : Наука, 1972,288 с.
15. Боровков А.А. Математическая статистика. М. : Наука, 1997,772 с.
16. Братко И. Программирование на языке пролог для искусственного интеллекта. Пер. с англ., М.: Мир, 1990, 560 с.
17. Воробьев Н.Н. Теория рядов. М.: Наука, Гл. ред. физ.-мат.лит-ры, 1979, 408 с.
18. ГОСТ Р ИСО 10011-1-93. Руководящие указания по проверкесистем качества. Часть 1. Проверка.
19. ГОСТ Р ИСО 10011-2-93. Руководящие указания по проверкесистем качества. Часть 2. Квалифицированные критерии для экспертов аудиторов.
20. ГОСТ Р ИСО 9002-96. Системы качества. Модель обеспечениякачества при производстве, монтаже и обслуживании.
21. Джонс Эдвард, Саттон Дерек Office 97. Библия пользователя. Киев: Диалектика, 1997, 848 с.
22. Дмитриев Ю.Г. Статистическая обработка данных с использованием априорной информации. Автореферат докторской диссертации. Томск: Изд-во ТУСУР, 2000, 38 с.
23. Дмитриев Ю.Г., Тарасенко П.Ф. Использование априорной информации в статистической обработке экспериментальных данных. Томск: Известия вузов, Физика, 19 92, № 9, с. 136-142 .
24. Дмитриев Ю.Г., Устинов Ю.К. Статистическое оцениваниераспределений вероятностей с использованием дополнительной информации. Томск: Изд-во ТГУ, 1988, 194 с.
25. Загоруйко Н.Г., Елкина В.Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, Сибирское отделение, 1985.
26. ИСО 10012-1-92. Требования, гарантирующие качество измерительного оборудования. Часть 1. Система подтверждения метрологической пригодности измерительного оборудования.
27. ИСО 10013-95. Руководящие указания по разработке руководств по качеству.
28. ИСО 9000-1-94. Стандарты по общему руководству качествоми обеспечению качеством. Часть 1. Руководящие указания по выбору и применению.
29. Калиткин В.Н. Численные методы. М.: Наука, 1976, 408 с.
30. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи.
31. М.: Наука, Гл. ред. физ.-мат. лит-ры, 1973, 817 с.-14436. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и математическая статистика. М. : Высшая школа, 1991, 400 с.
32. Котлер Ф. Основы маркетинга. М. : РосИнтер, 1996, Пер. сангл., 698 с.
33. Кошкин Г.М. , Добровидов А.В. Непараметрическое оценивание функционалов. М.: Наука, Физматлит, 1997, 336 с.
34. Кузнецов В.П. Интервальные статистические модели. М.: Радио и связь, 1991, 348 с.
35. Кульбак С. Теория информации и статистика. М. : Наука,1967, 408 с.
36. Ларичев О.И., Мечитов А.И., Мошкович Е.М., Фуремс Е.М.
37. Выявление экспертных знаний, М.: Наука, 1989, 128 с.
38. Литтл Дж.А., Рубин Д. Б. Статистический анализ данных спропусками, М.: Финансы и статистика, 1991.
39. Лорьер Ж.Л. Системы искусственного интеллекта, М. : Мир,1989, 568 с.
40. Марселлус Д. Программирование экспертных систем на ТУРБО
41. ПРОЛОГЕ. Пер. с англ., М. : Финансы и статистика, 1994, 256 с.
42. Мхитарян B.C. Статистические методы в управлении качеством продукции. М.: Финансы и статистика, 1982.
43. Партасарати К. Введение в теорию вероятностей и теориюмеры. Пер. с англ., под ред. Сазонова В. В., М. : Мир, 1983, 336 с.-14547. Перегудов Ф.И., Тарасенко Ф.П. Основы системного анализа. Томск: Изд-во НТЛ, 1997, 396 с.
44. Пугачев В.Н. Комбинированные методы определения вероятностных характеристик. М.: Советское радио, 1973, 256 с.
45. Райе Дж. Матричные вычисления и математическое обеспечение. Пер. с англ., под ред. Воеводина В. В., М. : Мир, 1984, 262 с.
46. Стабин И.П., Моисеева B.C. Автоматизированный системныйанализ. М.: Машиностроение, 1974, 312 стр.
47. Тарасенко П.Ф. Разработка алгоритмов вовлечения априорнойинформации в процедуры статистического оценивания. Диссертация на соискание ученой степени кандидата физико-математических наук. Томск: 1994, 208 с.
48. Тарасенко Ф.П. Непараметрическая статистика. Томск: Издво ТГУ, 1978, 294 с.
49. Тарима С. С. Учет эмпирической информации для оцениваниядолей событий. // Повышение эффективности научных исследований и совершенствование учебного процесса, тезисы докладов межрегиональной научно-методической конференции, Анжеро-Судженск: 2000, с. 40.
50. Тарима С. С. Эмпирическая оценка вероятности, модифицированная с учетом знания вероятностей. // Молодежь и наука: проблемы и перспективы, III межвузовская научная конференция студентов, аспирантов и молодых ученых, Томск: Изд-во ТГПУ, 1999, с. 69-71.
51. Тихонов А.Н., Васильева А.В., Свешиников А.Г. Дифференциальные уравнения. М. : Наука, Гл. ред. физ.-мат. лит-ры, 1980, 232 с.
52. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных накомпьютере. Под редакцией В.Э. Фигурнова, М. : Инфра-М, 1998 .
53. Уилкс С. Математическая статистика. М.: Наука, 1967.
54. Уотерман Д. Руководство по экспертным системам. М. : Мир,1989.
55. Феллер В. Введение в теорию вероятностей и её применение.
56. М.: Наука, 1967, пер. с англ., т. 1-2.-14763. Харламов А.И., Башина О.Э., Бабурин В.Т. и др. Общая теория статистики, Под ред. Спирина А.А., М. : Финансы и статистика, 1994, 296 с.
57. Хьюбер Дж. П. Робастность в статистике. М. : Мир, 1984 ,304 с.
58. Цветков Э.И. Основы теории статистических измерений. Ленинград: Энергия, Ленинградское отделение, 1979, 286 с.
59. Чесноков С.В. Детерминационный анализ и детерминационнаялогика, http://www.context.ru, 1.02.2000.
60. Чесноков С. В. Детерминационный анализ социально-экономических данных. М.: Наука, 1982, 214 с.
61. Чурилова А.А. Корректировка неответов. // Мат. сем. «Несплошные статистические исследования», Нижний Новгород, 2000, 27 с.
62. Шипилов О.И. Эмпирическая функция распределения в эксперименте с биномиальной рандомизацией // Теория вероятностей и ее прим., М.: т. 41, в. 2, 1996.
63. Шметтерер Л. Введение в математическую статистику. М. :1. Наука, 1976, 520 с.
64. Шуленин В.П. Введение в робастную статистику. Томск: Издво ТГУ, 1993.
65. Burnashev M. V. Selected Topics of Information Theory and
66. Mathematical Statistics. New York: John Willy & Sons, 1975, 30 p.
67. Fleiss J. L. Statistical methods for rates and proportions. New York: John Willy & Sons, 1981.
68. Horvitz D. G., Thompson D. J. A generalization of sampling without replacement from finite population // J. Am. Stat. Assoc. 47, 1952.
69. Kahneman D., Slovic P., Tversky A. Judgment under uncertainty: heuristic and biases. Cambridge University Press, 1982, 555 pp.
70. Mises R. V. Mathematical theory of probability and statistics. N. Y.: Academic Press, 1964.
71. Morrison D. G. Measurement problems in cluster analysis.
72. N. Y.: Management science, 1970, № 13.
73. Parzen E. On estimation of a probability density functionand mode. // Ann. Math. Statist., 1962, v. 33, 368 -386.
74. Rosenblatt M. Remarks on some nonparametric estimates ofa density function. // Ann. Math. Statist., 1956, v. 27, № 3, pp. 832 837.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.