Групповая классификация на основе байесовских моделей тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Бабушкина, Елена Вадимовна
- Специальность ВАК РФ05.13.18
- Количество страниц 150
Оглавление диссертации кандидат физико-математических наук Бабушкина, Елена Вадимовна
СПИСОК ОБОЗНАЧЕНИЙ.
ВВЕДЕНИЕ.
1. МАТЕМАТИЧЕСКОЕ ПРЕДИСЛОВИЕ.
Vfc 1.1. Постановка задачи групповой классификации. уф 1.2. Критерий отношения правдоподобия.
1.3. Статистические правила групповой классификации.
1.4. Краткие сведения о некоторых вероятностных моделях, используемых в работе.
1.4.1. Многомерное нормальное распределение [ N(\i, £) ].
1.4.2. Распределение Уишарта [ W(T,, п) ].
Ф 1.4.3. Распределение выборочных характеристик нормального закона [ NW(\i, S, п) ].
1.4.4. Многомерное Т-распределение Стьюдента [ T(v, ц, £) ].
1.4.5. Нормальные модели последовательностей зависимых наблюдений [iV(nx»^x)].
1.5. Байесовский подход к статистическому оцениванию.
2. ОЦЕНИВАНИЕ ПЛОТНОСТЕЙ РАСПРЕДЕЛЕНИЙ ВЫБОРОК В РАМКАХ БАЙЕСОВСКИХ МОДЕЛЕЙ.
2.1. Восстановление зависимостей по эмпирическим дан® ным.
2.1.1. Структура байесовских оценок.
2.1.2. Байесовские оценки при квадратичной функции потерь.
2.1.3. Восстановление плотностей распределений в байесовских моделях.
2.1.4. Выбор априорного распределения неизвестных параметров в байесовской модели.
Ф 2.2. Построение байесовских оценок плотностей распределений вы, 4 борок в рамках нормальных моделей.
2.3. Байесовское оценивание плотности распределения нормальной последовательности марковского типа.
2.4. Оценивание параметрических функций в байесовских моделях Уишарта и многомерного Т-распределения Стьюдента.
2.4.1. Модели Уишарта.
2.4.2. Модель Т-распределения Стьюдента.
2.5. Квадратические погрешности байесовских оценок.
3. РЕШАЮЩИЕ ПРАВИЛА ГРУППОВОЙ КЛАССИФИКАЦИИ.
3.1. Групповые классификаторы в случае нормальных классов.
3.1.1. Классификация в условиях независимости наблюдений.
3.1.2. Классификация последовательности зависимых наблюдений
3.2. Классификация в случае распределения Уишарта и Т-распределения Стьюдента.
3.2.1. Групповая классификация независимых матриц, имеющих распределение Уишарта.
3.2.2. Вычисление верхней и нижней границы для вероятности ошибочной классификации в случае двух Т-распределений Стьюдента.
3.2.3. Статистическая групповая классификация в случае Т-распределения Стьюдента.
3.3. Асимптотические свойства статистических групповых классификаторов.
4. СРАВНИТЕЛЬНЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКИХ ОЦЕНОК И РЕШАЮЩИХ ПРАВИЛ КЛАССИФИКАЦИИ.
4.1. Методы статистического моделирования.
4.1.1. Методы Монте-Карло.
4.1.2. Моделирование стандартного нормального распределения.
4.1.3. Моделирование невырожденного многомерного нормального распределения.
4.1.4. Генерация случайных величин, имеющих % -распределение.
4.1.5. Моделирование многомерного Т-распределения.
4.2. Оценка суммарной вероятности ошибок классификации методом статистического моделирования.
4.2.1. Цель экспериментов.
4.2.2. Условия экспериментов.
4.2.3. Результаты проведенных экспериментов.
4.3. Исследование статистических оценок для вероятностной модели выборки, извлеченной из нормальной совокупности.
4.3.1. Исследование байесовской оценки.
4.3.2. Сравнение байесовской и несмещенной оценки для функции правдоподобия выборки, извлеченной из нормальной совокупности.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Методы вероятностно-статистического анализа данных в задачах судостроения2000 год, доктор физико-математических наук Золотухина, Лидия Анатольевна
Процедуры обучения алгоритмов распознавания стационарных случайных сигналов в радиотехнических системах в условиях априорной параметрической неопределенности2006 год, кандидат технических наук Егоров, Алексей Владимирович
Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных2000 год, кандидат технических наук Тишковская, Светлана Владимировна
Асимптотическая теория устойчивого оценивания2002 год, доктор технических наук Шурыгин, Александр Михайлович
Выбор оптимальной сложности класса логических решающих функций в задачах анализа разнотипных данных2006 год, доктор технических наук Бериков, Владимир Борисович
Введение диссертации (часть автореферата) на тему «Групповая классификация на основе байесовских моделей»
Актуальность проблемы
В последние десятилетия получила довольно широкое развитие теория, связанная с разработкой методов распознавания образов. Предметом изучения этой теории являются способы решения трудноформализуемых и противоречивых задач классификации, оптимизации, принятия решения, которые часто возникают при моделировании сложных систем в экономике, медицине, технике. Процедуры распознавания эффективно используются при проектировании экспертных систем в различных областях знания. Особое место здесь занимают задачи, связанные с решением проблемы обучения распознаванию образов, которая является одной из центральных в области создания искусственного интеллекта.
Отдельным важным приложением теории и методов распознавания является классификация объектов по измерениям их характеристик. Большой вклад в развитие теории классификации внесли С.А.Айвазян, Ю.Н.Благовещенский, Л.Д.Мешалкин, Ю.И.Журавлев, Н .Г.Загоруйко, В.Н.Вапник, Ш.Ю.Раудис, В.Д.Мазуров, Г.С.Лбов, Т.Андерсон, С.Рао, К.Фукунага. На сегодняшний день существует много прекрасных руководств по теории классификации [20], [21], [22], [24], [28], [29], [30], [33], [37], [40], [42], [43], [44], [58], [59], [70], [84], [86], [101]. Все они различаются способами описания классов и решающими правилами.
Традиционные методы классификации дают правила отнесения одного вектора наблюдений к одному из М заданных классов. Такая задача носит название поточечной классификации. Задача поточечной классификации впервые была поставлена и исследована в работе А.Вальда [104] в 1944 году и с появлением монографии Т.Андерсона [24] нашла довольно широкий круг применений.
Обобщением классической задачи поточечной классификации является задача групповой классификации. В этом случае необходимо классифицировать группу, состоящую из щ>\ объектов, для которой априори известно, что она извлечена из одного из классов. Задачи групповой классификации возникают, в частности, в медицинской и технической диагностике, в типологии совокупностей по hq векторным наблюдениям. В последнее время появляются работы, связанные с применением алгоритмов групповой классификации при решении задач распознавания сигналов, которые представляют собой развивающиеся во времени случайные процессы. Для решения таких задач требуется разработка и реализация принципиально новых методов. Это связано с тем, что использование именно групповых классификаторов позволяет уменьшить число ошибочных выводов, получаемых при отнесении группы к тому или иному классу, в сравнении с применением к этой же группе известного метода голосования. Кроме того, важной особенностью группового подхода к решению задачи распознавания образов является возможность увеличения статистической информации за счет привлечения группы классифицируемых объектов при построении решающих правил классификации.
Можно выделить две тенденции в развитии исследований, связанных с групповой классификацией: первая - принятие решения по целой группе независимых наблюдений; вторая - классификация последовательных во времени зависимых наблюдений. Первая тенденция возникла в связи с контролем качества продукции, когда нет возможности (или это требует существенных затрат) проверить каждое изделие и решение о годности всей партии принимается по результатам проверки определенной доли продукции. Вторая тенденция соответствует часто встречаемой в жизни ситуации, когда результаты наблюдений, сделанных в некоторый момент времени, зависят от результатов ранее произведенных наблюдений (например последовательный контроль качества изделий, данные метрологии, биофизические данные и т.д.).
Приведем несколько задач, где успешно используются методы групповой классификации.
Плохое состояние экологической обстановки вызывает многие заболевания, которые носят название экопатологии. Пусть на некоторой территории имеется М различных экопатологий с А: медицинскими диагностическими показателями. На конкретной территории отбирается случайным образом группа «о больных, работающих на одном предприятии. Требуется определить тип экопатологии, к которой относятся сотрудники данного предприятия. При nQ = 1 речь идет об отнесении конкретного больного к одному из типов экопатологий, а при п$>\ появляется возможность более обоснованно судить о влиянии ухудшившейся экологической обстановки на здоровье работников предприятия.
Анализ электрокардиограмм позволяет оценить состояние сердечнососудистой системы, знание которого важно при лечении больных болезнями сердца, а также при оценке работоспособности здоровых людей. Анализ электрокардиограмм по их графическим записям делает врач-интерпретатор, на что он тратит много времени, при этом нередко возникают субъективные ошибки. Устранение указанных недостатков возможно путем автоматизации анализа кардиограмм с применением алгоритмов групповой классификации. В этом случае речь идет о классификации последовательности п$ зависимых векторов, соответствующих щ QRS комплексам кардиограммы. Компонентами каждого вектора являются измерения величин амплитуд графиков кардиограмм в нескольких равномерно отдаленных друг от друга точках. Первый вектор представляет первый QRS комплекс, второй - второй QRS комплекс, третий - третий и т.д. Таким образом, на основании последовательных векторов измерений можно быстро и надежно диагностировать проблему.
Задача групповой классификации впервые была формализована в работе Л.По [98] и получила дальнейшее развитие в работе Дж.Киттлера [92]. В этих работах исследуется классификация в два класса <х>\ и а>2 - годных и дефектных изделий. При этом ^-мерные наблюдения предполагаются независимыми, что соответствует специфике контроля качества продукции.
Большое внимание исследованию задачи групповой классификации независимых многомерных наблюдений уделяется в работах Р.А.Абусева и Я.П.Лумельского. В них формулируется и решается задача как в параметрической, так и в непараметрической постановке, исследуется суммарная вероятность ошибок, возникающих при групповой классификации. В [3], [12] построены состоятельные непараметрические оценки для верхней и нижней границы суммарной вероятности ошибок классификации в случае двух нормально распределенных совокупностей. В работах [6], [13], [51] решается задача групповой классификации в статистической постановке: строятся асимптотически оптимальные решающие правила, основанные на несмещенных оценках, оценках максимального правдоподобия и байесовских оценках функций правдоподобия выборок, извлеченных из нормальных совокупностей; исследуются их асимптотические свойства. Работа [14] носит обзорный характер и посвящена анализу работ, связанных с построением асимптотически оптимальных решающих правил группового выбора в случае многомерного нормального распределения и распределения Уишарта. В [1] проводится сравнение применения методов поточечной (метод голосования) и групповой классификации для отнесения группы, состоящей из щ наблюдений к одному из двух классов; доказывается эффективность применения группового подхода к решению задачи классификации выборочной совокупности.
Работа В.М.Кондакова [49] посвящена построению статистического группового классификатора на основе байесовской оценки плотности матричного нормального распределения. В работе предложен конструктивный подход, который позволяет рассматривать группу, состоящую из щ к-мерных векторов, как один объект в (hq у. к) - мерном пространстве, что позволяет перейти к классической задаче поточечной классификации.
Групповая классификации зависимых наблюдений близка проблеме классификации случайных процессов. Первая работа в этой области связана с классификацией временных рядов и принадлежит С.Азену и А.Аффифи [81]. В ней рассматривается случай двух классов гауссовых последовательностей авторегрессии первого порядка с общей ковариационной матрицей. В [84] исследована задача классификации 2Аг-мерных нормальных векторов на два класса, которые определяются векторами наблюдений Xt в различные моменты времени t\ и Совместное распределение Xtx и Xtl описывается нормальным законом. Зависимость наблюдений здесь выражается через скаляр р. Исследованы ситуации, когда не все параметры классов со\ и со2 известны, приводятся границы для вероятностей ошибочной классификации.
В работе Э.К.Шпилевского [74] развиваются рекуррентные методы случайных процессов, описываемых разностными уравнениями типа AR(p). Здесь рассматривается М альтернативных гипотез Н\, /^2 »•••> Нм» соответствующих классам (щ>а)2>—>еоМ- Задача динамической классификации, решаемая в этой работе, состоит в принятии гипотезы Hi в текущем времени по наблюдениям реализаций Zq = {zq,zi,.,zn} дискретного или непрерывного во времени случайного процесса {Xt,Zt,0 <t < Т) . В работе исследованы вероятности ошибочного распознавания в зависимости от времени классификации и времени обучения в случае, когда параметры системы неизвестны. Обобщение результатов Э.К.Шпилевского на случай многомерных последовательностей AR(p) получено в работах М.Кршишко [93], [94].
Работы В.Клигиса [47], [48] посвящены решению задачи классификации многомерных зависимых последовательностей марковского типа. Здесь приводится постановка задачи построения группового классификатора для зависимых многомерных наблюдений; построены оптимальные и статистические решающие правила, основанные на оценках максимального правдоподобия, найдены аналитические выражения для суммарных вероятностей ошибок классификации; проведено сравнение качества различных классификаторов на моделированных данных.
Вместе с тем можно выделить класс моделей наблюдений, для которых задача групповой классификации либо вообще не ставилась, либо вопросы, связанные с групповой классификацией на основе этих моделей были рассмотрены лишь частично. К числу, таких моделей можно отнести некоторые байесовские модели.
Под байесовскими моделями понимаются математические модели, которые включают в себя функцию, описывающую распределение объектов в исследуемой совокупности, которое принадлежит некоторому параметрическому семейству и априорное распределение вероятностей анализируемых неизвестных параметров.
Особый интерес представляют модели, в которых параметрическое семейство обладает достаточными статистиками. В последнее время широкую популярность приобрели базы данных, в которых содержится большое количество статистической информации, относящейся к одной и той же исследуемой совокупности (когда физические эксперименты проводятся на одном и том же объекте). Хранение таких данных требует больших объемов памяти. Если для параметров вероятностной модели совокупности существуют достаточные статистики, то появляется возможность значительно сжать объем информации за счет хранения вычисленных значений этих статистик. В связи с этим возникает проблема разработки методов, позволяющих принимать решения на основе обобщенных данных.
Разработке и исследованию методов групповой классификации многомерных наблюдений в случае байесовских моделей и посвящена настоящая работа.
Цель работы
Цель работы состоит в построении и изучении групповых классификаторов в случае, когда выборки наблюдений описываются байесовскими моделями. В работе рассматриваются следующие модели:
1) байесовские модели выборок независимых ^-мерных нормальных векторов и векторов, извлеченных из многомерных Т-распределений Стьюдента;
2) байесовская модель вектора достаточных статистик нормального распределения;
3) байесовская модель марковской последовательности Аг-мерных гауссовых векторов;
4) байесовская модель выборки симметричных квадратных матриц, имеющих распределение Уишарта.
Для осуществления цели работы необходимо решить следующие задачи: 1) провести статистическое оценивание параметрической функции, входящей в состав байесовской модели; 2) построить решающие правила групповой классификации; 3) исследовать построенные статистические оценки и разработанные классификаторы, используя аналитические методы и методы статистического моделирования.
Научная новизна результатов
Впервые исследуется новая область приложения байесовских моделей и получены следующие основные результаты:
- в рамках соответствующих байесовских моделей построены статистические оценки для плотности распределения достаточных статистик к-мерного нормального распределения, для функции правдоподобия выборки, извлеченной из совокупности, объекты в которой имеют распределение Уишарта; решена задача статистического байесовского оценивания марковской последовательности ^-мерных гауссовых векторов; найдены аналитические выражения для квадратических погрешностей байесовских оценок в случае одномерного нормального и х^ -распределения;
- выписаны асимптотически оптимальные групповые классификаторы, основанные на байесовских моделях;
- в случае многомерного Т-распределения получены аналитические выражения верхней и нижней границы суммарной вероятности ошибок для оптимального байесовского решающего правила; численно исследована зависимость вероятности ошибки классификации выборки от параметров модели при использовании различных групповых классификаторов в случае нормальных классов и классов, объекты в которых имеют Т-распределение Стьюдента.
Научная и практическая значимость работы
Результаты, полученные в работе, являются вкладом в теорию групповой классификации. Разработанные в работе методы могут быть положены в основу конкретных эффективных алгоритмов распознавания при решении практических задач техники, экономики, медицины.
Материалы диссертации вошли в курсы лекций и лабораторных практикумов для бакалавров и магистров механико-математического факультета Пермского государственного университета, обучающихся по направлению «Прикладная математика и информатика» (специализация «Математическое моделирование в экономике»).
Значимость работы подтверждается поддержкой исследований грантами РФФИ: №95-01-00015 «Разработка методов группового распознавания»; №98-01-00360 «Разработка асимптотически оптимальных решающих правил группового распознавания»; № 01-01-00494 «Построение математических моделей задач распознавания групп объектов из некоторых параметрических семейств» (руководитель проф. Р.А.Абусев );№ 04-01-00481 «Процедуры группового выбора и математические методы распознавания образов» (руководители проф. Р.А.Абусев , проф. В.В.Маланин).
Положения, выносимые на защиту
1. Соотношения, определяющие статистически состоятельные байесовские оценки плотности распределения достаточных статистик нормального закона, плотности распределения марковской последовательности многомерных нормальных векторов, функций правдоподобия выборок, извлеченных из хг -распределения и распределения Уишарта.
2. Точные аналитические выражения для квадратических погрешностей байесовских оценок плотностей распределения выборок, извлеченных 2 из одномерной нормальной совокупности и совокупности, имеющеи % распределение.
3. Асимптотически оптимальные групповые классификаторы, построенные на основе байесовских моделей в случае нормального распределения, распределения Уишарта, а также в случае многомерного Т-распределения Стьюдента.
4. Точные аналитические выражения, определяющие верхнюю и нижнюю границы суммарной вероятности ошибок классификации для оптимального байесовского решающего правила в случае многомерного Т-распределения Стьюдента.
5. Численные эксперименты с использованием методов статистического моделирования, направленные на исследование построенных решающих правил классификации.
Методика исследования. Достоверность результатов
При проведении исследований в работе был использован аппарат математического анализа, теории вероятностей, математической статистики, многомерного статистического анализа, линейной алгебры, а также методы математического и имитационного моделирования с применением средств вычислительной техники. Достоверность выводов подтверждается хорошим согласованием полученных в работе результатов имитационных экспериментов с теоретическими результатами для некоторых оптимальных решающих правил классификации.
Публикации и апробация работы
Изложенный в диссертации материал достаточно полно отражен в работах [8], [10], [11], [15], [16], [17], [53], [77], [78], [79], [82], [83], [96]. Работы [53], [96] выполнены лично автором. Работа [8] выполнялась в коллективе соавторов. В ней диссертант принимал участие в постановках задач, разработке и тестировании программного обеспечения, получал и оценивал результаты расчетов. Остальные работы выполнены в соавторстве с научным руководителем. При их выполнении автор диссертации принимал участие в доказательстве теорем, проводил расчеты и изложение результатов.
Основные положения и результаты работы докладывались и обсуждались на следующих семинарах и конференциях: IV Всесоюзной научно-технической конференции «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Тарту, 1989); Всесоюзной научно-практической конференции с международным участием стран членов СЭВ «Применение статистических методов в производстве и управлении» (Пермь, 1990); Республиканской научной школе-семинаре «Компьютерный анализ данных и моделирование» (Минск, 1992); V научной конференции стран СНГ «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Москва, 1993); Межрегиональной научно-технической конференции «Математическое моделирование систем и процессов» (Пермь, 1994); Научных семинарах кафедры теории вероятностей и математической статистики Пермского госуниверситета, руководитель проф. Я.П.Лумельский (Пермь, 1992 - 1994); XVII Международном семинаре по проблемам устойчивости стохастических моделей (XVII Seminar on Stability Problems of Stochastic Models, Казань, 1995); Всероссийской научной конференции с международным участием "Математические методы распознавания образов-8" (Пущино, 1995); Всероссийской конференции "Математические методы распознавания образов-10" (Москва, 2001); VII Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург, 2004); Научном семинаре ЦЭМИ РАН, руководители проф. С.А.Айвазян, проф. Ю.Н.Благовещенский (Москва, 2005).
Структура и объем диссертации
Диссертация изложена на 150 страницах, включает 15 таблиц, 10 рисунков, библиографический список (104 литературных источника), состоит из списка обозначений, введения, четырех разделов и заключения.
Краткое содержание работы
Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, показана научная новизна и практичеекая значимость работы. Здесь же приводится анализ работ, в которых ставилась и решалась задача групповой классификации.
Первый раздел представляет собой математическое предисловие, подразделы 1.1, 1.2 и 1.3 которого содержат постановку задачи групповой классификации. Здесь приводится вид оптимального байесовского и статистического групповых классификаторов, формулируются основные этапы решения задачи групповой классификации.
В подразделе 1.4 приводятся сведения о вероятностных распределениях, которые используются в диссертационной работе.
В подраделе 1.5 обсуждается байесовский подход к статистическому оцениванию и приводится перечень рассматриваемых в настоящей работе байесовских моделей.
Второй раздел посвящен построению оценок (байесовских оценок) для параметрических функций выборок в рамках байесовских моделей. Материалы данного раздела написаны на основании работ [10], [11], [16], [77], [78], [79].
В подразделе 2.1 описывается метод восстановления вероятностной модели объектов в совокупности с использованием байесовского подхода. Здесь обсуждается структура байесовских моделей и вводится понятие байесовской оценки относительно априорного распределения неизвестного параметра модели. Рассматриваются подходы к выбору априорного распределения неизвестного параметра.
В подразделе 2.2 приводятся результаты байесовского оценивания функции правдоподобия выборки я' = (Х01,.,Хо„0)5 извлеченной из многомерной нормальной совокупности с двумя неизвестным параметрами. Сформулировано и доказано утверждение, определяющее точное аналитическое выражение байесовской оценки для плотности совместного распределения достаточных статистик нормального распределения.
В подразделе 2.3 решается задача оценивания многомерной нормальной последовательности марковского типа.
В подразделе 2.4 доказываются утверждения, определяющие вид байесовских оценок для функций правдоподобия выборок, извлеченных из совокупностей, имеющих х ~ распределение и распределение Уишарта. Кроме того, в этой части работы приводится известный результат, определяющий аналитическое выражение байесовской оценки функции правдоподобия выборки в случае многомерного Т-распределения Стьюдента.
Подраздел 2.5 посвящен исследованию байесовских оценок. В работе найдены аналитические выражения для квадратических погрешностей байесовских оценок в случае одномерного нормального и х2 -распределения. Доказаны соответствующие теоремы.
В третьем разделе работы строятся решающие правила групповой классификации и аналитически исследуются их свойства. Работы [15], [17], [53], [82], [83], [77], [78] составляют основу данного раздела.
В подразделах 3.1 и 3.2 сначала приводятся известные результаты, связанные с построением некоторых оптимальных байесовских решающих правил, а затем строятся статистические групповые классификаторы для случая многомерных нормальных моделей наблюдений в классах, моделей Уишарта и Т-распределения Стьюдента. В этой части работы также найдены выражения для верхней и нижней границ риска классификации в случае двух классов, объекты в которых независимы и имеют многомерное Т-распределение Стьюдента.
В подразделе 3.3 доказывается состоятельность байесовских оценок и асимптотическая оптимальность статистических решающих правил групповой классификации.
Четвертый раздел в основном посвящен исследованию и сравнению различных групповых классификаторов. Основные результаты данного раздела опубликованы в работах [8], [15], [17].
Подраздел 4.1 содержит краткую информацию о методах Монте-Карло. Здесь приводятся основные формулы и алгоритмы, позволяющие моделировать векторы с заданными законами распределения.
Подраздел 4.2 посвящен описанию численных экспериментов, направленных на всестороннее исследование суммарной вероятности ошибок, возникающих при использовании различных классификаторов (в том числе и ранее построенных) для групп независимых наблюдений в случае многомерного нормального распределения и Т-распределения Стьюдента. Здесь же приводятся результаты проведенных экспериментов.
В подразделе 4.3 на основании значений квадратических погрешностей проводится сравнение байесовской и несмещенной оценок функции правдоподобия выборки, извлеченной из одномерной нормальной совокупности [96]. Результаты исследований представляются в виде графиков зависимостей значений квадратических погрешностей от объема выборок, используемых при построении оценок.
В заключении подводится итог проведенным в работе исследованиям, формулируются основные решенные проблемы.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Многопараметрические статистические модели в задачах квантовой информатики и микроэлектроники2004 год, доктор физико-математических наук Богданов, Юрий Иванович
Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам2004 год, доктор физико-математических наук Маркович, Наталья Михайловна
Анализ характеристик обнаружения многомерных сигналов на основе обобщенного отношения максимального правдоподобия в случае коротких выборок2004 год, кандидат физико-математических наук Болховская, Олеся Викторовна
Анализ высокоэнергетичных компонент космического излучения методами непараметрической статистики1984 год, кандидат физико-математических наук Чилингарян, Ашот Агасиевич
Методы и алгоритмы распознавания и оценки параметров случайных процессов в спектральной области при действии мешающих факторов2013 год, доктор технических наук Паршин, Валерий Степанович
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Бабушкина, Елена Вадимовна
ЗАКЛЮЧЕНИЕ
Проблема групповой классификации многомерных наблюдений является актуальной в контроле качества продукции, в технической и медицинской диагностике, в исследованиях, связанных с экологией, экономикой, в других областях, где требуется принятие быстрого и надежного решения. Задача групповой классификации является обобщением классической задачи поточечной классификации и требует для своего решения разработки методов, которые рассматривают классифицируемую выборку как единое целое. В настоящей работе эта проблема решалась с использованием байесовских моделей выборок. В связи с этим были получены следующие основные результаты:
1. В случае многомерных нормальных совокупностей построен статистический групповой классификатор, обучающийся на основании информации, которая представлена в виде значений достаточных статистик. В связи с этим получено точное выражение байесовской оценки плотности распределения достаточных статистик нормального закона.
2. Построены статистические решающие правила групповой классификации, основанные на байесовских моделях классифицируемых выборок в случае многомерного Т-распределения Стьюдента и распределения Уишарта, а также решающее правило групповой классификации, основанное на байесовской модели последовательности гауссовых векторов марковского типа.
3. Найдены аналитические выражения квадратических погрешностей байесовских оценок функций правдоподобия выборок в случае одномерного нормального и % - распределения. Проведено сравнение байесовской и несмещенной оценок для функции правдоподобия выборки, извлеченной из нормальной совокупности.
4. Получены точные аналитические выражения для верхней и нижней границ вероятности ошибочной классификации в случае многомерного Т-распределения Стьюдента.
5. С помощью созданного комплекса программ методом статистического моделирования в случае нормальных классов и классов, объекты в которых имеют Т-распределения Стьюдента, исследована зависимость суммарной вероятности ошибок классификации от параметров распределения объектов в совокупностях, объемов обучающих и классифицируемых выборок.
6. Определены условия, при которых классификаторы, основанные на байесовских моделях, имеют преимущество перед другими алгоритмами групповой классификации.
Список литературы диссертационного исследования кандидат физико-математических наук Бабушкина, Елена Вадимовна, 2006 год
1. Абусев Р.А. О сравнении поточечной и групповой классификации в случае многомерного распределения / Р.А.Абусев // Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1982. - С.3-9.
2. Абусев Р.А. К задаче классификации групп многомерных нормальных наблюдений / Р.А.Абусев II Прикладная статистика: Учен. зап. по статистике. М.: Наука., 1983. - Т.45. - С.371-375.
3. Абусев Р.А. Построение границ для вероятности ошибок при групповой классификации. Статистическая обработка экспериментальных данных / Р.А.Абусев. Новосибирск. НЭТИ, 1986. - С.58-63.
4. Абусев Р.А. Байесовские оценки для плотности распределения выборки из нормальных распределений и их статистические свойства / Р.А.Абусев', Пермский госуниверситет. Пермь, 1988. - Деп. в ВИНИТИ 04.08.88 - № 6250-В88.
5. Абусев Р.А. Групповая классификация. Решающие правила и их характеристики / Р.А.Абусев. Пермь. 1992. - 218 с.
6. Абусев Р.А. Статистическое байесовское оценивание в случае многомерного Т-распределения / Р.А.Абусев II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1998. - С.4-17.
7. Абусев Р.А. О программном обеспечении задач групповой классификации / Р.А.Абусев, Е.В.Бабушкина, С.Л.Денисова, С.В.Каменева, В.В.Ившин II Труды IV конференции РОАИ. Новосибирск, 1998. - 4.1. - С.5-8.
8. Абусев Р.А. Об одном способе вычисления функции риска при распознавании групп из многомерных распределений Стьюдента/ Р.А.Абусев, Н.В.Жекина II Статистические методы оценивания и проверки гипотез: Меж-вуз. сб. науч.тр. Пермь, 2005. - С. 12-19.
9. Абусев Р.А. Байесовские оценки и групповая классификация в случае распределений хи-квадрат и Уишарта/ Р.А.Абусев, Е.В.Кичанова (Е.В.Бабушкина) // Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1990. - С. 11-18.
10. Абусев Р.А. Статистическая групповая классификация: Учеб. пособие для вузов / Р.А.Абусев, Я.П.Лумелъский. Пермь, 1987. - 92 с.
11. Абусев Р.А. Статистические модели классификации многомерных наблюдений / Р.А.Абусев, Я.П.Лумелъский II Обозрение прикладной и промышленной математики. Москва. Науч.изд-во ТВП, 1996. - Т.З. - Вып.1 -С.7-30.
12. Абусев Р.А. Статистическая поточечная и групповая классификация в случае нормальных совокупностей / Р. А Абусев, Е.В.Мазанова (Е.В.Бабушкина) II Тез. докл. конф. с межд. уч. «Математические методы распознавания образов»-8. Москва, 1995. - С.3-5.
13. Аврамчук Е.Ф. Технология системного моделирования/ Е.Ф.Аврамчук, А.А.Вавилов, С.В.Емельянов и др. — М.: Машиностроение, 1988.-520 с.
14. Айвазян С. А. Классификация многомерных наблюдений / С.А.Айвазян, З.И.Бежаева, О.В.Староверов. -М.: Статистика, 1974. 240 с.
15. Айвазян С.А. Прикладная статистика и основы эконометрики/ С.А.Айвазян, В.С.Мхитарян. -М.: Юнити, 1998. 1022 с.
16. Айвазян С.А. Прикладная статистика: Классификация и снижение размерности / С.А.Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д.Мешалкин. М.: Финансы и статистика, 1989. - 608 с.
17. Айвазян С.А. Прикладная статистика: Основы моделирования и первичная обработка данных/ С.А.Айвазян, И.С.Енюков, Л.Д.Мешалкин. М.: Финансы и статистика, 1983. - 471 с.
18. Андерсон Т. Введение в многомерный статистический анализ/ Т.Андерсон. М.:Физматгиз, 1963. - 500с.
19. Ашихмин В.Н. Введение в математическое моделирование/ В.Н.Ашихмин, М.Б.Гитман, И.Э.Келлер и др. М.: Логос, 2004. - 440 с.
20. Бартенев В.Г. Применение распределения Уишарта для анализа эффективности адаптивных систем селекции движущихся целей / В.Г.Батенев II Радиотехника и электроника. 1981. - Т.26. - № 2. -С.356-364.
21. Белман Р. Введение в теорию матриц / Р.Белман. — М: Наука, 1976.351 с.
22. Беляев Ю.К. Алгоритм классификации многомерных дискретных данных/Ю.К.Беляев, В.А.Малышев, С.С.Филимонов II Изв. АН СССР. Техническая кибернетика. — 1972. -№6. — С.132-139.
23. Благовещенский Ю.Н. Общие вопросы статистических методов классификации. Статистические методы классификации / Ю.Н.Благовещенский, Л.Д.Мешалкин. М.: Изд-во МГУ, 1969. - Вып.1. - С.7.
24. Боровков А.А. О задаче распознавания образов / А.А.Боровков II Теория вероятностей и ее применение, 1971. -№1 С. 132-140.
25. Боровков А.А. Математическая статистика: Оценивание параметров. Проверка гипотез / А.А.Боровков. М.: Наука, 1984. - 427 с.
26. Бусленко В.Н. Автоматизация имитационного моделирования сложных систем / В.Н.Бусленко. М.: Наука, 1977. - 240 с.
27. Вапник В.Н. Восстановление зависимостей по эмпирическим данным / В.Н.Вапник. М.: Наука, 1979. - 448 с.
28. Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения / В.Н.Вапник В.Н., С.А.Червоненкис. М.: Наука, 1974. -415 с.
29. Градштейн КС. Таблицы интегралов, сумм, рядов и произведений / И.С.Градштейн, И.М.Рыжик. -М.: ГИФМЛ, 1962. 1100 с.
30. Гулд X. Компьютерное моделирование в физике/ Х.Гулд, Я.Тобочник. М.: Мир, 1990. - 4.2. - 400 с.
31. Девингталь Ю.В. Кодирование объектов при использовании разделяющей гиперплоскости для их классификации / Ю.В.Девингталъ II Изв. АН СССР. Техническая кибернетика. 1971. -№3. - С. 162-173.
32. Деев А.Д. Представление статистик дискриминантного анализа и асимптотическое разложение при размерностях пространства сравнимых с объемом выборки / АД Деев// Докл. АН СССР. 1970. - Вып. 195. - № 4. -С.759-762.
33. Де Гроот М. Оптимальные статистические решения / МДе Гроот. -М.: Мир, 1974.-492 с.
34. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа / И.С.Енюков. М.: Финансы и статистика, 1986. - 232 с.
35. Ермаков С.М., Михайлов Г.А. Курс статистического моделирования / С.М.Ермаков, Г.А.Михайлов. -М.: Наука, 1976. 320 с.
36. Журавлев Ю.И. Математические модели в задачах распознавания и классификации / Ю.И.Журавлев. М: Наука, 1978. - 119 с.
37. Журавлев Ю.И. Алгоритмы вычисления оценок и их применение / Ю.И.Журавлев, М.М.Камилов. Ташкент, 1974. - 190 с.
38. Загоруйко Н.Г. Методы распознавания и их применение / Н.Г.Загоруйко. М.: Советское радио, 1972. - 206 с.
39. Закс Ш. Теория статистических выводов / Ш.Закс. М.: Мир, 1975. -776 с.
40. Клейнен Дж. Статистические методы в имитационном моделировании /Дж. Клейнен. -М.: Статистика, 1978. 335 с.
41. Клигис В.И. Групповая классификация многомерных марковских последовательностей / В.И.Клигис // Статистические проблемы управления. -Вильнюс, 1981.-Вып. 50.-С. 57-74.
42. Клигис В.И. Методы и алгоритмы групповой классификации многомерных зависимых наблюдений: Дис. . канд. техн. наук: 05.13.01 / В.И.Клигис.-Вильнюс, 1987.-121 с.-Библиогр.: С. 111-121.
43. Кондаков В.М. Об одной байесовской оценке плотности матричного нормального распределения / В.М.Кондаков II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1993. - С.64-69.
44. Крамер Г. Математические методы статистики / Г.Крамер. М.: Мир, 1975.-648 с.
45. Лумелъский Я.П. Об одном способе построения асимптотически оптимальных классификационных тестов в случае многомерного распределения/ Я.П.Лумельский II Изв. АН СССР. Техническая кибернетика. 1972. -№2.-С. 163-168.
46. Лумелъский Я.П. Квадратическая погрешность несмещенной оценки плотности нормального распределения / Я.П.Лумельский, И.В.Медведева II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1980. - С. 91-97.
47. Максимей И.В. Имитационное моделирование на ЭВМ / И.В.Максимей. М.: Радио и связь, 1988. - 232 с.
48. Мания Г.М. Квадратическая погрешность оценки плотности многомерного нормального распределения по данным выборки / Г.М.Мания II Со-общ. АН ГрССР. 1968. - Т. 52. - №1. - С. 27-34.
49. Медведков И.А. Метод вычисления вероятности ошибки распознавания / И.А.Медведков, Л.В.Попов II Изв. АН СССР. Техническая кибернетика.- 1981.-№ 3.-С. 177-182.
50. Мешалкж Л.Д. Ошибки классификации многомерных наблюдений / Л.Д.Мешалкин, В.М.Сердобольский II Теория вероятностей и ее применение. -1978. Т.23. - № 4. - С. 772-781.
51. Орлов А.И Некоторые вероятностные вопросы теории классификации. Прикладная статистика /А.И.Орлов. -М.: Наука, 1983. 166 с.
52. Патрик Э.А. Основы теории распознавания образов / Э.А.Патрик. -М.: Советское радио, 1980. 408 с.
53. Пенская М.Я. Квадратическая погрешность несмещенных оценок для многомерного нормального распределения / М.Я.Пенская\ Пермский госуниверситет. -Пермь, 1981. Деп. в ВИНИТИ 15.07.81. -№ 3746.
54. Плохотников К.Э. Математическое моделирование и вычислительный эксперимент. Методология и практика / К. Э.Плохотников. — М.: УРОС, 2003.-280 с.
55. Полляк Ю.Г. Вероятностное моделирование на ЭВМ / Ю.Г.Полляк. -М.: Наука, 1971.-399 с.
56. Прохоров Ю.В. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы / Ю.В.Прохоров, Ю.А.Розанов. М.: Наука, 1987.-400 с.
57. Раудис Ш.Ю. О количестве априорной информации при построении алгоритма классификации / Ш.Ю.Раудис II Изв. АН СССР. Техническая кибернетика. 1972. - № 4. - С. 168-174.
58. Раудис Ш.Ю. Влияние объема выборки на точность выбора модели в задаче распознавания образов / Ш.Ю.Раудис // Статистические проблемы управления. Вильнюс, 1981. - Вып. 50. - С. 9-44.
59. Самарский А.А. Математическое моделирование: Идеи. Методы. Примеры I А.А.Самарский, А.П.Михайлов. М.: Физматлит, 2005. - 320 с.
60. Соболь ИМ. Численные методы Монте-Карло / ИМ. Соболь. М.: Наука, 1973.-312 с.
61. Советов Б.Я. Моделирование систем / Б.Я. Советов, С.А.Яковлев. -М.: Высшая школа, 1998. 319 с.
62. Тарасевич Ю.Ю. Математическое и компьютерное моделирование /
63. Ю.Ю. Тарасевич. М.: УРОС, 2003. - 144 с.
64. Фукунага К. Введение в статистическую теорию распознавания образов / КМ. Фукунага. М.: Наука, 1979. - 367 с.
65. Хастингс Н. Справочник по статистическим распределениям/ Н.Хастинг, Дж.Пикок. М: Статистика, 1980. - 95 с.
66. Ченцов Н.Н. Статистические решающие правила и оптимальные выводы I Н.Н. Ченцов. М.: Наука, 1972. - 520 с.
67. Шеннон Р. Имитационное моделирование систем — искусство и наука /Р.Шеннон. -М.: Мир, 1978.-418 с.
68. Шпилевский Э.К Динамическая классификация стохастических процессов и систем в дискретном времени / Э.КШпилевский II Автоматика и телемеханика. 1980 - №12. - С.45-54.
69. Abusev R.A. On estimation of the probabilities of linear unequalities and statistical classification / R.A.Abusev II Proc. of the XI International conference "CDAM".-Minsk, 2001.-P. 17-23.
70. Abusev R.A. Mathematical Models on Group classification Problems / R.A.Abusev II Pattern Recognition and Image Analysis. 1994. - Vol.4. - № 1. -P.l-10.
71. Abusev R.A. Bayes estimates and classification problem for chi-square and Wishart's distributions/ RA.Abusev, E.V.Mazanova (E.V.Babushkina) II Journal of Mathematical Sciences. 1995. - Vol.75. -№1. -P.1383-1386.
72. Abusev R.A. Bayes estimators for densities of sufficient statistics for the Normal distribution and their statistical properties / R.A.Abusev E.V.Mazanova, (E.V.Babushkina) //Journal of Mathematical Sciences. 1995. - Vol.75. - №2. -P. 1494-1497.
73. Abusev R.A. Bayes estimation and group classification for multivariate dependent observations / RA.Abusev, E. V.Mazanova (E. V.Babushkina) II Journal of Mathematical Sciences. 1996. - Vol.81. - № 4. - P.2773-2779.
74. Anderson T.W. Classification into two multivariate normal distribution with different covarience matrics / T. W.Anderson, R.R.Bahadur II Ann. of math, stat. 1962. - Vol. 33. - №2. - P. 420.
75. Azen S.P. Asymptotic and small sample behaviour of estimated Bayes rules for classifying time dependent observations/ S.P.Azen, A.A.Affifill Biometrics. 1972. - Vol.28. - № 4. - P.47-56.
76. Babushkina E.V. Computational formulas for the error probability in recognition of object with multivariate Student's distribution / E.V.Babushkina, R.A Abusev II Pattern Recognition and Image Analysis. 2005. - Vol.15 - №3. -P. 557-559.
77. Bandyopadhyay S. Probability inequalities involving estimates of probability of correct classification using dependent sample / S. Bandyopadhyay 11 Sankhya: The Indian journal of statistics. 1977. - Vol.39. - Ser.B. - Pt.2. -P.145-150.
78. Click N. Additive Estimators for Probabilities of correct Classification / N.Click // Pattern Recognition and Image Analysis. 1978. - Vol.1. - № 3. -P.211-222.
79. Diday E. Classification automatique Sequentielle pour grands Tableaux/ E.Diday//Rev. Fr. Int. Rech. Oper. 9-e annee amars. 1975. - B.l. -P.29-61.
80. Girshick M.A. Bayes and minimax estimates for quadratic loss function / M.A. Girshick., L. G.Savage II Proc. of Second Berkeley symp. math. stat. prob.-1951.-V.l.-P.53-74.
81. Gupta S. Probability inequalities and error in classification / S.Gupta // Ann. of math. stat. 1974. - Vol.36. -№ 4. -P.l 17.
82. Iwase Kosei Uniformly minimum variance unbiased estimation for the inverse gaussian distribution / Iwase Kosei, Seto Noriaki II Amer. stat. assoc. -1983.-Vol.78. № 383. -P.660.
83. Jeffreys H. Theory of probability/H.Jeffreys //London: Oxford University Press., 1961. 120 p.
84. Kanal L. Pattern in pattern recognition: 1968-19741 L.Kanal И IEEE Transaction on Information Theory. 1974. - Vol. IT-20. - № 6. - P.697-722.
85. Kittler G. Small sample properties of a pattern recognition system in lot acceptance sampling / G.Kittler, L.F.Pau II Proc. 4th Int.conf. in pattern recognition. Kyoto, 1978. - P.249-257.
86. Krzysko M. Predictive discrimination / M.Krzysko // Multivariate Analisis: Proceedings of International Symposium. Dayton, 1965. -P.149-163.
87. Krsysko M. The discriminant analysis of multivariate autoregressive process / M.Krzysko II Статистические проблемы управления. Вильнюс, 1982.- Вып.59. С.9-23.
88. Lachenbruch Р.А. Estimation of error rates in discriminant analysis/ P.A.Lachenbruch., M.R.Mickey II Technometrics. 1968. - Vol. 10. - P. 1 -11.
89. Mazanova E. V. (Babushkina E. V.) The comparision of various estimates for one-dimensional normal distribution density / E.V.Mazanova II Abstract of XVII Seminar on Stability Problems of Stochastic Models. Kazan, 1995. - P.25.
90. Parzen E. On Estimation of Probability Density Function and Model / E.Parzen И Ann. Ins. Stat. Math. 1962. - V.33. - № 3. - P.1065-1076.
91. Pau L.F. Controle de qualite statistique I L.F.Pau И Convention 290939.- Paris. Bureau National de Metrologic, 1976. P.46-53.
92. Rayzin G. Bayes Kisk consistency of classification procedures using density estimation / G.Rayzin. Sankhia: The Indian Journal of Statistics. 1966. -Ser.A. - V.28. - P.261- 275.
93. Robert C.P. The Bayesian choice. A decision-theoretic motivation/
94. C.P.Robert. Berlin: Springer, 1996. - 436 p.
95. Rubin I. Optimal Classification into Groups: an Approach for solving taxonomy Problem / I.Rubin II Int. Theor. Biol. 1967. - Vol.15. - P. 103-114.
96. John S. Error in discrimination / S.John И Ann. of Math. Stat. — 1961. — Vol.32. — P.1125 -1144.
97. Voinov V.G. Unbiased estimators and their application/ V.G.Voinov, M.S.Nikulin II Multivariate case. Mathematics and its applications. Dordrecht: Kluwer, 1996. - 262 p.
98. Wald A. On a individual Problem arising in the Classification of an individual Problem into one of two Groups/ A. Wald. II Ann. of Math. Stat. 1944. -Vol.15.-P.145-162.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.