Разработка и реализация численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Бакаева, Ольга Александровна
- Специальность ВАК РФ05.13.18
- Количество страниц 178
Оглавление диссертации кандидат технических наук Бакаева, Ольга Александровна
Содержание
Введение
1. Теоретические и практические аспекты численного анализа зависимости категориальных переменных
1.1 Анализ проблемы исследования зависимости категориальных переменных
1.2 Особенности использования кросстабуляции для выявления и оценки силы связи между категориальными переменными. Объясняющие переменные, переменные отклика и направление связи
1.3 Обзор прикладных задач, связанных с анализом категориальных переменных
1.4 Постановка задач работы
2. Анализ и разработка аналитических и визуальных численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности
2.1 Анализ и классификация использования известных методов исследования связи между категориальными переменными с помощью аппарата таблиц сопряженности
2.1.1 Первые критерии оценки связи
2.1.2 Коэффициент отношения избытка
2.1.3 в-критерий Вульфа
2.1.4 Точный критерий Фишера
2.1.5 Коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова
2.1.6 Шансы и отношение шансов
2.1.7 Использование автоматизированных компьютерных средств для исследования связи между категориальными переменными
2.1.8 Использование различных видов классического критерия для поиска закономерностей между качественными данными. Необходимость поправки Иетса
2.2. Разработка численных методов исследования зависимости качественных переменных на основе «идеальных» таблиц сопряженности
2.2.1 Идеально независимые таблицы сопряженности
2.2.2 Идеально зависимые таблицы сопряженности
2.2.3 Методика определения вида и степени зависимости категориальных переменных на основе идеальных таблиц сопряженности
2.2.4. Исследование устойчивости определения вида и степени зависимости категориальных переменных на основе идеальных таблиц сопряженности
2.3 Разработка обобщающего условия независимости бинарных категориальных переменных. Коэффициент независимости
2.4 Метод визуализации зависимости между бинарными категориальными переменными с использованием MS Excel
3. Алгоритмизация численных методов исследования зависимости категориальных переменных с использованием таблиц сопряженности
3.1 Модификация этапа установления связей при построении модели объекта, описываемого категориальными переменными, с использованием таблиц сопряженности
3.2 Разработка алгоритма выявления групп населения, потенциально подверженных риску нового заболевания
3.3 Разработка алгоритма выбора рациональных методов исследования зависимости категориальных переменных при донозологическом контроле
3.4 Алгоритмизация методов исследования зависимости категориальных переменных для эпидемиологических приложений
4. Разработка и реализация программного комплекса по исследованию зависимости категориальных переменных с использованием известных и новых численных методов анализа качественных данных
4.1 Архитектура программного комплекса по выявлению групп населения, подверженных повышенному риску нового заболевания (структура, взаимодействие модулей, информационные потоки)
4.2 Особенности реализации модулей вычислительного и управляющего уровня программного комплекса по выявлению групп риска
4.3 Сравнительный анализ эффективности использования известных и новых численных методов исследования зависимости категориальных переменных (на примере исследования вируса гриппа А (НШ1)09)
Заключение
Список использованных источников Приложение А Приложение Б Приложение В
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Построение структурных моделей объектов нечисловой природы (в биомедицинской области)2002 год, кандидат технических наук Елисеев, Дмитрий Владимирович
Идентификация моделей систем формирования изображений по малому числу наблюдений1999 год, доктор технических наук Фурсов, Владимир Алексеевич
Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости: На примере Приморского края2000 год, кандидат технических наук Бураго, Татьяна Васильевна
Методы формализации профессионального знания врача в задачах медицинской диагностики2002 год, доктор физико-математических наук Котов, Юрий Борисович
Абитуриенты и выпускники в сфере педагогического образования: Статистический анализ гендерного поведения2002 год, кандидат экономических наук Савон, Диана Юрьевна
Введение диссертации (часть автореферата) на тему «Разработка и реализация численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности»
Введение
Актуальность темы. Особенности традиционного подхода к исследованию проблемы зависимости переменных требует четко определенного вероятностного пространства и случайного эксперимента. В действительности же имеется эксперимент, характеризующийся конечным числом условно упорядоченных значений переменной. Поэтому для любого исследователя важны не числовое выражение степени зависимости и его обоснование, а более грубые попятия - «практически независимы», «практически зависимы», а также вид зависимости - «возрастающая», «убывающая». В связи с этим существует необходимость разработки численных методов исследования зависимости, способных практически оценивать наличие связи.
В результате использования численных методов исследования зависимости происходит анализ и выбор факторов, т.е. отличительных особенностей объектов. При обработке такого рода информации особую роль играют категориальные переменные, то есть те, которые принимают качественные значения, и бинарные переменные с двумя альтернативными значениями. Такие переменные встречаются достаточно часто в технических, социальных и биомедицинских системах, что обуславливает необходимость их исследования. Эффективным, наглядным и универсальным инструментом обработки таких данных являются таблицы сопряженности.
Для категориальных переменных существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но среди них нет универсального. В связи с этим в зависимости от расположения и значений частот приходится использовать тот или иной критерий проверки связи. Следовательно, актуальность проявляется и в назревшей проблеме анализа и классификации всех способов выявления связи между категориальными переменными, модификации некоторых из них и выборе рационального способа проверки наличия зависимости.
Отдельно различным методам исследования связи между категориальными переменными уделяли внимание ряд авторов (П. Н. Бабич, А. В. Чу-бенко, С. Н. Лапач, Ю. Н. Толстова), но, к сожалению, в данной области нет комплексного подхода, который бы четко скоординировал работу всех критериев проверки связи и тем самым повысил уровень оперативности, достоверности и обоснованности выводов о ее наличии.
Таким образом, существует необходимость разработки эффективных численных методов определения вида и степени зависимости. Поэтому разработка и реализация численных методов исследования зависимости категориальных переменных с помощью таблиц сопряженности являются актуальными.
Работа выполнена в соответствии с научным направлением «Разработка методов систематизации результатов измерений» кафедры дифференциальных уравнений ФГБОУ ВПО «Мордовский государственный университет им. Н. П. Огарева».
Целью диссертационной работы является разработка новых численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности и их практическая реализация.
Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач:
1) классификация и анализ известных способов исследования зависимости категориальных переменных;
2) разработка новых аналитических и численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности;
3) алгоритмизация выбора рациональных методов выявления закономерностей для категориальных переменных на основе предложенных численных методов исследования зависимости;
4) алгоритмизация выявления групп населения, потенциально подверженных повышенному риску нового заболевания на основе численного анализа зависимости категориальных переменных;
5) программная реализация средств для выявления связи между категориальными переменными при возникновении нового заболевания в целях предотвращения его распространения на основе предложенных алгоритмов и модели объекта, описываемого категориальными переменными.
Методы исследования. В работе использовались аналитические методы исследований из аналитической геометрии, вычислительные методы линейной алгебры, теории вероятностей, математической и прикладной статистики, численных методов, системного анализа, математического моделирования, методы объектно-ориентированного и визуального программирования.
Тематика работы соответствует п. 3 «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4 «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5 «Комплексные исследования научных и технических проблем с применением ... вычислительного эксперимента» паспорта специальности 05.13.18 - «Математическое моделирование, численные методы и комплексы программ».
Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной:
- формализованное описание и классификация известных методов исследования зависимости категориальных переменных, основанная на учете значений и расположения частот в таблице сопряженности, что повышает эффективность использования критериев;
- численный метод получения оценок теоретических частот, характеризующийся использованием предложенных идеально независимой и идеально зависимой таблиц, ближайших к наблюдаемой, позволяющий проверять гипотезу о зависимости переменных;
- численные методы исследования вида и степени зависимости между категориальными переменными, основанные на идеальных таблицах сопря-
женности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными;
- алгоритм выбора рационального способа численной проверки наличия связи между переменными, характеризующийся совместным использованием известных и предложенных критериев, позволяющий устанавливать наличие и степень связи с учетом значений и расположения частот в таблице сопряженности;
- алгоритм выявления групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий осуществить комплексное исследование методов распространения и лечения заболевания различных категорий людей.
Практическая значимость и результаты внедрения.
Разработан программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий автоматизировать расчеты, уменьшить время принятия решения и увеличить достоверность выводов о наличии связи между бинарными категориальными переменными. Элементы программного комплекса прошли государственную регистрацию в ФГНУ ЦИТИС.
С использованием предложенных программных средств проведены комплексные исследования распространения вируса А(НШ1)09 и определены существенные и несущественные факторы риска данного заболевания. Результаты внедрения отражены в деятельности ГБУЗ РМ «Республиканская инфекционная клиническая больница» (г. Саранск), что подтверждается актом внедрения.
Апробация работы. Основные результаты диссертационной работы док-ладывались и обсуждались на следующих конференциях: Международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте '2010» (Одесса, 2010); Х1У-ХУ1 научных конференциях молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н. П. Огарева (Саранск, 2010-2012);
Международной научной конференции «Научное лето - 2011» (Киев, 2011); Международной заочной научно-практической конференции «Современные тенденции в науке: новый взгляд» (Тамбов, 2011); Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные задачи прикладной статистики, промышленной, актуарной и финансовой математики» (Донецк, 2012); Международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития '2012» (Одесса, 2012); IX Международном семинаре «Физико-математическое моделирование систем» (Воронеж, 2012); Открытой конференции молодых ученых по математическому моделированию и информационным технологиям ИВМ СО РАН (Красноярск, 2013).
Публикации. По материалам диссертации опубликована 21 научная работа, в том числе 6 - в изданиях, рекомендованных ВАК. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [36] - сравнительный анализ использования существующих критериев проверки связи между качественными переменными; [6, 21, 34, 36] - анализ использования различных методов исследования связи между категориальными переменными с помощью таблиц сопряженности; [26, 7] - сформулированные и доказанные условия независимости категориальных переменных; [25] - особенности исследования зависимости между категориальными переменными при работе с предложенными «идеальными» таблицами сопряженности.
В итоге основные результаты работы таковы:
1. Разработаны формализованное описание и классификация известных методов исследования зависимости категориальных переменных, учитывая особенности расположения и значения частот в таблице сопряженности.
2. Предложен численный метод получения оценок теоретических частот идеально независимой и идеально зависимых таблиц сопряженности, позволяющий проверять гипотезу о зависимости переменных; показаны устойчи-
вость и быстрая сходимость итерационной схемы нахождения оценок идеальных частот.
3. Разработаны численные методы исследования вида и степени зависимости между категориальными переменными, основанные на предложенной мере различия наблюдаемых и идеальных таблиц сопряженности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными.
4. Предложен визуальный метод исследования независимости бинарных категориальных переменных, позволяющий исходя из расположения прямой отношения категорий относительно горизонтальной оси делать выводы о практических уровнях независимости.
5. Получено в численном виде обобщающее условие независимости бинарных категориальных переменных аналитическим и визуальным методами.
6. Разработано и реализовано математическое и программное обеспечение алгоритма выявления групп населения, потенциально подверженных повышенному риску нового заболевания, на основе предложенного метода выбора рациональных способов исследования закономерностей для категориальных переменных.
7. Разработан, прошел государственную регистрацию в ФГНУ ЦИТИС и апробирован программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания (на примере вируса гриппа А (НШ1)09 в 2009-2011 гг.) в целях оперативности принимаемых решений и достоверности выводов.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников и приложений. Работа содержит 169 страниц основного текста, включая 19 рисунков, 51 таблицу и список источников из 148 наименований.
и
1. Теоретические и практические аспекты численного анализа зависимости категориальных переменных
1.1 Анализ проблемы исследования зависимости категориальных переменных
Признак - это свойство, характерная черта явления, подлежащая статистическому изучению. Каждый признак какого-либо объекта может быть описан переменной. Переменные классифицируются в зависимости от своей природы на количественные и качественные (атрибутивные). Переменные, отдельные значения которых различаются по величине, называются количественными. Переменные, которые выражают существенное неотъемлемое свойство предмета, называются качественными. Противоположные качественные признаки называют альтернативными.
Способы обработки количественной информации изучены достаточно хорошо и известны практически всем исследователям. Это и корреляционный, и регрессионный, и дисперсионный и другие виды анализа. Тогда как проблеме обработки данных, имеющих нечисловую, а качественную природу? уделяется достаточно мало внимания.
Как известно, основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей. Проблема выявления закономерности, то есть связи между переменными и последующей оценки ее силы в независимости от того, какую природу они имеют, является актуальной задачей прикладной статистики. Если связь признается значимой, то возникает вопрос о силе тесноты данной связи. Методов измерения тесноты взаимосвязи довольно много, и все они условно делятся на параметрические и непараметрические [2, 3].
Задача исследования связи между качественными переменными решается с помощью использования аппарата таблиц сопряженности. Этот метод не
требует владения большой теоретической базой статистических методов, и исследователи могут легко интерпретировать полученные результаты.
При обработке качественной информации [4, 5] особую роль играют категориальные бинарные переменные, то есть те, которые могут принимать только два значения. Для них существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но, к сожалению, среди них нет универсального. Поэтому в зависимости от значений частот признаков приходится выбирать тот или иной способ. Следовательно, существует проблема анализа всех способов выявления связи между категориальными переменными и модификации некоторых из них.
1.2 Особенности использования кросстабуляции для выявления и оценки силы связи между категориальными переменными. Направление связи
Помимо ответов на вопросы, относящиеся к анализу одной переменной, исследователей часто интересуют дополнительные вопросы о связи этой переменной с другими. На эти и подобные вопросы можно ответить с помощью таблиц сопряженности признаков. В то время как вариационный ряд характеризует одну переменную, построение таблиц сопряженности признаков -кросстабуляция (cross-tabulation) помогает увидеть одновременно значения двух и больше переменных. Процесс построения таблицы частот для одной переменной называется табуляцией, для нескольких переменных - кросста-буляцией.
Кросстабуляция (перекрестная классификация) - это процесс объединения двух (или нескольких) таблиц частот в одну так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений кросстабулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить зави-
симости между кросстабулированными переменными. Обычно табулируются категориальные переменные или переменные с относительно небольшим числом значений. Таким образом, кросстабуляция позволяет одновременно характеризовать значения двух и больше переменных с помощью таблиц сопряженности.
Таблицы сопряженности - это инструмент (статистический метод), позволяющий проводить анализ связей между двумя и более переменными. Метод сводится к построению таблиц, которые отражают совместное распределение двух или более переменных, обладающих ограниченным количеством категорий или принимающих определенные значения. Категории одной переменной помещают в таблицу так, чтобы они размещались в ней (сопрягались) в соответствии с категориями другой (или несколькими другими) переменной. Таким образом, распределение частот одной переменной подразделяется на группы в зависимости от категорий других переменных. Обычно таблица совместного распределения частот для двух категориальных или дискретных переменных строится так: строки соответствуют значениям одной переменной, а столбцы - другой [35]. Несмотря на кажущуюся простоту идеи, техника работы с таблицами за много лет развилась и стала чрезвычайно изощренной.
Простейшая форма кросстабуляции - это таблица сопряженности 2*2, в которой значения двух переменных "пересечены", т.е. сопряжены на разных уровнях и каждая переменная принимает только два значения.
Имеем две переменные А и В, предположим, что обе они категориальные, к тому же бинарные, т.е. принимают по два различных значения А\, А2 и В1, В2 соответственно. Тогда таблица частот 2x2 будет иметь вид: Таблица 1.2.1 Схема таблицы сопряженности 2><2.
в, в2 Всего
Ах />> /12 /ю
А 2 /21 /22 /го
Всего /01 /02 ./оо
Где /п - число элементов выборки, обладающих признаками А и В одновременно; /\2 - число элементов выборки, обладающих признаком А, но не обладающих признаком В;/2\ - число элементов выборки, обладающих признаком В, но не обладающих признаком А;)22 - число элементов выборки, не обладающих ни одним из признаков.
Следовательно, имеется четыре возможных вида ответа (отклика), исчерпывающихся следующими сочетаниями значений переменных: (А ь В\), (А 1, В2), (А 2, В1) и (А2, В2). Теперь можно определить /у как наблюдаемую частоту респондентов или каких-то определенных признаков, попавших в ячейку (А, В,).
Символ /,0 обозначает (частную) сумму всех значений признака, попавших в категорию (строку) Аь и аналогично, Уо/ обозначает сумму значений сопряженного ему признака, относящихся к категории Вр а Уоо — это сумма всех частот в таблице сопряженности. Представим все вышесказанное на языке формул:
/¡о=Ш/у> -/о/= X/у' /оо •
У ' ' У ' У
Также для обозначения суммарных частот по строке или по столбцу употребляют термин маргинальные частоты. Это значения, расположенные по краям таблицы сопряженности. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Сумма маргинальных частот равна объему выборки п или /оо; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
Каждая ячейка таблицы содержит единственную комбинацию значений двух табулированных переменных. Числа в каждой ячейке, на пересечении определенной строки и определенного столбца, показывают, сколько наблюдений соответствует данным уровням факторов. В целом по виду таблицы часто можно выдвинуть начальную гипотезу о зависимости или независимо-
сти переменных. Но окончательные выводы без детального анализа данных и расчетов делать нельзя.
В жизни довольно трудно найти переменные, которые были бы совершенно независимы, поэтому идея независимости, т.е. отсутствия связи, очень важна. Даже если между А и В нет никакой связи в выборке, то из этого еще не следует, что они независимы в генеральной совокупности, поскольку нельзя исключать явление случайной вариации. Поэтому возникает необходимость перехода от частот признаков к соответствующим им вероятностям.
Записью ру обычно обозначают вероятность для случайно выбранного объекта попасть в ячейку (/,/), то есть соответствовать категориям А( и В у Таблица 1.2.2 Распределение вероятностей для таблицы 2 х 2.
в2 Всего
Ai Р\\ Р\2 Рю
а2 Р2\ Р22 Рг о
Всего Poi Р02 Рт
В последней таблице индекс нуль работает, как и раньше, а именно:
Pio=TPu> Poj=yZPij> Poo=HY,Pij = l- (1-2.1)
j ' ' J
Уравнения для вероятностей совершенно аналогичны ранее приведенным уравнениям для частот. Нужно заметить, что величина р00, конечно, равна 1, поскольку исследуемые объекты обязательно должны оказаться в одной из четырех ячеек.
В таблице сопряженности могут быть приведены относительные проценты и кумулятивные проценты, которые получены суммированием относительных процентов по строкам и столбцам.
Если же истинные вероятности получить не удается, то вычисляют оценки вероятностей по следующей формуле:
(1-2-2)
J оо
Также в таблицах сопряженности могут быть представлены как сами частоты, так и относительные частоты (выраженные в процентах или долях). Относительные частоты могут рассчитываться по отношению:
1) к объему выборки;
2) к маргинальной частоте по столбцу;
3) к маргинальной частоте по строке.
Таблицы сопряженности, рассчитанные в относительных частотах, являются простым, наглядным и очень удобным инструментом для анализа данных. А для быстрого выявления возможной зависимости между кросста-булированными переменными необходимо сравнивать маргинальные доли и индивидуальные доли в столбцах и строках. Таким образом, различие в распределении частот в строках или столбцах отдельных переменных и в соответствующих маргинальных частотах дает информацию о связи переменных.
Объясняющие переменные, переменные отклика и направление связи
В теории множественной регрессии и в дисперсионном анализе обычно различают независимые и зависимые переменные. Зависимые переменные -это те переменные, поведение которых исследователь пытается "объяснить", то есть он предполагает, что эти переменные зависят от независимых переменных, и хочет эту зависимость (связь) выявить и затем оценить. Факторы в таблицах 2x2 могут также рассматриваться с этой точки зрения, например, «цвет волос» (седой, не седой) можно рассматривать, как зависимую переменную, а «возраст» - как независимую. Альтернативные термины, которые используются при анализе таблиц сопряженности - это переменные отклика. Переменные отклика - это переменные, которые изменяются в ответ на изменение объясняющих переменных. Поэтому «цвет волос» можно рассматривать как переменную отклика, а «возраст» - как объясняющую, т.е. независимую переменную.
Часто появляется проблема, какую переменную считать зависимой, а какую - независимой. Это задача возникает, когда природа данных не совсем четко прослеживается и сложно определить, что является предпосылкой, а что - выводом [30]. В примере с цветом волос все достаточно очевидно. Если между факторами «цвет волос» существует зависимость, тогда по заданному возрасту можно с определенной точностью спрогнозировать, будет ли человек иметь седину. В жизни за редким исключением, когда вступают в игру неучтенные факторы, так и происходит: седина у людей проявляется с возрастом. Таким образом, связь возраста и цвета волос очевидна. Можно даже сказать, что она прямо пропорциональна. Рассмотрим противоположную ситуацию, когда в роли независимой переменной выступает седина волос, а в роли зависимой - возраст. Можно ли по наличию седины сказать что-либо о возрасте? В принципе получим то же самое: видно, что переменные связаны, так как, чем больше седых волос, тем старше должен быть человек. Но природа подсказывает, что первый вариант логичнее, так как за независимую переменную следует брать «обобщающий» фактор, который обычно присущ всем объектам исследования, такой, как возраст, а в роли зависимой переменной следует рассматривать фактор, которым обладают лишь некоторые объекты исследования, например, седина волос. Или обычно также в качестве зависимой переменной берут ту, у которой значения совершенно противоположны или альтернативны, например, присутствует седина / отсутствует седина.
Также ответ на вопрос, какую переменную следует рассматривать как независимую, а какую - в качестве зависимой, дает общее правило, которое гласит: необходимо вычислить проценты для каждой категории независимой переменной так, чтобы суммарное значение категорий зависимой переменной применительно к каждой категории независимой переменной давало 100%.
Если между А и В не существует никакой связи, т.е. если обладание признаком А не связано с обладанием признаком В, то доля индивидов с призна-
ком А среди индивидов, обладающих признаком В, должна быть равна доле индивидов с признаком А среди индивидов, не обладающих признаком В. Таким образом, по определению признаки независимы в данной совокупности из п наблюдений, если
f\\ _ f\i _/10
(1.2.3)
fo 1 /02 /00
Как говорится в [58]:«Возможно, для выражения соотношения (1.2.3) лучше было бы использовать вместо слова «независимый» какое-нибудь более нейтральное слово, скажем «несвязанный», поскольку (1.2.3) не влечет стохастической независимости числовых переменных, порождающих таблицу 2x2 (хотя само это соотношение следует из стохастической независимости). Это различие аналогично различию между отсутствием корреляции и независимостью (см. п. 26.10 [58]). Однако использование другого термина противоречило бы исторической традиции; кроме того, могла бы возникнуть путаница между понятием «несвязанный» («unassociated») и понятием «отрицательно связанный» («dissociated»)... Поэтому следует использовать термин «независимый» в применении к категориальным переменным, как указывающий на «отсутствие связи»».
Последняя формула может быть переписана в виде равенства
f _ /10 '/oi J и - 7 • / оо
Если теперь для какой-либо таблицы выполнено неравенство
f ^ /10 '/oi /11 > 7 > /оо
означающее, что доля А среди В\ больше, чем среди В2, то А и В называются положительно связанными или просто связанными. В случае выполнения противоположного неравенства
f ^ /ш ' /о] J11 7 J 00
будем говорить, что^ и В отрицательно связаны [58].
Желательным свойством меры связи было бы ее возрастание при переходе от отрицательной связи к положительной. Рассмотрим разность между наблюденной частотой и частотой, полученной в предположении «независимости», для клетки {А\В\):
п_ г /ю '/pi _f\\'fi2~/12 '/21 и~ Jп 7 ~ 7 •
Уоо лю
Для постоянных маргинальных частот, очевидно, разность между наблюдаемой и «независимой» частотами в любой клетке равна ± D. Тем самым D однозначно определяет отклонение от независимости. Поэтому естественно потребовать, чтобы наш коэффициент возрастал с возрастанием D.
Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости - лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.
1.3 Обзор прикладных задач, связанных с анализом категориальных переменных
Одним из основных методов предварительного анализа данных является кросстабуляция (cross-tabulation) и применение таблиц сопряженности. Этот инструмент обработки данных является универсальным и находит свое применение в самых различных областях человеческой деятельности. Таблицы сопряженности дают ответы на многие практические вопросы в экономике, в общем, и маркетинге - в частности [32], массовых обследованиях и технике [69], медицине [70], контроле качества и других областях жизни и деятельности человека.
Например, в области образования можно табулировать число учащихся, покинувших среднюю школу в зависимости от возраста, пола и этнического происхождения, уровень успеваемости в зависимости от выбранной методики преподавания [28].
В экономике можно табулировать число банкротств в зависимости от вида промышленности, региона, начального капитала, времени года, состава управляющего персонала; исследователь спроса может табулировать предпочтения в зависимости от вида товара и цены, а также возраста и пола потребителя и т.д [32].
Именно в маркетинговых исследованиях таблицы сопряженности при элементарных расчетах дают достаточно достоверные выводы. Рассмотрим несколько примеров подробнее [69]: если вы хотите исследовать связь между двумя переменными, например, проводите массовое обследование качества обслуживания в региональных отделениях банка и хотите знать, связано ли качество обслуживания с регионом или нет. Тогда случайным образом выбираются два отделения, и задается вопрос респондентам: обслуживание удовлетворительно или нет. Если рассматриваются два региональных отделения, то получается таблица 2 х 2, в которой по строкам записаны банки, по столбцам - ответы: удовлетворенность и неудовлетворенность качеством обслуживания. Если рассматривается п отделений банка, то возникают таблицы п х 2. Если возможно три ответа па вопрос, например, допускается вариант: затрудняюсь ответить, то приходим к таблицам сопряженности п х 3 и т.д.
Если нужно выяснить, например, имеется ли связь между желанием купить данную модель продукции и возрастом или полом покупателя, то проводится опрос, включающий в себя данные о возрасте, половой принадлежности и предпочтениях потребителя. Варианты ответов на вопрос, купили ли бы вы данную модель товара: ДАУНЕТ нужно записать в «шапки» столбцов; а в качестве строк могут выступать 2 возрастные категории до N лет/после N лет или строками также может выступать градация по полу. Покупательские возможности разных категорий различны, поэтому разбиение на группы, ко-
гда вы имеете дело не со средним покупателем, а с покупателем из определенной группы, выглядит совершенно естественно и позволяет избежать ошибок в выводах.
В социологии [85], политологии с помощью таблиц сопряженности решается, чем, какими факторами (причинами) определяется некоторое "поведение" респондента. Это "поведение" описывается какими-то переменными. Например, оно может состоять в том, что респондент в ответе на один из вопросов анкеты выражает свою готовность проголосовать на выборах за определенного кандидата. Задача состоит в определении того, какими характеристиками (этими характеристиками могут быть лишь ответы респондентов на вопросы анкеты) можно описать людей, обладающих рассматриваемым "поведением", т.е. желающих проголосовать именно за этого кандидата. Другими словами, нужно установить, какими сочетаниями значений рассматриваемых признаков обладают эти люди. В принципиальном плане такая задача решается просто: следует перебрать все возможные сочетания значений рассматриваемых признаков и найти среди них такие, обладателям которых присуще рассматриваемое поведение. Но это довольно рутинная работа и может потребовать много времени и сил исследователя, а кросстабуляция помогает избежать этих трудностей. Социолог, используя таблицы сопряженности, имеет возможность построить сводную таблицу результатов опроса и оценить связи между ответами различных категорий опрашиваемых, дифференцируемых по интересующим исследователя признакам. Очевидно, в таких таблицах можно провести всестороннее исследование о связи (зависимости) переменных.
В области медицины кросстабуляция играет огромную роль, так как позволяет выявлять зависимости в основном между категориальными переменными, анализ которых невозможен при использовании других статистических приемов. В медицине можно табулировать частоты различных симптомов заболевания по возрасту, полу пациентов, степени заболевания, фактору выживания, исходу болезни или результату лечения [45]. Самый простой
пример использования таблиц частот - это таблицы сопряженности размером 2x2. Всего табулируются два фактора, каждый из которых имеет 2 уровня. Факторы, перечисленные выше: возраст, пол, наличие вредных привычек, ведение здорового образа жизни, степень заболевания, исход болезни, выживаемость - являются категориальными переменными, то есть принимают всего 2 значения. Так возникает дихотомия (от греческого - разделять или рассекать па две части) - это переменная, принимающая два значения, 0 или 1, а в текстовом виде - нет или да. Соответственно многомерная дихотомия представляет собой набор нулей и единиц. При работе с такими переменными как пол - МУЖСКОЙ/ЖЕНСКИЙ, наличие вредных привычек и ведение здорового образа жизни - ДА/ПЕТ и выживаемость - ВЫЖИЛ/ЛЕТАЛЬНЫЙ ИСХОД дихотомия видна невооруженным глазом, переменные имеют дискретную природу. А вот переменная «возраст» является непрерывной и относится к шкале отношений, но, несмотря на это, ее можно представить в виде дискретной переменной. Если возникает необходимость кросстабулировать непрерывные переменные, то вначале их следует катего-ризоватъ, разбив диапазон изменения на небольшое число интервалов (например, низкий, средний, высокий). Переменную возраст целесообразно будет поделить на 2 уровня следующим образом: от 0 до 18 лет - дети, 18 и старше 18 лет - взрослые. И затем уже исследовать, как проявляются какие-то факторы заболевания или как действуют методы лечения на 2 категории пациентов, отличающихся по возрасту: детей и взрослых соответственно [18,31].
1.4 Постановка задач работы
Целью диссертационной работы является разработка новых численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности и их практическая реализация.
Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач:
1) классификация и анализ известных способов исследования зависимости категориальных переменных;
2) разработка новых аналитических и численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности;
3) алгоритмизация выбора рациональных методов выявления закономерностей для категориальных переменных на основе предложенных численных методов исследования зависимости;
4) алгоритмизация выявления групп населения, потенциально подверженных повышенному риску нового заболевания на основе численного анализа зависимости категориальных переменных;
5) программная реализация средств для выявления связи между категориальными переменными при возникновении нового заболевания в целях предотвращения его распространения на основе предложенных алгоритмов и модели объекта, описываемого категориальными переменными.
2. Анализ и разработка аналитических и визуальных численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности
2.1 Анализ и классификация использования известных методов исследования связи меиеду категориальными переменными с помощью аппарата таблиц сопряженности
2.1.1 Первые критерии оценки связи
Данную группу образуют несколько критериев, позволяющих достаточно быстро, но, к сожалению, грубо выявить наличие связи между качественными переменными. Под термином грубо здесь понимается встречающаяся, примерно, в половине случаев неудовлетворительная точность полученных выводов. Поэтому при их использовании нужно быть очень осторожным. Эти критерии следует использовать как «черновики» в своих выводах, чтобы потом проверить одним из «чистовых» способов. Если эти «первые» критерии достаточно часто являются «лживыми», то возникает вопрос: «Зачем ими пользоваться?» Несмотря на их недостатки, они просты в использовании. Эти методы первыми дают ответ на вопрос о связи переменных, т.е. они выдвигают гипотезу о зависимости или независимости между признаками. А некоторые их них могут дать примерную оценку силы связи. Поэтому быстрые критерии важны, только к ним следует относиться, как к предварительным [6].
Быстрый критерий оценки связи в таблицах 2x2
Первые критерии позволяют грубо оценить меру связи между качественными переменными, но в то же время они дают возможность получить хотя бы предварительный результат о наличии связи и ее величине. А это в свою очередь позволяет корректно сформулировать начальную гипотезу о
зависимости или независимости переменных. Но кроме грубых оценок связи, позволяющих предварительно оценить ее меру, существуют математически более тонкие и быстрые, хотя тоже носящие скорее вспомогательный характер.
В зависимости от некоторых особенностей расположения и величин частот в таблице сопряженности применяют разные статистики.
При Too ^ 25 и при условии /ю = f2o или fQ\ = f02 критерием является величина, которая рассчитывается по формуле:
,= C/jl+/22)-C/Í2+/2.)
лЛ/п + fn + fj\ + fu _ (2.1.1)
Связь признаков в таблице с достоверностью а признается значимой, если z > иа, где иа - a-квантиль стандартного нормального распределения.
Если же/io > 10 при условии fXQ «f2o или f0\ « fo2, то справедлив критерий:
у _ j + (-/il + fi\ ~ f\i ~ fu)C/îi + f\i)
Z =---/n+/.2+/21 +Â2-t (2<L2)
V/ll+/l2
Если \ z I > na, то связь признаков признается значимой [60].
Для трех критериев, о которых речь пойдет ниже, характерно следующее. Если связь между признаками существует, то частоты значений признаков сконцентрированы на главной или побочной диагоналях таблицы сопряженности. При отсутствии же связи частоты практически равномерно распределены по всему полю таблицы.
Коэффициент ассоциации
Данный метод измерения связи с помощью четырехклеточной таблицы был предложен английскими статистиками Э. Дж. Юлом и М. Дж. Кендал-лом [58]. Числитель этого коэффициента, называемого коэффициентом ассоциации, представляет собой не что иное, как определитель исследуемой че-
тырехклеточной таблицы сопряженности, а знаменатель - сумму тех же произведений, разность которых стоит в числителе:
/11/22 -/12/21 (2.1.3)
/11/22 + /12/21
или
пО
<2 = -
/1/2 /2/21
Если признаки и 5 независимы, то = 0, т.к. В = 0. В случае полной связи между признаками = ±1. В случае, когда одна из частот равна 0, коэффициент ассоциации равен ± 1, а это можно ложно трактовать, как полную зависимость между переменными. В этом и состоит самый явный недостаток использования коэффициента ассоциации. Поэтому, если хотя бы одна из частот в таблице сопряженности равна 0, то вместо коэффициента ассоциации следует использовать коэффициент контингенции.
Коэффициент ассоциации равен нулю, если признаки действительно независимы, т.е. если Э = 0, и может принимать значение +1 только когда/12/>1 = 0, т. е. в случае полной связанности (либо все А одновременно являются В, либо все В одновременно являются А), а значение - 1, только когда/11/22 ~ 0, т.е. в случае полной отрицательной связанности. Кроме того, (2 возрастает с возрастанием Э. Действительно, вводя обозначение е =/12/21 //11/2, получаем
<3 = 0 - е)/(1 + е) - 2/(1 + е) - 1,
откуда
^ = 1_<0 йе (1 + ё)1
Поскольку величина с}й/с1е также отрицательна, то сК^МИ положительна.
Коэффициент ассоциации в плане вычисления относительно простой показатель сопряженности величин. Он применяется к вариации двух качественных признаков, распределенных по двум группам. Его значения принадлежат промежутку от -1 до +1. А интерпретируются следующим образом: чем ближе абсолютное значение коэффициента ассоциации к 1, тем теснее
связь. Считается, что если значение коэффициента достигает 0,3, то это уже свидетельствует о существенной связи между признаками. Можно сказать, что этот показатель очень «либерально» оценивает тесноту связи, завышает ее.
Если предположить, что суммарная частота /00 достаточно велика, величина С2 имеет нормальное распределение с дисперсией [9]
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Информационно-аналитические методы и алгоритмы поддержки принятия решений при управлении портфелем ценных бумаг на основе сценарного подхода к прогнозированию2011 год, кандидат экономических наук Яремчук, Антон Владимирович
Показатели сопряженности и мультиколлинеарности в задачах анализа и распознавания изображений2008 год, кандидат технических наук Козин, Никита Евгеньевич
Разработка и исследование методов оценки качества текстильных материалов для совершенствования их производства2001 год, доктор технических наук Привалов, Сергей Федорович
Новые методы расчёта термодинамических и акустических свойств смешанных растворов электролитов, включая морскую воду2005 год, доктор физико-математических наук Денисов, Дмитрий Алексеевич
Исследование и разработка методов машинного обучения анализа выживаемости2024 год, кандидат наук Васильев Юлий Алексеевич
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Бакаева, Ольга Александровна
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработаны формализованное описание и классификация известных методов исследования зависимости категориальных переменных, учитывая особенности расположения и значения частот в таблице сопряженности.
2. Предложен численный метод получения оценок теоретических частот идеально независимой и идеально зависимых таблиц сопряженности, позволяющий проверять гипотезу о зависимости переменных; показаны устойчивость и быстрая сходимость итерационной схемы нахождения оценок идеальных частот.
3. Разработаны численные методы исследования вида и степени зависимости между категориальными переменными, основанные на предложенной мере различия наблюдаемых и идеальных таблиц сопряженности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными.
4. Предложен визуальный метод исследования независимости бинарных категориальных переменных, позволяющий исходя из расположения прямой отношения категорий относительно горизонтальной оси делать выводы о практических уровнях независимости.
5. Получено в численном виде обобщающее условие независимости бинарных категориальных переменных аналитическим и визуальным методами.
6. Разработано и реализовано математическое и программное обеспечение алгоритма выявления групп населения, потенциально подверженных повышенному риску нового заболевания, на основе предложенного метода выбора рациональных способов исследования закономерностей для категориальных переменных.
7. Разработан, прошел государственную регистрацию в ФГНУ ЦИТИС и апробирован программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания (на примере вируса гриппа А (НШ1)09 в 2009-2011 гг.) в целях оперативности принимаемых решений и достоверности выводов.
Проведен анализ известных критериев выявления связи между категориальными переменными и предложены эффективные численные методы исследования заивисимости категоризованных переменных, что имеет существенное значение при обработке качественной информации в различных областях знаний.
Статистические методы исследования зависимости нечисловых данных используются практически во всех областях знаний. Поэтому приемы обработки информации, продемонстрированные в данной диссертации, можно успешно применять в исследовательской и аналитической работе по изучению закономерностей, лежащих в основе сложных массовых явлений и процессов.
Заключение
Статистический анализ исследования зависимости - это один из самых востребованных разделов прикладной статистики. Он является важным и неотъемлемым инструментом системы прогнозирования. Области применения данного математического метода обширны: от экономических до технических специальностей. Статистический анализ нечисловой информации занимается проблематикой исследования наличия связи между качественными (категориальными) переменными с помощью аппарата таблиц сопряженности. Так как главной задачей для исследователя, в какой бы области он не работал, является выявление связи, то в данной работе рассмотрены различные методы проверки гипотез зависимости или независимости категориальных переменных.
В диссертации дается полное научное представление о методах исследования взаимосвязей категориальных переменных. В первой главе рассмотрены проблемы исследования зависимости. Во второй главе сначала рассматриваются особенности использования известных методов выявления связи. К самым простым из них относятся первые критерии оценки связи: быстрый способ, коэффициенты ассоциации, коллигации, контингенции. Но данные критерии позволяют только предварительно делать выводы о зависимости и силе связи между категориальными переменными, так как, во-первых, эти критерии нельзя применять к таблицам сопряженности с нулевыми значениями в ячейках, а, во-вторых, точность выводов, полученных с их помощью, не всегда удовлетворительна.
После изучения особенностей работы с первыми критериями в диссертации проведен анализ точных способов проверки связи между переменными. Детально изучено применение критериев Фишера и в-критерия Вульфа в различных видах. Эти критерии эффективны и позволяют получать достоверные выводы, но основная проблема их использования заключается в сложности расчетов. Также проведен сравнительный анализ коэффициентов взаимной сопряженности К.Пирсона и А.Чупрова. Рассмотрены понятия шанса и отношения шансов, как способа выявления связи между категориальными переменными. Все вышеперечисленные способы проверки наличия связи и оценки ее силы могут быть рассчитаны автоматически, с помощью различных компьютерных программ. В конце первой главы рассказывается о возможностях использования современного пакета обработки информации «STATISTICA» для выявления связи между категориальными переменными. Также для простоты и удобства вычислений используется «Калькулятор таблиц сопряженности», особенно неоценимую помощь он оказывает при работе с шансами.
Проанализировав достоинства и недостатки, а также выделив области эффективного применения классических и современных критериев выявления связи между категориальными переменными во второй главе диссертации предложены новые численные методы исследования зависимости, которые имеют ряд преимуществ по сравнению с известными, и могут быть использованы в независимости от значений частот в ячейках таблицы сопряженности.
К таким критериям относятся: использование идеальных таблиц сопряженности для вычисления коэффициента зависимости г0, визуальный способ исследования зависимости, реализованный с помощью MS Excel, а также обобщающее условие независимости бинарных категориальных переменных. Введен коэффициент независимости, позволяющий не только ответить на вопрос о независимости переменных, но и количественно оценить, насколько они 9 независимы. Также в работе детально изучен классический критерий в различных видах и с использованием поправки Иетса на непрерывность, чтобы скорректировать точность вывода.
В третьей главе предлагается процесс алгоритмизации рассмотренных выше методов исследования связи. Данный процесс рассмотрен с теоретической точки зрения, предложены два алгоритма, и с практической - предложена реализация на примере эпидемиологического приложения.
В четвертой главе проиллюстрировано применение всех критериев на примере заболеваемости вирусом гриппа А (HIN1)09 в Мордовии в зимний сезон 2009-2010 и 2010-2011гг. Решены задачи выявления и количественной оценки связи между качественными переменными «возраст» и «результат лечения» зимой 2009-2010 и 2010-2011 гг. А также решена задача по выявлению связи между «местом проживания пациента» и «результатом лечения» 20102011гг. Полученные расчеты показывают работоспособность, достоверность и преимущества разработанных численных методов исследования зависимости категориальных переменных с использованием таблиц сопряженности.
Список литературы диссертационного исследования кандидат технических наук Бакаева, Ольга Александровна, 2013 год
Список использованных источников
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкнн Л.Д. Прикладная статистика: Классификация и снижение размерности: Справ, изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1989. - 607 с.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика, исследование зависимости / С.А. Айвазян. - М.: Финансы и статистика, 1985. -485 с.
3. Айвазян С.А., Мешалкин Л.Д., Енюков И.С. Прикладная статистика. Основы моделирования и первичная обработка данных. Т.1 / С.А. Айвазян - М.: Финансы и статистика, 1983.-471 с.
4. Анализ нечисловой информации в социологических исследованиях / Под ред. В. Г. Андреенкова, А.И. Орлова, Ю. Н. Толстовой. - М.: Наука, 1985. -222 с.
5. Анализ нечисловых данных в системных исследованиях / Сборник трудов. - Вып. 10.-М.: ВНИИСИ, 1982. - 155 с.
6. Антамошкин А.Н., Бакаева O.A. Сравнительный анализ «первых» критериев выявления связи между качественными переменными // Вестник Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнева, 2011. - № 4. - СС. 4-7.
7. Антамошкин А.Н., Бакаева O.A. Условия независимости качественных переменных: вероятностный подход // Системы управления и информационные технологии, 2011. - № 4. - СС. 7-9.
8. Амосов A.A., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров: учеб. пособ. - М. : Высшая школа, 1994. - 544 с.
9. Аптон Г. Анализ таблиц сопряженности. - М.: Финансы и статистика, 1982.- 145 с.
10. Афифи А. Статистический анализ: подход с использованием ЭВМ; перевод с англ. / А. Афифи, С. Эйзен . - М.: Мир, 1982. - 488 с.
11. Ашмарин И.П., Васильев H.H., Амбросов В.А. Быстрые методы статистической обработки и планирование экспериментов. - Л.:ЛГУ, 1974. - 76 с.
12. Бабич П.Н., Чубенко A.B., Лапач С.Н. Применение современных статистических методов в практике клинических исследований. Сообщение первое. Сравнение двух пропорций // Укр. мед. часопис. - 2003. - №4 (36) III-IV. - СС. 139-143.
13. Бабич П.Н., Чубенко A.B., Лапач С.Н. Применение современных статистических методов в практике клинических исследований. Сообщение второе. Применение критерия Хи-квадрат // Укр. мед. часопис. - 2004. - №2 (40) III-IV. -СС. 138-144.
14. Бабич П.Н., Чубенко A.B., Лапач С.Н. Применение современных статистических методов в практике клинических исследований. Сообщение третье. Отношение шансов: понятие, вычисление и интерпретация // Укр. мед. часопис. - 2005. - №2 (46) III-IV. - СС. 113-119.
15. Бакаева О. А. Алгоритм выбора рационального способа проверки наличия зависимости между категориальными переменными при донозологическом контроле // Информационные технологии моделирования и управления. - 2013. -№ 1 (79). - С. 4-11.
16. Бакаева О. А. Графический способ выявления связи между категоризо-ванными переменными // Тезисы докладов Шестой Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные задачи прикладной статистики, промышленной, актуарной и финансовой математики», посвященной 75-летию Донецкого национального университета. - Донецк : ДонНУ, 2012. - С. 37.
17. Бакаева О. А. Использование коэффициента К. Пирсона для выявления связи между качественными переменными // «Современные тенденции в науке : новый взгляд» : сб. научн. тр. по материалам Международной заоч. науч.-практ. конф. :в9ч. Ч. 8.-Тамбов, 2011.-С. 15-16.
18. Бакаева О. А. Использование некоторых видов статистического анализа при обработке медицинских данных // «Научное лето - 2011»: сб. научн. тр. по материалам Международной научн. конф. - Киев : 2011, «НАИРИ». Ч. 2 - С. 34-37.
19. Бакаева О. А. Использование точного критерия Фишера для выявления связи между категориальными переменными // XL Огаревские чтения : материалы науч. конф. - Саранск: Изд-во Мордов. ун-та, 2012. - С. 154-157.
20. Бакаева О. А. Критерии визуализации зависимости случайных бинарных переменных // Физико-математическое моделирование систем: материалы IX Междунар. семинара. Воронеж : ФГБОУ ВПО «Воронежский государственный технический университет», 2012. - Ч. 2. - С. 162-167.
21. Бакаева О. А. Математическое и программное обеспечение подсистемы принятия решений по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания // Системы управления и информационные технологии. - 2012.-№ 4.1 (50).-С. 116-120.
22. Бакаева О. А. Методика определения вида и степени зависимости категориальных переменных на основе таблиц сопряженности // Физико-математическое моделирование систем : материалы IX Междунар. семинара. Воронеж : ФГБОУ ВПО «Воронежский государственный технический университет», 2012. - Ч. 2. - С. 109-124.
23. Бакаева О. А. Необходимость использования поправки Иетса в критерии X проверки независимости качественных переменных // «Научные исследования и их практическое применение. Современное состояние и пути развития '2012» : сб. науч. трудов S World Международной научно-практической конференции.-Вып. 3, Т. 2. - Одесса : КУПРИЕНКО, 2012. - С. 82-83.
24. Бакаева О. А. Программный модуль «Алгоритм выбора рационального способа проверки наличия зависимости между категориальными переменными» // В. Н. Щенников, О. А. Бакаева. М. : ФГНУ ЦИТИС, 2013. -№ 50201350197.
25. Бакаева О. А., Щенников В.Н. Использование критерия для выявления связи между качественными переменными на основе «идеальных» таблиц сопряженности // Ярославский педагогический вестник. - 2011. - № 4, Т. III (Естественные науки). - С. 15-20.
26. Бакаева О. А., Щенников В. Н. Выявление независимости между качественными переменными // Вестник Воронежского государственного ун-та. Сер. : Физика. Математика. - 2011. - № 2. - С. 58-63.
27. Бакаева O.A. Определение минимального объема выборки // Вестник Мордовского университета. Сер. физико-математические науки. - 2010. - № 4.-С. 111-114.
28. Бакаева O.A. Особенности использования кросстабуляции в педагогике и образовательном процессе // Интеграция образования. - Научно-методический журнал, 2012. - №1 (66). - СС. 58-61.
29. Бакаева O.A., Щенников В.Н. Использование шанса и шансового отношения для выявления связи между качественными переменными // Вестник Восточно-Сибирского государственного университета технологий и управления, 2012. -№3 (38).-СС. 37-41.
30. Бакаева O.A. Предварительная обработка статистических данных // XXXVIII Огаревские чтения: Материалы науч. конф.: В 3 ч. 4.2. - Саранск: Изд-во Мордов. ун-та, 2010. - СС. 303-306.
31. Бакаева O.A. Шкалы измерения информации в области медицины // Экономическое развитие современной России: проблемы и перспективы: меж-вуз. сб. науч. тр. - Вып. VII. - Саранск: Ковылк. тип., 2010. - СС. 174-177.
32. Бараз В.Р. Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel : учебное пособие / В.Р. Бараз. - Екатеринбург: ГОУ ВПО «УГТУ-УПИ», 2005. - 102 с.
33. Бикмурзина P.P., Бакаева О. А. Приложения статистического анализа к обработке результатов медицинских экспериментов // Технические и естест-
венные науки: проблемы, теория, практика : межвуз. сб. науч. тр. - Вып. 8. -Саранск : Изд-во Мордов. ун-та, 2008. - С. 187-190.
34. Бикмурзина P.P., Бакаева О. А. Применение нормального распределения при проверке статистических гипотез в медицинских экспериментах // XXXVII Огаревские чтения : материалы науч. копф. : в 3 ч. Ч. 2. - Саранск : Изд-во Мордов. ун-та, 2009. - С. 193-197.
35. Бикмурзина P.P., Бакаева O.A., Панина A.A. Оценка связи между качественными признаками с помощью таблиц сопряженности // Технические и естественные науки: проблемы, теория, практика (Межвуз. сб. науч. тр.). - Вып. X. - Саранск: Изд-во Мордов. ун-та, 2008. - СС. 33-38.
36. Богатырева Е.В., Бакаева O.A. Статистические методы в педагогическом эксперименте / Материалы XIV научной конференции молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н.П. Огарева : в 2 ч. Ч. 1.: Технические и естественные науки. - Саранск: Изд-во Мордов. ун-та, 2010. - СС.148-151.
37. Богатырева Е.В., Бакаева O.A. Формирование учебно-профессиональной мотивации студентов // Сбориик научных трудов по материалам международ, научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте ' 2010». Том 8. Педагогика, психология и социология. - Одесса : Черноморье, 2010. - СС. 42-45.
38. Большев Л. Н. Таблицы математической статистики / Л. Н. Большев, Н. В. Смирнов. -М.: Наука, 1983.-416 с.
39. Брандт 3. Анализ данных. Статистические и вычислительные методы для научных работников и инженеров. - Москва: ACT Мир, 2003. - 688 с.
40. Васильев К.К., Служивый М.Н. Математическое моделирование систем связи: учеб. пособие. -Ульяновск : УлГТУ, 2008. - 170 с.
41. Васильков Ю.В., Василькова H.H. Компьютерные технологии вычислений в математическом моделировании: учеб. пособ. - М. : Финансы и статистика, 2002 . - 256 с.
42. Воробьев, Ф. П. Математическое планирование эксперимента в биохимии и медицине / Ф. П. Воробьев, Н. К. Голобородько, А. М. Мануйлова. -Харьков: издательское объединение "Вища школа", 1977. - 144 с.
43. Вторая Всесоюзная конференция по анализу нечисловой информации // Тезисы докладов. - М. - Таллин: ВИНИТИ, 1984. - 348 с.
44. Галанин М.П., Савенков Е.Б. Методы численного анализа математических моделей. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2010.-591 с.
45. Гланц С. Медико-биологическая статистика. - Пер. с англ. М. : Практика, 1998.-459 с.
46. Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. - М.: Педагогика, 1977. - 136 с.
47. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы обработки данных. -М. : Мир, 1980. - 610 с.
48. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. чл.-корр. РАН И.И. Елисеевой. - 4-е изд., перераб. и доп. - М. : Финансы и статистика, 2001. - 480 с.
49. Ешоков И.С. Методы, алгоритмы, программы многомерного статистического анализа / М. : Финансы и статистика, 1986. - 232 с.
50. Зайцев В. М., Лифляндский В. Г., Маринкин В. И. Прикладная медицинская статистика. - М. : Фолиант, 2006 г. - 432 с.
51.3акс Л. Статистическое оценивание; перевод с нем. В. Н. Варыгина; под ред. Ю. П. Адлера, В. Г. Горского. - Зарубежные статистические исследования. - М. : Статистика, 1976. - 598 с.
52. Замятина О.М. Компьютерное моделирование: учеб. пособ. - Томск : Изд-во ТПУ, 2007.-121 с.
53. Зарубин B.C. Математическое моделирование в технике. - Учеб. для вузов / Под ред. B.C. Зарубина, А.П. Крищенко. - 2-е изд., стереотип. - М. : Изд-во МГТУ им. Н.Э. Баумана, 2003. - 496 с.
54. Камень Ю.Э., Камень ЯЗ., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез // «Заводская лаборатория». 1986. Т.52. №.12. - СС.55-57.
55. Кантор С.А. Основы вычислительной математики: учеб. пособ. - Барнаул : Алт. госуд. технич. ун-т им. И. И. Ползунова, 2010. - 357с.
56. Каханер Д., Моулер К., Нэш С. Численные методы и математическое обеспечение. - М. : Мир, 1998. - 575 с.
57. Кацман Ю.Я. Прикладная математика. Численные методы. - Томск : Изд-во ТПУ, 2000. - 68 с.
58. Кендалл М., Стьюарт А. Статистические выводы и связи. В 2-ух томах. Т.2. Главная редакция физико-математической литературы изд-ва «Наука», 1973.-899 с.
59. Киселев Н.И. Алгоритмическое и программное обеспечение прикладного статистического анализа. - М. : Наука, 1980. - СС.111-123.
60. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников / А. И. Кобзарь. - М. : ФИЗМАТЛИТ, 2006. - 816 с.
61. Козин Р.Г. Математическое моделирование: примеры решения задач. -М. : НИЯУ МИФИ, 2010.- 176 с.
62. Колдаев В.Д. Численные методы и программирование. - М. : ИД «ФОРУМ», 2009.-336 с.
63. Колесов Ю.Б. Объектно-ориентированное моделирование сложных динамических систем. - СПб. : Изд-во СПбГПУ. - 2004, 240 с.
64. Крамер Г. Математические методы статистики / Пер. с англ. / 2-е изд. -М. : Мир, 1975.-648 с.
65. Красильников В.В. Статистика объектов нечисловой природы. - Набер. Челны : Изд-во Камского политех, ин-та, 2001. -144 с.
66. Крянев A.B., Лукин Г.В. Математические методы обработки неопределенных данных. - М. : ФИЗМАТЛИТ, 2003. - 216с.
67. Кузьмин В.Б., Орлов А.И. Статистические методы анализа экспертных оценок. - М. : Наука, 1977. - СС.220-227.
68. Кучмаева О.В., Е.А.Егорова, Иванова Т.А. Социальная статистика: Учебно-практическое пособие / Московский государственный университет экономики, статистики и информатики. -М. : МЭСИ, 2003. - 130 с.
69. Лапач С.Н., Чубенко A.B., Бабич П.Н. Статистика в науке и бизнесе. / С.Н. Лапач. - Киев : Морион, 2002. - 640с.
70. Лапач С.Н., Чубенко A.B., Бабич П.Н. Статистические методы в медико-биологических исследованиях с использованием Excel. - Киев : Морион, 2001.-408 с.
71.Лапко A.B., Лапко В.А. Сравнение эмпирической и предлагаемой функций распределения случайной величины на основе непараметрического классификатора // Автометрия. 2012. Т. 48. - № 1. - СС. 44-50.
72. Лапко A.B., Шарков М.А., Лапко В.А. Непараметрические методы обнаружения закономерностей в условиях малых выборок // Известия высших учебных заведений. Приборостроение. 2008. Т. 51. - № 8. - СС. 62-66.
73. Лемешко Б.Ю., Постовалов С.Н. О зависимости предельных распределений статистик Пирсона и отношения правдоподобия от способа группирования данных // Заводская лаборатория. 1998. - Т. 64. - № 5. - СС. 56-63.
74. Леонов В.П. Применение статистики в статьях и диссертациях по медицине и биологии. История биометрии и ее применения в России // Международный журнал медицинской практики. 1999. Вып. 4. - СС. 7-19.
75. Леонов В.П., Ижевский П.В. Применение статистики в статьях и диссертациях по медицине и биологии. 1. Описание методов статистического анализа в статьях и диссертациях // Международный журнал медицинской практики. 1998. Вып. 4.-СС. 7-12.
76. Мартьянова А.Е. (сост.) Статистическое моделирование на ЭВМ: ла-бор. практикум. - Астрахань : АГТУ, 2007. - 156 с.
77. Мастяева И.Н., Семенихина О.Н. Численные методы: учеб. пособ. - М.: Московский государственный университет экономики, статистики и информатики.-2001, 71 с.
78. Миркин Б.Г. Анализ качественных признаков и структур. - М. : Статистика, 1980.-319 с.
79. Мисюк Н.С., Мастыкин А.С., Гришков Е.Г. Основы математического прогнозирования заболеваний человека. - Минск, 1971. - 200 с.
80. Мулярчик С.Г. Численные методы. - Минск, 2008 г. - 130 с.
81. Ниворожкина Л.И., Морозова З.А. Теория вероятностей и математическая статистика. - М. : Эксмо, 2008. - 432 с.
82. Новиков Д. А., Статистические методы в медико-биологическом эксперименте (типовые случаи) / Д. А. Новиков, В. В. Новочадов. - Волгоград : Вог-ГМУ, 2005. - 84 с.
83. Общая теория статистики / Под ред. А.А Спирина. - М. : Финансы и статистика, 1998. - 378 с.
84. Орлов А.И. Прикладная статистика. Учебник. - М.: Экзамен, 2006. -672с.
85. Орлов А.И. // Анализ нечисловой информации в социологических исследованиях. - М., 1985. -СС. 58-92.
86. Орлов А.И. Нечисловая статистика. - М.: "МЗ-Пресс", 2004. - 516 с.
87. Орлов А.И. О применении статистических методов в медико-биологических исследованиях// Заводская лаборатория. - 1991.-Т.57. - № 7. - СС. 64-66.
88. Орлов А.И. Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Перм. гос. ун-та, 1993.-СС. 86-97.
89. Орлов А.И. Эконометрика: учебник для вузов / А.И. Орлов. - 3-е изд., перераб. и доп. - М.: «Экзамен», 2004. - 576 с.
90. Орлов. А. И. Прикладная статистика: учебник. - М. : Экзамен, 2006. -672 с.
91. Официальный сайт "Электронный учебник StatSoft". - Режим досту-na:http://www.statsoft.ru/home/textbook/glossaiy/gloss_r.html#Chisquare%20Distrib utiDi.
92. Официальный сайт издательства "Медиасфера" [Электронный ресурс]. - [Б.м.: б.и.]. - Режим доступа: hhtp://www.mediasphera.ru/mjmp/99/4/r4-91-1 .html
93. Павловский Ю. Н., Белотелов Н. В., Бродский Ю. И.Имитационное моделирование. - Изд-во «Академия», 2008. - 240 с.
94. Первое Всесоюзное совещание по статистическому и дискретному анализу нечисловой информации, экспертным оценкам и дискретной оптимизации / Тезисы докладов. - М. - Алма-Ата, ВИНИТИ, 1981.-439 с.
95. Петри А., Сэбин К. Наглядная статистика в медицине. Пер. с англ. - М. : ГЕОТАР-медицина, 2003. - 144 с.
96. Плохотников К. Э. Математическое моделирование и вычислительный эксперимент. Методология и практика. - Изд-во «Едиториал УРСС», 2003. -280 с.
97. Поллард Дж. Справочник по вычислительным методам статистики. -М. : Финансы и статистика, 1982. - 344 с.
98. Прикладная статистика. Основы эконометрики: Учебник для вузов. В 2Т. 2-е изд., испр. - Т.1: Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. - М. : ЮНИТИ-ДАНА, 2001. - 656с.
99. Прикладная статистика. Основы эконометрики: Учебник для вузов. В 2Т. 2-е изд., испр. - Т.2: Основы эконометрики / Айвазян С. А. - М. : ЮНИТИ-ДАНА, 2001.-432с.
100. Раушенбах Г.В., Филиппов О.В. Экспертные оценки в медицине. Научный обзор. - М. : ВНИИММТИ Минздрава СССР, 1983. - 80 с.
ЮЬРеброва 0.10. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М. : МедиаСфера, 2002. -312 с.
102. Романов В.Н., Комаров В.В. Теория измерений. Анализ и обработка экспериментальных данных: учеб. пособ. - СПб : СЗПИ, 1999. - 112 с.
103. Ростовцев П.С., Смирнова Н.Ю., Корнюхин Ю.Г., Костин B.C. Анализ таблиц сопряженности неальтернативных признаков // Препринт 138, ИЭи-ОПП СО РАН, Новосибирск, 1995.
104. Рубан А. И., Кузнецов А. В. Учебно-методическое обеспечение самостоятельной работы студентов по курсу «Методы обработки экспериментальных данных». - Красноярск, 2008. - 80 с.
105. Самарский A.A., Михайлов В П. Математическое моделирование: Идеи. Методы. Примеры. - 2-е изд. испр. - М. : ФИЗМАТЛИТ, 2005. - 320 с.
106. Севастьянов Б. А. Курс теории вероятностей и математической статистики. - М. : Наука. Главная редакция физико-математической литературы, 1982.-256 с.
107. Селезнев A.B., Сысоев Э.В., Терехов A.B., Рак И.П. Юридическая статистика: учеб. пособ. - Тамбов : Изд-во Тамб. гос. техн. ун-та, 2004. - 80 с.
108. Славутский Л.А. Основы регистрации данных и планирования эксперимента. Учебное пособие. - Чебоксары : Изд-во ЧГУ, 2006. - 200 с.
109. Смирнов, Н. В. Курс теории вероятностей и математической статистики для технических приложений / Н. В. Смирнов, И. В.Дунин-Барковский. -М., 1969.-512 с.
110. Спиридонов И.Н. Основы статистической обработки медико-биологической информации. Учебное пособие. - М. : МГТУ, 2002. - 56 с.
111. Тарасевич Ю.Ю. Математическое и компьютерное моделирование. Вводный курс. - 4-е. изд., испр. - М. : Едиториал УРСС, 2004. - 152 с.
112. Татаринцев П.Б. Разработка систем диагностики, дифференциальной диагностики и прогнозирования заболеваний методами многомерного статистического анализа. Дис. канд. техн. наук. - Барнаул, 2006.
113. Татарова Г.Г. Методология анализа данных в социологии (введение): учебник для вузов. - M. : NOTA BENE, 1999. - 224 с.
114. Тейлор Дж. Введение в теорию ошибок / пер. с англ. - М. : Мир, 1985. - 272 с.
115. Тимофеева О.Ю. Критерии результативности в эксперименте: применение методов математической статистики: учебно-методическое пособие. - М. : АПКиППРО, 2008.-36 с.
116.Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М. : Научный мир, 2000. - 352с.
117. Трошин Л.И., Балаш В.А., Балаш О.С. Статистический анализ нечисловой информации. / Московский государственный университет экономики, статистики и информатики. - М. : МЭСИ, 2003. - 67 с.
118. Трусов П.В. Введение в математическое моделирование: учеб. пособие. - М. : Логос, 2005. - 440 с.
119. Тюрин Ю.Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель): Автореф. дисс. д-ра физ.-мат. наук. -М., 1985.-33 с.
120. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации / Препринт. - М.: Научный совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.
121. Тюрин Ю.Н., Макаров A.A. Статистический анализ данных на компьютере. - М. : ИНФРА-М, 1998. - 528 с.
122. Уиттекер Э. Математическая обработка результатов наблюдений. Энциклопедия биостатистика (8 томов, 6398 стр.).
123. Федоров В.П., Аверченков В.И., Хейфец M.JI. Основы математического моделирования технических систем: учеб. пособие. - Брянск : Изд-во БГТУ, 2004.-271 с.
124. Феллер В. Введение в теорию вероятностей и ее приложения. В 2-х томах. Том 1: пер. с англ. -М. : Мир, 1984. - 528 с.
125. Фишер P.A. Статистические методы для исследователей. - М. : Гос-статиздат, 1958. -268 с.
126. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. Пер. с англ.. - М. : Финансы и статистика, 1989. - 319 с.
127. Хакимзянов Г.С., Чубаров Л.Б., Воронина П.В. Математическое моделирование. Часть 1: Общие принципы математического моделирования: учеб. пособие. - Новосибирск : Новосиб. гос. ун-т, 2010.- 148 с.
128. Халафян А. А. Статистический анализ данных: учебник. - М. : Бином, 2007.-512 с.
129. Халафян A.A. Анализ и синтез медицинских систем поддержки принятия решений на основе технологий статистического моделирования. Дис. доктор, техн. наук. - Краснодар, 2010.
130. Харин Ю.С. и др. Основы имитационного и статистического моделирования: учеб. пособ. - Минск : Дизайн ПРО, 1997. - 288 с.
131. Холлендер М., Вулф Д. Непараметрические методы статистики. -Пер. с англ. - М. : Финансы и статистика, 1983. - 518 с.
132. Черномордик О.М. Непараметрические критерии проверки однородности нескольких выборок: Дис. канд. физ.-мат. наук. -М.:, 1984.
133. Черный A.A. Планы проведения экспериментов и компьютерные программы эффективного математического моделирования на языках Бейсик и Турбо Паскаль.: учеб. пособ. - Пенза : Пенз. гос. ун-т, 2010. - 528 с.
134. Черный A.A. Теория и практика эффективного математического моделирования: учебное пособие. - Пенза : Пенз. гос. ун-т, 2010. - 419 с.
135. Эконометрика: учебник / Под ред. И. И. Елисеевой. - М. : Финансы и статистика, 2004. - 344 е.: ил.
136. Юзбашев М. «О новом показателе тесноты связи описательных признаков» // Вестник статистики. - 1986. - № 3. - СС. 65-66.
137. Bock Н.Н. On some significance tests in cluster analysis // Journal of Classification, 1985. N1, PP. 77-108.
138. Efron B. Better bootstrap confidence intervals //J. Amer. Statist. Ass., 81, 1986.
139. Gray H.L., Schukanu W.R. the generalized jacknife statistics. - N.Y.: Marcel Decker, 1972.
140. http://www.biometrica.tomsk.ru/biom-2000/history.htm.
141. http://www.i-u.ru/biblio/archive/tolslova_analis/04.aspx (сайт русского гуманитарного интернет-университета, библиотека).
142. http://www.kornev.kiev.ua/met 13.html (SERGEI KORNEV Research & Branding).
143. http://www.library.saransk.ru/ (сайт Национальной библиотеки имени А.С.Пушкина в Саранске).
144. http://www.statsoft.ru/home/textbook/default.htm (сайт электронного учебника Statfort).
145. Orlov A.I / DESIGN OF EXPERIMENTS AND DATA ANALYSIS: NEW TRENDS AND RESULTS. Ed. by prof. E. K. Letzky. Moscow: ANTAL, 1993.-PP. 52-90.
146. Orlov A.I. / INTERVAL COMPUTATIONS. 1992. No.l (3), PP. 44-52.
147. Orlov A.I. / JOURNAL OF SOVIET MATHEMATICS, 1991, V.56, No.3. -PP. 2434-2438.
148. Woolf B. The log likelihood ratio test [the G-test]. Methods and tables for tests of heterogeneity in contingency tables // Ann. Human Genetics. 1957. V. 21. PP. 397-409.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.