Сравнительный анализ алгоритмов заполнения пропусков в социологических данных тема диссертации и автореферата по ВАК РФ 22.00.01, кандидат наук Зангиева, Ирина Казбековна
- Специальность ВАК РФ22.00.01
- Количество страниц 220
Оглавление диссертации кандидат наук Зангиева, Ирина Казбековна
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ОТДЕЛЬНЫЕ ПРОПУСКИ В СОЦИОЛОГИЧЕСКИХ ДАННЫХ: ПРИЧИНЫ, ВИДЫ И ПОДХОДЫ К РАБОТЕ
1.1 ТИПЫ ОТДЕЛЬНЫХ ПРОПУСКОВ И ДОПУСТИМЫЕ СПОСОБЫ РАБОТЫ С НИМИ
1.2. ПРИЧИНЫ НЕОТВЕТОВ НА ВОПРОСЫ КАК ДЕТЕРМИНАНТЫ СТЕПЕНИ СЛУЧАЙНОСТИ ПРОПУСКОВ И ДОПУСТИМЫХ СПОСОБОВ ИХ ЛИКВИДАЦИИ
РЕЗЮМЕ ПЕРВОЙ ГЛАВЫ
ГЛАВА 2. АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: СИСТЕМАТИЗИРОВАНЫЙ ОБЗОР
2.1. ОСНОВНЫЕ АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ
2.2. ИМЕЮЩИЕСЯ НАРАБОТКИ В ОБЛАСТИ ТЕОРЕТИЧЕСКОГО И ЭКСПЕРИМЕНТАЛЬНОГО СРАВНЕНИЯ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ
РЕЗЮМЕ ВТОРОЙ ГЛАВЫ
ГЛАВА 3. МЕТОДИЧЕСКИЙ ЭКСПЕРИМЕНТ: СРАВНЕНИЕ ЭФФЕКТИВНОСТИ ОТДЕЛЬНЫХ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ
3.1. МЕТОДИКА ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: ТЕОРЕТИЧЕСКОЕ ОПИСАНИЕ
3.2. ЭМПИРИЧЕСКАЯ АПРОБАЦИЯ РАЗРАБОТАННОЙ МЕТОДИКИ ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ
РЕЗЮМЕ ТРЕТЬЕЙ ГЛАВЫ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ 1. ОПИСАНИЕ ПЕРЕМЕННЫХ, ЗАДЕЙСТВОВАННЫХ В МЕТОДИЧЕСКОМ ЭКСПЕРИМЕНТЕ
ПРИЛОЖЕНИЕ 2. РЕЗУЛЬТАТЫ РАССМАТРИВАЕМЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫЕ НА ЭТАЛОННОМ МАССИВЕ, И ИХ СОДЕРЖАТЕЛЬНАЯ ИНТЕРПРЕТАЦИЯ
ПРИЛОЖЕНИЕ 3. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА, ПОЛУЧЕННЫХ ПОСЛЕ ВНЕСЕНИЯ В ДАННЫЕ ИСКУССТВЕННЫХ ПРОПУСКОВ
ПРИЛОЖЕНИЕ 4. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫХ ПОСЛЕ ЗАПОЛНЕНИЯ ПРОПУСКОВ
ПРИЛОЖЕНИЕ 5. СХЕМЫ ДЛЯ ВЫБОРА АЛГОРИТМА ЗАПОЛНЕНИЯ ПРОПУСКОВ В ЗАВИСИМОСТИ ОТ КОЛИЧЕСТВА ПРОПУСКОВ И МЕТОДА АНАЛИЗА ДАННЫХ
Рекомендованный список диссертаций по специальности «Теория, методология и история социологии», 22.00.01 шифр ВАК
Алгоритмы предварительной обработки графических объектов со статическими пропусками в системах технического зрения2011 год, кандидат технических наук Ларионов, Игорь Борисович
Решение задач восстановления пропущенных значений признаков и многоклассовой классификации2018 год, кандидат наук Рязанов, Василий Владимирович
Анализ временных рядов при измерениях в случайные моменты времени1998 год, доктор технических наук Идрисов, Фарит Фатыхович
Процедуры обучения алгоритмов распознавания стационарных случайных сигналов в радиотехнических системах в условиях априорной параметрической неопределенности2006 год, кандидат технических наук Егоров, Алексей Владимирович
Проектирование нейросетевых систем глубинного обучения эволюционными алгоритмами для задачи человеко-машинного взаимодействия2017 год, кандидат наук Иванов Илья Андреевич
Введение диссертации (часть автореферата) на тему «Сравнительный анализ алгоритмов заполнения пропусков в социологических данных»
ВВЕДЕНИЕ
Актуальность
Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего - респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.
Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.
Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.
На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнения пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения
пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.
Разработанность проблемы
Рассмотрение проблемы использования в социологии алгоритмов заполнения пропусков не может быть оторвано от условий применения других способов «борьбы» с пропусками, от анализа причин возникновения последних. Поэтому круг проанализированных в диссертации работ содержал отнюдь не только публикации, посвященные непосредственно алгоритмам заполнения пропусков, но и ряд работ, посвященных и другим аспектам изучения пропусков в данных статистических обследований (особенно социологических)1. Проведенный анализ показал, что такой подход оправдан.
В работах, посвященных анализу случаев неполноты социологической (статистической) информации, выделяются две большие темы: (1) недостижимость респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски в данных. Диссертация посвящена исключительно второй теме.
В российской социологии изучением причин возникновения пропусков в данных, анализом роли пропущенных данных, разработкой отдельных алгоритмов заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, H.A. Клюшина, Г.С. Лбов, А.Б.Луппов, В.Ю. Королев, О.М. Маслова, А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, А.А.Снитюк, Г.Г. Татарова, Ю.Н. Толстова, П.Ю. Чеботарев, И.В. Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.
Три основных подхода к работе с отдельными пропусками— удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл,
1 Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения); выбора учитываемых методов анализа восстановленных данных (это - наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки); выбора исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков. См.например: Татарова Г.Г. Основания математической формализации в социологии: новые представления о старых проблемах // Математическое моделирование социальных процессов. Вып. 10: сб.ст. / Под ред. А.П. Михайлова. - М.: КДУб 2009. С.351-362. Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000.
Д. Рубин2 и др. На данный момент основное внимание в литературе уделяется заполнению пропусков как наиболее перспективному подходу.
В качестве фактора, определяющего выбор допустимого способа ликвидации пропусков, Р.Литтлом была выдвинута степень случайности пропуска: возможность считать пропуск неслучайным, случайным или полностью случайным3. Пропуски полностью случайны (missing completely at random — MCAR), если вероятность их возникновения не зависит ни от истинного значения данного признака, ни от значений других признаков. Пропуски случайны (missing at random — MAR), если вероятность их возникновения обусловлена известными значениями других признаков, но не связана с признаком, значение которого пропущено. Пропуски неслучайны (not missing at random— NMAR), если вероятность неответа на вопрос зависит от самого значения признака (возможного ответа), которое могло быть получено, если бы ответ был дан.
В данной работе не рассматриваются иные типологии пропусков (например, деление на реальные и артефактные, возникшие после удаления самим исследователем заведомо ложных значений), так как они, в отличие от типологии по степени случайности, не определяют допустимые способы работы с пропусками
соответствующего типа.
Степень случайности пропуска в социологических исследованиях не в последнюю очередь зависит от причины его возникновения. Основные причины неответов респондентов на отдельные вопросы анализировали Р. Фербер,
A. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов, разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову,
B.Г. Андреенкова, Б.З. Докторова, H.A. Клюшину, А.Ю. Мягкова, И.Б. Назарову4.
2Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980. No 6 P 127; Little R.J. Survey Nonresponse Adjustments for Estimates of Means // International Statistical Review / Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140; Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64-66.
3См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values // Journal of the American Statistical Association. 1988. No. 83. P. 1198-1202.
4 Ferber R. Item Nonresponse in a Consumer Survey // Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403-410; Sicinski A. Don't Know Answers in Cross-National Surveys II Public Opinion Quarterly. 1970. Vol. 34. No 1. P. 127; Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklärung und empirischen Undersuchung von Interviewreffekten // Allgemeine Bevolkerungsumfrage der Sozialwissenschaften. Frunkfurt, 1984. S. 56-60; Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 7-10; Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology! Statistics Canada. 1980. Vol.6. P. 97; Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. С. 115; Докторов Б.З. О надежности измерения в социологическом исследовании. Л.: Наука, 1979. С. 56; Клюшина H.A. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. №1. С. 17-29; Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. С. 45-61; Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. С. 36-49; Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. С. 27-39.
Однако работы, содержащие анализ того, как именно причины пропусков определяют степень случайности признака, нам неизвестны.
Подводя итог сказанному, констатируем актуальность выработки рекомендаций по выбору допустимого способа ликвидации пропусков в зависимости от причин пропусков и определяемой этими причинами степени их случайности.
Общие принципы заполнения пропусков заложили в своих работах Р. Литгл и Д. Рубин. Они сформулировали основные задачи заполнения пропусков и принципиальные требования, которым должны удовлетворять отдельные алгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмов заполнения пропусков в зависимости от степени их простоты и информации, используемой при восстановлении пропущенных значений. Однако на момент публикации соответствующей работы (1978 год) этим автором были классифицированы всего 5 алгоритмов (подстановка среднего арифметического, регрессионное моделирование пропусков, множественное заполнение, HotDeck, случайный подбор в подгруппе). С тех пор было разработано довольно много новых алгоритмов, которые до сих пор не систематизированы.
Отдельные алгоритмы заполнения пропусков в российской литературе описывали Е.И. Злоба, В.Ю.Королев, А.Б. Луппов, A.A. Россиев, В.Е. Снитюк, П.Ю.Чеботарев, И.В. Яцкив.5 В англоязычной литературе отдельным алгоритмам заполнения пропусков посвящены работы К. By, Б. Дейлона, А.Демпстера, К. Эндерса, Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г.Нортона, С. Липситца, Дж.Нелдера и Г.Смита, А. Гупты, Р. Гормана и Т. Сейновски, Г. Банга и Дж. Робинса и многих других. Публикации, посвященные описанию отдельных алгоритмов заполнения пропусков, составляют наиболее многочисленный класс работ, посвященных пропущенным значениям. На данный момент это один из наиболее распространённых и активно развивающихся подходов к работе с пропусками. Подтверждением этого является наличие большого числа статистических пакетов, включающих в себя модули для заполнения пропусков с помощью различных алгоритмов. Например, SPSS (модули Missing Value Analysis Multiple imputation), SAS , STATA, SOLAS, MICE, Missing Data Library for S-Plus.
5 См.например Злоба E., Яцкив И. Статистические методы восстановления пропущенных данных // Computer Modelling & New Technologies., 2002. Vol. 6. Стр.55 - 56; П.Ю. Чеботарев. О рейтинге журналов и агрегировании неполных балльных оценок // Управление большими системами. Т. 27., С.81-90; Луппов А.Б., Кузин С.С. Технология базового анализа данных. М.:МИПК учета и статистики Госкомстата России, 2003 . '
Работы, посвященные сравнению разных алгоритмов заполнения пропусков, появились в 1960-70-е гг. Для сравнения использовались не только разные основания (метод анализа данных, который предполагается использовать после заполнения пропусков, и тип шкалы, по которой измерен признак, значения которого подлежат восстановлению), но и разные способы сравнения: теоретический или экспериментальный. В соответствии со способами сравнения алгоритмов заполнения пропусков выделим два класса работ.
Первый класс относится к 1960-70-м гг. и посвящен результатам теоретического сопоставления методов анализа данных и алгоритмов заполнения пропусков. Основной фокус работ этого класса находится в теоретическом описании связи между используемыми алгоритмами заполнения пропусков и результатами последующего анализа данных определенным методом. Здесь можно назвать работы Р. Литтла, А. Афифи и Р. Илашоффа, Й. Хайтовски, С. Бака, Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С. Лбова6, разработавших собственные подходы к заполнению пропусков.
Второй класс работ, посвященных сравнению эффективности алгоритмов заполнения пропусков, объединяет публикации, в которых представлены результаты экспериментальных сравнений разных алгоритмов заполнения пропусков. Работы второго класса появились в конце 1980-х - начале 2000-х гг. В этом русле работали Л. Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер7. Таким образом, в работах, посвященных сравнению эффективности алгоритмов заполнения пропусков, отчетливо виден переход от теоретического (дедуктивного) обоснования выводов к экспериментальному (индуктивному).
Однако упомянутые примеры как теоретического, так и экспериментального соотнесения методов анализа данных и алгоритмов заполнения пропусков не позволяют составить более или менее полных рекомендаций для исследователя по выбору последних. В качестве причин можно назвать два обстоятельства. Во-первых, работы названных авторов охватывают далеко не все даже самые
6 Little R.J. Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol. 87. No. 420. P. 1227-1237; Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of the Literature // Journal of the American Statistical Association. 1966. Vol. 61.No 315. P. 595-604; Haitovsky Y Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968. Series В (Methodological)! Vol. 30.No. l.P. 67-82; Buck S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer // Journal of the Royal Statistical Society. 1960. Series В (Methodological). Vol. 22.No. 3.P. 302-307; Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // The Empire Journal of Experimental Agriculture. 1933. No.l. P. 129-142; Вапник B.H. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979; Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981.
Chan L.S., Gilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis // Journal of the American Statistical Associatiomo 1996. Vol. 71.No. 356. P. 842-844; Rubin D.B., Schenker N Multiple Imputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse // Journal of the American Statistical Association. 1986.Vol. 81. No. 394.P. 366-374.
7
распространённые в социологии методы анализа данных. Во-вторых, в известных попытках сравнить эффективность разных алгоритмов заполнения пропусков не учитывается количество пропусков, имеющихся в данных.
Проблема исследования заключается в (1) отсутствии описания социологических ситуаций, в которых для ликвидации пропусков в данных допустимо их искусственное заполнение и (2) недостаточности наработок в области сравнительного анализа эффективности отдельных алгоритмов заполнения пропусков в зависимости от характеристик исследовательской ситуации.
Цель исследования — определить, в каких случаях допустимо искусственное заполнение пропусков в социологических данных, и экспериментально сравнить эффективность отдельных алгоритмов заполнения пропусков в зависимости от характеристик исследовательской ситуации: количества (доли) имеющихся пропусков и используемого метода анализа данных.
Объект исследования - алгоритмы заполнения пропусков в данных.
Предмет исследования - эффективность отдельных алгоритмов заполнения пропусков при использовании различных методов многомерного анализа данных с учетом количества пропусков.
В соответствии с целью необходимо решить следующие задачи.
1. Классифицировать основные причины появления отдельных пропусков (неответов респондентов на отдельные вопросы) в данных социологических исследований, выявить и проанализировать связь между этими причинами и степенью случайности пропусков и на основе этой связи установить соответствие между причинами возникновения пропусков и допустимыми способами их ликвидации.
2. Дать систематическое описание основных алгоритмов заполнения пропусков в данных.
3. Расширить типологию алгоритмов заполнения пропусков Р. Литтла, дополнив ее алгоритмами, разработанными позже.
4. Разработать и теоретически обосновать методику экспериментального сравнения эффективности различных алгоритмов заполнения пропусков в данных.
5. Апробировать разработанную методику на «типичных» социологических данных.
Методологические и теоретические основания исследования
В теоретико-методологическом плане ключевое значение для данного исследования, особенно в части планирования и реализации методического эксперимента, имеют наработки Д.Рубина и Р.Литла: (1) введенная ими типология отдельных пропусков по степени случайности (полностью случайные, случайные и неслучайные пропуски), (2) установленное соответствие между типами пропусков и допустимыми способами их корректировки после завершения сбора данных (доказательство применимости методов искусственного заполнения пропусков только для тех случаев, когда последние полностью случайны или случайны). Эти положения были использованы нами при разработке методики эксперимента в качестве обоснования возможности сравнения алгоритмов заполнения пропусков только в ситуации, когда пропуски полностью случайны или случайны. В данной работе мы ограничились сравнением алгоритмов заполнения пропусков на примере полностью случайных пропусков, что существенно сократило объем вычислений и облегчило интерпретацию результатов.
Для планирования методического эксперимента принципиальное значение имеет предложенное Литтлом деление алгоритмов заполнения пропусков на простые и сложные. Сложные алгоритмы, в свою очередь, Литтл разделил на глобальные и локальные. Данная классификация, дополненная 14-ю алгоритмами, описанными в литературе уже после выхода в свет работы Литом, в нашем эксперименте стала основанием для формирования экспериментальной выборки из пяти сравниваемых алгоритмов. Выбор 1-3 алгоритмов из каждой группы позволил сократить количество экспериментально сравниваемых алгоритмов с 19, описанных в диссертации, до пяти.
Информационная база исследования
В качестве эмпирической базы для методического эксперимента были использованы данные проекта «Социальное партнерство и конфликт» (руководитель И.М. Козина), выполненного в рамках программы фундаментальных исследований НИУ ВШЭ в 2010 году. Исходный массив содержал результаты выборочного опроса 935 сотрудников, отобранных на 3-х промышленных предприятиях по двухступенчатой выборке. На первой ступени отбирались структурные подразделения, в которых планировалось проведение опроса, с учетом численности и структуры работников и возможностей доступа. На второй ступени в отобранных подразделениях осуществлялась квотная выборка, рассчитанная пропорционально численности работников по должностным и
9
квалификационным группам на каждом предприятии. Минимальный объем выборки на каждом предприятии составлял 300 работников.
Выбор массива данных определяются тремя основными аргументами. Во-первых, в рамках опроса в основном затрагивались стандартные, не сенситивные темы. Во-вторых, данные собирались с помощью простых по форме анкетных вопросов. В опроснике не использовались сложные для восприятия табличные и графические вопросы, сложные методики задавания вопросов (парные сравнения, семантический дифференциал и так далее). В-третьих, несмотря на упомянутую простоту собранных данных, разнообразие содержательных тем и типов шкал (номинальные, порядковые и интервальные), отраженных в опроснике данного исследования, позволяет сформулировать содержательные задачи, решаемые каждым из рассматриваемых в данной работе методов анализа данных.
Перечисленные аргументы позволяют утверждать, что экспериментальные данные получены на типичных, а не на уникальных социологических данных, и предположить, что аналогичные или похожие результаты могут быть получены при реализации эксперимента по идентичной методике, но на других данных, типичных в том же смысле.
Новизна работы
Научная новизна диссертационного исследования проявляется в том, что автором были получены следующие результаты:
1. На основе рассмотрения корпуса релевантных научных публикаций проанализирована связь между причинами возникновения пропусков в социологических данных и их типами: полностью случайными, случайными и неслучайными пропусками; даны рекомендации по выявлению ситуаций, в которых недопустимо искусственное заполнение пропусков.
2. Впервые дано систематическое описание большинства известных алгоритмов заполнения пропусков в социологических данных.
3. Классическая типология алгоритмов заполнения пропусков Р. Литгла дополнена четырнадцатью новыми алгоритмами, В нее были добавлены алгоритмы ColdDeck, ЕМ, Бартлетта, Resampling, Zet, ZetBraid, предикативный подбор среднего значения, оценивание пропусков методом максимального правдоподобия, оценивание пропущенных значений с помощью метода наименьших квадратов, Байесово заполнение пропусков, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью
нейронных сетей, последовательное заполнение пропусков, вероятностное заполнения пропусков.
4. Разработана и апробирована методика экспериментальной оценки эффективности заполнения пропусков с помощью различных алгоритмов, в зависимости от количества пропусков в данных и метода последующего анализа данных (рассматривались методы анализа данных, чаще всего используемые в социологических исследованиях).
5. Экспериментально установлено, что эффективность заполнения пропусков зависит в некоторых случаях (в частности, при построении регрессионных моделей с фиктивными переменными и расчете мер описательной статистики) не просто от метода анализа данных, но и от характера решаемой социологической задачи.
Основные положения, выносимые на защиту
1. Выбор способа корректировки пропусков в ответах на определенные вопросы (удаление неполных наблюдений, взвешивание имеющихся данных или заполнение пропусков) зависит от причин возникновения пропусков, наличия связи между этими причинами и степенью случайности порождаемых ими пропусков (неответов). Если пропущенные данные могут быть отнесены к полностью случайным (MCAR) или случайным (MAR), возникшие пропуски можно корректировать путем их заполнения или взвешивания выборки. Если же результаты анализа причин говорят о зависимости вероятности пропуска от возможного ответа (неслучайный пропуск, NMAR), то такие отсутствующие значения после сбора данных корректировать методом заполнения или взвешивания выборки недопустимо.
2. Предлагаемая в диссертации система контролируемых параметров сравнения результатов применения ряда методов анализа данных позволяет оценивать устойчивость этих результатов относительно использованного алгоритма заполнения заданного количества пропусков. Эта система состоит из следующих совокупностей параметров, определенных соответственно для перечисленных ниже методов анализа данных:
• для описательной статистики: для номинальных шкал - доля точных подстановок (когда подставленное значение совпадает с истинным), мода и коэффициент качественной вариации; для порядковых шкал - доля точных подстановок, медиана и квартальный размах, для интервальных шкал -среднее арифметическое и дисперсия;
Ii
• для факторного анализа - общий процент объясненной дисперсии и матрица факторных нагрузок;
• для регрессионного анализа с фиктивными переменными - коэффициент детерминации (И. ) и ошибка измерения зависимой переменной;
• для однофакторного дисперсионного анализа - величина Б-критерия и его уровень значимости;
• для критерия «Хи-квадрат» - значение критерия «Хи-квадрат» и его уровень значимости;
• для коэффициентов корреляции Спирмена и Пирсона - значение самого коэффициента корреляции и его уровень значимости.
3. Эффективность алгоритмов заполнения пропусков определяется не только их объективными свойствами, но и различными сочетаниями следующих характеристик исследовательской ситуации, в которой эти алгоритмы используются: долей пропущенных данных, методом анализа, который будет применен к данным после заполнения пропусков, характером решаемой социологической задачи.
4. С помощью разработанной методики эффективность алгоритмов заполнения пропусков может исследоваться применительно к другим, не рассмотренным в диссертации, методам анализа данных, что потребует разработки отдельной системы контролируемых параметров оценки результатов для каждого такого метода.
Апробация результатов
Результаты диссертации докладывались в рамках выступлений автора на:
1. Научно-исследовательском семинаре кафедры методов сбора и анализа социологической информации НИУ ВШЭ для магистров 2-го года обучения программы «Прикладные методы социального анализа рынков» с докладом «Сравнительный анализ алгоритмов заполнения пропусков в данных при использовании методов многомерного статистического анализа»;
2. IV конференции памяти А.О. Крыштановского «Современные проблемы формирования методного арсенала социолога» (Москва, 2010) с докладом «Способы заполнения пропусков в данных массовых социологических опросов»;
3. V конференции памяти А.О. Крыштановского «Социологические методы в современной исследовательской практике» (Москва, 2011) с докладом «Опыт
использования регрессионного моделирования и EM-алгоритма для заполнения пропусков в данных массового социологического опроса»;
4. VI конференции памяти А.О. Крыштановского «Современная социология — современной России» (Москва, 2012). Тема доклада «Экспериментальное сравнение эффективности пяти алгоритмов заполнения пропусков при использовании факторного анализа»;
Похожие диссертационные работы по специальности «Теория, методология и история социологии», 22.00.01 шифр ВАК
Непараметрические модели и алгоритмы управления для многомерных систем с запаздыванием2014 год, кандидат наук Корнеева, Анна Анатольевна
Нейро-нечеткая система поддержки принятия решений при диагностике синдрома эндогенной интоксикации2013 год, кандидат наук Кузнецова, Ольга Юрьевна
Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента2002 год, кандидат технических наук Тарима, Сергей Сергеевич
Методы дискретного математического анализа в исследовании геомагнитных и сейсмических данных2014 год, кандидат наук Зелинский, Никита Ростиславович
Идентификация свойств стохастических информационных потоков: на примере выявления стегосообщений в графических файлах2011 год, кандидат технических наук Колесова, Наталья Александровна
Список литературы диссертационного исследования кандидат наук Зангиева, Ирина Казбековна, 2012 год
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Алгоритм ZetBraid // Информационные интеллектуальные системы. Вып.40 // URL: [http://zetbraid.narod.ru/zetbraid.html]. Проверено 22.03.2012
2. Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. С. 111-118.
3. Бутенко И.А. «Нет ответа». Анализ методической ситуации на страницах журнала «Public Opinion Quarterly» // Социологические исследования. 1986. № 4. С.118-122.
4. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М., Наука, 1979 г., 448 стр.
5. Вапник В.Н. Алгоритмы и программы восстановления зависимостей. М., Наука, 1984. 816 с.
6. Гудков Л.Д. Характеристики респондентов, отказывающихся от контактов с интервьюерами // Экономические и социальные изменения: Мониторинг общественного мнения: Информационный бюллетень. 1996. № 4. С. 39-51.
7. Давыдов A.A., Крыштановский А.О. Ремонт выборки // Социологические исследования. 1989. №5. С.100-105.
8. Докторов Б. 3. О надежности измерения в социологическом исследовании. Л.: Наука, 1979.
9. Докторов Б.З. Повышение возврата анкет при почтовом опросе // Социологические исследования. 1981. №3. С. 54-65.
10.Злоба Е., Яцкив И. Статистические методы восстановления пропущенных данных // Computer Modelling&New Technologies. 2002. №. 6. С.51- 61.
П.Клюшина H.A. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. № 1. С. 17-29.
12.Королев В.Ю. ЕМ - алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М.:2007. 102 стр.
13.Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS.:M. ГУ-ВШЭ, 2006.
14. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981. 162 стр.
15.Литтл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 336 с.
16.Луппов А.Б., Кузин С.С.Технология базового анализа данных. М..МИПК учета и статистики Госкомстата России, 2003.
17.Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. С. 45-61.
18. Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. С. 36-49.
19.Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. №1/2. С. 27-39.
20.Официальный сайт пакета SOLAS//URL:
[http://www.solasmissingdata.eom/software/features#imputation]. Проверено 22.03.2012.
21. Романович H.A. Отказы респондента в зависимости от восприятия им опроса и его методов // Экономические и социальные изменения: Мониторинг общественного мнения: Информационный бюллетень. 1996. № 4. С. 42-49.
22.Романович H.A. Ситуация опроса глазами респондента // Социологические исследования. 1999. №2. С.24-41.
23.Россиев A.A. Моделирование данных при помощи кривых для восстановления пробелов в данных // В кн. "Методы нейроинформатики" / Под ред. А.Н. Горбаня. КГТУ: Красноярск, 1998.
24.Снитюк В.Е., Эволюционный метод восстановления пропусков в данных // URL: [http://www.artint.com.ua/pdf/Russian/evolblanks_rus.pdf]. Проверено 22.03.2012.
25.Татарова Г.Г. Основания математической формализации в социологии: новые представления о старых проблемах // Математическое моделирование социальных процессов. Вып. 10: сб.ст. / Под ред. А.П. Михайлова - М.: КДУб 2009. С.351-362.
26.Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000.-352 с.
27.Хайкин С.Р., Павлов Э.П. Как помочь интервьюеру (из опыта методических исследований) // Социологические исследования. 1992. №4. С.48-64.
28.Чеботарев П.Ю.. О рейтинге журналов и агрегировании неполных балльных оценок // Управление большими системами. Т. 27. С.81-90.
29.Чурилов Н.Н. Труднодоступные единицы исследования - источник систематических ошибок// Социологические исследования. 1986. № 1. С.64-78.
30.Adamek J. Fusion: Combining data from separate sources // Marketing Research: A Magazine of Management and Applications. 1994. Vol.6. No. 3. P.48-56.
31.Aerts M., Claeskens G., Hens N., Molenberghs G. Local Multiple Imputation // Biometrika. 2002. Vol. 89.No. 2. P. 375-388.
32.Afífí A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of the Literature // Journal of the American Statistical Association. 1966. Vol.61. No 315.P.595-604.
33. Allan F.G., Wishart J. A method of estimating the yield of a missing plot in field experiments // Journal of Agricultural Science. 1930. No. 20. P.399-406.
34.Allison P.D. Missing Data // Sage University Papers Series on Quantitative Applications in the Social Sciences. CA.: Sage, 2001. No. 136.
35.Allison. P. D. Multiple Imputation for Missing Data: A Cautionary Tale // Sociological Methods and Research. 2000. No. 28. P. 301-309.
36.Ап Introduction to S-Plus for Windows // URL: [http://www.splusbook.com]. Проверено 22.03.2012.
37.Anderson H. On Nonresponse Bias and Response Probabilities // Scandinavian Journal of Statistics. 1979.Vol. 6. No. 3. P.107-112.
38.Anderson R.L. Missing plot techniques // Biometrics. 1946. No.3. P.41-47.
39.Bang H., Robins J.M. Doubly robust estimation in missing data and causal inference models //Biometrics. 2005. No. 61. P.962-973.
40.Barnard, J., Rubin, D.B., Zanutto, E. Lecture Notes of the Short Course on Multiple Imputution for Missing Data. Utrecht, 1997. P. 20-34.
41.Barnard. J., Meng. X. L. Applications of Multiple Imputation in Medical Studies: From AIDS to NHANES //Statistical Methods in Medical and Research. 1999. N0.8. P.227-244.
42.Bartlett M.S. Some examples of statistical methods of research in agriculture and applied botany // Journal of Agricultural Science .1937. No. 4. P.137-170.
146
43.Beale E.M.L., Little R.J. Missing values in multivariate analysis //J . Roy. Stat. Soc. Series. 1975. No.37. P.129-145.
44.Biekart B., Schmittlein D. The distribution of survey contact and participation in the United States: Constructing a survey-based estimate // Journal Of Marketing Research. 1999. Vol.36. No.2. P.286-294.
45.Biewen M. Item non-response and inequality measurement: Evidence from the German earnings distribution // Allgemeines Statistisches Archiv. 2001. No.85. P. 409-425.
46.Blackwell M., Honaker J., King G. Multiple Overimputation: A Unified Approach to Measurement Error and Missing Data. New York, 2010.P.251-274.
47.Bradburn N. M. Presidential address. A Response to the Nonresponse Problem // Public Opinion Quarterly. 1992.Vol. 56. No.3. P.392.
48.Buck S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer // Journal of the Royal Statistical Society. 1960. Series B (Methodological). Vol. 22. No. 3. P.302-307.
49.Cheng Q. Maximum Standardized Cumulant Deconvolution of Non-Gaussian Linear Processes // The Annals of statistics. 1990. No.18. P.1745-1783.
50.Cohen J., Cohen P. Applied Multiple Regression / Correlation Analysis for the Behavioral Sciences. NJ: Lawrence Erlbaum Hillside, 1983. 2nd ed. P.281-289.
51. Combo R. A model for diagnosing and reducing nonresponse bias // Journal of Advertising Research. 2000. No.4.P. 85-93.
52. Cook R.J., Zeng L., Yi G.Y. Marginal Analysis of Incomplete Longitudinal Binary Data: A Cautionary Note on LOCF Imputation // Biometrics. 2004. Vol. 60. No. 3. P. 820-828.
53.Cook. R. D. Detection of Influential Observation in Linear Regression // Technometrics. 1977. No.19. P. 15-18.
54.Coons I. The Analysis of Covariance as a Missing Plot Technique.// Biometrics. 1957. No. 13. Special Issue on the Analysis of Covariance. P.3 87-405.
55.Couper M.P. Survey Introductions and Data Quality // Public Opinion Quarterly. 1997. Vol. 61. No 2. p.330-342.
56.Cooper M.P., Groves R. Nonresponse in Household Interview Surveys . New York: Wiley, 1998.
57.Curtin R., Presser S., Singer E. The Effects of Response Rate Changes on the Index of Consumer Sentiment // Public Opinion Quarterly. 2000. Vol. 64. No. 1. P. 76-90.
58.Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002.P. 7-25.
59.De Heer W.. International response Trends: Results of an International Survey // Journal of Official Statistics. 1999. Vol. 15. No. 2. P. 131-132.
öO.D.de Leeuw E., Hox J., Huisman M. Prevention and Treatment of Item Nonresponse // Journal of Official Statistics. 2003. Vol. 19. No.2. P. 155-156.
öl.Delyon B., Lavielle M. and Moulines E. Convergence of a stochastic approximation version of the EM algorithm // The Annals of Statistics. 1999. No. 27. P. 94-128.
62.Dempster A. P., Laird N. M., Rubin D. B. Maximum Likelihood from Incomplete Data via the EM Algorithm // Journal of the Royal Statistical Society. 1997. Series B (Methodological). Vol. 39. No. 1. P.l-38.
63.Dillman D. A. Mail and Telephone Surveys: The Total Design Method. New York: John Wiley and Sons, 1978.
64.Efron, B. Bootstrap Methods: Another Look at the Jackknife // The Annals of Statistics. 1979. No.7. P.l-26.
65.Enders C.K. The performance of the full information maximum likelihood estimator in multiple regression models with missing data // Educational and Psychological Measurement. 2001. No. 61. P. 713-740.
66.Esser H. Determinanten des Interviewer-und Befragtenverhaltens: Probleme der theoretischenErklarung und empirischenUndersuchung von Interviewreffekten // Allgemeine Bevolkerungsumfrage der Sozialwissenschaften. Frankfurt, 1984. pp.314-336.
67.Esser H. KonnenBefragtelugen? ZumKonzept des wahrenWertesimRahmen der handlungstheoretixchenErklarung von Situationseinflussenbei der Befragung// KolnerZeitschrift fur Sociologie und Sozialpsychologie. 1986. No.38. P.314-336.
68.Evans M. SAS Manual For Introduction to the Practice of Statistics, 2002 // URL: [http://www.utstat.utoronto.ca/mikevans/manuals/evanssasman.pdfl.npoBepeHo 22.03.2012
69.Fay R.E. Alternative Paradigms for the Analysis of Imputed Survey Data // Journal of the American Statistical Association. 1996. No. 91. P.490-498.
70.Ferber R. Item Nonresponse in a Consumer Survey // Public Opinion Quarterly. 1966. Vol. 30.No.3. P. 399-415.
71.Freedman V., Wolf D. A Case Study on the Use of Multiple Imputation // Demography. 1995.Vol.32. No.3. P.459-470.
72.Geweke J. Bayesian Inference in Econometric Models Using Monte Carlo Integration // Econometrika. 1989. No. 57. P.1317-1339.
73.Gorman R.P., Sejnowski T.J. Analysis of hidden units in a layered network trained to classify sonar targets // Neural Networks. 1975. No. 1. P.75-89.
74.Gupta A., Lam M.S. Estimating Missing Values Using Neural Networks // The Journal of the Operational Research Society. 1996. No. 47. P. 229-238.
75.Haitovsky Y. Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968.Series В (Methodological). Vol. 30.No. 1. P. 67-82.
76.Hansen B.B. Full Matching in an Observational Study of Coaching for the SATFull Matching in an Observational Study of Coaching for the SAT // Journal of the American Statistical Association. 2004.Vol. 99. No. 467. P. 609-618.
77.НШ D., WillisR.J. Reducing Panel Attrition: A Search for Effective Policy Instruments // Journal of Human Resources 2001. Vol. 36. No.3. P. 416-438.
78.Hoaglin, D. C., Welsch, R. E. The Hat Matrix in Regression and ANOVA // The American Statistician. 1978. No. 32. P. 17-22.
79.Honaker J., King G. What to do About Missing Values in Time Series Cross-Section Data //American Journal of Political Science. 2010. Vol. 54. No. 2. P. 561-581.
80.Honaker J., King G, Blackwell M. AMELIA II: A Program for Missing Data Version 1.5-5, 201 l//URL:[http://cran.r-project.org /web/packages/Amelia/vignettes/ amelia.pdf]. Проверено 22.03.2012
81.Horton N. J., Lipsitz S.R. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables// The American Statistician. 2001. Vol. 55.No. 3. P. 244-254.
82.Hox J.J., De Leeuw E.D. A comparison of nonresponse in mail, telephone, and face-to-face surveys. Applying multilevel modeling to meta-analysis // Quality & Quantity. 1994. p.329.
83.Ibrahim,J. G. Incomplete Data in Generalized Linear Models //Journal of American Statistical Association. 1990.No. 85. 1990. P.765-769.
84.1neke A.L.S. The Hunt for the Last Respondent. Nonresponse in sample surveys. Hague: Social and Cultural Planning Office of the Netherlands, 2005. P. 18-3 5.
85.IVEware: Imputation and Variance Estimation Software // URL:[http:// www.isr.umich.edu/src /smp/ive]. Проверено 22.03.2012
86.Kalton, G., Kasprzyk, D. The treatment of missing survey data // SurveyMethodology.1986. No. 12. P. 1-16.
87.Kim J.K., Park H. Imputation Using Response Probability// The Canadian Journal of Statistics. 2006. No. 34. P. 171-182.
88.King G., Honaker J., Joseph A., Scheve K. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation // American Political Science Review. 2001. Vol. 95.No. l.P. 49-69.
89.K-Nearest Neighbors Introductory Overview// URL:
[http://www.documentation.statsoft.com/STATISTICAHelp.aspx?path=MachineLearning/ MachineLearning/Overviews/KNearestNeighborsIntroductoryOverview], Проверено 22.03.2012.
90.Kong A., Liu J. S., Wong W. H. Sequential Imputations and Bayesian Missing Data Problems// Journal of the American Statistical Association. 1994. No. 89. P.278-288.
91.Kott P. A note on Handling Nonresponse in Sample Surveys // Journal of the American Statistical Association. 1994. Vol. 89. No. 420. P.693-696.
92. Liang F., Mukherjee S,West M. The Use of Unlabeled Data in Predictive Modeling // Statistical Science. 2007.Vol. 22. No. 2. P. 189-205.
93.Lillard L.J., Smith J.P.,Welch F. What do we really know about wages? The Importance of Nonreporting and Census Imputation //Journal of Political Economy. 1986. Vol. 94. No.3. P.489-506.
94.Link M.W., Mokdad A. Advance Letters As a Means of Improving Respondent Cooperation In random Digit Dial Studies: A Multistate Experiment // Public Opinion Quarterly. 2005.Vol. 69. No.4. P.579-593.
95.Lipsitz S. R,Lue Ping Zhao, Molenberghs G. A. Semiparametric Method of Multiple Imputation // Journal of the Royal Statistical Society. 1998. Series В (Statistical Methodology).Vol. 60.No. l.P. 127-144.
96.Little R.J. A. Missing-data adjustments in large surveys // Journal of Business and Economic Statistics. 1978. Vol.6. No.3.P. 287-296;
97.Little R.J.A. Survey Nonresponse Adjustments for Estimates of Means // International Statistical Review / Revue Internationale de Statistique.1986. Vol. 54. No. 2. P.139-157.
98.Little R. J. A. A test of missing completely at random for multivariate data with missing values// Journal of the American Statistical Association. 1988. No.83. P. 1198-1212.
99.Little R.J. A.Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol.87. No. 420. P.1227-1237.
100. Liu J.S., Chen R. Blind Deconvolution via Sequential Imputation // Journal of the American Statistical Association. 1995. No. 90. P. 567-576.
101. Loosveldt, G., Pickery J.,Biiliet J. Item non-response as a predictor of unit non-response in a panel survey // International Conference on Survey Non-response. Portland Oregon, 1999. P.213-229.
102. MD Imputation. Statistica Help // URL: [http://www. documentation.statsoft.com/STATISTICAHelp.aspx?path=Spreadsheets/Spreadsheet/Dialo gs/MDImputations]. Проверено 22.03.2012.
103. Meeden G.A Decision Theoretic Approach to Imputation in Finite Population Sampling. // Journal of the American Statistical Association. 2000. No. 95. P. 586-595.
104. Nelder, J. A. A note on missing plot values // Biometrics. 1954. No. 10. P.388-401.
105. Nicoletti C., Peracchi F. The Effects of Income Imputation on Microanalyses: Evidence from the European Community Household Panel // Journal of the Royal Statistical Society.2006. Series A (Statistics in Society).Vol. 169. No. 3. P. 625-646.
106. Norton H. W. A further note on missing data // Biometrics. 1995. No.l 1. P. 106-119.
107. Nusser S.M., Cariquirry A.L., Dodd K.W., Fuller W.A. A Semiparametric Transformaton Approach to Estimating Usual Intake Distributions // Journal of the American Statistical Association. 1996. No. 9l.P. 1440-1449.
108. Paxon C.M. Increasing survey responses rates: Practical instructions from the totaldesign method // Cornell Hotel and Restaurant Administration Quarterly. 1995. Vol.36. No. 4. P. 66-73.
109. Platek R. Causes of Incomple Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980. No.6. P.93-132.
110. Rao N. K., Shao J. Jackknife variance estimation with survey data under hot deck imputation // Biometrika. 1992. No. 79. P. 811-822.
111. Rao N. K. On Variance Estimation With Imputed Survey Data // Journal of the American Statistical Association. 1996. Vol. 91.No. 43. p. 499-506.
112. Riphahn R.T., Serfling O. Item Non-Response on Income and Wealth Questions/IZA Discusion Paper No.573. September 2002 // URL: [http://www.ssrn.com/abstract_id=331467]. Проверено 22.03.2012
113. Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64-69.
114. Rubin D. B. A Non-Iterative Algorithm for Least Squares Estimation of Missing Values in Any Analysis of Variance Design // Applied Statistics. 1972. Vol. 21. No. 2. P. 136-141.
115. Rubin D.B. Statistical Matching and File Concentration With Adjusted Weights and Multiple Imputations // Journal of Business and Economic Statistics. 1986. Vol.4. No.l. P.87-94.
116. Rubin, D.B. Multiple imputation after 18+ years // Journal of the American Statistical Association. 1996. No. 91. P. 473-489.
117. Sande I. Imputation in Surveys: Coping with Reality // The American Statistical 1982. Vol.36. No.3. P. 145-152.
118. Schafer J.L., Schenker N. Inference with Imputed Conditional Means // Journal of the American Statistical Association. 2000.Vol. 95.No. 449. P. 144-154.
119. Schafer, J. L. Multiple Imputation: A Primer // Statistical Methods in Medical Research. 1999. Vol. 8. P. 3-15.
120. Schimert J., Schafer J.L., Hesterberg Т., Fraley С., Clarkson D.B. Analyzing Data with Missing Values in S-PLUS. Insightfull Corporation, Seatle, WA. 2001 // URL: [http://www.msi.co.jp/splus/support/download/missing.pdf]. Проверено 22.03.2012
121. Schrapler J.P. Respondent Behavoir in Pannel Studies. A Case Study of the German Socio-Economic Panel (GSOEP) //DIW Discusión Paper . 2001. No.244. P.257-269.
122. Schulte Nordholt E. Imputation: Methods, Simulation Experiments and Practical Examples // International Statistical Review / Revue Internationale de Statistique. 1998. Vol. 66.No. 2. P. 157-180.
123. Seife С. Census Case Tests Statistical Method // Science. 2002. Vol. 295, No. 56.P. 783.
124. Shao J., Wang H. Sample Correlation Coefficients Based on Survey Data under Regression Imputation // Journal of the American Statistical Association. 2002. Vol. 97.No. 458. P. 544-552.
125. Sicinski A. Don't Know Answers in Cross-National Surveys // Public Opinion Quarterly. 1970. Vol. 34. No. 1. P. 126-134.
126. Simonoff J.S. Regression Diagnostics to Detect Nonrandom Missingness in Linear Regression // Technometrics. 1988. Vol. 30.No. 2. P.201-211.
127. Singer E., Hoewyk J.V., Mäher M.P. Does the Payment of Incentives Create Expectation Effects? //Public Opinion Quarterly. 1998. Vol.62. No.2. P.156-169.
128. Smith H. F. Missing plot estimates // Biometrics. 1957.No.l. P.315-328.
129. SOLAS Main Features & Graphics // URL: [http://www.solasmissingdata.eom/sofltware/features#imputation]. Проверено 22.03.2013
130. SOLAS-Systems-Manual // URL: [http://ww.solasmissingdata.com/wp-content/uploads/2011/05/SOLAS-Systems-Manual.pdf]. Проверено 22.0.2013
131. SOLAS-User-Reference-Manual // URL: [http: // www.solasmissingdata.com/wp-content/uploads/2011/05/SOLAS-User-Reference-Manual.pdf]. Проверено 22.03.2012
132. Sousa-Poza A., Henneberger F. Wage data collected by telephone interviews: an empirical analysis of the item nonresponse problem and its implications for the estimation of wage functions // Schweizerische Zeitschrift fur Volkswirtschaft und Statistik. 2000. Vol.136. No. 1. P.79-98.
133. SPSS MissingValueAnalysis 12.0 // Заполнение пропущенных значений для повышения информативности данных и построения адекватных моделей // URL: [http://www.spss.ru/products/missing_value/mval2.pdfl.npOBepeHO 22.03.2012.
134. SPSS MissingValueAnalysis 16.0 SPSS Inc. 2008, 123 стр. // URL: [http://www.helsinki.fi/~komulain/Tilastokirjat/ IBM-SPSS-Missing-Values.pdf]. Проверено 22.03.2012
135. Titterington D. M., Sedransk J. Matching and Linear Regression Adjustment in Imputation and Observational Studies // Sankhya: The Indian Journal of Statistics. 1986. Series B. Vol. 48. No. 3. P. 347-367.
136. Vriens M., Melton E. Managing missing data // Journal Of Marketing Research. 2002.Vol.14. No.3. P.12-17.
137. Wagner K., Wedel M. Factor Analysis and Missing Data // Journal of Marketing Research. 2000. No.l 1. P. 490-498.
138. Wagner K., Wedel M. Statistical Data Fusion for Cross - Tabulation // Journal of Marketing Research. 1997. No.l 1. P. 485-497.
139. Willmack D.K., Schuman H., Pennel В., Lepkowski J.M. Effects of a prepaid nonmonetary incentive on response rates and response quality in a face-to-face survey // Public Opinion Quality. 1995.Vol. 59. No.l. P.86-103.
140. Wu C. F. On the convergence properties of the EM-algorithm // The Annals of Statistics. 1983. Vol. 11. No. 1. P. 95-103;
141. Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // The Empire Journal of Experimental Agriculture. 1933. No. 1. P. 129-142.
142. Zhang P. Multiple Imputation: Theory and Method // International Statistical Review / Revue Internationale de Statistique. 2003. Vol. 71. No.3. P. 581-593.
143. Zweimuller J. Survey non-response and biases in wage regressions // Economics Letters. 1992.No.39. P. 105-109.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.