Разработка методологического подхода к сравнению факторов выбытия студентов из вузов в России и США тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Горбунова Елена Васильевна

  • Горбунова Елена Васильевна
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 142
Горбунова Елена Васильевна. Разработка методологического подхода к сравнению факторов выбытия студентов из вузов в России и США: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2024. 142 с.

Оглавление диссертации кандидат наук Горбунова Елена Васильевна

Цели и задачи исследования

Теоретические основания исследования

Развитие методов совмещения данных с разными периодичностями

Теории выбытия студентов из вуза. Концепция «академического импульса»

Гипотезы исследования

Методы сбора и анализа данных

Эмпирическая база исследования

Методы анализа данных

Изложение результатов исследования

Разработка методик совмещения данных с разными периодичностями

Результаты апробации модели сведения «академического импульса» в рамках сравнительного анализа факторов выбытия студентов в американских и российских вузах

Основные результаты исследования (положения, выносимые на защиту)

Ограничения работы

Заключение

Библиография

Приложение

Приложение

Приложение 3 - Статья «Выбытия студентов из вузов: исследования в России и США»

Приложение 4 - Статья «Дискретные модели анализа наступления событий: разработка подходов к совмещению данных, имеющих разную периодичность»

Приложение 5 - Статья «Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля»

Приложение 6 - Статья «Academic Momentum and Undergraduate Student Attrition: Comparative Analysis in US and Russian Universities»

Основные результаты диссертационного исследования представлены в следующих публикациях:

1. Kondratjeva O., Gorbunova E., Hawley J. D. Academic Momentum and Undergraduate Student Attrition: Comparative Analysis in US and Russian Universities // Comparative Education Review. 2017. No. 3. P

Кондратьева О., Горбунова Е., Холи Д. Академический импульс и выбытие студентов с программ бакалавриата: сравнительный анализ американских и российских вузов // Обзор сравнительных исследований в образовании. 2017. № 3. С

2. Горбунова Е. В., Ульянов В. В. Дискретные модели анализа наступления событий: разработка подходов к совмещению данных, имеющих разную периодичность // Социология: методология, методы, математическое моделирование. 2016. № 43. С

3. Горбунова Е. В., Ульянов В. В., Фурманов К. К. Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля // Прикладная эконометрика. 2017. Т. 45. С

4. Горбунова Е. В. Выбытия студентов из вузов: исследования в России и США // Вопросы образования. 2018. №1. С

Избранные научные конференции, на которых были представлены результаты диссертации:

• XIII Международная российская конференция исследователей высшего образования «Новые образовательные результаты для благополучия и успеха» (Москва, 2022). Доклад: «Совмещение данных с разной периодичностью рубежного контроля при анализе факторов отчисления студентов»

• 31th CHER conference (Consortium of Higher Education Researchers) «Differentiation and Integration in Higher Education: Patterns and Dynamics» (Москва, 2018). Доклад: «Exploring factors of undergraduate student departure in Russian and the U.S. universities».

• 8-я Международная научно-практическая конференция студентов и аспирантов «Статистические методы анализа экономики и общества» (Москва, 2017). Доклад: «Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля».

• VIII Московская международная конференция исследователей высшего образования (Москва, 2017). Доклад: «Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля».

• 7-я Международная научно-практическая конференция студентов и аспирантов «Статистические методы анализа экономики и общества» (Москва, 2016). Доклад: «Сравнение подходов к совмещению данных с разной периодичностью в анализе наступления событий».

• VII Московская международная конференция исследователей высшего образования «Современный университет между глобальными вызовами и локальными задачами» (Москва, 2016). Доклад: «Исследование факторов преждевременного отсева студентов в университетах России и США»

• XVI Апрельская международная научная конференция «Модернизация экономики и общества» (Москва, 2015). Доклад: «Изучение факторов выбытия студентов экономических и инженерных специальностей в российских и американских вузах».

• Comparative and International Education Society (CIES) conference «Ubuntu! Imagining a humanist education globally» (Washington, DC, 2015). Доклад: «Exploring factors of undergraduate student departure in Economics and Engineering discipline in U.S. and Russian universities».

• IV International Conference of the Russian Association of Higher Education Researchers (Москва, 2013). Доклад: «Comparative Analysis of Undergraduate Student Attrition in US and Russian Universities».

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка методологического подхода к сравнению факторов выбытия студентов из вузов в России и США»

Введение (постановка проблемы, степень разработанности проблемы)

При проведении сравнительных социальных исследований перед исследователем встает ряд вопросов, касающихся выбора объектов для анализа, теоретической рамки, операционализации концептов исследования, подбора релевантных данных и т.д. Одной из важных методологических задач является обеспечение сопоставимости данных и возможности проведения их совместного анализа. Нередко встречается ситуация, когда данные по сравниваемым объектам, будь это индивиды, институты или страны, заносятся в разных форматах, что создает трудности при их анализе.

Так и в настоящем исследовании, посвященном анализу факторов выбытия студентов из вузов в России и США, возникла проблема совмещения данных, занесенных в систему в разных форматах. Предметом проводимого эмпирического анализа были факторы выбытия студентов, и зависимой переменной выступал как факт, так и время выбытия. В вузах США различались периоды, в которых фиксировалось отчисление студентов. В части вузов это были семестры (продолжительность одного семестра — 4,5 месяца), а в части — триместры (продолжительность одного триместра равняется примерно трём месяцам). Поскольку предпосылкой для применения анализа наступлений событий (далее — АНС), используемого в данной работе, является единая размерность временной шкалы [Allison, 1984], возникла необходимость разработки способа, который позволял бы совместить разные периодичности в одной модели. Дополнительным параметром данной задачи было включение в модель динамических ковариат (time-varying covariates). Насколько известно авторам, данная проблема ранее не решалась в рамках анализа дискретных процессов наступления событий.

Разработка методик совмещения данных с разными периодичностями в АНС на примере сравнительного анализа данных о выбытии студентов вузов России и США стала центральным звеном данной работы. Важными результатами работы стали апробация теоретической рамки ««академического импульса» к сравнительному исследованию выбытия студентов и получение выводов о факторах, влияющих на их отчисление. Данная теория впервые была применена к российским данным, а также в рамках сравнительного исследования выбытия студентов из вузов.

Стоит отметить, что предмет эмпирического анализа — изучение факторов выбытия студентов — представляет особый интерес в сфере исследований студенчества и управления университетом [Braxton и др., 2013; Manyanga, Sithole, Hanson, 2017]. С одной стороны, отсев студентов из вуза имеет ряд негативных экономических и социальных последствий для студентов, государства, домохозяйств [Tinto, 1987; Pascarella, Terenzini, 1991; DesJardins, Ahlburg, McCall, 1999; Kehm, Larsen, Sommersel, 2019]. С другой стороны, он является важным механизмом контроля качества обучения студентов, без которого образование не будет выполнять функцию социального лифта [Груздев, Горбунова, Фрумин, 2013]. В ряде случаев отчисление не равноценно выбытию студента из системы образования, а связано с переходом в другой вуз, на другую специальность. Также выбытие из вуза может быть промежуточной остановкой, после которой студент возвращается в систему образования и доходит до получения диплома. Однако зачастую в процессе отсеивания вуз теряет студентов не по причине низкого уровня их подготовки или осознанного отказа от получения конкретного образования, а в силу трудностей, возникающих на этапе адаптации студентов к образовательной среде, социальному

окружению, взаимодействию с преподавателями, а также недостаточной степени развития инструментов помощи студентам в таких ситуациях.

Сегодня для российских вузов становится актуальным изучение того, как можно сохранить контингент студентов без снижения качества образовательного процесса. Вместе с тем немногочисленные работы в данном исследовательском поле не позволяют получить полноценной картины о масштабе выбытия и факторах, влияющих на отчисление студентов. Кроме того, они имеют слабую теоретико-методологическую базу [Горбунова, 2018]. Становится важным получить ответ на вопросы, касающиеся универсальных факторов, которые влияют на выбытие студентов, а также специфических факторов в отношении отдельных групп студентов, типов вузов, территориальных единиц. Известно, что по сравнению с другими странами уровень отсева студентов в российских вузах является не самым высоким [OECD, 2010], однако нет исследований, в которых бы изучались особенности протекания процесса отсева студентов и его факторов в российских вузах и их отличие от аналогичных процессов в других странах. Получить ответы на эти вопросы возможно с помощью проведения международных и межинституциональных сравнительных исследований.

Сравнительные исследования дают возможность изучить то, как интересующий нас феномен объясняется действием глобальных и национальных трендов, локальных факторов, связанных с культурно-историческим развитием страны [Marginson, Rhoades, 2002]. В качестве объекта для сравнения в высшем образовании нередко используются англосаксонские страны, такие как США и Англия, которые рассматриваются в качестве «золотого стандарта» образовательной системы [Kosmützky, Nokkala, 2014]. В данном исследовании для сравнения с Россией была выбрала страна, в которой изучение выбытия студентов из вузов получило наибольшее развитие (исследования выбытия из американских вузов проводились с 1930-х гг. [Горбунова, 2018]), а разработка мер по снижению отсева является важной задачей политики вузов. К тому же, несмотря на существующие культурные различия и различия в степени предоставляемых студентам свобод и в требованиях к успеваемости [Кузьминов, Юдкевич, 2007], образовательные системы России и США являются массовыми и имеют много общего в историческом и институциональном развитии. Более того, по мере глобализации высшего образования учебный процесс в университетах обеих стран также становится похожим (введение адаптационных курсов в нескольких российских вузах, переход на систему бакалавриат-магистратура, индивидуализация учебного плана).

Цели и задачи исследования

Целью настоящего исследования является разработка методологии совмещения данных о выбытии студентов с разными периодичностями в рамках дискретных моделей анализа наступления событий с динамическими ковариатами и их апробация на данных о выбытии студентов из российских и американских вузов.

Объект исследования (методологический) — методики совмещения данных с разными периодичностями в рамках дискретных моделей анализа наступления событий с динамическими ковариатами.

Объект исследования (эмпирический) — студенты вузов России и США.

Предмет исследования — возможности и ограничения методик совмещения данных с разными периодичностями в моделях анализа наступления событий на примере изучения факторов выбытия студентов из вузов в России и США.

Задачи нашего исследования состояли в следующем:

1) предложить теоретическую модель для анализа факторов выбытия студентов в американских и российских вузах, учитывающую особенности национальных образовательных систем;

2) разработать методики совмещения данных с разной периодичностью в рамках дискретных моделей анализа наступления событий с динамическими ковариатами;

3) исследовать возможности и ограничения предложенных методик совмещения данных с разной периодичностью в рамках моделей анализа наступления событий с динамическими ковариатами на примере анализа факторов выбытия студентов в российских и американских вузах и создать рекомендации по их применению;

4) апробировать теоретическую модель «академического импульса» в рамках сравнительного анализа факторов выбытия студентов в американских и российских вузах, описать факторы выбытия студентов в российских и американских вузах в результате апробации предложенной теоретической модели.

Разработка методик совмещения разных периодичностей в дискретных моделях анализа наступления событий с динамическими ковариатами является методологической новизной нашей работы. Решение данной задачи является актуальным, учитывая рост использования административных данных в изучении опыта студентов в университете, а также рост использования нереактивных данных в социологических исследованиях [Сапонова, Куликов, 2021].

Разработанные методики могут быть применимы к широкому кругу социологических задач, связанных с изучением поведения индивидов на рынке труда (изучение факторов выхода в статус безработного или занятого, смены работы) [Денисова, 2017; Синявская, Червякова, Горват, 2022], факторов рождаемости, смертности, поведения в сфере образования, миграционной активности и т.д. [Denisova, 2010; Tyndik, Biryukova, 2015; Артамонова, Митрофанова, 2016; Митрофанова, 2020]. В этих исследованиях часто применяются методы АНС, и переменная времени наступления события является ключевой. Однако в данные, которые используются для анализа, эта переменная может заноситься неточно. Индивиды могут не помнить конкретную дату события (например, выхода на работу или наступления беременности) и указывать ее в более низкой частотности — месяц или время года. В таком случае исследователь сталкивается с тем, что по одной и той же переменной данные занесены в разных шкалах. И перед ним встает задача учесть эту разницу при проведении анализа. Он может либо свести данные к единой периодичности (например, интерполировать к датам и рассматривать процесс как непрерывный, или агрегировать до более низкой периодичности и рассматривать процесс как дискретный), либо использовать методы, которые не требует приведения к единой периодичности и успешно справляются с анализом данных с разными периодичностями. Приведем несколько примеров таких исследований. Одно из них — Российский мониторинг

экономического положения и здоровья населения1, в котором участники исследования по-разному указывают своего дату рождения: как точную дату, либо месяц и год, либо только год. Другие — социологические исследования «Человек, семья, общество»2 (например, переменная даты рождения детей указана в периодичности как точная дата, либо месяц и год), «Родители и дети, мужчины и женщины в семье и обществе»3 (например, дата начала проживания в населенном пункте указана в периодичности время года, либо конкретный месяц). В этих и других социологических исследованиях и данных возникает необходимость наиболее эффективного совмещения разных периодичностей в АНС, и разработка соответствующей методики является актуальной.

Таким образом, настоящее исследование вносит вклад в развитие методик совмещения данных с разными периодичностями в рамках анализа дискретных процессов наступления событий, методологии проведения сравнительных исследований, теоретической рамки «академического импульса» и изучение факторов, которые влияют на выбытие студентов из университетов в России и США.

Теоретические основания исследования

В данном разделе мы опишем как историю развития методологии совмещения данных с разными периодичностями, так и теорию «академического импульса», которая использовалась в качестве теоретической рамки сравнительного исследования выбытия студентов из российских и американских вузов.

Развитие методов совмещения данных с разными периодичностями

Фокусом нашего исследования является переменная, фиксирующая временной параметр какого-либо явления. Время может быть зафиксировано как непрерывная величина (с точностью до дня, минуты, секунды) и как дискретная (с точностью до определенного интервала наблюдения). Нередко встречается ситуация, когда временные данные фиксируются в дискретных величинах с разной единицей измерения. В одном случае шкала измерения для одной и той же переменной одинаковая, однако шкалы измерений различаются для разных переменных, входящих в модель. Часто такая ситуация встречается в исследованиях ВВП, когда часть переменных фиксируется раз в квартал, другие — ежемесячно или ежедневно. В другом случае встречаются ситуации, когда одна и та же переменная зафиксирована с разной периодичностью. Один из таких примеров — совмещение данных по переменной, фиксирующей факт отчисления студентов в вузах США, в которых в части вузов это событие фиксировалось в семестрах, в других — в триместрах [Chiang, 2012].

В эконометрических исследованиях при построении моделей с помощью анализа временных рядов на основе данных с разной периодичностью исследователи чаще всего применяют процедуру агрегирования данных с приведением к среднему значению [ Foroni, Marcellino, 2013]. Встречаются и более сложные методы, такие как модели в пространстве

1 https://www.hse.ru/rlms/ (дата обращения: 7.06.2024).

2https://social.ranepa.ru/tsentry-i-instituty/institut-sotsialnogo-analiza-i-prognozirovaniya/issledovaniya/86-chelovek-semya-obshchestvo-2017 (дата обращения: 7.06.2024).

3 https://www.hse.ru/org/hse/4432173/mathbase/databases/db 11 (дата обращения: 7.06.2024).

состояний (State-space models) [Evans, 2005], модели временных рядов со смешанными частотами (Mixed data sampling) [Ghysels, 2006], разночастотная векторная авторегрессия (Mixed frequency vector autoregressive models) [Ghysels, 2016] и др.

В анализе наступления событий, который рассматривается в данном диссертационном исследовании, явление, когда время фиксируется не непрерывно, а в определенных интервалах (месяц, семестр, год и т.д.), обозначается как интервальное цензурирование [Allison, 1984]. Одним из основных условий применения моделей АНС является единая размерность входящих в анализ временных параметров. В ситуации работы с дискретными данными, содержащими информацию о времени наступления события, когда существует не просто интервальное цензурирование, а длина интервалов по разным наблюдениям неодинаковая, либо интервалы пересекаются, возникает проблема совмещения данных. Эта проблема может решаться с помощью вменения пропущенных данных, когда пропущенному параметру приписывается определенное значение. Чаще всего используется приведение данных к среднему значению, однако эта процедура также не лишена недостатков, например, смещение оценок параметров при больших интервалах, недооценка стандартных ошибок [Kim, 2003; Law, Brookmeyer, 1992]. Иногда используется процедура агрегирования данных до более низкой частотности. Так в работе [Chiang, 2012] совмещались данные по зависимой переменной — время отчисления студентов — по вузам с триместровой и семестровой системами обучения, и использовался метод агрегирования данных до более низкой частотности, в частности, до годовых интервалов.

Согласно результатам нашего анализа, в литературе не выделяется отдельного направления исследований, фокусирующихся на совмещении данных с разными периодичностями в АНС. Причин для этого может быть несколько. С одной стороны, модели АНС чаще формулируются в непрерывном времени. С другой стороны, нечасто встречается ситуация, когда процесс является дискретным по существу (как в случае отчисления студентов, которое, как правило, привязано к периоду сессии или к началу нового периода обучения). Наконец, для использования моделей АНС до сих пор преимущественно использовались данные, в которых не возникало проблемы разной периодичности (использование опросных данных или нереактивных данных, собранных по единому дизайну).

Вместе с тем сегодня отмечается рост использования нереактивных данных, «цифровых следов», больших данных, в частности, в сфере изучения высшего образования, когда данные собираются из нескольких университетов с разной периодичностью в течение учебного года, поэтому развитие данного методологического направления видится перспективным.

Теории выбытия студентов из вуза. Концепция «академического импульса»

Изучение методов совмещения данных с разными периодичностями происходило на примере сравнительного исследования факторов выбытия студентов из вузов России и США. Для проведения эмпирического анализа была выбрана теория «академического импульса. В данном разделе будет сделан краткий экскурс в эту и другие теории выбытия студентов, а также приведено обоснование выбора именно этой теоретической рамки.

Стоит отметить, что история изучения выбытия студентов насчитывает уже более 80 лет. На сегодняшний день основные теории выбытия были разработаны в областях экономики, социологии, психологии, организационной науки [Habley, Bloom, Robbins, 2012].

В социологических теориях основными факторами выбытия студента являются социальные структуры и силы, в частности окружение студента в вузе, семейный статус, процесс социализации, поддержка значимых других. Одними из основных концепций в данной области являются теория Й. Бергера (опирающаяся на концепт культурного капитала) [Berger, 2000], культурная теория Г. Ку и П. Лава [Kuh, Love, 2000], теория интеграции В. Тинто [Tinto, 1975; 1993].

Более внимательно рассмотрим концепцию интеграции [Tinto, 1975], которая занимает практически парадигмальный статус в области исследований выбытия студентов из вузов. Эта теоретическая рамка была предложена В. Тинто в 1975 г., а в дальнейшем была доработана самим автором и другими исследователями. Рассматривая университет как социальную систему с ценностной и социальной структурой, Тинто отмечал, что основными факторами выбытия студента являются недостаточная интеграция в социальную и академическую системы. Процесс взаимодействия индивида с академической и социальной системами университета является ключевым в данной теории. Он влияет на изменение целей и институциональных обязательств индивида, что в итоге ведет к выбытию из вуза.

Стоит отметить, что данная теория фокусируется на выбытии студентов из системы высшего образования (а не вуза), и в качестве зависимой переменной рассматривается решение о выбытии. Учитывая эти факторы, теория интеграции не подходит для целей сравнительного анализа настоящей работы, поскольку выбытие в российских вузах в большинстве случаев является вынужденным, а не добровольным (чаще всего превалирует причина «по академической неуспеваемости»). Помимо этого, данные, которые используются для анализа, не позволяют проследить, остался ли студент после выбытия в системе высшего образования (перешел в другой вуз) или нет.

Психологические концепции выбытия учитывают характеристики и процессы как на индивидуальном уровне, так и на уровне среды. Среди наиболее важных факторов данного исследовательского поля выделяются вера в собственные силы, устойчивость к стрессу, эффективность, внутренний" локус контроля [Bean, Eaton, 2001], мотивация студентов [Deci, Ryan, 1991] и др. [Demetriou, Schmitz- Sciborski, 2011].

Что касается экономического подхода, то в основном выбытие в нем рассматривается в рамках теории человеческого капитала [Becker, 1964]. Выбытие происходит, когда студент решает, что издержки от его обучения в конкретном учебном заведении начинают превышать выгоды. Среди издержек - плата за обучение, потенциальный" доход, который" студент мог получить от работы в период обучения, к выгодам — будущая оплата труда, получение дополнительных навыков, знаний, уровень удовлетворенности жизнью.

Стоит отметить, что важным фактором выбора теоретической рамки были особенности используемых данных. В частности, анализ базировался на административных данных вузов, в которых не содержалось информации об особенностях интеграции студентов, психологических характеристиках, удовлетворенности жизнью, оценке приобретаемых навыков.

В рамках сравнительного исследования факторов выбытия в российских и американских вузах была использована теория «академического импульса» (academic momentum), разработанная К. Адельманом [Adelman, 1999; 2006] и П. Аттвеллом [Attewell, Heil, Reisel, 2012]. Данная концептуальная рамка фокусирует внимание на характеристиках образовательного процесса и хорошо подходит для анализа административных данных.

Впервые концепция «академического импульса» (academic momentum) была предложена К. Адельманом в работах 1999 и 2006 гг. [Adelman, 1999; 2006]. На данных национального лонгитюдного исследования образования (National Education Longitudinal Study) К. Адельман установил, что студенты, продвигающиеся в обучении с более высокой «скоростью», с высокой вероятностью успешно заканчивают обучение по сравнению со студентами, которые двигаются медленно или прерывают обучение. Для обозначения этой скорости обучения К. Адельман ввел концепт «академический импульс» и рассматривал в исследовании такие показатели данного концепта, как интенсивность обучения в старших классах школы, перерыв между окончанием школы и поступлением в вуз, успеваемость в первый год обучения в вузе, изменения успеваемости в университете, включение студентом в учебный план адаптационных курсов, трудовая занятость во время обучения в вузе, отсутствие перерывов в обучении в вузе, изучение учебных курсов в летний период [Adelman, 1999; 2006]. Исследования Адельмана носят индуктивный характер и скорее рассматривают корреляционные связи, вводят концепт академического импульса, но не предлагают теоретических основ рассмотрения данного явления.

В работе Аттвелла и коллег была продолжена работа над данным концептом, добавлена рефлексия по поводу использования уже предложенных ранее Адельманом индикаторов «академического импульса» и озвучены некоторые теоретические основания [Attewell, Heil, Reisel, 2012]. Аттвелл и коллеги предложили рассматривать только часть индикаторов, характеризующих усилия студента в университете, а именно перерыв между окончанием школы и обучением в вузе, интенсивность учебной нагрузки в первом семестре обучения в вузе, а также наличие у студента курсов в летнем периоде после первого года обучения.

С точки зрения развития теории «академического импульса», в данной работе было описано несколько механизмов того, как данный концепт может быть связан с выбытием студентов. Во-первых, более высокая учебная нагрузка в первом периоде обучения в вузе обеспечивает более высокую степень интеграции студента в жизнь университета. Согласно доминирующей в данном исследовательском поле теории интеграции В. Тинто, чем выше студент интегрирован в жизнь вуза, тем в большей степени он разделяет ценности университета, и, соответственно, тем ниже вероятность принятия им решения о выбытии [Tinto, 1975]. Другой механизм — объяснение того, как более высокая учебная нагрузка повышает навык самоэффективности студента и его самооценку и таким образом связана с успешным окончанием вуза. Данный механизм уже был описан в работах [Bandura, 1997; 2001; Zimmerman, 2000]. И третий набор механизмов — это жизненные обстоятельства, которые препятствуют большой учебной нагрузке студента (недостаточность финансовой помощи, семейные обязанности, наличие оплачиваемой работы). Исходя из результатов проведенных ранее исследований, эти факторы имеют значимую связь с выбытием студента [Braxton, 2000; Kuh, Kinzie, Schuh, 2010; Seidman, 2005; Tinto, 1993].

На сегодняшний день теория «академического импульса» была апробирована на американских данных [Adelman, 1999; 2006; Attewell, Heil, Reisel, 2012; Attewell, Jang, 2013; Douglas, Attewell, 2014; Wang и др., 2015; Wang, 2015; Davidson, Blankenship, 2017; Zhang, 2019], а также данных по вузам Австралии [Martin и др., 2013]. Эти исследования подтвердили основные положения данной теории, хотя результаты по влиянию отдельных индикаторов различаются.

Российское поле исследований отсева студентов находится на стадии формирования, вместе с тем поле изучаемых тем разнообразно. Анализируется масштаб выбытия в разных вузах и на различных направлениях подготовки [Руткевич, 2002; Колотова, 2011; Смык и др., 2019], влияние факторов на выбытие студентов [Валеева, Докука, Юдкевич, 2007; Горбунова, 2013 ; Кочергина, Прахов, 2016; Осипова, Колодезная, Шевцов, 2018], рассматриваются факторы выбытия отдельных групп студентов (например, инженерных направлений подготовки [Шмелева, Фрумин, 2020; Малошонок, Щеглова, 2020]), анализируется дискурс о причинах отчисления среди преподавателей вузов [Терентьев, Груздев, Горбунова, 2015], предлагаются прогностические модели отсева [Русаков, Русакова, Посохина, 2018; Жариков и др., 2020; Гафаров, Руднева, Шарифов, 2023], изучаются причины отсева студентов из аспирантуры [Бекова, 2020], связь результатов ЕГЭ и отсева студентов [Польдин, 2011; Замков, Пересецкий, 2013; Хавенсон, Соловьева, 2014; Тимофеева, 2016].

В целом стоит отметить, что в отечественной научной литературе не велось теоретических разработок моделей выбытия студентов. Большинство опубликованных работ являются эмпирическими и не опираются на теоретическую рамку (за исключением работ [Горбунова, 2013; Кочергина, Прахов, 2016; Шмелева, Фрумин, 2020], которые опираются на теорию интеграции Тинто).

Теория «академического импульса» была выбрана для проведения сравнительного анализа выбытия студентов США и России по нескольким причинам. Стоит отметить, что эти страны представляют собой разные образовательные системы в отношении санкций за академическую неуспеваемость, роли внеучебной деятельности в университете, свобод в определении своей образовательной траектории. Так, в американской системе студент принимает решение об уходе из вуза чаще всего самостоятельно, тогда как в российских вузах подавляющее большинство случаев отчисления носят принудительный характер [Донец, 2011]. Теория «академического импульса» фокусирует внимание на характеристиках образовательного процесса и усердии студента в обучении, которые тесно связаны с академической успеваемостью. Также в рамках данной теории в качестве основной зависимой переменной рассматривается сам факт выбытия студента, а не его решение об уходе из вуза. Помимо этого, данная рамка может быть применима в условиях ограничений данных по вузам в России (в частности, нет репрезентативных опросов, подходящих для изучения факторов отчисления; единственными доступными для исследователей данными в настоящее время являются административные записи по отдельным вузам, где содержится информация о зачислении студентов и истории их обучения в вузе). Наконец, фокус данной теоретической рамки на характеристиках учебного процесса позволяет сосредоточить внимание вуза на факторах, которые он может регулировать (успеваемость, нагрузка студентов), что важно для формирования образовательной политики, направленной на удержание студентов.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Горбунова Елена Васильевна, 2024 год

ЛИТЕРАТУРА

1. Allison P.D. Discrctc-timc Methods for the Analysis of Event Histories // Sociological Methodology. 1982. No. 13. P. 61-99.

2. Box-Steffensmeier J.M., Bradford S.J. Event History Modeling: A guide for Social Scientists. Cambridge Univ. Press, 2004.

3. Chiang S.-C. Applying Event History Analysis to Investigate the Impacts of Developmental Education on Emerging Adults' Degree Completion. Ph.D. dissertation, Ohio State University, 2012.

4. Evans M.D.D. Where are we now? Real-time Estimates of the Macroeconomy // International Journal of Central Banking. 2005. Vol. 1(6). P. 127-175.

5. Foroni C., MarceUino M.G. A Survey of Econometric Methods for Mixed-Frequency Data. 2013. Norges Bank Research Working Paper 2013-06.

6. Ghysels E., Santa-Clara P., Valkanov R. Predicting Volatility: Getting the Most Out of Return Data Sampled at Different Frequencies // Journal of Econometrics. 2006. Vol. 131. No. 1. P. 59-95.

7. Ghysels E. Macroeconomics and the Reality of Mixed Frequency Data // Journal of Econometrics. 2016. Vol. 193. No. 2. P. 294-314.

8. GioloS.R., Colosimo E.A., Demetrio C.G.B. Different Approaches for Modeling Grouped Survival Data: A Mango Tree Study // Journal of Agricultural, Biological, and Environmental Statistics. 2009. Vol. 14. No. 2. P. 154.

9. Jiang R.. JardineA.K.S. Composite Scale Modeling in the Presence ofCensored Data // Reliability Engineering & System Safety. 2006. Vol. 91. No. 7. P. 756-764.

10. Kim J.S. Maximum Likelihood Estimation for the Proportional Hazards Model with Partly Interval-censored Data // Journal of the Royal Statistical Society: Series В (Statistical Methodology). 2003. Vol. 65. No. 2. P. 489-502.

11. Law C. G., Brookmeyer R. Effects of Mid-point Imputation on the Analysis of Doubly Censored Data//Statistics in Medicine. 1992. Vol. 11. No. 12. P. 1569-1578.

12. Millimet D.L., McDonough l.K. Dynamic Panel Data Models With Irregular Spacing: With an Application to Early Childhood Development // Journal of Applied Econometrics. 2017. Vol. 32. No. 4. P. 725-740.

13. Singer J.D., Willett J. B. Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. New York: Oxford University Press, 2003.

14. Wohlrabe K. Forecasting with Mixed-frequency Time Series Models. Ph.D. dissertation, University Munich, 2009.

15. Zhou X. Economic Transformation and Income Inequality in Urban China: Evidence from Panel Data // American Journal of Sociology. 2000. Vol. 105. No. 4. P. 1135-1174.

16. Горбунова E.B., Ульянов В.В., Фурманов К. К. Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля // Прикладная эконометрика. 2017. Т. 45. С. 116-135.

17. Кокс Д., Оукс Д. Анализ данных типа времени жизни. М.: Финансы и статистика, 1988.

18. Ратникова Т.А., Фурманов К.К. Анализ панельных данных и данных о длительности состояний. М.: НИУ ВШЭ, 2014.

Gorbunova Elena

National Research University Higher School of Economics (NRU HSE), Moscow, evgorbunova@hse.ru

Ulyanov Vladimir

National Research University Higher School of Economics (NRU HSE), Moscow, vulyanov@hse.ru

Discrete-time methods of event history analysis: developing approaches to combining mixed-frequency data

The problem of combining mixed-frequency data is found in various disciplinary areas: astronomy, economics, medicine, sociology. This article is devoted to this problem on the example of studying the factors of student expulsion from American universities. In this study the task was to combine trimester and semester data describing the student education trajectory. Three methods of solving this problem were proposed: aggregation up to a year, interpolation to an interval of one and a half months, reduction of the semester system to a trimester system using the probability distribution of occurrence of events. These approaches are of a general nature and allow applications to the tasks of combining other data types. Key words: event history analysis, survival data analysis, combining mixed-frequency data, student expulsion

References

1. Allison P.D. "Discrete-time methods for the analysis of event histories", Sociological Methodology, 1982, 13,61-99.

2. Box-Steffensmeier J.M.. Bradford S.J. Event history modeling: A guide for social scientists. Cambridge Univ. Press, 2004.

3. Chiang S.-C. Applying Event History Analysis to Investigate the Impacts of Developmental Education on Emerging Adults' Degree Completion. Ph.D. dissertation, Ohio State University, 2012.

4. Evans M.D.D. "Where are we now? Real-time estimates of the macroeconomy", International Journal of Central Banking, 2005, 1(6), 127-175.

5. Foroni C., Marcellino M.G. A Survey of Econometric Methods for Mixed-Frequency Data. 2013. Norges Bank Research Working Paper 2013-06.

6. Ghysels E., Santa-Clara P., Valkanov R. "Predicting volatility: getting the most out of return data sampled at different frequencies", Journal of Econometrics, 2006, 131 (1), 59-95.

7. Ghysels E. "Macroeconomics and the reality of mixed frequency data", Journal of Econometrics, 2016, 193 (2), 294-314.

8. Giolo S.R., Colosimo E.A., Demétrio C.G.B. "Different approaches for modeling grouped survival data: A mango tree study", Journal of agricultural, biological, and environmental statistics, 2009, 14 (2), 154.

9. Jiang R., Jardine A. K. S. "Composite scale modeling in the presence of censored data", Reliability Engineering & System Safety, 2006, 91 (7), 756-764.

10. Kim J.S. "Maximum likelihood estimation for the proportional hazards model with partly interval-censored data", Journal of the Royal Statistical Society: Series B (StatisticalMethodology), 2003, 65 (2), 489-502.

11. Law C.G., Brookmeyer R. "Effects of mid-point imputation on the analysis of doubly censored data", Statistics in medicine, 1992, 11 (12), 1569-1578.

12. Millimet D.L., McDonough I.K. "Dynamic Panel Data Models With Irregular Spacing: With an Application to Early Childhood Development", Journal of Applied Econometrics, 2017, 32 (4), 725-740.

13. Singer J.D., Willett J.B. Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. New York: Oxford University Press, 2003.

14. Wohlrabe K. Forecasting with Mixed-frequency Time Series Models. Ph.D. dissertation, University Munich, 2009.

15. Zhou X. "Economic transformation and income inequality in urban China: evidence from panel data", American Journal of Sociology, 2000, 105 (4), 1135-1174.

16. Gorbunova E.V., Ulyanov V.V., Furmanov K.K. "Using data from universities with different structure of academic year to model student attrition" (in Russian), Prikladnaya ekonometrika (AppliedEconometrics), 2017, 45, 116-135.

17. Cox D.R., Oakes D. Analysis of Survival Data (transl., in Russian). M.: Finansy i statistika, 1988.

18. Ratnikova T.A., Furmanov K.K. Analysis of panel data and data on the duration of states (in Russian). M.: HSE, 2014.

Приложение 5

Статья «Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля»

Горбунова Е.В., Ульянов В.В., Фурманов К.К. Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля // Прикладная эконометрика. 2017. Т. 45. №1. С. 116-135.

В статье предлагается подход к учету разной периодичности в рамках анализа наступления событий в дискретном времени с динамическими ковариатами. В частности, рассматриваются три модели наступления событий со стратификацией по типу университета, где тип отражает семестровую или триместровую систему обучения. Приводится пример оцененных моделей выбытия и делаются выводы об их применимости.

Прикладная эконометрика, 2017, т. 45, с. 116-135. Applied Econometrics, 2017, v. 45, pp. 116-135.

E. В. Горбунова, В. В. Ульянов, К. К. Фурманов

Построение модели выбытия студентов по данным университетов с разной периодичностью рубежного контроля

При регрессионном анализе выбытия студентов по данным нескольких университетов исследователь сталкивается с проблемой соединения данных с разной периодичностью отчислений в рамках одной модели. В статье предлагается подход к учету разной периодичности в рамках анализа наступления событий в дискретном времени и приводится пример оцененной модели выбытия.

Ключевые слова: анализ наступления событий; дискретный риск; выбытие студентов. JEL classification: С41; I29.

1. Введение

В данной работе рассматривается проблема, возникшая в ходе изучения факторов выбытия студентов из американских вузов. Эмпирическая задача состояла в построении единой статистической модели с применением анализа наступления событий (далее — АНС) по данным восьми вузов. Однако ее практическая реализация осложнялась тем, что в рассматриваемых университетах различаются периоды, в которые фиксируется интересующее событие. В трех университетах учебный год состоит из трех триместров — осенний, зимний и весенний, тогда как в остальных пяти университетах учебный год состоит из двух семестров — осенний и весенний. Длительность каждого триместра приблизительно равна трем месяцам, тогда как длительность каждого семестра составляет четыре с половиной месяца. Поскольку предпосылкой использования моделей АНС является единая размерность временной шкалы, в которой событие фиксируется для каждого индивида, возникла необходимость разработки способа, позволяющего совместить данные с разной периодичностью. Насколько известно авторам, данная проблема впервые решается в рамках длиза дискретных процессов наступления событий. Отсутствие отечественных и зарубежных разработок по данной теме обусловлено тем, что в большинстве работ, применяющих анализ наступления событий, использовались данные с одинаковой периодичностью.

' Горбунова Елена Васильевна — Национальный исследовательский университет «Высшая школа экономики», Москва; e.gorbunova88@gmail.com.

Ульянов Владимир Васильевич — Национальный исследовательский университет «Высшая школа экономики», Москва; vulyanov@hse.ru.

Фурманов Кирилл Константинович — Национальный исследовательский университет «Высшая школа экономики», Москва; funriach@rbcmail.ru.

Стоит отметить, что методы анализа событий в дискретном времени хорошо разработаны и известны, а объединение данных с разной периодичностью может быть осуществлено в рамках дискретной модели пропорциональных рисков (Prentice, Gloccklcr, 1978) или сс расширенного варианта с учетом ненаблюдаемой разнородности (Meyer, 1990). Однако эта модель выводится из предпосылки о непрерывном процессе, который лишь в наблюдениях дискрегизуегся из-за группировки данных (интервального цензурирования). При анализе процесса отчисления, дискретного по существу, дискретная модель пропорциональных рисков формально применима (и будет рассмотрена в настоящей статье), но ее параметры лишены интерпретации, т.к. относятся к несуществующему непрерывному процессу.

Решение задачи сведения данных с разной периодичностью рубежного контроля представляется актуальным, учитывая высокий потенциал административных данных для исследования образовательных результатов студентов и активное развитие межинституциональных исследований, предполагающих использование информации о нескольких вузах.

Следующий раздел настоящей статьи содержит обзор литературы, посвященной статистическому анализу выбытия студентов. Обзор подготовлен с упором на методологические особенности исследований. В разделе 3 приведено описание данных, используемых далее при построении модели выбытия. Раздел 4 содержит основную часть настоящей работы: описание основных дискретных моделей наступления событий и особенностей их применения к данным разной периодичности. Особое внимание уделяется модели пропорциональных шансов: рассматривается модификация модели для динамических регрессоров без ограничений на вид временной зависимости вместе с техническими особенностями оценивания (параметризация, выбор начальных значений). В разделе 5 приведена эмпирическая часть исследования — пример оценивания модели выбытия студентов, опирающейся на теорию академического импульса (Adelman, 1999). Раздел 6 содержит выводы и рекомендации по применению регрессионных моделей наступления событий для анализа выбытия студентов.

2. Обзор литературы

В этом разделе исследования рассматриваются в методологическом аспекте. Читатель, заинтересованный в содержательной части, может обратиться к краткому обзору (Груздев, 2011) или более обширной статье (Melguizo, 2011).

Методологическая база исследований факторов выбытия студентов весьма широка. Во многих работах используются дескриптивные методы анализа и простые регрессионные модели (Adelman, 1999, 2006; Knight, 1994; Knight, Arnold, 2000; Lam, 1999). Распространено и моделирование структурными уравнениями (так называемый путевой анализ — path analysis) для проверки валидности априорных теоретических моделей (Bean, 1980; Cabrera et al., 1992; Braxton ct al., 2000). Однако использование перечисленных методов не позволяет проанализировать временной аспект изучаемого феномена, а именно, зависимость выбытия от времени, а также изменение значений регрессоров. В то же время большинство исследователей признавало, что выбытие студентов из вуза является динамическим процессом.

С 1990-х годов для изучения факторов выбытия студентов из вуза начинают применяться методы анализа наступления событий, позволяющие включить в анализ временной аспект (Willett, Singer, 1991). Поскольку история обучения студента фиксируется в дискретных

единицах (семестры, четверти, годы), широкое распространение получили дискретные модели АНС. В работе (DesJardins et al., 1999) была предложена спецификация дискретной модели АНС на основе модели пропорциональных рисков с ненаблюдаемой разнородностью и динамическими коэффициентами. С этого времени использование методов АНС для изучения факторов выбытия студентов становится популярным, поскольку эти модели являются удобными в применении и в наибольшей степени подходящими для анализа панельных данных, которые описывают историю обучения студентов. В дальнейшем модели АНС усложняются, в частности, они применяются в сочетании с многоуровневыми моделями (Bahr, 2009; Chen, 2012), структурными уравнениями (Voelkle, Sander, 2008).

В современных работах по анализу выбытия студентов, помимо моделей АНС, встречаются и другие современные методы анализа данных, в частности, квазиэкспериментальные методы (Melguizo et al., 2011; Agasisti, Murtinu, 2016; Hawley, Chiang 2016), многоуровневое моделирование (Lamote et al., 2013), а также интеллектуальные методы: нейронные сети (Chaplot et al., 2015), деревья решений и случайные леса (Chai, Gibson, 2015). Помимо количественных методов анализа данных, также используются качественные и смешанные методы.

В отечественной научной литературе статистический анализ выбытия представлен мало. Исследования (Чудиновских и др., 2004) и (Донец, 2011) опираются на описательный анализ, в том числе методами АНС (оценки функций дожития). В работе (Кологова, 2011), помимо дескриптивной статистики и сравнения средних, используется регрессия Кокса, в статье (Горбунова, 2013) — структурные уравнения. Во всех этих случаях не стояла проблема сопоставления данных с различной периодичностью рубежного контроля, т. к. выборка составлялась по данным одного вуза.

Среди работ, опирающихся на количественный анализ факторов выбытия из вуза, используются как опросные, так и административные данные. В то время как использование опросных данных позволяет существенно расширить набор изучаемых факторов и представить более полную концептуальную модель, их недостатком является существенное сужение исследуемой совокупности, а также смещения в результатах, вызванные как ошибками выборки, так и ошибками измерения (например, относительно успеваемости студента или времени его выбытия). Использование административных данных позволяет минимизировать ошибки измерения rio важным для анализа признакам, а также исследовать полную совокупность студентов, однако существенно ограничивает набор изучаемых факторов. Встречаются статьи, в которых используются только опросные данные (например (Braxton et al., 2000)), в ряде работ используются только административные данные (DesJardins et al., 1999; Ishitani, 2003). Есть исследования, в которых совмещаются опросные и административные данные в пределах одного вуза (Cabrera et al., 1992) или данные национальных обследований (Ishitani, 2006).

В работах, использующих для анализа времени выбытия административные данные по нескольким вузам, не возникало проблемы совмещения разной периодичности учебного года, поскольку выбытие либо изначально фиксировалось в годовых интервалах (например (Chen, 2012)), либо совокупность изучаемых вузов имела одинаковую периодичность учебного года. Так, в статье (Bahr, 2009) использовались данные по 109 колледжам Калифорнии, но во всех из них история обучения фиксировалась в семестрах. Тем не менее, в одной из работ совокупность изучаемых вузов имела разную периодичность учебного года — семестры и триместры (Chiang, 2012). В этом исследовании на этапе анализа данных записи об истории обучения были приведены к годовым интервалам.

Приведение к годовым интервалам представляется простым и разумным методом реше- § ния задачи, когда анализируемый период продолжителен — в работе (Chiang, 2012) он со- g ставлял 8 лет. При этом, однако, происходит потеря потенциально полезной информации и возникает проблема с учетом изменчивости объясняющих переменных, которые могли :>< принимать разные значения на протяжении года. Настоящее исследование опирается на дан- ^ ные с периодом менее трех лет, что делает агрегацию до года особенно нежелательной. g

В работе (Горбунова, 2016) рассматриваются три варианта решения проблемы совмеще- ¡s ния данных об истории обучения студентов в семестровой и триместровой периодичности: ^ агрегирование до года, интерполяция до интервала в полтора месяца, сведение семестровой ni системы к триместровой с использованием распределений вероятностей наступления собы- о тий. Процедура агрегирования является наиболее удобной и интуитивно понятной, однако ^ приводит к потере информации. Два других подхода позволяют сохранить детальность рассматриваемых признаков, но имеют свои ограничения. Во-первых, данные с измененной пе- щ риодичностью являются условными, не соответствующими в точности описываемому объ- щ екту, которому навязывается несвойственная ему временная шкала, а во-вторых, остается проблема учета динамических объясняющих переменных.

Основная идея настоящей статьи состоит в том, что вместо приведения данных к единой периодичности перед оцениванием единой статистической модели целесообразно саму модель разрабатывать с учетом этой особенности данных.

3. Данные

Эмпирическая часть работы опирается на административные данные по восьми вузам одного из американских штатов, содержащие информацию о поступлении студентов в вуз, их демографических характеристиках, получении финансовой помощи, учебном плане, академических успехах, траекториях обучения и т. д. Университеты отбирались по следующим признакам: являются государственными, имеют селективную систему отбора (характеризуются наличием конкурса для поступления), не являются филиалом вуза, предоставляют образовательные услуги по освоению программ бакалавриата. Анализ проводится по студентам, поступившим на четырехлетние программы обучения в бакалавриате в 2007 году на «полный день», что составляет 25 339 человек. Выборку составляют студенты «традиционного типа», т. е. в возрасте от 18 до 24 лет, зачисленные на очную форму обучения, обучающиеся в университете впервые.

Анализируется выбытие студентов за период, равный двум учебным годам и осеннему периоду третьего года обучения. Особенностью исследуемого массива данных является то, что в нем отсутствуют данные о точном времени выбытия студента из вуза. Зависимая переменная — выбытие из вуза — конструируется на основе сведений о том, обучался ли студент в конкретном учебном периоде в данном вузе. Студент считается выбывшим из вуза, если он прервал свое обучение в данном вузе на срок более года (непрерывно). Время выбытия определяется как последний учебный период, после которого студент прекратил обучение.

Выбор регрессоров осуществлялся, в первую очередь, согласно теории академического импульса, разработанной К. Адельманом в работах (Adelman, 1999, 2006). «Академический импульс» определялся им как накопление студентом академических ресурсов и «скорость» освоения программы в старших классах школы и во время обучения в университете, особенно на первых курсах.

Опираясь на теорию «академического импульса», эмпирическая часть настоящего исследования изучает связь с выбытием студента из вуза следующих характеристик:

• отсутствие перерыва между окончанием школы и поступлением в вуз;

• отсутствие адаптационных курсов в учебном плане студента на первый период обучения в вузе (осенний семестр или триместр первого года обучения);

• объявление студентом своей специальности в первый период обучения;

• более высокое количество накопленных «кредитов» за первый период обучения (показатель отражает более высокую интенсивность обучения);

• высокий средний балл (ОРА) за первый период обучения в вузе.

Кроме того, при оценивании учитываются контрольные переменные: получение студентом финансовой помощи, пол, этничиость, возраст на момент поступления и др. Описательная статистика приведена в Приложении 1.

4. Методология

4.1. Основные понятия

Время отчисления («время жизни») студента описывается дискретной случайной величиной 7", принимающей значения tl,...,tp на интервале, соответствующем периоду обучения в вузе. Значение принимается в случае, когда студент был отчислен в первом периоде обучения, значение t — в случае, когда студент отчисляется в последнем периоде р . Значительная часть студентов доживает до выпуска из учебного заведения, так что Р(Г < tp) < 1.

Распределение времени жизни, как правило, задается с помощью функции дожития (survivor function) или функции риска (hazard function). Функция дожития отражает вероятность того, что студент будет отчислен позднее некоторого срока С

S(t) = P(T>t).

Как и в случае с функцией распределения, есть две традиции: задавать функцию дожития через строгое ( Т > t) и через нестрогое ( Г >t) неравенство. Здесь используется первый способ — исключительно для удобства.

Функция риска дискретной случайной величины отражает вероятность отчисления в момент t для студента, который не был отчислен ранее:

h(t) = P(T = t\T>t).

Обе функции однозначно задают закон распределения, так что модель времени отчисления может быть выражена с помощью любой из них. В дальнейшем будет использовано следующее выражение, связывающее функцию риска с функцией дожития:

h(t.)=-J—=—Щ-^=1--'—. (1)

7 P(7->/,) S(tt_x) S(tM)

Для всех значений аргумента, не входящих в множество возможных значений Г, риск равен нулю, поэтому далее функция риска рассматривается только в точках tx,...,t .

4.2. Регрессионные модели длительности с logit- и doglog-связками

Стандартный способ учета регрессоров при анализе событий в дискретном времени состоит в построении модели, сводимой к одной из распространенных моделей бинарного выбора — чаще всего для этого используются cloglog- и logit-связки (cloglog and logit link functions — см. (Jenkins, 1995)). Модель с cloglog-евязкой, далее — модель CL:

h(t.;x,/3,a) = 1 -ехр(-ехр (дг'/8 + .;«))).

Здесь х — вектор регрессоров, /3 — вектор коэффициентов при этих регрессорах, g(t;a) — функция, отражающая временную зависимость (duration dependence — связь вероятности прекращения состояния с продолжительностью t пребывания в нем), а — вектор параметров этой функции.

Модель с logit-связкой (далее — LL):

h(t,;x,B,a) -у -= ехр + g(f,;«)).

1 -h(tj\x,ß,a)

Cloglog-связка удобна в тех случаях, когда дискретность времени жизни есть следствие группировки, агрегации первичных данных, а на самом деле время непрерывно, но фиксируется наблюдателем с точностью до принадлежности какому-либо интервалу. В такой ситуации можно предположить, что распределение ненаблюдаемого непрерывного времени описывается моделью пропорциональных рисков (Сох, 1972) с тем же вектором коэффициентов ß, что и в модели cloglog, описывающей наблюдаемые дискретные данные (Prentice, Gloeckler, 1978).

Предпосылка о существовании непрерывной величины, стоящей за фиксируемыми в данных длительностями, очень удобна. Во-первых, коэффициенты модели приобретают интерпретацию — их потенцированные значения соответствуют отношениям риска (hazard ratios) в непрерывной модели. Во-вторых, решается проблема разной частотности. Различия в наблюдаемых длительностях связаны не с процессом, порождающим непрерывные величины, а со сбором информации. Используя специальную терминологию, можно сказать, что они вызваны особенностями цензурирования данных. Методы анализа данных с разными видами цензурирования хорошо известны и описаны в (Klein, Moeschberger, 2005).

Однако применительно к студентам предпосылка о непрерывности процесса нежелательна. Хотя отчисления могут происходить в любое время, большинство из них связано с рубежным контролем, поэтому разумнее моделировать процесс как дискретный по существу. К сожалению, это лишает коэффициенты cloglog-модели интерпретации и возвращает к проблеме сопоставления данных с разной частотностью.

Модель LL предпочтительнее с той точки зрения, что се коэффициенты интерпретируются независимо от существования или несуществования непрерывного времени отчисления. Потенцированные коэффициенты модели с logit-связкой отражают отношения шансов2 (odds ratios) отчисления: увеличение переменной x¡ на единицу соответствует увеличению

2 Шансы (odds) события — отношение вероятности того, что событие наступит, к вероятности того, что оно не наступит. Например, шансы отчисления в периоде / при условии дожития до этого периода равны А(0/(1-А(/)).

шансов отчисления в течение периода наблюдения в ехр(Д) раз при неизменных значениях остальных регрессоров. К сожалению, привязка к периоду наблюдения имеет нежелательное следствие: коэффициенты в моделях, оцененных по данным разной частотности, оказываются несопоставимыми. Одно и то же отношение шансов отчисления в течение года соответствует разным отношениям шансов отчисления в отдельный период обучения для семестровых и триместровых университетов. И наоборот, одно и то же значение коэффициента модели IX приводит к разным отношениям шансов отчисления за год для разных университетов. Для иллюстрации приведем пример.

Пример несопоставимости коэффициентов в модели с l()git-cвязкoй. Предположим, что процесс отчисления студентов описывается схемой Бернулли: риск выбытия одинаков во всех периодах обучения /?(г) = И . Рассмотрим университет, в котором учебный год поделен на семестры, так что вероятность выбытия в течение года р связана с вероятностью выбытия в отдельном семестре И соотношением р — И + ( 1 — /?)/? — либо отчисление происходит в первом семестре (вероятность этого равна /г), либо в первом семестре студент остается, а во втором выбывает (вероятность (1 — /?)/?). То же соотношение можно записать

иначе: /г = 1 — — р . Здесь (1 — р) —вероятность «пережить» учебный год, а V — р —

вероятность не быть отчисленным в течение семестра.

Пусть в университете обучаются две группы студентов: А и В. Среди группы А вероятность выбытия в течение года составляет 0.05, а среди группы В — 0.15. Риск выбытия

за один семестр в первой группе равен 1 — VI — 0.05 = 0.025, а во второй 1 — VI —0.15 = 0.078. Логарифм шансов выбытия за семестр в группе А равен

1п (0.025 / (1 - 0.025)) = -3.650 ,

в группе В:

1п (0.078 / (1 - 0.078)) = -2.469 . Логарифм отношения шансов:

-2.469-(-3.650) = 1.181.

Получаем выражение для риска выбытия с помощью ^И-связки:

/г/(1 - И) = схр(—3.650 + 1.181-5),

где В — индикатор принадлежности к группе В.

Теперь представим, что группы с теми же вероятностями выбытия в течение года обучаются в университете с обучением по триместрам. Риск выбытия в течение триместра связан

с вероятностью выбытия за год соотношением /? = 1 — ф — р , так что вероятности выбытия

за один период теперь будут равны 1 - VI-0.05 = 0.017 в группе А и 1 - VI -0.15 = 0.053

в группе В. Проведя те же вычисления, что и в предыдущем абзаце, получаем логарифм шансов выбытия за триместр в группе А, равный -4.060, и логарифм отношения шансов 1.172, так что риск выбытия описывается моделью А/(1 — И) = ехр(—4.060 + 1.172-5). То есть при одинаковой зависимости вероятности отчисления за год от индикатора В величина коэффициентов меняется — это значит, что оценки, полученные по данным разной периодичности, несопоставимы. Можно показать, что модель СЬ лишена этого недостатка.

Ее коэффициенты, кроме свободного члена, определяют характеристики непрерывного процесса и не связаны с периодичностью наблюдений.

На самом деле, если вероятности отчисления невелики, как обычно и бывает, то расхождение в коэффициентах logit при регрессорах пренебрежимо мало (в рассмотренном примере коэффициенты равны 1.181 и 1.172), а свободный член часто не представляет интереса для исследования, так что logit-связку можно считать практически применимой. Тем не менее, можно предложить модель, лишенную этого недостатка и имеющую преимущество с точки зрения интерпретации параметров.

4.3. Модель пропорциональных шансов

Эта модель (proportional odds model, далее — модель PO (McCullagh, 1980; Bennett, 1983)) опирается на предположение, что объясняющие переменные пропорционально связаны с шансами отчисления студента на временном отрезке любой длины:

1 -S(t;x,ß,a) . ...

————— = e\p(x'ß + g(t;a)). (2)

S(t;x,ß,a)

Отсюда выводится выражение для функции дожития:

S(t;x,ß,a)= '

1+ехр (x'ß + g(t;a))'

Функция g(t;a) задает логарифм опорных шансов (baseline odds) — шансов отчисления в случае равенства нулю всех регрессоров. Как и в рассмотренных ранее моделях, эта функция определяет характер временной зависимости, но в данной модели на нее накладывается ограничение: g(t;a) должна быть неубывающей по t, в противном случае убывающей окажется функция дожития, что невозможно. Обычно модель пропорциональных шансов рассматривается в непрерывном времени, но выражение (2) может задавать и дискретную модель — в этом случае функция g(l',a) будет кусочно-постоянной по I. Интерпретация коэффициентов такова: увеличение переменной xi на единицу соответствует увеличению шансов отчисления в схр(/?,.) раз при неизменных значениях остальных регрессоров. При этом период, в течение которого происходит либо не происходит отчисление, может быть любым — модель предполагает, что отношение шансов одинаково и для отчисления в первом семестре (триместре), и для отчисления за весь период обучения. В отличие от модели с logit-связкой, модель (2) опирается не на шансы отчисления в отдельный период времени h(t)/( 1 — h(t)), а на шансы отчисления вплоть до времени t, равные (1 — S(t))/S(t).

В случае неизменных во времени регрессорах коэффициенты ß можно оценить, не накладывая ограничений на опорные шансы. При дискретном времени отчисления модель (2) — это обычная порядковая logit-регрессия. Чтобы позволить объясняющим переменным изменяться во времени, получим выражение для функции риска, опираясь на формулу (1):

S(t-x,ß,a) l + exp(.v '/3+ g(i._,;«))

h(t,;x,ß,a) = 1--:--— = 1------, /> 1; (3)

S(tM;x,ß,a) 1 + схр(x'ß + g(tr,a)) ' J

и. а bit , \ 1 CY, ч exp(jr'/S + g(/,;g))

h(tl;x,ß,a) = P(T = ti) = l-S(t[) = —--—-. (4)

l+expU'/i + g^;«))

В это выражение можно подставлять свой набор объясняющих переменных для каждого момента времени, в то время как подставлять их сразу в функцию дожития некорректно, потому что вероятность дожития до некоторого времени зависит от значений переменных в разные моменты.

Так как число возможных моментов отчисления конечно и невелико по сравнению с числом наблюдений, можно не накладывать ограничений на функцию g(t;a), задавая ее следующим образом:

Благодаря такой спецификации вектор параметров а = (g^,92,...,в ) может принимать любые значения, при этом функция будет оставаться неубывающей (по /)• Единственное накладываемое при этом ограничение — опорные шансы должны расти в каждый из моментов , т. к. ехр(0,) > 0. Это означает, что вероятность отчисления в каждом периоде не равна нулю. В промежутках между возможными значениями /._, и /. функция g постоянна. Как видно из выражения для функции риска, для идентифицируемости параметра gl линейная комбинация ковариат х'/З не должна содержать свободный член, либо свободный член можно оставить, а значение зафиксировать (естественно, положить g1 = 0).

Векторы параметров /? и а = ^,в2,...,в ) можно оценить методом максимального правдоподобия. Задачу максимизации можно упростить, выбрав «хорошие» начальные условия. Так как значение функции риска в первый момент задается обычной ^И-моделыо, можно получить предварительную оценку вектора /3 из 1о§Ц-регрессии, в которой объясняемая переменная — индикатор отчисления студента в первом периоде, при этом данные остальных периодов не используются. Полученная оценка свободного члена будет служить начальным значением для gl.

Основным преимуществом использования модели РО является интерпретация параметров, не привязанная к периодичности.

Основная идея, предлагаемая в настоящей статье, заключается в том, что принадлежность студентов к университетам с разной схемой обучения может быть учтена с помощью задания функции g(t',a) отдельно для семестровых и для триместровых университетов по аналогии со стратифицированной моделью Кокса (см., например, (Ata, Sózer, 2007)). Во всех рассмотренных моделях время учитывается только в указанной функции, поэтому параметры, отвечающие за связь риска с объясняющими переменными, можно считать непривязанными к периодичности рубежного контроля, если пренебречь проблемой несопоставимости коэффициентов модели LL, рассмотренной в п. 4.2.

Для удобства обозначения будем считать длительностью обучения число прошедших периодов: tj = j . Таким образом, максимальное время обучения в университетах с разной периодичностью будет отличаться, а сопоставление моментов отчисления студентов будет требовать поправки, но на модели это никак не скажется, так как функции временной зависимости будут различными для университетов разных типов.

4.4. Объединение данных с разной периодичностью

Пусть уи — индикатор отчисления студента /' в период обучения / (уи — 1, если студент был отчислен, 0 иначе), хи — вектор объясняющих переменных, характеристик студента и университета, trimi — индикатор периодичности (trimi = 1, если студент / обучается в университете с триместровой системой, trim, — 0, если обучение разбито на семестры), semj = 1 — trim-.

В моделях LL и CL будем учитывать временную зависимость с помощью фиктивных переменных. Пусть z'"m — вектор индикаторов временных периодов для университетов с обучением по триместрам, zs™ — для «семестровых» университетов. Модель с logit-связкой имеет следующий вид:

р(У„ =')

= схр(хп' ß + z'""'trim'у + zs;msem'ö).

Р(У„=0)

Модель с doglog-связкой:

р(уи = 1) = 1 -ехр(-ехр(х,'/3 + Zytrim,'у + z]""sem'ö)).

(5)

(6)

В обоих случаях /3, у и <3 — векторы оцениваемых коэффициентов, причем /3 не включает свободный член — он учитывается отдельно для разных типов университетов в векторах/ и д.

Таким образом, при объединении данных с разной периодичностью предполагается, что коэффициенты при объясняющих переменных одинаковы, а временная зависимость может полностью различаться для двух типов университетов. С одной стороны, различный вид временной зависимости позволяет избежать проблем, связанных с разной периодичностью (не нужно подгонять данные к единому виду: агрегировать или разбивать на условные под-периоды). С другой стороны, совпадение коэффициентов при регрессорах позволяет оценивать единую модель для всех университетов, не разделяя данные на две части по несущественному признаку и способствуя разумной редукции: иметь меньший набор параметров удобнее для интерпретации.

Легко оценить модели СЬ и IX при рассмотренной организации данных (одно наблюдение соответствует одному периоду обучения одного студента, в данных присутствует индикатор отчисления): это делается стандартными командами оценки моделей бинарного выбора.

С учетом выбранной параметризации функции g(t;cc) и различий в периодичности выражения (3) и (4) приобретают вид:

РО>„=1)=1-

1+cxp xj ß+trimi gr'+2>xp(07m) l j-2 ) +semi «Г+ЁехрРр)

l+exp xjß+trim, Я,"'""+2exp (0'™) l J-2 +senii gr+2exP(0D l '=2 /.

,t> 1; (7)

cxpjx,; ß + trmlgr+sem,gr)

1 + exp(xn' ß + trimig[r,m + senrgl1"")

(8)

Как и ранее, модель для разных университетов отличается временной зависимостью. Параметры временной зависимости (функции опорных шансов) снабжены индексами trim и sem для триместровых и семестровых данных соответственно.

Оценивание параметров проводилось максимизацией функции правдоподобия в программе Statu 11, использовался метод Ньютона-Рафсона с численным расчетом производных. Начальные значения параметров /?, g'"m и g,''"' брались из logit-регрессии для данных первого периода наблюдения, оцениваемая рецессия соответствует формуле (8).

5. Пример оцененной модели выбытия

Все три рассмотренных типа моделей были оценены с помощью программы Statu (версии 11), для оценивания моделей CL и LL использовались встроенные команды, в случае РО использовался авторский модуль, опирающийся на реализованный в Statu алгоритм максимизации функции правдоподобия (при максимизации применялся алгоритм Ньютона-Рафсона с численным расчетом производных).

В таблице 1 приведены основные (с точки зрения теории академического импульса) статистически значимые параметры. Более полно результаты оценивания описаны в Приложении 2. Одна теоретически важная детерминанта — наличие перерыва между окончанием школы и поступлением в вуз — оказалась незначимой, несмотря на большое число наблюдений. Речь идет не только о статистической незначимости, т.е. о недостатке оснований для отвержения гипотезы об отсутствии связи. Оценка коэффициента при этой переменной близка к нулю, а стандартная ошибка довольно мала, так что причина незначимости состоит именно в отсутствии существенной связи между фактом отчисления и наличием временного зазора перед поступлением, а не в невозможности надежно установить эту связь исходя из имеющихся данных. То же самое касается и остальных незначимых коэффициентов — в данном случае можно считать, что соответствующие факторы незначимы не только статистически, но и практически.

Таблица 1. Оценки некоторых коэффициентов моделей LL, CL и РО

Переменная LL CL РО

Р ехр (/1) Р ехр (Я Р ехр (р)

Наличие адаптационных курсов в первый период 0.251 1.285 0.204 1.226 0.278 1.320

обучения

Число накопленных за первый период обучения кредитов (базовая категория — менее 15)

> 17 кредитов -0.268 0.765 -0.239 0.787 -0.299 0.742

[15; 17) -0.136 0.872 -0.113 0.893 -0.170 0.844

Средний балл за первый период обучения (6 групп, базовая — 4)

1 группа (низшие баллы) 2.108 8.231 1.778 5.918 2.825 16.861

2 группа 1.319 3.740 1.198 3.313 1.602 4.962

3 группа 0.641 1.898 0.596 1.815 0.749 2.115

5 группа -0.484 0.616 -0.470 0.625 -0.539 0.583

6 группа (высшие баллы) -0.755 0.470 -0.739 0.478 -0.832 0.435

Примечание. Все приведенные оценки значимы на уровне 0.1%.

Коэффициенты несопоставимы между моделями, но видно, что ранжировки коэффици- § ентов по величине в разных моделях совпадают. Наличие адаптационных курсов оказыва- § ется наименее важным фактором, чуть в большей степени риск выбытия связан с числом ^ кредитов и в намного большей мере — с успеваемостью в первом периоде. :><

Приведем пример интерпретации потенцированных коэффициентов. Из оценок модели ^ LL следует, что шансы отчисления в течение одного периода обучения у студентов, прохо- § дивших адаптационные курсы, в 1.29 раз больше, чем у тех, кто не включал адаптационные ¡5 курсы в индивидуальный учебный план (при прочих равных условиях). Из оценок модели ^ РО следует, что шансы отчисления в течение всего времени обучения у студентов, выбрав- оа ших адаптационные курсы, в 1.32 раза больше (при прочих равных и неизменных услови- о ях). На самом деле, такое же соотношение будет выполняться и для любого другого срока, ^ но именно возможность оценить отношение шансов для всего времени обучения делает модель РО особенно привлекательной. Впрочем, в настоящем случае речь идет лишь о сту- щ дентах, окончивших первый период обучения: часть объясняющих переменных характери- щ зует этот период, поэтому как выборка, так и генеральная совокупность включают только студентов после первого семестра или триместра.

Существенно иной будет интерпретация коэффициентов модели при наличии адаптационных курсов риск отчисления в 1.23 раза больше, чем при их отсутствии, если остальные регрессоры не отличаются. При этом речь идет о функции риска для непрерывных случайных величин, которая определяется соотношением h(t) = Нтд^0 Р^ <Т <t + А | Т >t)/А, так что ее значение равно условной плотности величины Т, а не условной вероятности, как в дискретном случае. С точки зрения авторов настоящей статьи, интерпретация в терминах функции плотности менее ясна, чем в терминах шансов, что можно считать дополнительным доводом в пользу модели РО, помимо отсутствия необходимости рассматривать процесс выбытия как непрерывный.

В пользу модели пропорциональных шансов говорит и качество подгонки, измеряемое значением функции правдоподобия, на втором месте стоит модель LL, так что в настоящем примере интерпретируемость и точность описания данных оказываются согласованными. Для сравнения подгонки в анализе событий обычно используется информационный критерий Акаике, но в случае одинакового числа оцениваемых параметров он приводит к тому же результату, что и значение функции правдоподобия. Это преимущество можно считать второстепенным и привязанным к конкретному набору данных: при изучении выбытия осмысленность результатов представляется более важной, чем качество подгонки. Превосходство правдоподобия для модели РО свидетельствует, видимо, о том, что различия в риске выбытия между разными категориями студентов со временем уменьшаются, что является одним из свойств, отличающих эту модель от LL и CL.

Полученные оценки коэффициентов при переменных, отражающих средний балл в первом периоде обучения, могут показаться неправдоподобными, т. к. отношение шансов отчисления между крайними группами очень велико: 16.861/0.435 = 38.76, что намного превосходит отношения, связанные с другими регрессорами. Однако полученные оценки вполне согласуются с частотой отчислений в группах с разной успеваемостью (табл. 2), построенной по учтенным при оценивании наблюдениям (здесь одному студенту соответствует набор наблюдений).

Как видно из таблицы, доля отчислений в первой группе в 22 раза выше, чем в шестой. Соответствующее отношение шансов, рассчитанное по данным этой таблицы, оказывается равным 33.6, что по порядку вполне соответствует оценкам регрессионной модели.

Таблица 2. Частота отчислений в группах по среднему баллу за первый период обучения

Группа 12 3 4 5 6

Доля отчислений, % 35.7 17.7 9.1 4.4 2.4 1.6

6. Заключение

В настоящей работе рассмотрена задача регрессионного анализа выбытия студентов по данным университетов с разной периодичностью рубежного контроля. Для решения этой задачи предложено использовать модели наступления событий со стратификацией по типу университета, выделяя страты с разным характером временной зависимости (в рассмотренном примере в первую страту входили университеты, где обучение поделено на семестры, во вторую — триместровые университеты). Преимущества такого подхода по сравнению с приведением данных к единой периодичности таковы:

• нет потери информации, которая происходит при агрегации данных до года;

• не создаются фиктивные наблюдения, которые возникают при искусственном разбиении относительно больших периодов на малые;

• не возникает трудностей при учете изменчивых во времени регрессоров.

Учет большего числа сграт формально не составляет труда, хотя предполагает введение в модель дополнительных параметров по числу возможных значений продолжительности обучения в новой страте. Возможно, имеет смысл более подробная стратификация, при которой каждый университет (или даже факультет) выделяется в отдельную страту. Но это предполагает введение в модель дополнительных параметров по числу возможных значений продолжительности обучения в каждой дополнительной страте и может быть связано с вычислительными трудностями.

Популярные модели риска, опирающиеся на 1о§й- и с^1о§-связки, применимы к анализу выбытия студентов, но обладают недостатками:

• коэффициенты с^^-модсли не имеют интерпретации;

• интерпретация коэффициентов logil-мoдeли привязана к периоду обучения, одно и то же значение коэффициента соответствует разной по величине связи вероятности (или шансов) выбытия с объясняющей переменной для разных периодичностей обучения.

Этих недостатков можно избежать при применении модели пропорциональных шансов, но процедуру ее оценивания при наличии изменяющихся во времени регрессоров и стратификации исследователю, возможно, придется реализовывать самостоятельно (напрямую применить стандартное программное обеспечение здесь невозможно). Если получение интерпретируемых коэффициентов не важно, эта модель не имеет существенных преимуществ по сравнению со стандартными, предусмотренными создателями статистических программ.

Хотя настоящее исследование опирается на американские данные, стоит отмстить, что и среди российских университетов есть подобное различие: наряду с традиционной семестровой системой обучения существует модульная система с частым рубежным контролем и, соответственно, выбытием. По этой причине настоящая работа может быть интересна исследователям отечественного образования.

Список литературы

Горбунова Е. В. (2013). Влияние адаптации первокурсников к университету на вероятность их отчисления из вуза. Universitas, 1 (2), 59-84.

Горбунова Е. В. (2016) Сравнение подходов к совмещению данных с разной периодичностью в анализе наступления событий. В кн.: Труды 7-й Международной научно-практической конференции студентов и аспирантов «Статистические методы анализа экономики и общества» (17-20 мая 2016 г.). Национальный исследовательский университет «Высшая школа экономики», 88-89.

Груздев И. (2011). Зарубежный опыт исследований отчисленных студентов. Мониторинг Университета, 6, 7-10.

Донец Е. (2011). Опыт исследования студенческих отчислений на примере МГУ. Мониторинг Университета, 6, 33-38.

Колотова Е. (2011). Изучение отчислений студентов в бакалавриате/специалитете НИУ ВШЭ. Мониторинг Университета, 6, 22-32.

Чудиновских О. С., Телешова И. Г., Донец Е. В. (2004). Возможности и ограничения завершения высшего образования в элитном вузе (на примере Московского государственного университета им. М. В. Ломоносова). М.: МАКС Пресс.

Adelman С. (1999). Answers in the tool box: Academic intensity, attendance patterns, and bachelor's degree attainment. Washington, DC: U. S. Department of Education.

Adelman C. (2006). The toolbox revisited: Paths to degree completion from high school through college. Washington, DC: U.S. Department of Education.

Agasisti Т., Murtinu S. (2016). Grants in Italian university: A look at the heterogeneity of their impact on students' performances. Studies in Higher Education, 41 (6), 1106-1132.

Ata N., Sozer M. T. (2007). Cox regression models with nonproportional hazards applied to lung-cancer survival data. Hacettepe Journal of Mathematics and Statistics, 36 (2), 157-167.

Bahr P. R. (2009). Educational attainment as process: Using hierarchical discrete-time event history analysis to model rate of progress. Research in Higher Education, 50 (7), 691-714.

Bean J. P. (1980). Dropouts and turnover: The synthesis and test of a causal model of student attrition. Research in Higher Education, 12 (2), 155-187.

Bennett S. (1983). Log-logistic regression models for survival data. Journal of the Royal Statistical Society. Series C, 32 (2), 165-171.

Braxton J. M., Milem J. F., Sullivan A. S. (2000). The influence of active learning on the college student departure process toward a revision of Tinto's theory. Journal of Higher Education, 71 (5), 569-590.

Cabrera A. F., Nora A. L., Castaneda M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33 (5), 571-593.

Chaplot D. S., Rhim E., Kim J. (2015). Predicting student attrition in MOOCs using sentiment analysis and neural networks. In: Proceedings of AIED 2015 Fourth Workshop on Intelligent Support for Learning in Groups. http://ceur-ws.org/Vol-1432/islg_proc.pdf.

Chai К. E. K., Gibson D. (2015). Predicting the risk of attrition for undergraduate students with time based modelling. In: 12th International Conference on Cognition and Exploratory Learning in Digital Age 0CELDA 2015). http://files.eric.ed.gov/fulltext/ED562154.pdf.

Chen R. (2012). Institutional characteristics and college student dropout risks: A multilevel event history analysis. Research in Higher Education, 53 (5), 487- 505.

Chiang S. C. (2012). Applying event history analysis to investigate the impacts of developmental education on emerging adults' degree completion. Dissertation, The Ohio Stale University. https://etd.ohiolink. edu/rws_etd/documcnt/get/osu 1331061887/inline.

Cox D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society, Series B, 34, 187-220.

DesJardins S. L„ Ahlburg D. A., McCall B. P. (1999). An event history model of student departure. Economics of Education Review, 18, 375-390.

Ishitani Т. T. (2003). A longitudinal approach to assessing attrition behavior among first-generation students: Time-varying effccts of prc-collcgc characteristics. Research in Higher Education, 44 (4), 433-449.

Ishitani Т. T. (2006). Studying attrition and degree completion behavior among first-generation college students in the United States. Journal of Higher Education, 77 (5), 861-885.

Jenkins S. (1995). Easy estimation methods for discrete-time duration models. Oxford Bulletin of Economics and Statistics, 57, 129-138.

Klein J. P., Moeschbcrger M. L. (2005). Survival analysis. Techniques for censored and truncated data. Second Edition. Springer.

Lamote C., van Damme J., van den Noortgate W., Speybroeck S., Boonen Т., de Bilde J. (2013). Dropout in secondary education: An application of a multilevel discrete-time hazard model accounting for school changes. Quality and Quantity, 47 (5), 2425-2446.

McCullagh P. (1980). Regression models for ordinal data. Journal of the Royal Statistical Society. Series B, 42 (2), 109-142.

Melguizo T. (2011). A review of the theories developed to describe the process of college persistence and attainment. In: Higher Education: Handbook of Theory and Research, Vol. 26, 395-424. Springer.

Melguizo Т., Kienzl G., Alfonso M. (2011). Comparing the educational attainment of community college transfer students and four-year college rising juniors using propensity score matching methods. The Journal of Higher Education, 82 (3), 265-291.

Meyer B. D. (1990). Unemployment insurance and unemployment spells. Econometrica, 58 (4), 757-782.

Prentice R. L., Gloeckler L. A. (1978). Regression analysis of grouped survival data with application to breast cancer data. Biometrics, 34, 57-67.

Willett J. В., Singer J. D. (1991). From whether to when: New methods for studying student dropout and teacher attrition. Review of Educational Research, 61 (4), 407-450.

Voelkle M. C., Sander N. (2008). University dropout: A structural equation approach to discrete-time survival analysis. Journal of Individual Differences, 29 (3), 134-147.

Поступила в редакцию 01.12.2016; принята в печать 18.02.2017.

Приложение 1. Описательные статистики

Переменная Расшифровка Доля

(среднее), %

Dropout Выбытие 4.0

Hs_gap Перерыв между окончанием школы и поступлением в вуз от года 2.1

и более

Took_rem_courses Наличие в учебном плане студента за первый период обучения 13.1

адаптационных курсов

Age_entry Возраст на момент поступления (от 18 до 24 лет) 18.4

Female Женский пол 52.0

Housing Проживание в общежитии в первый период обучения 82.4

NojnajorJirst Студент не объявил специальность в первый период обучения 9.1

Need_grant Получает финансовую помощь по причине низкого дохода 21.8

Merit_grant Получает финансовую помощь за выдающиеся успехи 38.4

(в обучении или других сферах)

Loan Получает займ на образование 47.8

Workstudv Получает финансовую помощь взамен работы в вузе 3.1

Этничность

Базовая категория 85.3

Black Афроамериканцы 7.9

Hispanic Латиноамериканцы 2.2

Asian Азиаты 2.9

Other Иностранные студенты 1.7

Количество накопленных кредитов за первый период обучении

< 15 (базовая категория) 20.5

Crhrs_groups_15_l 7 [15; 17) 58.6

Crhrs_groups 17_over >17 20.9

Средний балл за первый период обучения в вузе

Gpa_group_I = 0 1.3

Gpa_group_2 (0, 1.5) 4.4

Gpa_group_3 [1.5;2) 5.2

Gpa_group_4 [2; 3) 32.0

Gpa_group_5 [3; 3.5) 29.0

Gpa_group_6 [3.5; 4] 28.1

Примечание. Доли и средний возраст рассчитаны по наблюдениям, не по студентам. Число наблюдений — 167656, число студентов — 25 339.

Приложение 2. Оценки коэффициентов моделей выбытия

Переменная LL CL PO

Hs_gap -0.043 -0.081 0.016

(0.081) (0.072) (0.095)

Took_rem_courses 0.251*** 0.204*** 0.278***

(0.036) (0.033) (0.042)

Need_grant 0.173*** 0.160*** 0.153***

(0.032) (0.029) (0.036)

Merit_grant -0.265*** —0 244*** -0.295***

(0.032) (0.031) (0.036)

Loan 0.159*** 0.148*** 0.156***

(0.030) (0.027) (0.034)

Work study -0.070 -0.051 -0.058

(0.077) (0.072) (0.087)

Chrhrs_group_15_l 7 -0.136*** -0.113*** -0.170***

(0.031) (0.029) (0.036)

Chrhrs_group_l 7_over -0.268*** -0.239*** -0.299***

(0.046) (0.043) (0.052)

Ageentry 0.054** 0.041** 0.077***

(0.021) (0.019) (0.025)

Female 0.174*** 0.145*** 0.238***

(0.027) (0.024) (0.031)

Black -0.165*** -0.179*** -0.200***

(0.045) (0.040) (0.052)

Hispanic 0.166** 0.159** 0.177*

(0.084) (0.076) (0.096)

Asian -0.102 -0.097 -0.109

(0.090) (0.083) (0.101)

Other 0.209** 0.177** 0.509***

(0.086) (0.076) (0.108)

Housing -0.161*** -0.137*** -0.154***

(0.035) (0.032) (0.041)

No_major_first 0.107** 0.094** 0.122**

(0.047) (0.043) (0.055)

Gpa_group_l 2.108*** 1.778*** 2.825***

(0.059) (0.04) (0.078)

Gpa_group_2 1.319*** 1.198*** 1.602***

(0.040) (0.036) (0.050)

Gpa_group_3 0.641*** 0.596*** 0.749***

(0.045) (0.041) (0.053)

Gpa_group_5 -0.484*** -0.470*** -0.539***

(0.038) (0.036) (0.041)

Gpa_group_6 -0.755*** -0.739*** -0.832***

(0.045) (0.043) (0.048)

Логарифм правдоподобия -22921.524 -22954.799 -22817.686

Примечание. IX — модель с к^й-свячкой, СЬ — с с1о§^-связкой, РО — модель пропорциональных шансов. Число наблюдений — 167 656.

В скобках под оценками приведены стандартные ошибки. *, **, *** — значимость на уровне 10, 5 и 1% соответственно.

В каждую модель также включались фиктивные переменные для учета индивидуального эффекта учебного заведения и для временной зависимости согласно формулам (5)-(8). Все модели значимы в целом, /»-значение равно 0 с точностью до четвертого знака.

Gorbunova E. V., Ulyanov V. V., Furmanov K. K. Using data from universities with different structure of academic year to model student attrition. Applied Econometrics, 2017, v. 45, pp. 116-135.

Elena Gorbunova

National Research University Higher School of Economics, Moscow, Russian Federation;

e.gorbunova88@gmail.com

Vladimir Ulyanov

National Research University Higher School of Economics, Moscow, Russian Federation;

vulyanov@hse.ru

Kirill Furmanov

National Research University Higher School of Economics, Moscow, Russian Federation; furmach@rbcmail.ru

Using data from universities with different structure of academic year to model student attrition

Pooling the data from a number of universities into a single sample poses a problem for researchers who are performing regression analysis of student attrition. Academic year can be divided into different academic terms in different universities, and this discrepancy has to be taken into account. This paper considers a problem of using data with different periodicity in the framework of discrete-time event history analysis and gives an example of an estimated attrition model. Keywords: event-history analysis; discrete hazard; student attrition. JEL classification: C41; I29.

References

Gorbunova E. V. (2013). Vlijanie adaptacii pervokursnikov k universitetu na verojatnost' ih otchislenija iz vuza. Universitas, 1 (2), 59-84 (in Russian).

Gorbunova E. V. (2016). Sravnenic podhodov k sovmcshheniju dannyh s raznoj periodichno-st'ju v an-alize nastuplenija sobytij. V kn: Trudy 7-j Mezhdunarodnoj nauchno-prakticheskoj konferen-cii studentov i aspirantov «Statisticheskie metody analiza jekonomiki i obshhestva» (17-20 May 2016). National Research University Higher School of Economics, 88-89 (in Russian).

Gruzdev I. (2011). Zarubezhnyj opyt issledovanij otchislennyh studentov. Monitoring Universiteta, 6, 7-10 (in Russian).

Donee E. (2011). Opyt issledovanija studencheskih otchislenij na primere MGU. Monitoring Universiteta, 6, 33-38 (in Russian).

Kolotova E. (2011). Izuchenie otchislenij studentov v bakalavriate/specialitete NIU VShJe. Monitoring Universiteta, 6, 22-32 (in Russian).

Chudinovskih O. S., Teleshova I. G., Donee E. V. (2004). Vozmozhnosti i ogranichenija zavershenija vys-shego obrazovanija v jelitnom vuze (na primere Moskovskogo gosudarstvennogo universiteta im. M. V. Lo-monosova). M.: MAKS Press (in Russian).

Adelman C. (1999). Answers in the tool box: Academic intensity, attendance patterns, and bachelor's degree attainment. Washington, DC: U.S. Department of Education.

Adelman C. (2006). The toolbox revisited: Paths to degree completion from high school through college. Washington, DC: U. S. Department of Education.

Agasisti T., Murtinu S. (2016). Grants in Italian university: A look at the heterogeneity of their impact on students' performances. Studies in Higher Education, 41 (6), 1106-1132.

Ata N., Sozer M. T. (2007). Cox regression models with nonproportional hazards applied to lung-cancer survival data. Hacettepe Journal of Mathematics and Statistics, 36(2), 157-167.

Bahr P. R. (2009). Educational attainment as process: Using hierarchical discrete-time event history analysis to model rate of progress. Research in Higher Education, 50 (7), 691-714.

Bean J. P. (1980). Dropouts and turnover: The synthesis and test of a causal model of student attrition. Research in Higher Education, 12 (2), 155-187.

Bennett S. (1983). Log-logistic regression models for survival data. Journal of the Royal Statistical Society. Series C, 32 (2), 165-171.

Braxton J. M., Milem J. F., Sullivan A. S. (2000). The influence of active learning on the college student departure process toward a revision of Tinto's theory. Journal of Higher Education, 71 (5), 569-590.

Cabrera A. F., Nora A. L., Castaneda M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33 (5), 571-593.

Chaplot D. S., Rhim E., Kim J. (2015). Predicting student attrition in MOOCs using sentiment analysis and neural networks. In: Proceedings of AIED 2015 Fourth Workshop on Intelligent Support for Learning in Groups. http://ceur-ws.org/Vol-1432/islg_proc.pdf.

Chai K. E. K., Gibson D. (2015). Predicting the risk of attrition for undergraduate students with time based modelling. In: 12th International Conference on Cognition and Exploratory Learning in Digital Age (CELDA 2015). http://files.eric.ed.gov/fulltext/ED562154.pdf.

Chen R. (2012). Institutional characteristics and college student dropout risks: A multilevel event history analysis. Research in Higher Education, 53 (5), 487-505.

Chiang S. C. (2012). Applying event history analysis to investigate the impacts of developmental education on emerging adults' degree completion. Dissertation, The Ohio State University. https://etd.ohiolink. edu/rws_etd/documcnt/get/osul 331061887/inline.

Cox D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society, Series B, 34, 187-220.

DesJardins S. L., Ahlburg D. A., McCall B. P. (1999). An event history model of student departure. Economics of Education Review, 18, 375-390.

Ishitani T. T. (2003). A longitudinal approach to assessing attrition behavior among first-generation students: Time-varying effects of pre-college characteristics. Research in Higher Education, 44 (4), 433-449.

Ishitani T. T. (2006). Studying attrition and degree completion behavior among first-generation college students in the United States. Journal of Higher Education, 77 (5), 861-885.

Jenkins S. (1995). Easy estimation methods for discrete-time duration models. Oxford Bulletin of Economics and Statistics, 57, 129-138.

Klein J. P., Moeschberger M. L. (2005). Survival analysis. Techniques for censored and truncated data. Second Edition. Springer.

Lamote C., van Damme J., van den Noortgatc W., Spcybroeck S., Boonen T., de Bilde J. (2013). Dropout in secondary education: An application of a multilevel discrete-time hazard model accounting for school changes. Quality and Quantity, 47 (5), 2425-2446.

McCullagh P. (1980). Regression models for ordinal data. Journal of the Royal Statistical Society. Series B, 42 (2), 109-142.

Melguizo T. (2011). A review of the theories developed to describe the process of college persistence and attainment. In: Higher Education: Handbook of Theory and Research, Vol. 26, 395^124. Springer.

Melguizo T., Kienzl G., Alfonso M. (2011). Comparing the educational attainment of community college transfer students and four-year college rising juniors using propensity score matching methods. The Journal of Higher Education, 82 (3), 265-291.

Meyer B. D. (1990). Unemployment insurance and unemployment spells. Econometrica, 58 (4), 757-782.

Prentice R. L., Gloeckler L. A. (1978). Regression analysis of grouped survival data with application to breast cancer data. Biometrics, 34, 57-67.

WillettJ. B., Singer J. D. (1991). From whether to when: New methods for studying student dropout and teacher attrition. Review of Educational Research, 61 (4), 407-450.

Voelkle M. C., Sander N. (2008). University dropout: A structural equation approach to discrete-time survival analysis. Journal of Individual Differences, 29 (3), 134-147.

Received 01.12.2016: accepted 18.02.2017.

Приложение 6

Статья «Academic Momentum and Undergraduate Student Attrition: Comparative Analysis in US and Russian Universities»

Kondratjeva O., Gorbunova E. V., Hawley J. D. Academic Momentum and Undergraduate Student Attrition: Comparative Analysis in US and Russian Universities // Comparative Education Review. 2017. №. 3. P. 607-633.

https://doi.org/10.1086/692608

В этой работе впервые предпринимается попытка сравнительного анализа выбытия студентов из вузов России и США с использованием теоретической рамки академического импульса. Результаты анализа данных по государственным вузам России и штата Огайо подтверждают основные положения данной теории - более высокий академический импульс снижает вероятность выбытия студентов из вузов. Результаты работы могут использоваться для разработки политики, направленной на снижение отсева в вузах.

Academic Momentum and Undergraduate Student Attrition: Comparative Analysis in US and Russian Universities

OLGA KONDRATJEVA, ELENA V. GORBUNOVA, AND JOSHUA D. HAWLEY

Student attrition in postsecondary education is a significant public policy problem. Nations invest substantial resources in college systems, and when students leave, this investment is lost. To understand the factors thai influence student attrition in US and Russian public universities, we use the perspective of academic momentum, defined empirically as measures representing student enrollment and study progress. Using a discrete-time event history analysis of samples of eight US and two Russian universities, we provide support for the central claims of the academic momentum theory that undergraduate students who progress through college more rapidly have a lower likelihood of attrition. However, a more detailed analysis reveals variability in the relationship between several academic momentum measures and student attrition, depending on a university's selectivity and the student's chosen academic field and gender.

Introduction

College noncompletion has long-term implications for both students and nation-states. College dropouts, on average, earn less over their lifetime, achieve lower occupational success than college graduates (Tinto 1987), and experience long-term psychological distress, self-esteem issues, and loss of social opportunities (Pascarella and Terenzini 1991). On the national level, individual losses translate into slower economic growth and lower human capital (Desjardins et al. 1999). The fact that students enter university and do

We thank three anonymous referees, Elizabeth King, Isak Froumin, John Casterline, Tatiana Sus-pitsyna, Rob Greenbaum, Tim Liao, and conference participants at 2013 International Conference of the Research Association of Higher Education Researchers and 2014 American Educational Research Association Annual Meeting for their constructive comments. Support from the Basic Research Program of the National Research University Higher School of Economics and the Ohio Department of Education, through the Ohio Education Research Center, is gratefully acknowledged. The authors accept all responsibilities for errors or omissions. The Ohio Longitudinal Data Archive is a project of the Ohio Education Research Center (http://oerc.osu.edu) and provides researchers with centralized access to administrative data. The OI.DA is managed by The Ohio State University's Center for Human Resource Research (http://chrr.osu.edu) in collaboration with Ohio's state workforce and education agencies (http://ohioanaIy-tics.gov), with those agencies providing oversight and funding. For information on OLDA sponsors, see http://chrr.osu.edu/projects/ohio-longitudinal-data-archive.

Received August 1, 2014; revised August 17, 2014; January 29, 2016; June 21, 2016; and September 16, 2016; accepted January 1, 2017; electronically published June 6, 2017 Comparative Education Review, vol. 61, no. 3.

© 2017 by the Comparative and International Education Society. All rights reserved. 0010-4086/2017/6103-0006$ 10.00

Comparative Education Review

not graduate is strongly affected by cultural and institutional factors. Among students entering higher education, 43 percent in the US and 22 percent in Russia leave university without completing a degree (OECD 2010).'

In Russia, high student attrition is interpreted as a sign of institutional selectivity and a higher quality of educational process. In elite universities, some instructors purposely design strict grading requirements because they indicate high standards within the academic culture (Gruzdev et al. 2013). The system is relatively unforgiving to academically struggling students, and non-completion is viewed as a part of the natural selection process (Gruzdev et al. 2013). Russian policy makers pay relatively little attention to university non-completion because the postsecondarv education enrollment and attainment rates are high (OECD 2012), and attrition is relatively low. Nonetheless, as Russia modernizes its economy and reforms the financing system of higher education, student attrition is expected to attract more national attention. The issues of student attrition and deteriorating academic preparation of incoming students have already become more relevant to non-elite universities in economically depressed regions that are struggling with decreased government funding.

In contrast, the US higher education system has consistently paid attention to the issue of student attrition. Student attrition can reflect concerns about institutional reputation and adequacy of funding in public higher education institutions. It is also relevant to the long-term prosperity of the economy. Shortfalls in high-skill specialists, particularly in the STEM disciplines, have been projected for the US (Carnevale et al. 2010). As state governments exercise substantial control over higher education systems, some states have already shifted toward performance-based funding that is tied to student outcomes, such as course and degree completion (National Conference of State Legislatures 2013).

This article is an empirical comparative study of student attrition in the contexts of the US and Russia. To understand the factors that influence student attrition, we apply a theoretical concept of academic momentum that focuses on the speed with which students progress early in their undergraduate studies. We address the following research questions: How is academic momentum associated with student attrition in US and Russian public universities? Does this association differ for universities with different selectivity levels in their admission policies, and does it differ across academic fields and gender? By comparing universities in the US and Russia, we explore the research questions on the continuum of institutional arrangements related to voluntary/nonvoluntary student attrition.

' This statistic refers to theory-based tertiary-type A programs, which prepare students for high-skilled occupations and advanced research programs. Full-time programs last for three years at least, although the typical length of the program is four or more years.

August 2017

This comparative analysis focuses on two of the largest public higher education systems (UNESCO Institute for Statistics 2009) that represent different institutions. US universities represent a highly flexible and open education system that enables easy changes of educational and career trajectories (Arnett 2004). Curricula in the majority of US universities allow students to manipulate the speed at which they proceed through undergraduate studies. In contrast, the Russian higher education system is characterized by curriculum rigidity, fixed transitions from college to employment, and inflexibility in changing careers or educational paths. The timing and content of the curriculum are predetermined by the dean's office and apply to nearly all incoming students within the same discipline. There is little room for academic experimentation during the first year and limited opportunities for transfer between academic programs and institutions (Kuzminov and Yudkevich 2007). The nature of the attrition process also differs: in the US a student is typically the subject of the process (i.e., students decide to leave the university), while in Russia a student is mostly the object (i.e., the system forces students to attrite from the institution).

Despite these differences, the higher education systems in these two countries share commonalities in their historical and institutional processes,2 and over time, the two systems are becoming more similar in terms of availability and flexibility of academic choices. Russia's efforts to modernize its higher education system have introduced more flexibility in educational processes. For example, correctional courses that are similar to remedial courses in the US are already offered in some Russian universities. Many Russian universities have also adopted the two-level "Bachelor-Master" system and the European Credit Transfer System, and by 2020, all universities are required to shift to a more individualized curriculum with greater emphasis on independent student work (State Program of Russian Federation 2013).

To ensure validity comparing different higher education systems, we focus on homogeneous student groups in the two countries. We limit our analysis to full-time, first-time traditional-age undergraduate students enrolled in the main campus of a public university with selective admissions policies. These students are likely to be similar in terms of linearity of the transition from high school to college, commitment to university degree, and developmental characteristics. We also stratify our sample by university selectivity, academic discipline, and gender for a more valid comparison of student subgroups in the two countries.

Our research makes several contributions to the comparative higher education literature. First, we operationalize and lest the academic momentum model outside the US context. This expands previous empirical work, which has tested the concept of academic momentum in the US (except Martin et al.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.