Обеспечение сопоставимости результатов тестирования комплексных конструктов с использованием сценарных заданий тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Грачева Дарья Александровна

  • Грачева Дарья Александровна
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 142
Грачева Дарья Александровна. Обеспечение сопоставимости результатов тестирования комплексных конструктов с использованием сценарных заданий: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2024. 142 с.

Оглавление диссертации кандидат наук Грачева Дарья Александровна

Используемые понятия и сокращения

Введение

Глава 1. Проблема сопоставимости результатов тестирования с использованием заданий сценарного типа

1.1. Основные направления исследований сопоставимости результатов тестирования

1.2. Концептуальные рамки и критерии сопоставимости результатов тестирования

1.3. Проблема сопоставимости результатов сценарных заданий

1.4. Выводы

Глава 2. Методологические подходы к обеспечению сопоставимости вариантов теста

2.1. Подходы к разработке сопоставимых вариантов теста

2.2. Формирование подхода клонирования для разработки сопоставимых вариантов сценарных заданий

2.3. Реализация подхода клонирования для разработки сопоставимых вариантов сценарных заданий для измерения компонент критического мышления

2.3.1. Инструмент «4К» для измерения критического мышления: теоретические основания и методология разработки

2.3.2. Описание сценарных заданий инструмента «4К» для измерения критического мышления

2.3.3. Разработка вариантов сценарных заданий: релевантность информации

2.3.4. Разработка вариантов сценарных заданий: достоверность источника информации

2.4. Методы работы с данными для обеспечения сопоставимости вариантов теста

2.4.1. Особенности анализа результатов тестирования комплексных конструктов, полученных с использованием сценарных заданий

2.4.2. Количественные методы анализа данных для доказательства сопоставимости результатов тестирования

2.4.3. Количественные методы анализа данных для оценки эффекта контекста

2.5. Выводы

Глава 3. Эмпирическое исследование сопоставимости заданий сценарного типа для измерения критического мышления среди учащихся младшей школы

3.1. Сравнительное исследование подходов разработки сопоставимых вариантов сценарного типа

3.2. Анализ сопоставимости результатов тестирования критического мышления между вариантами заданий сценарного типа

3.3. Оценка эффекта контекста на результаты тестирования критического мышления с использованием сценарных заданий

3.4. Выводы

Заключение

Список используемой литературы

Приложения

Приложение А. Реализация подхода клонирования для разработки сопоставимых вариантов заданий для измерения компонент кооперации

Используемые понятия и сокращения

Латентный конструкт - это совокупность паттернов и закономерностей проявления какого-либо явления, определенных разработчиком или экспертом на основании известных теорий, представлений и идей, с учетом имеющихся ограничений и поставленных задач.

Комплексный конструкт - конструкт, состоящий из множества элементов, установок, моделей поведения или способов действия и мышления, с фокусом на их применении в жизненных ситуациях.

VPBA - Virtual Performance-Based Assessment, формат тестирования, предполагающий оценку способностей респондента через анализ поведения в заранее смоделированной цифровой тестовой среде.

Поведенческий индикатор - наблюдаемое действие (поведение) в тестовой среде, по которому делается вывод о выраженности латентного конструкта у тестируемого.

Сценарные задания (задания сценарного типа, scenario-based tasks) - тип VPBA, в котором поведенческие индикаторы объединены контекстом.

ECD - Evidence-Centered Design, подход доказательной аргументации к разработке тестов.

КФА - конфирматорный факторный анализ.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Обеспечение сопоставимости результатов тестирования комплексных конструктов с использованием сценарных заданий»

Введение

Обоснование актуальности исследования

Современное образование в России ориентировано не только на усвоение предметных знаний, но и на формирование у обучающихся универсальных учебных действий (УУД), которые помогают успешно применять новые знания и навыки в жизненных ситуациях и обеспечивают возможность самостоятельно развиваться на протяжении всей жизни. Федеральные государственные образовательные стандарты (ФГОС) устанавливают требования к формированию УУД (регулярных, познавательных, коммуникативных) на разных ступенях общего образования1. В зарубежной литературе вместо совокупности УУД встречаются термины «универсальные навыки» или «навыки 21 века», к которым относятся критическое и креативное мышление, коммуникация, кооперация и другие навыки23. Важность развития универсальных навыков обучающихся для саморазвития и успешной адаптации во взрослой жизни подчеркивается многими зарубежными экспертами [Ananiadoui, Claro, 2009; Griffin, Care, 2014; Pellegrino, 2017].

Согласно ФГОС начального общего образования (ФГОС НОО), обучающиеся овладевают базовыми логическими и исследовательскими действиями, которые являются частью универсальных учебных познавательных действий и в то же время поведенческими индикаторами критического мышления: «выбирать источник информации», «распознавать достоверную и недостоверную информацию», «выявлять недостаток информации», «анализировать информацию», «формулировать выводы и подкреплять их доказательствами». Во ФГОС основного общего образования (ФГОС ООО) обучающиеся в процессе обучения «самостоятельно формулируют обобщение и выводы», учатся «выбирать, анализировать, систематизировать» информацию, оценивать ее надежность. Также,

1 Приказы Министерства просвещения РФ об утверждении федеральных государственных образовательных стандартов начального общего образования, основного общего образования, среднего общего образования. Сайт Министерства просвещения РФ. URL: https://fgosreestr.ru/educational_standard

2 New Vision for Education. Unlocking the Potential of Technology. World Economic Forum report, 2016.

3 Partnership for 21st Century Learning (2016). Framework for 21st century learning. URL: http://www.p21.org/our-work/p21 -framework

универсальные учебные коммуникативные действия, описанные во ФГОС НОО и ООО, содержат характеристики коммуникации и кооперации, такие как «проявлять уважительное отношение к собеседнику», «выражать эмоции в соответствии с целями общения» и другие.

Развитие универсальных учебных действий в школе приводит к необходимости их оценивания. Исследователи отмечают сложность оценивания совокупности УУД [Шкерина и др., 2019] и универсальных навыков [Care и др., 2018; Geisinger, 2016] по сравнению с отдельными предметными знаниями. В области измерений универсальные навыки называют комплексными конструктами - «конструкты, состоящие из множества элементов, установок, моделей поведения или способов действия и мышления, с фокусом на их применении в жизненных ситуациях» [Ercikan, Oliveri, 2016]. Другие авторы в качестве основной характеристики комплексного конструкта выделяют наличие множества элементов и связей между ними [Ridley и др., 2021], отмечают, что такие конструкты являются сложными в концептуализации и операционализации [Carneiro, Rocha, Silva, 2009; Gorin, Mislevy, 2013].

В зарубежной литературе термин «комплексный конструкт» преимущественно используется для обозначения универсальных навыков -креативности, критического мышления, коммуникации, навыка совместного решения проблем [Andrews-Todd, Forsyth, 2020; Ercikan, Oliveri, 2016; Hyytinen и др., 2024], однако встречается упоминание иных комплексных конструктов, например, статистическая грамотность [Watson, Callingham, 2003], математическое мышление [Pitta-Pantazi, Sophocleous, 2017] или цифровая грамотность [Авдеева, Тарасова, 2023]. В международном исследовании PISA термин «комплексный конструкт» упоминается в связке с конструктом «глобальная компетентность» [Sälzer, Roczen, 2018]. В России на основе методологии и результатов измерения PISA разработан инструмент оценки комплексного конструкта «функциональная грамотность» [Ковалева, Колачев, 2023].

В отличие от отдельных знаний и навыков измерение комплексных конструктов предполагает выход за пределы традиционных типов заданий, таких

как задания с выбором варианта ответа, опросники в формате самоотчета. Альтернативный формат тестирования должен учитывать многообразные составляющие такого конструкта и оценивать разные модели поведения респондентов в некоторой жизненной ситуации [Ercikan, Oliveri, 2016]. Подходящим форматом для оценки комплексных конструктов являются задания в формате performance-based, где тестируемые могут продемонстрировать уровень владения навыком через наблюдаемые действия в заранее установленной ситуации (тестовой среде). Ввиду развития технологий появился термин virtual performance-based assessment (VPBA) [Andrews-Todd и др., 2021], где поведение респондента фиксируется в цифровой тестовой среде.

К категории virtual performance-based относят сценарные задания, в них действия респондентов в цифровой среде объединены контекстом (scenario-based tasks), поэтому такие задания принято называть контекстными [Ruiz-Primo, Li, 2015]. Контекст «погружает» респондентов в задание, приближая среду тестирования к реальным задачам, что особенно важно при измерении универсальных навыков. Сегодня задания сценарного типа реализуются в цифровой среде с использованием игровых элементов и симуляций, например, для оценки критического мышления [Braun и др., 2020; Uglanova и др., 2022], навыка совместного решения проблем в рамках международного исследования PISA [Stadler и др., 2020].

Несмотря на преимущества нового формата оценивания, мало внимания уделяется возможности разработки вариантов сценарных заданий. При этом очевидны ограничения, возникающие при использовании только одного варианта задания. В случае повторного тестирования одними заданиями прогресс в результатах может объясняться эффектом практики или научения. Кроме того, частое использование заданий снижает вовлеченность тестируемых в предложенные сценарии, потому что все ситуации кажутся знакомыми. Использование нескольких вариантов заданий сценарного типа позволит не только справиться с вышеуказанными проблемами, но и откроет возможности к

проведению крупных мониторинговых и сравнительных исследований универсальных навыков и других комплексных конструктов.

Эксперты подчеркивают, что сопоставимость результатов, получаемых с помощью вариантов сценарных заданий, должна быть обеспечена на протяжении всего цикла оценивания, начиная с концептуализации и разработки инструмента измерения до этапа работы с данными и анализа последствий тестирования [He, Vijver van de, 2012; Kolen, 1999]. Сопоставимость результатов тестирования часто рассматривается в контексте справедливого оценивания и обеспечения равных возможностей для каждого участника продемонстрировать свои знания и навыки [Gipps, Stobart, 2009; Kunnan, 2004], что является важной ценностью в системе образования.

Настоящее исследование посвящено методологическим вопросам обеспечения сопоставимости результатов тестирования комплексных конструктов с использованием вариантов сценарных заданий. В международной литературе встречаются примеры исследований, где рассматриваются несколько вариантов заданий для измерения универсальных навыков или других комплексных конструктов [Rojas и др., 2021; Wang, Liu, Hau, 2022], однако в них детально не описываются подходы к разработке вариантов или не обосновывается методология работы с данными для доказательства сопоставимости результатов. Разработка сценарных заданий в цифровой среде даже в одном экземпляре является трудоемким процессом [Угланова, Брун, Васин, 2018], поэтому возникает задача формализации подходов для разработки вариантов таких заданий.

Таким образом, актуальность исследования обусловлена важностью объективного и справедливого измерения универсальных навыков в образовании и необходимостью обеспечения сопоставимости результатов тестирования между вариантами заданий. Нарушение сопоставимости результатов тестирования затрудняет корректное сравнение и интерпретацию результатов и может негативно повлиять на принятие решений по итогам оценки. Разработка теоретически обоснованного и эмпирический доказанного подхода к обеспечению сопоставимости вариантов сценарных заданий позволит получить более точное

сравнение результатов тестирования комплексных конструктов, что, в свою очередь, будет способствовать повышению качества оценки.

Оценивание комплексных конструктов в сценарном формате накладывает дополнительные сложности на процесс обеспечения сопоставимости результатов. Большое внимание в настоящей работе уделяется исследованию контекста как неотъемлемой части сценарного задания. В предыдущих исследованиях разработка вариантов тестов осуществлялась за счет изменения контекстных характеристик, например, в случае измерения навыков письма с помощью эссе [Cho, Rijmen, Novak, 2013] или компетенций в области медицины [Lievens, Sackett, 2007]. Эксперты обеспокоены проблемой экстраполяции (генерализации) выводов, сделанных по результатам тестирования с использованием сценарных заданий с разным контекстом [Andrews-Todd и др., 2021]. Существуют свидетельства того, изменение контекста задачи вызывает различия в результатах тестирования [Nelson, Guegan, 2019; Schliemann, Magalhaes, 1990]. Кроме того, выполнение контекстных заданий может требовать от участников использования дополнительных знаний и навыков, которые не являются целью оценивания [Messick, 1994]. В результате, контекст может влиять на измеряемый конструкт, вызывая проблемы с валидностью и надежностью измерений, сопоставимостью результатов [Bond, Moss, Carr, 1996]. Таким образом, подход к обеспечению сопоставимости сценарных заданий должен быть разработан с учетом эффекта контекста -изменения в результатах тестирования (структуре конструкта или психометрических характеристиках заданий), вызванного изменением контекстных характеристик сценарного задания. Кроме того, представляется важным оценить масштаб различий в результатах тестирования комплексных конструктов с использованием сценарных заданий, которые вызваны изменением контекста.

Таким образом, целью диссертационного исследования является разработка методологического подхода к обеспечению сопоставимости сценарных заданий для измерения комплексных конструктов на протяжении всего цикла оценивания.

Исследовательские вопросы работы поставлены следующим образом:

Каким образом обеспечить сопоставимость вариантов заданий сценарного типа на этапе разработки инструментов измерения?

Какие методологические подходы работы с данными позволят обосновать сопоставимость результатов тестирования между вариантами сценарных заданий?

В какой степени контекст сценарного задания связан с различиями в результатах тестирования комплексных конструктов?

Для достижения поставленной цели решаются следующие задачи:

- Сформировать и обосновать подход к разработке вариантов сценарных заданий для обеспечения сопоставимых результатов между вариантами.

- Сформировать и обосновать методологические подходы работы с данными для проверки сопоставимости вариантов заданий сценарного типа с учетом эффекта контекста.

- Разработать варианты заданий сценарного типа в соответствии с выбранным подходом к разработке.

- Реализовать методологию работы с данными для проверки сопоставимости вариантов заданий сценарного типа.

- Количественно оценить связь контекста с различиями в результатах тестирования между вариантами сценарных заданий.

Выводы исследования подтверждаются на сценарных заданиях для измерения критического мышления у учащихся начальной школы.

Эмпирической базой исследования являются данные тестирования критического мышления на выборке учащихся начальной школы с применением инструмента «4К», разработанного сотрудниками Лаборатории измерения новых конструктов и дизайна тестов Института образования НИУ ВШЭ.

Теоретическая рамка исследования: работа опирается на концептуальные рамки сопоставимости измерений [He, Vijver van de, 2012; Kolen, 1999] и справедливого оценивания [Kunnan, 2004], которые рассматривают сопоставимость результатов тестирования на протяжении всего цикла оценивания. На их основании были определены два основных критерия сопоставимости:

сопоставимость конструкта и сопоставимость статистических (психометрических) характеристик на уровне всего теста и отдельных поведенческих индикаторов.

Методология и дизайн исследования. В данном диссертационном исследовании сформирован подход к разработке сопоставимых вариантов сценарных заданий (подход клонирования) как интеграция метода доказательной аргументации при разработке тестов (Evidence-centred Design, ECD) [Mislevy, Haertel, 2006] и принципов автоматической генерации при разработке заданий [Gierl, Lai, Tanygin, 2021]. Для обеспечения сопоставимости на уровне данных применялась методология латентного моделирования: модели конфирматорного факторного анализа (КФА) с учетом контекстных связей между индикаторами (бифакторные модели КФА). Для оценки связи контекста и результатов оценивания использовались методы Теории генерализации [Cronbach, 1972].

Для сбора данных по вариантам сценарных заданий использовался сбалансированный внутригрупповой дизайн, где варианты теста предъявляются одной группе респондентов во всех возможных порядках (случайным образом). Выбор в пользу внутригруппового дизайна по сравнению с межгрупповым позволяет избежать альтернативных объяснений результатов, связанных с различием в характеристиках респондентов. Исследование проведено на выборках учащихся 4-х классов (выборки от 381 до 1096 учащихся), которые проходили тестирование универсальных навыков с использованием инструмента «4К» в 2021 г.

Теоретическая значимость работы в области измерений заключается в представлении методологического подхода к обеспечению сопоставимости сценарных заданий для оценки комплексных конструктов от разработки инструмента измерения до работы с данными тестирования. В рамках работы были предложены определения контекста и контента сценарного задания, которые могут послужить основой для дальнейшего развития методологических подходов к разработке сопоставимых вариантов сценарных заданий.

Практическая значимость работы состоит в том, что результаты исследования могут быть использованы для разработки сопоставимых вариантов

заданий сценарного типа, измеряющих комплексные конструкты, в логике доказательного дизайна к разработке тестов. Варианты сценарных заданий инструмента «4К» для оценки критического мышления у учащихся начальной школы, рассмотренные в настоящей работе, могут быть признаны сопоставимыми и использоваться в будущих сравнительных и мониторинговых исследованиях критического мышления, отвечая запросу на справедливое оценивание. Получены новые эмпирические данные о том, как изменение контекста и контента сценарных заданий при оценке критического мышления связано с результатами тестирования и надежностью измерения, что может быть полезно разработчикам при проектировании оценки компонент критического мышления.

Положения, выносимые на защиту

1. Предложенный в работе подход к разработке сопоставимых вариантов сценарных заданий, связывающий воедино этапы моделирования области конструкта и разработки модели задания в парадигме доказательного дизайна, позволил обеспечить эквивалентность структуры комплексного конструкта и психометрических характеристик поведенческих индикаторов между вариантами.

2. Методология работы с данными для обеспечения сопоставимости вариантов сценарных заданий была расширена за счет включения методов, базирующихся на бифакторных моделях, которые позволяют учесть многомерную природу комплексного конструкта и связи между поведенческими индикаторами, обусловленные наличием контекстного компонента.

3. Предложенная методология позволила выявить эффект контекста сценарного задания на результаты тестирования и установить, что эффект взаимодействия контекста и респондента на результаты выше, чем эффект общего контекста сценарного задания.

4. Для снижения эффекта контекста на результаты тестирования и повышения надежности измерений при оценке комплексных конструктов

необходимо использовать несколько сценарных заданий с разными контекстами.

Апробация и внедрение результатов исследования

Список публикаций автора диссертации, в которых отражены основные научные результаты исследования:

- Грачева Д.А. Роль контекста в заданиях сценарного типа при измерении универсальных навыков: применение теории генерализации / Д.А. Грачева // Вопросы образования. - 2023. - № 3. - C. 221-230;

- Грачева Д. А. Анализ сопоставимости измерения метапредметных навыков в цифровой среде // Психологическая наука и образование. - 2022. - № 6 (27). - C. 57-67;

- Грачева Д. А. Подходы к разработке вариантов заданий сценарного типа в рамках метода доказательной аргументации / Д.А. Грачева, К.В. Тарасова // Отечественная и зарубежная педагогика. - 2022. - № 3 (1). - C. 83-97. Дополнительные публикации с участием автора по теме:

- Uglanova I. Computer-based performance approach for critical thinking assessment in children / I. Uglanova, E. Orel, D. Gracheva, K. Tarasova // British Journal of Educational Psychology. - 2023. - №93. - P. 531-544.

Список научных конференций, на которых были представлены результаты исследования:

- Конференция «Quantitative Research Methods Conference (QRM)». Доклад: Testing measurement invariance across alternative test forms, 14-15 июня 2021 г., онлайн конференция.

- Конференция «13th Annual International Conference on Education and New Learning Technologies (EDULEARN21)». Доклад: Investigating the effect of context on comparability of computerized performance-based tasks, 5-6 июля 2021 г., онлайн конференция.

- Конференция «22nd Annual Meeting of the Association for Educational Assessment - Europe (AEA-Europe). Assessment for Changing Times: Opportunities and Challenges». Доклад: Comparability of computerized performance-based assessment for measuring critical thinking, 9-12 ноября 2021 г., Дублин, Ирландия (онлайн выступление).

- Конференция «24nd Annual Meeting of the Association for Educational Assessment - Europe (AEA-Europe 2023). Assessment reform journeys: intentions, enactment and evaluation» Доклад: The application of generalizability theory to the scenario-based performance assessment of 21st century skills: analysis of task context effect. 6-9 ноября 2023 г., Мальта.

Глава 1. Проблема сопоставимости результатов тестирования с использованием заданий сценарного типа

В первой главе диссертационного исследования мы рассмотрим, какие существуют направления исследований сопоставимости, как ученые определяют понятие сопоставимости результатов тестирования и какие критерии используются для доказательства сопоставимости измерений. Результатом первой главы является формирование теоретических оснований и критериев для анализа сопоставимости вариантов сценарных заданий.

1.1. Основные направления исследований сопоставимости результатов

тестирования

В литературе нет единого понимания сопоставимости результатов тестирования. В некоторых работах сопоставимость результатов соотносится со статистическими процедурами выравнивания и связывания (equating and linking), когда результаты нескольких тестирований помещаются на одну шкалу [Dorans, Walker, 2007; Loyd, Engelhard, Jr., Crocker, 1995]. В международных стандартах образовательного и психологического тестирования [American Educational Research Association, American Psychological Association, 2014] понятие сопоставимости встречается в нескольких разделах, посвященных связыванию результатов тестирования, справедливости оценивания и использованию модификаций теста под специальные нужды тестируемых. В тех же стандартах упоминается, что сопоставимость результатов тестирования должна подтверждаться сопоставимостью выводов, которые могут быть сделаны о респондентах по итогам тестирования [American Educational Research Association, American Psychological Association, 2014], стр. 114). В ряде источников сопоставимость результатов упоминается в значении, что результаты измерений, полученные при разных условиях тестирования, могут использоваться взаимозаменяемо [Way и др., 2015; Winter, 2010]

Исследования сопоставимости различаются в зависимости от условий, которые требуется сравнить. Большое число работ рассматривают сопоставимость

между группами тестируемых с различными характеристиками. В частности, исследования рассматривают межстрановую или межкультурную сопоставимость [Voicu, Ramia, 2021], сопоставимость между мужчинами и женщинами и испытуемыми разного возраста [Dong, Dumas, 2020].

Другая группа исследований посвящена сопоставимости процедур тестирования. Сюда относятся исследования, которые изучают сопоставимость результатов в зависимости от формата тестирования: бланковая или компьютерная форма [Gu и др., 2021; Hamhuis, Glas, Meelissen, 2020], тестовых модификаций для особых групп пользователей, например, билингвов [Abedi и др., 2020].

В отдельную группу исследований можно выделить работы, где рассматривается вопрос сопоставимости альтернативных (или параллельных) вариантов одного теста. Согласно международным стандартам образовательного и психологического тестирования, альтернативные варианты теста должны измерять одно содержание с использованием одинаковых типов заданий, иметь близкие средние значения и стандартные отклонения по общим баллам, а также администрирование тестовых вариантов должно проводиться в одинаковых условиях [American Educational Research Association, American Psychological Association, 2014]. Предполагается, что тестируемые получат одинаковые оценки по альтернативным вариантам теста, которые будут интерпретироваться одинаковым образом. Проблема сопоставимости альтернативных вариантов теста является фокусом настоящего исследования.

Для обеспечения сопоставимости результатов тестирования между вариантами необходимо определиться с критериями доказательства сопоставимости. В следующих разделах мы рассмотрим концептуальные рамки сопоставимости результатов тестирования, которые определяют критерии доказательства сопоставимости, и выделим особенности исследования сопоставимости сценарных заданий для измерения комплексных конструктов.

1.2. Концептуальные рамки и критерии сопоставимости результатов

тестирования

Понятие сопоставимости результатов тестирования часто упоминается в контексте справедливости оценивания [Gipps, Stobart, 2009; Kunnan, 2005; Mislevy и др., 2018]. В литературе прослеживается два подхода к пониманию справедливости оценивания: как возможность достичь необходимого уровня способности для успешного прохождения тестирования (например, вопрос доступа к образованию для разных групп респондентов) и как возможность продемонстрировать способность в процессе тестирования (вопрос справедливости оценочных материалов) [Burbules, Lord, Sherman, 1982; Gipps, Stobart, 2009]. Первый подход безусловно важен и подробно изучается исследователями в области образовательной политики [Brunori, Peragine, Serlenga, 2012].

Второй подход в большей степени нашел отражение в литературе, посвященной вопросам измерения и оценивания. Так, в международных стандартах образовательного и психологического тестирования справедливость оценивания упоминается в контексте равных возможностей для всех участников продемонстрировать способность в процессе тестирования: «тест является справедливым, если для всех участников он измеряет один конструкт, баллы за тест интерпретируются одинаковым образом, при этом справедливый тест не дискриминирует и не предоставляет преимуществ в зависимости от характеристик тестируемых, которые не относятся к измеряемому конструкту» [American Educational Research Association, American Psychological Association, 2014]. Из этого определения видна связь справедливости оценивания и валидности измерений, которая подчеркивалась разными авторами [Gipps, Stobart, 2009; Kane, 2010; Winter, 2010]. Ф. Винтер (2010) в своей работе упоминает, что для того, чтобы доказать сопоставимость измерений между разными условиями тестирования важно задуматься о ключевых вопросах валидности: какие выводы о тестируемом мы можем сделать на основе результатов; как можно интерпретировать и использовать эти результаты для принятия решений? [Winter, 2010].

Таким образом, вопрос о сопоставимости результатов между разными условиями тестирования является частью более общего вопроса о справедливости и валидности измерений. Разные исследователи предлагали концептуальные рамки для понимания справедливого оценивания и сопоставимости измерений, среди них: рамка справедливого оценивания А. Куннана [Kunnan, 2005], рамка сопоставимости результатов измерений М. Колена [Kolen, 1999] и рамка эквивалентности кросс-культурных исследований Фонс ван де Вайвера и Ц. Хэ [He, Vijver van de, 2012].

Концептуальная рамка справедливого оценивания А. Куннана включает пять аспектов (Рисунок 1):

Рисунок 1 - Концептуальная рамка справедливого оценивания А. Куннана

- Доступ к ресурсам

Предполагается, что все участники тестирования должны иметь одинаковый доступ к ресурсам (образовательным, экономическим и др.), чтобы тестирование считалось справедливым. Идея равного доступа к ресурсам согласуется с подходом к понимаю справедливости оценивания как возможности достичь необходимого уровня способности для успешного выполнения тестирования. Однако, как ранее

отмечалось, этот аспект справедливого оценивания скорее рассматривается в контексте образовательной политики, чем измерения и оценивания.

- Валидность

Для обеспечения справедливого оценивания необходимо собрать свидетельства валидности измерения. Свидетельства валидности могут быть собраны для подтверждения содержательной валидности (в какой степени задания теста соответствуют содержательной области), конструктной валидности (в какой степени задания отражают латентный конструкт); критериальной валидности (в какой степени результаты теста соотносятся с некоторой критериальной переменной). Отметим, что современные подходы к пониманию валидности отходят от деления валидности на типы, и рассматривают разные свидетельства валидности как единой концепции [Messick, 1980].

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Грачева Дарья Александровна, 2024 год

источников информации

Количество верных решений

задачи

В шаблоне проектирования значительное место занимает структурирование информации о конструкте и его поведенческих индикаторах. Однако в шаблоне также описываются ситуации, где желаемое поведение может проявиться и аспекты этих ситуаций, которые в дальнейшем могут стать элементами задания. Ключевые (characteristic) элементы задания включают аспекты ситуации, которые позволяют увидеть желаемые поведенческие проявления. Вариативные (variable) элементы -это аспекты ситуации, которые могут быть изменены для того, чтобы сделать задание легче, либо труднее. Элементы заданий в паттерне ECD, с одной стороны, ориентированы на репрезентацию конструкта, а, с другой стороны, на управление психометрическими характеристиками заданий. Шаблон проектирования первоначально не имеет цели создавать сопоставимые варианты заданий. Разработчики используют шаблон проектирования, чтобы описать и обосновать наблюдаемые проявления конструкта и представить круг ситуаций, где это наблюдаемое поведение можно зафиксировать. Однако паттерны могут быть полезны на этапе создания когнитивной модели и шаблона заданий в подходе клонирования.

Результаты анализа и моделирования области конструкта использовались для составления модели конструкта (student model), которая является частью

концептуальной рамки инструмента «4К». Модель конструкта содержит более формальное представление конструкта и его составляющих через поведенческие индикаторы под конкретную цель тестирования. В данном диссертационном исследовании мы ограничиваемся использованием инструмента «4К» для измерения критического мышления у учащихся младшей школы (10-11 лет), хотя вся линейка заданий в инструменте позволяет измерять критическое мышление и в более взрослом возрасте [Угланова, Погожина, 2021]. На основе статей об инструменте «4К» [Угланова, Брун, Васин, 2018; Угланова, Орел, Брун, 2020] приведена модель критического мышления для учащихся младшей школы (Таблица 5)

Таблица 5 - Модель критического мышления в инструменте «4К»

Составляющая критического мышления Суб-составляющая Наблюдаемое поведение

Анализ информации -навыки работы с информацией в соответствии с целями и условиями поставленной задачи. Релевантность информации Выделяет релевантную информацию для решения задачи.

Достоверность информации Выбирает надежные источники информации.

Полнота информации Выявляет недостаток информации, собирает полную информацию.

Вывод и аргументация -навыки формулирования собственного вывода и аргументов к нему с помощью результатов, полученных на этапе анализа. Формирование решения Вырабатывает собственное решение проблемы. Вырабатывает новое решение при изменении условий задачи.

Аргументирование собственного решения Аргументирует решение задачи выделяя нужную информацию в источнике.

Следуя методу доказательной аргументации при разработке тестов, на следующем этапе была создана модель задания. Модель задания описывает

тестовую среду, с которой будет взаимодействовать респондент в рамках оценивания.

В процессе разработки инструмента «4К» в формате сценарных заданий разработчики придерживались следующих принципов [Uglanova и др., 2022]:

- Сценарное задание реализовано в интерактивной цифровой среде. Наблюдаемые действия тестируемых в цифровой среде (поведенческие индикаторы) выступают доказательством выраженности у них навыков критического мышления.

- Тестовая среда задает комплексную проблемную ситуацию, которая может быть сформулирована в разных контекстах. То есть индикаторы сценарного задания объединены общим контекстом, который мотивирует респондентов на совершение действий, отражающих их уровень развития критического мышления.

- Действия тестируемого в цифровой среде подчиняются принципу конвергентности [Не и др., 2017]. Согласно принципу конвервентности, разные пути решения задачи приводят к единому ответу или части сценария. То есть независимо от действий тестируемого в цифровой среде, поведенческие индикаторы снимаются у всех тестируемых единым образом.

- Для решения заданий не требуются предметные знания. То есть критическое мышление относится к метапредметным навыкам, а не предметным навыком. Такой подход к понимаю критического мышления поддерживают другие исследователи [Ennis, 1993].

- Результаты индикаторов сохраняются автоматически в процессе тестирования, оценка осуществляется без привлечения экспертов.

Общих принципов разработки сценарных заданий для измерения критического мышления недостаточно для того, чтобы разработать шаблон заданий, необходимый для создания сопоставимых вариантов. Подходы клонирования требуют детализированное описание структуры задания, определение и структурирование его элементов.

Следуя методу доказательной аргументации, который использовался при разработке инструмента «4К», информация из шаблона проектирования (паттерна) критического мышления будет использоваться в создании когнитивной модели и шаблонов заданий для разработки вариантов сценарных заданий в соответствии с описанным ранее подходом клонирования.

2.3.2. Описание сценарных заданий инструмента «4К» для измерения критического мышления

Инструмент «4К» включал два основных сценарных задания для измерения критического мышления у учащихся начальной школы - «Аквариум» и «Динозавр». Строгое клонирование было реализовано на сценарном задании «Аквариум», нестрогое клонирование - на сценарном задании «Динозавр». Далее будут приведены описания исходных сценарных заданий: контекст, контент сценария и примеры экранов для иллюстрации заданий. Некоторые индикаторы и особенности сюжета будут опущены при описании сценариев для упрощения восприятия.

Сценарий «Аквариум»

Контекст сценария задает проблемную ситуацию, где тестируемому необходимо обустроить пространство для питомца, используя набор объектов. Контекст сценарного задания «Аквариум» - обустройство аквариума для крабов.

Сюжет сценария предполагает, что тестируемому сначала нужно определить достоверный источник, содержащий информацию о том, как обустроить аквариум для крабов. Для этого в задании используется симуляция интернет-браузера, где представлено несколько ссылок, только одна из ссылок является достоверной. При выборе наиболее достоверной ссылки тестируемый демонстрирует способность к определению достоверного источника информации и получает 1 балл (Рисунок 4).

Далее тестируемый анализирует текст по выбранной ссылке, чтобы узнать, какие объекты нужны для обустройства аквариума. Независимо от того, какая ссылка была выбрана на предыдущем этапе, тестируемым предъявляется один текст в соответствии с принципами конвергентности (Рисунок 5). Инструкция к

этой части задания звучит следующим образом: «Выдели предложения с важной информацией о том, что точно понадобится для аквариума».

Согласно паттерну критического мышления, полученному на этапе моделирования конструкта (Таблица 4), оценка релевантности информации подразумевает использование в задании релевантной и нерелевантной информации относительно условия задачи. В данном сценарии текст, который предоставлен респонденту для анализа, содержит следующие категории предложений: релевантные условию задачи, нерелевантные условию задачи, которые могут быть нейтральными и отвлекающими - предложениями-дистракторами, которые содержат полезную информацию, но она не соответствует условию задачи [Uglanova и др., 2022]. Релевантные предложения указывают на объекты, которые необходимы для обустройства аквариума для крабов (камни, водоросли, домики и прочее). Например, «на дно аквариума для крабов необходимо положить слой песка». Предложения-дистракторы указывают на объекты, которые могут использоваться для обустройства аквариума, но подходят для рыб. Например, «а вот рыбкам подойдет более крупный грунт». Нейтральные предложения не содержат полезной информации для решения задачи. Например, «ты можешь принести камни с речки». За каждое верно выделенное (релевантное) предложение в тексте статьи тестируемый получает 1 балл. В результате этой части задания тестируемый выборочно сохраняет предложения из текста статьи в блокнот (правая часть Рисунка 5).

Наконец, на основе проанализированного текста тестируемый обустраивает аквариум из объектов в симуляции. Симуляция содержит объекты, которые упоминались в тексте статьи и те, которые не были упомянуты, сгруппированные по категориям: домики, камни, грунт, разное, украшения, соль (Рисунок 6).

Согласно проанализированной информации, тестируемый должен принять решение, какие объекты нужно поставить в аквариум, а какие - нет. В тексте статьи содержалось указание на то, что объект должен быть в аквариуме для крабов (например, слой песка), объект больше подходит рыбкам (например, «рыбкам нравятся более высокие камни»), либо объект не подходит крабам и его не нужно

использовать (например, «пластиковые украшения могут быть ядовитыми, не надо их использовать»). Иными словами, тестируемый должен выбрать решение из предложенных альтернатив, которые могут быть верны или неверны. За каждый верно поставленный объект тестируемый получает 1 балл. Также тестируемый получает балл, если не поставил пластиковые украшения и не получает балл, если поставил.

Спасибо!

Теперь нужно решить, как обустроить аквариум. Я нашла несколько ссылок на источники в интернете.

Выбери одну ссылку, которая заслуживает доверия, и прочитай, что там написано.

Сообщество владельцев крабов-советы любителя по обустройству аквариума

crabclub.ru

Как подготовить аквариум для крабов? Рекомендации Московского Зоопарка

moscowzo.ru

Мы любим крабов! Делимся мнениями и фото

deti.ru

Назад

Рисунок 4 - Пример экрана сценарного задания «Аквариум» (достоверность

источника информации)

Рисунок 5 - Пример экрана сценарного задания «Аквариум» (релевантность

информации)

Галька Коралловая крошка

Рисунок 6 - Пример экрана сценарного задания «Аквариум» (формулирование

вывода)

После обустройства аквариума тестируемому становится известно, что при обустройстве необходимо учесть вид краба (морской краб). Тестируемый заново выбирает достоверный источник, анализирует текст новой статьи и достраивает аквариум исходя из новых условий задачи.

Сценарий «Динозавр»: описание

Контекст сценария задает проблемную ситуацию, где тестируемого просят помочь проанализировать информацию про некоторый объект/субъект для подготовки доклада и ответить на ключевой вопрос доклада. Контекст сценарного задания «Динозавр» - подготовка доклада про несуществующего динозавра массоспондила для ответа на ключевой вопрос, на скольких лапах ходил этот динозавр.

Для достижения цели тестируемому необходимо выбрать наиболее достоверную ссылку, где будет содержатся достоверная информация об этом типе динозавра (Рисунок 7). За выбор наиболее достоверной ссылки тестируемый получает 1 балл.

Далее тестируемому предлагается проанализировать текст электронной статьи, выделяя только важную информацию о том, на скольких лапах ходил массоспондил (Рисунок 8). Тест статьи содержит релевантные предложения, которые содержит три разные точки зрения относительно заданного вопроса (динозавр использовал две лапы для хождения, четыре лапы для хождения, либо точно не известно). Дополнительно к этому текст содержит нерелевантные предложения, которые не содержат полезной информации для ответа на вопрос («нейтральные» предложения»). В отличии от сценарного задания «Аквариум» в этом сценарии нет прямых предложений-дистракторов, которые содержат противоречащую информацию относительно задачи. В заключение тестируемого просят сделать итоговый вывод, на скольких лапах ходил динозавр массоспондил, опираясь на проанализированную информацию.

Выбери сайт, который заслуживает доверия, и прочитай, что там написано.

http://dinosaurs.org/results

массоспондил описание

Энциклопедия динозавров

dino.wiki.org

Описание массоспондила и его место среди других динозавров

Сказки о динозаврах

dino.tales.org

Как поссорился Массоспондил Петрович с Птеродактилем Ивановичем

Обсуждение динозавров

dino.forum.org

Сайт для обмена мнениями о массоспондиле и других травоядных динозаврах

Рисунок 7 - Пример экрана сценарного задания «Динозавр» (достоверность

источника информации)

Выдели предложения с важной информацией о том, на скольких лапах ходил массоспондил, и скопируй их в блокнот. Когда закончишь, нажми кнопку «Начать делать доклад».

http://dino.wiki.oig

Блокнот

Здесь будет выделенный текст.

Энциклопедия динозавров

Массоспондил - травоядный динозавр нижнего юрского периода, жил около 200 миллионов лет назад. В переводе с греческого название «массоспондил» означает «длиннопозвоночный».

Это имя он получил за свою длинную и гибкую шею. В длину взрослые особи достигали 5 метров. Сначала учёные считали, что массоспондил использовал четыре лапы для хождения. Также у него был длинный хвост. Но затем некоторые учёные решили, что он ходил только на двух задних лапах. На двух лапах ходили разные животные юрского периода. Сейчас считается, что передние конечности массоспондила могли использоваться как для хождения, так и для

Начать делать доклад

9

Рисунок 8 - Пример экрана сценарного задания «Динозавр» (релевантность

информации)

Когнитивные модели разрабатывались отдельно для составляющих критического мышления, которые измеряются в данных сценариях: анализ информации (достоверность источника информации, релевантность информации), построение вывода. На основе когнитивных моделей были разработаны шаблоны заданий с использованием обязательных и вариативных элементов сценарных заданий, которые были описаны в подходе клонирования сценарных заданий (Раздел 2.2)

2.3.3. Разработка вариантов сценарных заданий: релевантность информации

Структура когнитивной модели включает проблему задания, несколько источников информации и соответствующих им элементам задания, ограничения использования элементов.

Проблема задания - релевантность информации, которая является целью оценивания.

В когнитивной модели для измерения релевантности информации были выделены три основных источника информации: релевантная информация, нейтральная информация, отвлекающая информация, которые были описаны выше.

Подход клонирования для сценарных заданий подразумевает выделение элементов верхнего уровня, к которым относятся контекст и контент. Каждый источник информации помещен в контекст - стимульный материал, определяющий основную проблемную ситуацию, ее сюжет, используемые симуляции, и контент -тематическое наполнение. В структуре когнитивной модели для целей клонирования контекст сценария остается неизменным, а контент сценария может быть разным, то есть подлежит изменению.

Каждый источник информации содержит элементы нижнего уровня: элементы-стимулы, тематические элементы, элементы механики и характеристики структуры текста. Таким образом, изменение контента сценария ведёт за собой изменение последующих элементов нижнего уровня, но это никак не меняет контекст, источники информации и проблему задания (релевантность

информации). Когнитивная модель для измерения релеватности информации как составляющей критического мышления представлена на Рисунке 9.

Рисунок 9 - Схема когнитивной модели для релевантности информации

В качестве ограничений использования элементов можно выделить следующие: значения элементов должны быть согласованы между собой, соответствовать целевой аудитории.

В соответствии с когнитивной моделью для релевантности информации подход строгого клонирования был реализован для сценарного задания «Аквариум».

При разработке альтернативного варианта сценарного задания «Аквариум» использовался новый контент - обустройство террариума для гекконов. Далее клон сценарного задания «Аквариум» будет называться «Террариум». При подборе нового контента разработчики старались подобрать иного питомца, который не является популярным у целевой аудитории, чтобы избежать влияния предварительных знаний на результаты тестирования. В статье [Угланова, Брун, Васин, 2018] упомянуто, что в ранней версии сценария в качестве питомца использовались черепахи, однако при проведении апробации выяснилось, что участники, у которых дома есть черепахи, успешнее справлялись с заданием. Для валидизации контента проводились короткие интервью и когнитивные лаборатории с учащимися младшей школы до и после этапа разработки клонов. До этапа разработки у учащихся спрашивали, не является ли новый контент для них сложным или непонятным, знают ли они, кто такие гекконы, что такое террариум. В процессе разработки проводились дополнительные встречи, где учащиеся выполняли части нового варианта сценарного задания в бумажном виде и проговаривали вслух, почему делают тот или иной выбор.

На основе созданной когнитивной модели были составлены шаблоны задания для сценарного задания «Аквариум» в части измерения релевантности информации с использованием выделенных элементов верхнего и нижнего уровня (задание на Рисунке 5). В процессе строгого клонирования тематические элементы и элементы-стимулы (при необходимости) подлежали изменению, чтобы соответствовать новому контенту при сохранении элементов механики и элементов структуры текста.

В шаблонах заданий мы используем следующие обозначения элементов: - М - элемент механики, который должен совпадать в вариантах теста

(выдели, скопируй и.т.д.);

- С - элемент-стимул, который изменяется с изменением контента и определяет релевантность информации;

- Т - тематический элемент, который изменяется под влиянием нового контента всего сценарного задания.

Ниже приводится фрагмент шаблона, который отражает процедуру строгого клонирования. В этой части сценария ключ задания представляет собой выбор релевантных предложений в тексте. Номера верных предложений по порядку совпадают в двух вариантах сценарных заданий. В процессе клонирования не все тематические элементы были изменены ввиду соответствия новому контенту (например, Московский зоопарк)

Таблица 6 - Фрагмент шаблона сценарного задания «Аквариум» (релевантность

информации)

Элемент шаблона Аквариум Террариум

Контент Обустройство аквариума для крабов Обустройство террариума для гекконов

Инструкция к заданию [М1: Выдели] с важной информацией о том, что точно понадобится для [С1/Т1: аквариума] [С2/Т2: для крабов], и [М2: скопируй] их в блокнот. Когда закончишь, [М3: нажми кнопку «Готово»] [М1: Выдели] с важной информацией о том, что точно понадобится для [С1/Т1: террариума] [С2/Т2: для гекконов], и [М2: скопируй] их в блокнот. Когда закончишь, [М3: нажми кнопку «Готово»]

Элемент шаблона Аквариум Террариум

Текст задания Как подготовить [С1/Т1: аквариум] [С2/Т2: для крабов]? Рекомендации [Т7: Московского Зоопарка] Обустройство [С1/Т1: аквариума] начинается с укладки [С3/Т3: грунта]. На дно [С1/Т1: аквариума] [С2/Т2: для крабов] нужно положить [С4/Т4: слой песка]. А вот [С5/Т5: рыбкам] подойдет [С6/Т6: более крупный грунт] Как подготовить [С1/Т1: террариум] [С2/Т2: для гекконов]? Рекомендации [Т7: Московского Зоопарка] Обустройство [С1/Т1: террариума] начинается с укладки [С3/Т3: грунта]. На дно [С1/Т1: террариума] [С2/Т2: для гекконов] нужно положить [С4/Т4: слой мягкой земли]. А вот [С5/Т5: черепахам] подойдет [С6/Т6: более крупный грунт]

Элемент шаблона Аквариум Террариум

Элементы Структура предложений в Структура предложений в

тексте: не изменяется. тексте: не изменяется.

М: механики не меняются М: механики не меняются

С: определяют релевантность С: определяют

информации относительно релевантность информации

задачи - объекты, относительно задачи -

необходимые для объекты, необходимые для

обустройства аквариума для обустройства террариума

крабов для крабов

С1/Т1: краб С1/Т1: геккон

С2/Т2: аквариум С2/Т2: террариум

С3/Т3: грунт С3/Т3: грунт

С4/Т4: слой песка С4/Т4: слой мягкой земли

С5/Т5: рыбки - элемент С5/Т5: черепахи - элемент

противоречащей информации, противоречащей

дистрактор по отношению к информации, дистрактор по

крабу отношению к геккону

С6/Т6: крупный грунт С6/Т6: крупный грунт

Т: элементы для соответствия Т: элементы для

тематике соответствия тематике

Т7: лицо / организация, Т7: лицо / организация,

компетентная давать компетентная давать

рекомендации о крабах, не рекомендации о гекконах, не

является ключевым стимулом является ключевым

для задачи определения стимулом для задачи

релевантности. определения релевантности

Ниже представлен результат клонирования - экран из сценарного задания «Террариум» для измерения релевантности информации (Рисунок 10).

гекконов? Рекомендации Моск^

Рисунок 10 - Экран клонированного задания на измерения релевантности

информации

В соответствии с той же когнитивной моделью подход нестрогого клонирования был реализован для сценарного задания «Динозавр». Отличие когнитивной модели заключалось в отсутствие одного источника - информация, противоречащая задаче. Нестрогий подход клонирования воспроизводит механики задания и источники информации, и фокусируется на подборе нового контента, где респондент сможет проявить схожее поведение. Требование к сохранению структур предложений, как и других характеристик текста не предъявлялось.

В результате, было разработано сценарное задание «Еж», где тестируемому предлагается проанализировать информацию о том, зачем ежи трутся иголками о предметы. При подборе контента разработчики учитывали степень знакомства с проблемой, чтобы избежать влияния предыдущих знаний на результаты тестирования. В отличие от исходного задания, где в качестве контента использовался несуществующий динозавр, в сценарном задании «Еж» используются реальные факты о жизни ежей. Изменение контента с фантастического на реальный внесло разнообразие в процесс клонирования.

Блокнот

Здесь будет выделенный текст.

Как и в исходном задании релевантная информация представляет три точки зрения для ответа на ключевой вопрос доклада. В релевантных предложениях присутствовало указание на контент (ежей или динозавра массоспондила). Элементы, определяющие конкретную точку зрения относительно ключевого вопроса доклада, не выделялись. Перед разработчиками стояла задача создать тексты примерно одной длины, обращая внимание на соответствие лексики целевой аудитории и фокусируясь на воспроизведении того же поведения в процессе тестирования. Это означает, что учащиеся с высоко выраженным навыком определения релевантной информации должны найти три точки зрения относительно проблемы независимо от варианта текста.

Для целей сравнения в шаблоне заданий приведены релевантные предложения из двух вариантов. Для обеспечения сопоставимости инструкции к задаче были разработаны в парадигме строгого клонирования.

Фрагмент шаблона задания для этого сценария (релевантность информации) приведен ниже (Таблица 7).

Таблица 7 - Фрагмент шаблона сценарного задания «Динозавр» (релевантность

информации)

Элемент шаблона Динозавр Еж

Контент Доклад про динозавра массоспондила, ключевой вопрос - на скольких лапах ходил динозавр Доклад про ежей, ключевой вопрос - почему ежики трутся иголками о предметы

Элемент шаблона Динозавр Еж

Текст задания [М1: Выдели] предложения с важной информацией о том, на скольких лапах ходил массоспондил, и [М2: скопируй] их в блокнот. Когда закончишь, нажми кнопку «Начать делать доклад». Сначала ученые считали, что [С1/Т1: массоспондил] использовал четыре лапы для хождения. Но затем некоторые ученые решили, что [С1/Т1: он] ходил только на двух задних лапах. Сейчас считается, что передние конечности [С1/Т1: массоспондила] могли использоваться как для хождения, так и для притягивания веток высоких растений. [М1: Выдели] предложения с важной информацией о том, зачем ежики трутся иголками о предметы и [М2: скопируй] их в блокнот. Когда закончишь, нажми кнопку «Начать делать доклад». Одни считают, что [С1/Т1:ежик] так снимает старые иголки. [С1/Т1:Ежи] трутся о пахучие предметы, чтобы запахом прогнать из иголок вредных насекомых. Поведение [С1/Т1:ежей] не до конца изучено. Возможно, посторонние предметы помогают [С1/Т1: ежам] избавиться от старых иголок, а возможно - выгнать насекомых

Элементы М: механики не меняются С1/Т1: массоспондил (также могут использоваться динозавр или местоимение «он») Текст содержит релевантную и нерелевантную информацию. Релевантная информация представляет три разные точки зрения для ответа на ключевой вопрос доклада. М: механики не меняются С1/Т1: еж или ежик Текст содержит релевантную и нерелевантную информацию. Релевантная информация представляет три разные точки зрения для ответа на ключевой вопрос доклада.

Ниже представлен результат клонирования - экран из сценарного задания «Еж». При разработке альтернативного варианта вносились небольшие изменения в дизайн экрана: замена иллюстрации для соответствия новому контенту.

Выдели предложения с важной информацией о том, зачем ёжики трутся

иглами о предметы. Скопируй их в блокнот.

Когда закончишь, нажми кнопку «Начать делать доклад».

Здесь будет выделенный текст.

Блокнот

ЩШШ!

X

Энциклопедия ежей

Иногда лесные ежи трутся иголками о разные предметы. Например, они могут кататься на спине в куче яблок.

Специалисты дают разные объяснения. Одни считают, что ёжик так снимает старые иголки, чтобы новые лучше росли. За год ёж меняет только часть иголок. Есть и другое мнение. Ежи трутся о пахучие предметы чтобы запахом прогнать из иголок вредных насекомых Иголки у ежа густые, и ухаживать за ними трудно. Поведение ежей не до конца изучено. Возможно, посторонние предметы помогают ежам избавиться от старых иголок, а возможно - выгнать насекомых,

Рисунок 11 - Экран клонированного задания «Еж» для измерения релевантности

2.3.4. Разработка вариантов сценарных заданий: достоверность источника информации

В когнитивной модели задания для измерения способности определять достоверный источник информации были выделены два основных источника в соответствии с этапом моделирования области конструкта - достоверная и недостоверная информация. Структура когнитивной модели, а также выделяемые элементы повторяют когнитивную модель для заданий, измеряющих релевантность информации (Рисунок 9).

В качестве ограничений использования элементов можно выделить следующие: значения элементов должны быть согласованы между собой, соответствовать целевой аудитории. Кроме того, используемые элементы должны быть релевантны задаче (но обладать разной степенью достоверности), чтобы оценить навыки работы с достоверной информацией отдельно от навыков

Начать делать доклад

информации

определения релевантной информации, и согласованы с контентом. В отличие от предыдущего шаблона, элементы «аквариум» и «краб» не являются стимулами для демонстрации навыка работы с достоверной информацией.

Далее были составлены шаблоны задания для сценарного задания «Аквариум» в части измерения достоверности источника с использованием выделенных элементов верхнего и нижнего уровня (Таблица 8). Таблица 8 - Фрагмент шаблона сценарного задания «Аквариум» (достоверность

информации)

Элемент шаблона Аквариум Террариум

Текст инструкции Теперь нужно решить, как обустроить [Т1: аквариум]. Я нашла несколько ссылок на источники в интернете. [М1: Выбери] одну ссылку, которая [С1: заслуживает доверия], и прочитай, что там написано. Теперь нужно решить, как обустроить [Т1: террариум]. Я нашла несколько ссылок на источники в интернете. [М1: Выбери] одну ссылку, которая [С1: заслуживает доверия], и прочитай, что там написано.

Текст основного задания - Сообщество владельцев [Т2: крабов] - [С2: советы любителя] по обустройству [Т1: аквариума]. - Как подготовить [Т1: аквариум] для [Т2: крабов]? Рекомендации [С3/Т3: Московского Зоопарка]. - Мы любим [Т2: крабов]! Делимся [С4: мнениями] и фото. - Сообщество владельцев [Т2: гекконов] - [С2: советы любителя] по обустройству [Т1: террариума]. - Как подготовить [Т1: террариум] для [Т2: гекконов]? Рекомендации [С3/Т3: Московского Зоопарка]. - Мы любим [Т2: гекконов]! Делимся [С4: мнениями] и фото.

Элемент

шаблона Аквариум Террариум

Элементы Структура предложений в Структура предложений в

тексте: не изменяется. тексте: не изменяется.

Элементы механики Элементы механики

М1: выбери, не изменяются М1: выбери, не изменяются

Элементы-стимулы Элементы-стимулы

С1: заслуживает доверия С1: заслуживает доверия

С2: советы любителя С2: советы любителя

С3/Т3: Московского Зоопарка С3/Т3: Московского Зоопарка

С4: мнениями С4: мнениями

Тематические элементы Тематические элементы

Т1: аквариум Т1: террариум

Т2: краб Т2: геккон

Ниже представлен результат клонирования - экран из сценарного задания «Террариум» (Рисунок 12). При разработке альтернативного варианта в дизайн этого экрана изменения не вносились.

Спасибо!

Теперь нужно решить, как обустроить террариум. Я нашла несколько ссылок на источники в интернете.

Выбери одну ссылку, которая заслуживает доверия, и прочитай, что там написано.

Мы любим гекконов! Делимся мнениями и фото

deti.ru

Сообщество владельцев гекконов - советы любителя по обустройству террариума

geckoclub.ru

Как подготовить террариум для гекконов? Рекомендации Московского Зоопарка

Рисунок 12 - Экран клонированного задания «Террариум» на измерение достоверности источника информации

Шаблон для сценарного задания «Динозавр» для измерения навыков работы с достоверной информации представлен в Таблице 9. Представленная часть сценарного задания содержит названия трех ссылок и описаниях к ним, только одна из ссылок содержит указание на достоверную информацию, остальные две содержат указание на недостоверную информацию. Ограничения использования элементов совпадают с теми, что выделены ранее.

Таблица 9 - Фрагмент шаблона сценарного задания «Динозавр» (достоверность

информации)

Элемент шаблона Динозавр Еж

Шаблон инструкции [М1: Выбери] сайт, который заслуживает доверия, и прочитай, что там написано [М1: Выбери] сайт, который заслуживает доверия, и прочитай, что там написано

Шаблон основного задания - [С1: Энциклопедия] [Т1: динозавров]. Описание [Т2: массоспондила] и его место среди других [Т1: динозавров] - Обсуждение [Т1: динозавров]. Сайт для обмена [С2: мнениями] о [Т2: массоспондиле] и других [травоядных динозавров] - [С3: Сказки] о [Т1: динозаврах]. Как поссорился [Т2: Массоспондил] Петрович с Птеродактелем Ивановичем - [С1: Энциклопедия] [Т1: ежей]. Все о [Т1: ежах], их виды и описание. - Обсуждение [Т1: ежей]. Сообщество для тех, кто любит ежиков. - [С3: Сказки] о [Т1: ежах]. Как [Т1: еж] яблочное варенье варил.

Элемент

шаблона Динозавр Еж

Элементы Структура предложений в тексте: Структура предложений в

не изменяется. тексте: не изменяется.

Элементы механики Элементы механики

М1: выбери М1: выбери

Элементы-стимулы Элементы-стимулы

С1: энциклопедия С1: энциклопедия

С2: мнения С2: -

С3: сказки С3: сказки

Тематические элементы Тематические элементы

Т1: динозавр Т1: еж

Т2: массоспондил Т2: -

Ниже представлен результат клонирования - экран из сценарного задания «Еж» для измерения достоверности источника информации (Рисунок 13). При разработке альтернативного варианта в дизайн этого экрана изменения не вносились.

Рисунок 13- Экран клонированного задания «Еж» на измерение достоверности

источника информации

Разработка вариантов сценарных заданий в части измерения навыков построения вывода и аргументации происходила по тем же принципам, что и в случае других компонент критического мышления.

Для иллюстративных целей в Приложении А приведен пример реализации подхода клонирования для разработки вариантов заданий сценарного типа, измеряющих компоненты кооперации как другого комплексного конструкта. В приложении описан фрагмент задания сценарного типа из инструмента «4К» для измерения кооперации, разработан шаблон задания на примере одного индикатора.

2.4. Методы работы с данными для обеспечения сопоставимости вариантов

теста

2.4.1. Особенности анализа результатов тестирования комплексных конструктов, полученных с использованием сценарных заданий

Данные, получаемые по результатам тестирования комплексных конструктов с использованием сценарных заданий, имеют особенности, которые определяют методы анализа. Для сравнения рассмотрим особенности «традиционного оценивания».

Согласно Р. Леви, «традиционное оценивание» предполагает, что респонденту предъявляются короткие раздельные задания (часто содержащие вопрос), поведение респондента при выполнении каждого задания оценивается индивидуально [Levy, 2013]. В парадигме ECD оценивание поведения респондента даже в случае коротких раздельных заданий предполагает разработку правил оценки доказательств (evidence rules) - описание и обоснование того, как поведение респондента может быть представлено в виде переменных (индикаторов) для анализа, и модели измерения - математической модели, которая связывает индикаторы и латентный конструкт [Mislevy, Haertel, 2006].

Простой моделью измерения является сумма сырых баллов по индикаторам, где каждый индикатор имеет равный вклад (вес) в измеряемый конструкт [McNeish, Wolf, 2020]. Простые измерительные модели используются в парадигме классической теории тестирования [Hambleton, Jones, 1993]. Суммарный балл здесь является отражением способности или уровня подготовленности тестируемого. В целом, для традиционного оценивания характерно представление конструкта как одномерной концепции - все задания связаны с одной латентной переменной.

Альтернативой классической теории тестирования является использование моделей современной теории тестирования (Item Response Theory, IRT). Например, одномерные модели IRT, которые связывают индикаторы с латентной переменной способности c использованием вероятностной логистической модели (logistic model). Допущением при использовании одномерных моделей IRT является

локальная (условная) независимость заданий - вероятность правильного ответа на одно задание не зависит от правильности ответа на другое задание для респондентов с одинаковым уровнем способности [Hambleton, Swaminathan, 2013]. Нарушение допущения о локальной независимости при использовании этой модели приводит к искажению результатов анализа [Zenisky, Hambleton, Sireci, 2001].

Измерение комплексных конструктов с использованием сценарных заданий отличается от «традиционного оценивания» по двум основным пунктам.

Во-первых, комплексные конструкты включают несколько составляющих, которые являются целью оценивания. Иными словами, от идеи одномерности мы приходим к идее многомерности - в состав конструкта входят несколько под-конструктов. Например, критическое мышление может быть рассмотрено как одномерный конструкт, либо как многомерный, включающий отдельные латентные конструкты «анализ информации» и «построение вывода».

Для анализа комплексных конструктов используются многомерные измерительные модели. Например, многомерные модели IRT [Reckase, 2006]. Альтернативой могут являться измерительные модели в методологии моделирования структурных уравнений (Structural equation modeling, SEM) -многомерные модели конфирматорного факторного анализа [Brown, 2006].

Структура многомерных моделей может быть простой (factorially simple) или сложной (factorially complex) [Levy, 2013; McDonald, 2013]. Простая структура предполагает, что каждый поведенческий индикатор связан с одним конструктом. Сложная структура предполагает, что наблюдаемое поведение респондента связано сразу с несколькими латентными конструктами. Эта идея проиллюстрирована на Рисунке 14.

Для построения сложных структур конструкта, кроме вышеупомянутых многомерных моделей IRT и КФА, набирают популярность модели когнитивной диагностики (Cognitive Diagnosis Models, CDM). Модели CDM моделируют латентный конструкт как набор «мелко уровневых» навыков» [De La Torre, Minchen, 2014], где для решения одной задачи необходимо применить сразу несколько навыков. Эти модели являются дискретными - результатом оценки

становится классификация респондентов по уровню освоения каждого мелкого навыка (освоил или не освоил) и построение профиля навыков. Результатом многомерных моделей ШТ и КФА является непрерывная шкала способности, по которой можно ранжировать респондентов: шкала логитов для моделей ШТ и шкала факторных баллов для моделей КФА. Результаты, полученные с использованием математической модели, называют шкалированными (калиброванными), наблюдаемые баллы тестирования - сырыми результатами.

Рисунок 14 - Простая и сложная структура многомерных моделей

Примечание: И1 - И8 - поведенческие индикаторы, ЛК1 - ЛК2 - латентные конструкты (факторы), стрелками обозначаются связи индикаторов и латентных конструктов и связи латентных конструктов между собой.

Выбор между простой и сложной структурой конструкта принимается на ранних этапах разработки инструмента измерения. Для измерения одного конструкта задания (поведенческие индикаторы) могут быть созданы таким образом, что для их решения требуется применять один или несколько навыков. Сценарные задания в инструменте «4К» создавались таким образом, чтобы отдельные действия респондента в тестовой среде рассматривались как проявление

одной составляющей критического мышления. Например, на этапе создания когнитивной модели для оценки достоверности источника информации было обозначено, что используемые элементы должны отличаться степенью достоверности, но быть одинаково релевантными задаче, чтобы избежать оценки двух составляющих критического мышления через одно наблюдаемое поведение.

Идея многомерности может быть реализована в классической теории тестирования путем суммирования баллов по индикаторам, относящихся к разным составляющим конструкта. Однако методология латентного моделирования, которая включает использование моделей современной теории тестирования или факторного анализа, позволяет оценить и учесть связь между составляющими при оценке способности и сделать оценку более точной.

Второе отличие оценивания комплексных конструктов с использованием сценарных заданий от «традиционного» оценивания заключается в нарушении допущения о локальной независимости отдельных поведенческих индикаторов. Сценарные задания отличаются от более традиционных заданий, например, с выбором вариантам ответа, более насыщенной тестовой средой, наличием контекста и симуляций, которые создают зависимости между наблюдаемыми действиями респондента. Один из способов учета таких контекстных зависимостей является выделение фактора контекста через построение бифакторных моделей [Levy, 2013; Rijmen, 2010]. Общая структура бифакторной модели предполагает выделение основных факторов, которые определяют целевой латентный конструкт, и ортогональных специфических факторов, которые учитывают дополнительные связи между индикаторами, не объясняемые целевым конструктом. Таким образом, образование специфических факторов может быть связано с дополнительным латентным конструктом, который не является целью оценивания (например, навыки чтения или цифровой грамотности), либо с характеристиками стимульного материала (например, общим контекстом). Структура бифакторной модели продемонстрирована на Рисунке 15. Второй случай в литературе известен как «эффект тестлета» (testlet effect), который характерен для заданий с общим стимульным материалом, например, текстом. В парадигме современной теории

тестирования для учета этого эффекта разработаны модели тестлетов (testlet response theory models).

СЛК2

Рисунок 15 - Структура бифакторной латентной модели

Примечание: И1 - И8 - поведенческие индикаторы, ОЛК - основной латентный фактор целевого конструкта, СЛК1 - СЛК2 - специфические латентные факторы, стрелками обозначаются связи индикаторов и латентных конструктов.

Таким образом, анализ результатов измерения комплексных конструктов с использованием сценарных заданий предполагает использование методологии многомерного латентного моделирования с учетом контекстных связей между индикаторами. В рамках данного диссертационного исследования мы останавливаемся на использовании бифакторных моделей конфирматорного факторного анализа как измерительной модели. Ввиду того, что поведенческие индикаторы часто категориальные (дихотомические или политомические), рекомендуется использовать конфирматорный факторный анализ для категориальный переменных (categorical confirmatory factor analysis, CCFA) [Kim, Yoon, 2011]. Для оценки параметров в категориальном конфирматорном факторном анализе используется метод взвешенных наименьших квадратов с поправками среднего и дисперсии (WLSMV, weighted least square mean and variance adjusted) [Li, 2016].

В модели КФА для категориальных данных для каждого индикатора оценивается два типа параметров - факторная нагрузка или связь индикатора с

латентным фактором, и порог для перехода из одной категории ответа в другую (например, из категории неверного ответа 0 в категорию верного ответа 1). В области измерений два типа параметров соотносят с основными характеристиками качества тестовых заданий - дискриминативностью и трудностью по аналогии с моделями современной теории тестирования [Kim, Yoon, 2011]

При работе с сырыми данными тестирования и суммарным баллом как отражением способности тестируемого связи индикаторов с латентным конструктом являются одинаковыми. Это допущение часто не соответствует действительности [McNeish, Wolf, 2020], в особенности, когда речь идет о комплексных конструктах. В модели КФА параметры факторных нагрузок позволяют оценить связи каждого индикатора с латентным конструктом, что является еще одним аргументов в пользу использования методологии латентного моделирования по сравнению с работой на уровне сырых тестовых баллов.

2.4.2. Количественные методы анализа данных для доказательства сопоставимости результатов тестирования

Выбор статистического метода определяет разные свидетельства сопоставимости, которые могут быть получены.

Первая группа методов оценивает степень различий (или схожести) результатов между вариантами теста или группами тестируемых. К ним относятся методы сравнения средних (t-test) или дисперсионного анализа (ANOVA), где проверяется гипотеза о равенстве средних результатов между группами. Степень схожести результатов может быть оценена с использованием коэффициента корреляции между результатами по вариантам теста, где более высокие значения корреляции свидетельствуют о большей схожести результатов. В качестве свидетельства сопоставимости приводят корреляцию результатов по вариантам заданий с другой шкалой (конвергентная валидность) [Dadey, Lyons, DePascale, 2018].

Сравнение результатов может проводиться как на сырых данных тестирования, так и на результатах латентного моделирования (шкале логитов в

случае IRT, факторных баллов в случае КФА). Как было отмечено ранее, обработку результатов тестирования комплексных конструктов более предпочтительно проводить в методологии латентного моделирования. Однако оценка степени различий в этом случае будет предполагать два этапа: сначала оценка результатов тестирования через измерительную модель, а затем сравнение полученных результатов с использованием статистических методов. Такой двухэтапный подход критикуется в литературе ввиду снижения точности результатов анализа [Wang, Wang, 2019].

Оценка степени различий (или схожести) результатов между вариантами теста может проходить в один этап. Например, в статье [Kroehne и др., 2019] описана латентная модель для оценки корреляции между формами теста (latent cross-mode correlation model). В указанной статье модель применяется для сравнения результатов между бланковой и компьютерной формой теста, однако применение той же модели возможно для сравнения результатов по альтернативным вариантам. Суть предложенной модели заключается в следующем: результаты по вариантам теста оцениваются в одной измерительной модели, где первый латентный фактор является отражением способности по первому варианту теста, второй латентный фактор является отражением способности по второму варианту теста. В той же модели одновременно оценивается корреляция между выделенными факторами первого и второго варианта, которая выступает мерой схожести результатов. Иллюстрация модели приведена на Рисунке 16.

Рисунок 16 - Латентная модель для оценки корреляции между вариантами теста

Примечание: И1 - И4 - поведенческие индикаторы первого варианта теста, И1* - И4* - поведенческие индикаторы второго варианта теста, В1 и В2 -латентные факторы, отражающие способность тестируемого по первому и второму варианту теста соответственно, стрелками обозначаются связи индикаторов и латентных конструктов и связи латентных факторов между собой.

Альтернативный одноэтапной подход для сравнения результатов между вариантами теста - использование мультигрупповой модели КФА (multigroup CFA model) для сравнения средних значений латентных конструктов (факторных баллов). Проверка равенства латентных средних в мультигрупповой модели КФА аналогична сравнению средних результатов с помощью t-теста или ANOVA. Однако преимуществами мультигрупповой модели для сравнения средних результатов между вариантами заключается в том, что сравнение проводится внутри измерительной модели [Brown, 2006]

Вторая группа методов оценивает степень сопоставимости психометрических характеристик на уровне всего теста и отдельных заданий (поведенческих индикаторов).

На уровне всего теста сравнивается надежность измерений. Существуют разные подходы и метрики для определения надежности измерений. Например, надежность как внутренняя согласованность заданий теста оценивается через коэффициент альфа Кронбаха [Cronbach, 1951]. Однако в случае применения методологии латентного моделирования для анализа данных тестирования надежность оценивается по коэффициенту Омега, либо коэффициент надежности IRT [Cheng, Yuan, Liu, 2012].

На уровне отдельных поведенческих индикаторов проводится сравнение психометрических характеристик - трудности и дискриминативности. Предполагается, что характеристики индикаторов в разных вариантах теста будут эквивалентны. В исследовании [Kroehne и др., 2019], которое проводилось на результатах PISA, две формы одного теста (бланковая и компьютерная) калибровались отдельно с использованием моделей IRT для оценки параметров трудности и дискриминативности, а затем оценивалась корреляция между

параметрами. Высокие значения корреляция между параметрами трудности (0.95) и дискриминативности (0.9) в разных форматах теста выступали свидетельством сопоставимости измерения.

В методологии IRT свидетельством сопоставимости характеристик заданий в разных подгруппах является отсутствие различающегося функционирования заданий (Differential Item Functioning, DIF) [Zumbo, 2007]. Задание имеет DIF, если два респондента с одинаковым уровнем способности, принадлежащие разным группам, имеют разную вероятность дать верный ответ на задание. Иными словами, для респондента из одной подгруппы задание оказалось легче (либо труднее) чем для респондента из другой группы, хотя их уровень подготовленности (способности) одинаковый. Существуют разные методы оценки DIF (например, метод Мантеля-Хензеля или логистической регрессии) [Rogers, Swaminathan, 1993], которые позволяют оценить значимость различий в трудности заданий между вариантами теста, а также размер эффекта этих различий.

В методологии моделирования структурных уравнений сопоставимость на уровне всего теста и психометрических характеристик заданий возможно оценить в мультигрупповой модели КФА. Традиционно методы проверки DIF и мультигрупповые модели КФА применяются для проверки функционирования инструмента измерения в разных подгруппах тестируемых (например, которые отличаются культурной принадлежностью), однако есть примеры исследований, где эти методы использовались для проверки эквивалентного функционирования инструмента в разных вариантах или модальностях [Rojas и др., 2021].

Доказательство сопоставимости в рамках мультигрупповой модели сводится к проверке измерительной инвариантности, которая включает проверку эквивалентности структур конструкта и функционирования отдельных индикаторов (параметров трудности и дискриминативности в случае КФА для категориальных данных) между вариантами теста. Проверка измерительной инвариантности осуществляется на трех уровнях: конфигуральном, метрическом и скалярном. На конфигуральном уровне проверяется сопоставимость структур конструкта между вариантами теста. Иными словами, в альтернативных вариантах

теста должны воспроизводиться паттерны связей между латентными факторами и индикаторами, количество латентных факторов. На метрическом уровне проверяется гипотеза о равенстве связей между индикаторами и латентными факторами (факторные нагрузки полагаются равными). Иными словами, предъявляется требование к равенству параметров дискриминативности (факторных нагрузок) индикаторов между вариантами теста. Наконец, на скалярном уровне проверяется гипотеза о равенстве параметров порогов или трудностей индикаторов между вариантами заданий. Как было отмечено ранее, в рамках мультигрупповой модели возможно также сравнить средние значения латентных конструктов. Однако в литературе рекомендуется сравнить средние значения латентных конструктов только в случае доказательства трех уровней инвариантности, либо достижения частичной инвариантности, иначе результаты сравнения могут быть некорректны [Brown, 2006].

Для того, чтобы сделать вывод о том, какой уровень инвариантности достигается, три модели (конфигуральная, метрическая и скалярная) последовательно сравниваются между собой. Однако прежде необходимо оценить качество предложенной измерительной модели отдельно на данных из альтернативных вариантов теста.

Свидетельством качества построенной модели КФА является согласие структуры модели и эмпирических данных. Для этого используют разные индексы согласия. Наиболее популярные из них - это сравнительный индекс согласия (Comparative fit index, CFI, рекомендованные значения выше 0.95), индекс Такера-Льюиса (Tucker-Lewis Index, TLI, рекомендованные значения выше 0.95), индекс RMSEA (root mean square error of approximation, рекомендованные значения ниже 0.06) — корень среднеквадратической ошибки аппроксимации [Hu, Bentler, 1999]. В литературе также встречается рекомендация, что значения индексов TLI и CFI больше 0.9 могут свидетельствовать об удовлетворительном согласии модели и данных [Bentler, Bonett, 1980].

Соответствие качества модели рекомендованным значениям говорит о подтверждении структуры измерительной модели, которая отражает

теоретическую структуру конструкта, на данных тестирования. Подтверждение теоретической структуры инструмента на данных является одним из свидетельств валидности измерений [Cizek, Rosenberg, Koons, 2008].

Убедившись в качестве измерительной модели, можно переходить к процедуре проверки измерительной инвариантности. Для сравнения конфигуральной, метрической и скалярной модели рассчитывается разница между индексами согласия. Согласно рекомендациям, если разница между индексами согласия в разных моделях несущественная (ACFI в пределах 0.01, ARMSEA в пределах 0.015), то инвариантность подтверждается [Chen, 2007]. Сравнение моделей разного уровня инвариантности происходит последовательно: сначала сравнивается конфигуральная и метрическая модель (подтверждение метрической инвариантности), затем метрическая и скалярная (подтверждение скалярной инвариантности).

Таким образом, использование мультигрупповых моделей КФА позволит оценить, будет ли достигаться конструктный и психометрический критерий сопоставимости измерений.

2.4.3. Количественные методы анализа данных для оценки эффекта контекста

Наличие контекстного компонента может вызывать различия как в теоретической структуре конструкта, так и характеристиках отдельных индикаторов. Возникает необходимость на данных подтвердить существование эффекта контекста и определить, как контекст сценарного задания связан с результатами тестирования комплексных конструктов.

В литературе большее внимание уделено исследованию эффекта метода -как результаты тестирования зависят от метода измерения [Eid, Geiser, Koch, 2016]. Эффект метода - это часть дисперсии результатов тестирования, которая объясняется методом измерения, а не латентным конструктом [Podsakoff и др., 2003]. В работе Т. Коха с коллегами приводится более широкое определение: под эффектом метода понимается та часть дисперсии результатов, которая не относится к измеряемому латентному конструкту [Koch и др., 2020]

Для исследования эффекта метода применяется методология на основе матрицы «способности х методы измерения» (Multitrait-Multimethod Matrix, MTMM), которая была предложена Д. Кэмпбелл и Д. Фиске [Campbell, Fiske, 1959] для оценки конструктной валидности измерений. Позже эта методология была расширена на использование идеи матрицы «способности х методы измерения» в моделях КФА (CFA-MTMM) [Brown, 2006].

Применение методологии CFA-MTMM предполагает, что несколько способностей (латентных конструктов) измеряются разными методами измерения. Строится базовая модель CFA-MTMM, где все методы (и способности) связаны (Рисунок 17).

Рисунок 17 - Базовая модель методологии CFA-MTMM Примечание: И1 - И9 - поведенческие индикаторы, ЛК1 - ЛК3 - латентные факторы, отражающие способность тестируемого, Метод 1 - МетодЗ - латентные факторы эффекта метода, стрелками обозначаются связи индикаторов и латентных факторов, и связи латентных факторов между собой.

В рамках методологии проверяется гипотеза о том, различаются ли методы измерения (составляющие конструкта) между собой. Для этого базовая модель CFA-MTMM, сравнивается с моделями с дополнительными ограничениями.

Например, с моделью, где все методы измерения не связаны друг с другом (вводится дополнительное ограничение, что связи между факторами метода равны нулю), что является аналогом многомерной бифакторной модели с ортогональными специфическими факторами. При сравнении двух моделей можно сделать вывод, в какой степени методы измерения (латентные факторы методов измерения) связаны. Для оценки эффекта метода также исследуются и сравниваются связи (факторные нагрузки) индикаторов с факторами метода и латентного конструкта.

К разным методам измерения могут относиться самоотчетные опросники, задания с закрытым и открытым ответом и другое. В рамках данного диссертационного исследования предполагается, что метод CFA-MTMM может быть применен для измерения комплексных конструктов с использованием нескольких сценарных заданий, где составляющие комплексного конструкта выступают разными латентными конструктами, а сценарные задания - разными методами измерения ввиду того, что каждое сценарное задание содержит уникальный контекст, а варианты сценарных заданий - уникальный контент.

Другая методология, в рамках которой возможно исследовать эффект метода - Теория генерализации (Generalizability Theory). Основы Теории генерализации описаны в статьях Л. Кронбаха [Cronbach, 1972], и позже были дополнены в работах Р. Шавелсона и Г*. Бреннона [Brennan, 1992; Shavelson, Webb, Rowley, 1992]. В рамках данного диссертационного исследования основы Теории генерализации были описаны в статье [Грачева, 2023].

В Теории генерализации предполагается, что различия в результатах теста (дисперсия результатов) могут объясняться разными компонентами, например, способностью респондента, трудностью заданий в тесте, особенностями метода измерения и прочее. За исключением компонент, связанных с объектом измерения (способность респондента), остальные компоненты принято называть фасетами. Получить количественную оценку эффекта каждого компонента на результаты тестирования возможно с использованием метода дисперсионного анализа (ANOVA).

В исследования, где применяется методы Теории генерализации, часто отдается предпочтение изучению эффекта экспертной проверки и эффекта заданий теста на результаты тестирования [Hild, Gut, Brückmann, 2019]. В рамках данного диссертационного исследования предложено рассматривать дополнительный фасет - контекст сценарного задания для оценки эффекта контекста на результаты тестирования.

В статьях, где исследуется эффект метода, поднимается вопрос об эффекте взаимодействия метода измерений и респондента. Предполагается, что эффект метода может быть не эквивалентен для всех респондентов [Kroehne и др., 2019; Shavelson, Baxter, Gao, 1993]. Например, одни респонденты лучше справляются с сценарными заданиями в одном контексте и хуже справляются с заданиями в другом контексте, и наоборот для других респондентов. Методы Теории генерализации позволяют не только количественно оценить общий эффект контекста, одинаковый для всех респондентов, но и эффект взаимодействия тестируемого и контекста. Дизайн такого исследования был предложен в статье [Грачева, 2023]:

Дисперсия результатов тестирования О2 (Xp¡c) может быть разложена на

п

компоненты, связанные с различием в истинной способности респондентов G2(p),

7 ■ 2

различиями в трудности индикаторов 0'2(1), контекстов О (С), эффектами

п

взаимодействия и остаточной дисперсией G2(piC, в):

°2 (Xpic) = &2(р) + g2(í) + о2(с) + a2(pi) + а2(рс) + a2(ic) + a2(pic,e).

Расчет компонентов дисперсии по фасетам исследования (индикаторы и контекст сценарного задания) становится результатом G-исследования (generalizability study) в рамках Теории генерализации. Результаты G-исследования представляют в виде процентов от общей дисперсии результатов тестирования: чем выше процент для компоненты, тем больше ее эффект на результаты.

87

2.5. Выводы

Сопоставимость результатов тестирования между вариантами теста должна быть обеспечена на протяжении всего цикла оценивания - от ранних этапов концептуализации и разработки инструмента измерения до работы с данными и интерпретации результатов. Это требует разработки подхода для обеспечения сопоставимости, включая формирование методологических подходов к разработке тестов и методологии анализа данных.

Проведенный обзор подходов к разработке сопоставимых вариантов теста позволяет сделать вывод, что для разработки вариантов сценарных заданий предпочтительнее использовать подходы клонирования. Другие подходы либо не применимы для сценарного формата тестирования (например, подход на основе банка заданий), либо не могут с точностью воспроизвести структуру комплексного конструкта и особенности тестовой среды. Идея подходов клонирования восходит к исследованиям автоматической генерации заданий и заключается в создании структуры задания из его элементов. Среди рассмотренных подходов клонирования большее внимание уделяется подходу обязательных и вариативных элементов, который удовлетворяет конструктному и психометрическому критерию сопоставимости. Иными словами, ожидается, что варианты теста, разработанные в логике подхода обязательных и вариативных элементов, будут не только обладать одной структурой, но и едиными психометрическими характеристиками. Однако подходы клонирования часто применяются для заданий простой структуры. Задачей исследования являлось формирование подхода клонирования с учетом особенностей сценарных заданий для измерения комплексных конструктов.

Результатом главы стало описание подхода клонирования для сценарных заданий. Предложено выделять элементы сценарных заданий на двух уровнях. К элементам верхнего уровня относятся контекст и контент сценарного задания. В рамках данной главы были предложены определения контекста и контента как отдельных комплексных элементов, которые являются неотъемлемой частью сценарного формата оценивания. К элементам нижнего уровня были отнесены элементы-стимулы, которые мотивируют респондентов на совершение действий,

отражающих целевой конструкт (например, выделение релевантной информации в тексте), тематические элементы, которые изменяются под влиянием нового контента, элементы механики, отражающие взаимодействие тестируемого с тестовой средой (например, выделение, выбор, перетаскивание и прочее), и элементы структуры текста. В результате, была создана схема когнитивной модели для клонирования сценарных заданий.

Разработка сопоставимых вариантов сценарных заданий предполагала разделение выделенных элементов на обязательные и вариативные. В качестве основного обязательного элемента был выбран контекст задания, в качестве вариативного, изменение которого не оказывает существенного влияния на психометрические характеристики задания, - контент (тематическое наполнение). Элементы нижнего уровня могли относиться как к обязательным, так и вариативным. В статье [Грачева, Тарасова, 2022] было предложено выделять строгое и нестрогое направления клонирования в зависимости от того, какие элементы считаются обязательными. Описание строгого и нестрогого направлений клонирования было расширено и дополнено в настоящем исследовании.

Строгий и нестрогий направления клонирования были реализованы для разработки сопоставимых вариантов сценарных заданий инструмента «4К» для измерения критического мышления у учащихся начальной школы. Инструмент «4К» разрабатывался в парадигме доказательного дизайна - метода доказательной аргументации при разработке тестов (ECD). Реализация подхода клонирования опиралась на результаты моделирования области критического мышления (паттерна ECD) и принципы разработки сценарных заданий, обозначенные в модели задания как части парадигмы ECD. Были разработаны когнитивные модели и шаблоны сценарных заданий отдельно для компонент критического мышления.

Таким образом, строгое направление клонирования в большей степени ориентируется на разработку похожих заданий, предъявляя требование к сохранению структур предложений в стимульных материалах задания. При использовании нестрогого подхода клонирования разработчики подбирают новый контент и значения элементов таким образом, чтобы тестируемый мог

продемонстрировать схожее поведение, независимо от предъявляемого варианта сценарного задания.

На основании предложенных подходов клонирования можно выдвинуть следующие гипотезы:

- варианты сценарных заданий, созданные по подходу клонирования, будут иметь эквивалентные структуры конструкта и психометрические характеристики индикаторов.

- варианты сценарных заданий, созданные по строгому направлению клонирования, будут в большей степени сопоставимы между собой, чем варианты сценарных заданий, разработанные в логике нестрогого клонирования.

- варианты сценарных заданий, имеющие общий контекст, но разный контент (тематическое наполнение), будут в большей степени сопоставимы между собой, чем сценарные задания, разработанные в разном контексте.

Проверка поставленных гипотез на эмпирических данных позволит оценить применимость предложенного подхода клонирования для создания сопоставимых вариантов сценарных заданий, а также сравнить направления строгого и нестрогого клонирования.

Обеспечение сопоставимости результатов тестирования должно происходить не только на этапе разработки инструмента измерения, но и на этапе работы с данными. Для проверки сопоставимости на этапе работы с данными предлагается использовать мультигрупповые модели КФА, которые позволят одновременно оценить, будет ли достигаться конструктный и психометрический критерий сопоставимости измерений. При этом, использование мультигрупповых моделей должно учитывать особенности данных тестирования комплексных конструктов с использованием сценарных заданий, которые были обозначены в разделе 2.4.1: многомерность и учет контекстных связей между индикаторами. Этим запросам

отвечают бифакторные модели КФА, которые будут реализованы на данных инструмента «4К» для измерения критического мышления.

В рамках данной диссертационной работы подчеркивается важность исследования контекста сценарного задания для обеспечения сопоставимости измерений. Возникает необходимость не только обосновать методологические подходы к обеспечению сопоставимости вариантов сценарных заданий с учетом контекстного компонента, но и количественно определить эффект контекста на результаты тестирования. На основании проведенного обзора исследований предлагается изучать эффект контекста на общем уровне и на уровне взаимодействия с тестируемым с использованием методов Теории генерализации. На основе результатов данной главы предлагается оценивать отдельно эффекты контента и контента в соответствии с логикой подхода клонирования.

Необходимость оценки эффекта контекста наряду с эффектом контента обусловлена двумя причинами. Во-первых, эмпирическое исследование позволит количественно определить эффект контекста на результаты тестирования. Обнаружение этого эффекта позволит подтвердить основное положение исследования о том, что изменение контекста сценарного задания вызывает различия в результатах тестирования и должно быть проконтролировано на этапе разработки заданий. Во-вторых, оцененный эффект контекста будет использован для сравнения с эффектом контента. Предполагается, что эффект контента на результаты тестирования должен оказаться ниже, чем эффект контекста при сравнении нескольких сценарных заданий.

Таким образом, вывод о степени сопоставимости сценарных заданий для измерения комплексных конструктов может быть сделан на основе следующих свидетельств сопоставимости, полученных на этапе разработки инструмента измерения и работы с данными:

- разработка вариантов сценарных заданий должна осуществляться в соответствии с обоснованным подходом разработки, который позволяет обеспечить конструктную и психометрическую сопоставимость. В рамках данного диссертационного исследования предложен подход клонирования,

сочетающий принципы автоматической генерации заданий и метода доказательной аргументации при разработке тестов (ECD) с учетом особенностей оценивания с использованием сценарного формата;

- разработка вариантов сценарных заданий может происходить за счет изменения контента (тематического содержания) сценария. Сопоставимость контента может быть дополнительно доказана с использованием заключений экспертов, по результатам когнитивных лабораторий с целевой аудиторией теста или по результатам анализа метрик сложности текстов, включая анализ частотности слов и соответствия лексики целевой аудитории;

- обеспечение сопоставимости вариантов сценарных заданий на уровне данных должно включать проверку сопоставимости результатов тестирования, проверку эквивалентности психометрических характеристик на уровне всего теста (например, надежности) и функционирования отдельных индикаторов (например, трудность и дискриминативность индикаторов), проверку эквивалентности структуры конструкта в соответствии с конструктным и психометрическим критериями сопоставимости. Выбранная методология проверки сопоставимости должна быть обоснована с учетом особенностей измеряемого конструкта и формата тестирования;

- оценка сопоставимости может проводиться через анализ связи результатов тестирования по вариантам теста с внешним критерием, где эквивалентность связей выступает свидетельством сопоставимости результатов;

- доказательство сопоставимости должно включать анализ эффекта контекста на результаты тестирования и эффекта контента для сравнения результатов по вариантам сценарных заданий.

Доказательство сопоставимости измерений - это непрерывный процесс, подразумевающий сбор свидетельств сопоставимости на этапе разработки, администрирования и реализации инструмента. В будущих исследованиях список свидетельств сопоставимости может быть дополнен и расширен.

Глава 3. Эмпирическое исследование сопоставимости заданий сценарного типа для измерения критического мышления среди учащихся младшей

школы

В третьей главе приведены результаты трех эмпирических исследований в соответствии с исследовательскими вопросами и выдвинутыми гипотезами. В первом эмпирическом исследовании сравниваются подходы строгого и нестрогого клонирования заданий сценарного типа, описанные в Главе 2. Результаты этого исследования позволят определить подход к разработке сопоставимых вариантов сценарных заданий. Во втором эмпирическом исследовании стоит задача проверить сопоставимость результатов тестирования между вариантами сценарных заданий по двум критериям: равенство структур конструкта и психометрических свойств индикаторов с использованием мультигрупповой модели КФА с учетом контекстных связей между индикаторами. Наконец, в третьем эмпирическом исследовании поставлена задача количественно определить эффект контекста на результаты тестирования комплексных конструктов с использованием сценарных заданий. Все эмпирические исследования проведены на примере заданий сценарного типа для оценки критического мышления инструмента «4К» на выборках, собранных в 2021 году.

3.1. Сравнительное исследование подходов разработки сопоставимых вариантов сценарного типа

Целью данного эмпирического исследования являлось сравнение двух подходов к разработке вариантов заданий сценарного типа на примере конструкта критическое мышление - подходов строгого и нестрогого клонирования, которые подробно описаны в Главе 2. Основные результаты данного эмпирического исследования опубликованы в статье [Грачева, Тарасова, 2022]. В настоящем диссертационном исследовании описание результатов включает дополнительные детали анализа.

Идея подхода клонирования заключается в выделении элементов в сценарных заданиях, которые могут быть изменены для разработки заданий-клонов. Для

сценарных заданий были выделены два комплексных элемента - контекст и контент задания. При реализации клонирования контекст задания был назначен обязательным элементом, который, как предполагается, определяет структуру конструкта и психометрические свойства задания. Контент или тематическое содержание сценария было принято считать вариативным элементом, который подлежит изменению. В строгом направлении подхода клонирования при разработке альтернативного варианта сценария дополнительно соблюдалась эквивалентность между синтаксическими структурами предложений в текстах. В нестрогом направлении клонирования такое допущение не было сделано.

Реализация строгого клонирования происходила на примере сценарного задания «Аквариум», нестрогого клонирования - на примере сценарного задания «Динозавр» из инструмента «4К». Исследование проводилось только на индикаторах сценариев для измерения релевантности информации и достоверности источника информации.

В исследовании проверялись следующие гипотезы:

- варианты сценарных заданий, созданные по строгому направлению клонирования, будут в большей степени сопоставимы между собой, чем варианты сценарных заданий, разработанные в логике нестрогого клонирования;

- варианты сценарных заданий, имеющие общий контекст, но разный контент (тематическое наполнение), будут в большей степени сопоставимы между собой, чем сценарные задания, разработанные в разном контексте.

Гипотеза о эквивалентности структур конструкта и психометрических характеристик индикаторов между вариантами сценарных заданий, созданные в подходе клонирования, будет проверена в следующем исследовании.

В настоящем исследовании принимало участие 381 учащийся начальных классов, которые проходили тестирование универсальных навыков с использованием инструмента «4К» осенью 2021 года. Перед началом тестирования

администраторам тестирования были высланы руководства с описанием инструмента, этапов подготовки к тестированию и требований к программному обеспечению. Тестирование проходило в школах, в компьютерном классе, каждому респонденту предоставляли персональный компьютер и логин для доступа на сайт инструмента «4К». Для всех учеников получено согласие родителей на участие в исследовании. Правила администрирования распространяются на все эмпирические исследования, которые приведены в данной диссертационной работе.

Дизайн исследования был разработан таким образом, чтобы избежать эффекта порядка предъявления альтернативных вариантов заданий на результаты. Тестирование было разделено на две части. В первой части тестирования респонденты проходили задания «Аквариум» и «Террариум» в случайном порядке, во второй части тестирования - задания «Динозавр» и «Еж», которые также предъявлялись случайно. На выполнение всего тестирования отводилось 40-45 минут вместе с инструкцией по проведению тестирования.

Для сравнения подходов строгого и нестрого клонирования использовалась методология CFA-MTMM. Данный метод специфицирует факторную модель, при которой разные составляющие критического мышления измеряются разными методами. В данном исследовании мы рассматриваем четыре задания сценарного типа (сценарии «Аквариум», «Динозавр» и их альтернативные варианты) как четыре способа измерения двух способностей к анализу информации (способность выбирать достоверный источник информации и выделять релевантную информацию). Исследование связей между разными методами позволит оценить степень согласованности сценариев между собой и проверить гипотезы исследования.

Вид базовой модели CFA-MTMM представлен на Рисунке 18.

Рисунок 18 - Базовая модель CFA-MTMM для критического мышления

Примечание: в верхней части: Релевантность (1) и Надежность (Достоверность) (2) - факторы способностей. В нижней части: «Дино» (1), «Еж» (2), «Аквариум» (3), «Террариум» (4) - факторы методов измерения. * - корреляции между вариантами сценариев как факторов метода.

Модель содержит два связанных латентных фактора способностей (релевантность и достоверность) и четыре связанных латентных фактора методов измерения. Факторы способностей и методов ортогональны. Каждый индикатор сценария относится и к фактору способности, и к фактору метода (обозначено как

Уц, где I- фактор способа измерения, _/- фактор способности). Четыре сценария

содержат всего 24 дихотомических индикатора релевантности и 6 дихотомических индикаторов достоверности (надежности).

Суть метода CFA-MTMM заключается в сравнении вложенных моделей. В соответствии с предположениями статьи, фокус анализа заключается в сравнении моделей с ограничениями на связь факторов метода, представляющих разные сценарные задания:

Базовая модель (Модель 0) показана выше. Предпочтение Модели 0 будет свидетельствовать о том, что все методы измерения связаны между собой.

Модель 1: то же, что Модель 0, но с допущением, что все методы измерения различны, то есть являются самостоятельными методами критического мышления (корреляции между всеми сценариями равны нулю).

Модель 2. то же, что Модель 1, но с допущением, что варианты внутри каждого сценария связаны (свободно оцениваются корреляции между вариантами одного сценария - отмечены * на Рисунке 18). Предпочтение Модели 2 будет говорить о том, что варианты сценариев связаны между собой, а сценарии, реализованные в разных контекстах, не демонстрируют связи.

Качество моделей определялось по следующим критериям соответствия модели и данных: CFI (TLI) > 0.95, RMSEA < 0.05 [Hu, Bentler, 1999]. Для оценки параметров использовался метод взвешенных квадратов (WLSMV). Сравнение моделей производилось по критериям согласия, где снижение значений CFI в пределах 0.01, RMSEA в пределах 0.015 свидетельствует о значимом ухудшении модели [Chen, 2007].

Для сравнения двух подходов к разработке сопоставимых вариантов заданий, будет проверена гипотеза о равенстве корреляций между вариантами сценариев (отмечены * на Рисунке 18). Анализ проводился в среде программирования R, пакете «lavaan».

Результаты исследования

В ходе анализа были оценены три модели. Показатели согласия модели и данных представлены в Таблице 10.

По сравнению с базовой моделью, Модель 1 показала ухудшение соответствия данным по критерию CFI (ACFI больше 0.01), по критерию RMSEA Модель 1 также подходит данным хуже, однако ARMSEA находится в допустимых пределах 0.015. Ограничение на ортогональность методов измерения в Модели 1 проверяет предположение о дивергентной валидности измерений, когда разные методы измеряют разные аспекты конструкта (связи между факторами методов измерения полагаются равным нулю). Это допущение не должно выполняться для

вариантов заданий, измеряющих те же аспекты конструкта (содержащих одинаковые поведенческие индикаторы) в одном контексте.

Модель 2 также лучше подходит данным, чем Модель 1 по критерию CFI (ДCFI больше 0.01). Мы можем сделать вывод, что варианты заданий действительно связаны между собой, и не являются самостоятельными методами измерения критического мышления.

Таблица 10 - Сравнение моделей в методологии CFA-MTMM

Модели Хи-квадрат (ё!) CFI Ш RMSEA

Модель 0 281.03 (368) 0.979 0.976 0.027

Модель 1 375.63 (374) 0.963 0.957 0.035

Модель 2 290.05 (372) 0.979 0.976 0.027

Показатели согласия Модели 0 и Модели 2 практически не различаются, поэтому мы отдадим предпочтение более простой модели (Модель 0). Следовательно, все сценарии связаны между собой, а не только варианты сценариев. Полученные результаты объяснимы, так как сценарные задания создавались в единой методологии, оценивают один конструкт, используют схожие механики и симуляторы.

Чтобы оценить степень связи между сценарными заданиями (методами измерения), рассмотрим корреляции между всеми факторами метода в базовой модели. Факторы метода для сценарных заданий с разным контекстом практически не связаны между собой (от 0.1 до 0.2 при р > 0.05). Это означает, что сценарии с разным контекстом не оценивают способности к анализу информации одинаковым образом. Их совместное использование в тестировании позволяет более полно и всесторонне оценить навыки анализа информации.

Варианты сценарных заданий, созданных по подходу клонирования, демонстрируют статистически значимую связь на уровне 0.05 со следующим размером эффекта: «Аквариум» и «Террариум» (0.513), «Динозавр» и «Еж» (0.575). Корреляция между факторами методов измерения, с одной стороны, выступает

свидетельством конвергентной валидности - связь между методами, измеряющими одинаковые аспекты конструкта. И, с другой стороны, выступает свидетельством сопоставимости вариантов сценарных заданий. Согласно полученным результатам, корреляция между вариантами больше 0.5, что для социальных наук является свидетельством высокой связи [Cohen, 1988].

В литературе нет строгих правил для интерпретации размера эффекта в части корреляции между факторами метода. В книге Б. Бурн упоминается, что конвергентная валидность подтверждается, когда корреляция между методами, измеряющих одни аспекты конструкта, является «положительной и существенной (substantial)» [Byrne, 2013]. При этом термин «существенная корреляция» не является общепринятым. С учетом того, что разработанные варианты сценарных заданий не являются абсолютно одинаковыми, мы не ожидали получить корреляцию близкую к единице. Справедливым критерием для интерпретации результатов могла бы стать корреляция между факторами одного сценарного задания, который предъявлялся тестируемым дважды, однако рассчитать такую корреляцию не представляется возможным. Также для подтверждения сделанных выводов следует обратить внимание на разницу в корреляциях между разными сценарными заданиями (с разным контекстом) и между вариантами сценариев (с одним контекстом, разным контентом). Прирост в связи между вариантами сценариев по сравнению с разными сценариями находится на уровне 0.3-0.4, что, по мнению автора, является заметным изменением в сторону большей сопоставимости методов измерения.

Между корреляциями вариантов сценарных заданий, разработанных в логике строгого и нестрогого клонирования, не обнаружено статистически значимых различий (z = -1.2, p=0.11). Гипотеза, предполагающая более сильную согласованность между вариантами сценариев, разработанных в логике строгого клонирования, не подтвердилась. Однако гипотеза о том, что варианты сценарных заданий будут в большей степени сопоставимы между собой, чем сценарные задания, разработанные в разном контексте, подтвердилась.

Результаты исследования следует принимать с учетом ограничений. В работе подходы клонирования были опробованы на разных сценариях (по количеству индикаторов, длине, контексту и пр.), поэтому для подтверждения выводов может быть проведено повторное исследование с использованием нескольких вариантов одного сценарного задания, которые разработаны в логике строгого и нестрогого клонирования. Кроме того, три рассмотренные модели хорошо подходят данным, согласно принятым критериям согласия [Ни, ВеП1ег, 1999]. Выводы исследования базируются на сравнении моделей по разнице в статистиках согласия.

3.2. Анализ сопоставимости результатов тестирования критического мышления между вариантами заданий сценарного типа

Целью данного эмпирического исследования являлся количественный анализ сопоставимости результатов тестирования на примере сценарного задания «Аквариум» и его клона - «Террариум». В соответствии с теоретическими основами данного диссертационного исследования, выделяются два критерия сопоставимости измерений - конструктная и психометрическая сопоставимость. Оба эти критерия могут быть проверены с использованием метода мультигрупповой модели КФА и проверки измерительной инвариантности. В рамках данного исследования построены бифакторные модели КФА с учетом особенностей измерения комплексных конструктов с использованием сценарных заданий. Основные результаты данного эмпирического исследования опубликованы в статье автора [Грачева, 2022].

В исследовании принимало участие 500 учащихся 4-х классов, которые проходили альтернативные варианты сценарных заданий «Аквариум» и «Террариум» в случайном порядке в рамках тестирования универсальных навыков с использованием инструмента «4К» осенью 2021 года. Использование сбалансированного внутригруппового дизайна позволило избежать эффекта предъявления порядка заданий и влияния индивидуальных характеристик респондентов на результаты сравнения.

Основная гипотеза исследования звучит следующим образом:

- варианты сценарных заданий, созданные по подходу клонирования, будут иметь эквивалентные структуры конструкта и психометрические характеристики индикаторов.

На первом этапе исследования была предложена измерительная модель критического мышления. В соответствии с выводами Главы 2, методология работы с данными для обеспечения сопоставимости должна особенности тестирования комплексных конструктов с использованием сценарных заданий: учитывать многомерную природу комплексного конструкта и контекстные связи между индикаторами. Поэтому была использована измерительная модель, относящаяся к классу бифакторных моделей конфирматорного факторного, которая включала факторы латентного конструкта (составляющих критического мышления) и ортогональные специфические факторы, обусловленные контекстным компонентом (Рисунки 19-20). Фактор «Текст» объединял индикаторы сценарного задания в части оценки релевантности информации, которые относятся к одному тексту (Рисунок 5). Фактор «Конструктор» объединял индикаторы в части оценки навыков построения вывода, где тестируемые обустраивали аквариум в симуляции конструктора с использованием объектов (Рисунок 6). Оба сценарных задания содержат всего 24 индикатора критического мышления, из них 14 относятся к составляющей анализа информации, 10 - к составляющей построения вывода и аргументации.

На втором этапе тестирования предложенная модель проверялась сначала отдельно на двух вариантах сценарных заданий, чтобы убедиться, что структура бифакторной модели подходит данным. Качество моделей определялось по следующим критериям соответствия модели и данных: CFI (TLI) > 0.95, RMSEA < 0.05 [Hu, Bentler, 1999]. Для оценки параметров использовался метод взвешенных квадратов (WLSMV), который учитывает категориальную природу данных.

Далее была построена общая мультигрупповая модель, которая использовалась для проверки инвариантности, а именно: равенства структур конструкта (конфигуральный уровень инвариантности), дискриминативностей (факторных нагрузок - метрический уровень инвариантности) и трудностей

(порогов - скалярный уровень инвариантности) между вариантами сценарных заданий. Для сравнения моделей рассчитывалась разница между индексами согласия. Согласно рекомендациям, если разница между индексами согласия в разных моделях несущественная (ACFI в пределах 0.01, ARMSEA в пределах 0.015), то инвариантность подтверждается [Chen, 2007].

Анализ проводился в статистическом ПО Mplus, версия 8.3.

Результаты

Отдельные модели для сценариев «Аквариум» ((%2(240) = 387.691*, p <0.000; CFI = 0.979; TLI = 0.976; RMSEA = 0.035. 90% CI (0.029;0.041) и «Террариум» ((Х2(240) = 398.031*, p <0.000; CFI = 0.980; TLI = 0.977; RMSEA = 0.036, 90% CI (0.030; 0.043) показали хорошее согласие с данными. Модель без специфических факторов контекста подходила данным хуже. На Рисунках 19-20 приведены стандартизированные факторные нагрузки отдельно для сценариев «Аквариум» и «Террариум». Все нагрузки значимы на уровне p < 0.05.

\ 09 ( Анализ Ц-w Вывод

Рисунок 19 - Бифакторная модель критического мышления («Аквариум»)

Рисунок 20 - Бифакторная модель критического мышления («Террариум»)

Результаты тестирования уровней измерительной инвариантности (конфигуральная, метрическая, скалярная) для мультигрупповой модели представлены в Таблице 11.

Таблица 11 - Результаты проверки измерительной инвариантности

Модель х2 № RMSEA CFI ти

Конфигуральная 785.743* (480) 0.036 (90% С1 0.031; 0.040) 0.979 0.976

Метрическая 835.083* (511) 0.036 (90% С1 0.031; 0.040) 0.978 0.976

Скалярная 915.226* (532) 0.038 (90% С1 0.034; 0.042) 0.974 0.973

Примечание: * р < 0.05

Конфигуральная модель продемонстрировала хорошее согласие с данными, все стандартизированные факторные нагрузки значимы (р < 0,05), что позволяет сделать вывод о эквивалентности структуры конструкта в двух вариантах сценарных заданий. Разница в статистиках согласия метрической и конфигуральной моделей находится в пределах рекомендуемых значений, что свидетельствует о достижении уровня полной метрической инвариантности.

Иными словами, параметры дискриминативностей (факторных нагрузок) можно считать эквивалентными между вариантами сценарных заданий. Добавление ограничений на равенство порогов (скалярная модель) не привело к ухудшению согласия модели и данных. Можно сделать вывод, что эквивалентность порогов (трудностей поведенческих индикаторов).

Таким образом, подтвердилась гипотеза исследования: варианты сценарных заданий, созданные по подходу клонирования, имеют эквивалентные структуры конструкта и психометрические характеристики индикаторов (дискриминативность, трудность).

При достижении последнего уровня инвариантности возможно оценить различия в средних значениях латентных факторов внутри мультигрупповой модели КФА. Для этого средние значения латентных факторов для одной группы (варианта сценария - «Аквариум» приравниваются к нулю, а средние значения латентных факторов для сценария «Террариум» оцениваются свободно. С помощью z-статистики проверяется гипотеза об отличии параметров средних значений латентных факторов для сценарного задания «Аквариум» от нуля. Результаты сравнения приведены в Таблице 12.

Таблица 12 - Результаты сравнения средних латентных факторов по вариантам

Фактор Средние значения для сценария «Террариум» /-статистика

Анализ -0.089 (0.066) -1.353

Вывод 0.211 (0.071) 2.965*

Текст -0.003 (0.129) -0.026

Конструктор -0.272 (0.079) -3.433*

Примечание: *р <0.05. В скобках указаны стандартные ошибки измерения. Средние значения латентных факторов для сценария «Аквариум» приравнены к нулю. В результате, обнаружены значимые различия в средних латентных факторов «Вывод» и «Конструктор» между вариантами сценариев. В

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.