Априорная информация в задаче частичного обучения тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Нейчев Радослав Георгиев

  • Нейчев Радослав Георгиев
  • кандидат науккандидат наук
  • 2025, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 82
Нейчев Радослав Георгиев. Априорная информация в задаче частичного обучения: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2025. 82 с.

Оглавление диссертации кандидат наук Нейчев Радослав Георгиев

Введение

Глава 1. Априорные предположения и байесовский подход к задачам машинного обучения

1.1. Байесовский вывод и информативные априорные предположения

1.1.1. Байесовский вывод

1.1.2. Типы априорных предположений

1.1.3. Сопряженные распределения

1.2. Априорные предположения в задаче обучения с учителем

1.2.1. Апостериорный вывод и доверительные интервалы

1.3. Байесовский подход в задачах обучения с учителем

1.4. Использование априорных предположений в частичном обучении

Глава 2. Смесь экспертов и важность информативных априорных предположений

2.1. Построение мультимоделей

2.2. Определение гиперпараметров

2.3. Смесь экспертов

2.4. Оптимизация гиперпараметров

2.5. Отбор моделей в смеси экспертов

2.6. Выводы

Глава 3. Дистилляция знаний в задачах обучения с учителем

3.1. Дистилляция в задаче классификации

3.2. Дистилляция в задаче регрессии

3.3. Дистилляция промежуточных представлений

3.4. Привилегированное обучение

3.4.1. Контроль сходства

3.5. Обобщенная дистилляция

3.6. Выводы

Глава 4. Восстановление матрицы суперпозиций в задаче символьной регрессии

4.1. Постановка задачи символьной регрессии

4.2. Алгоритмы для восстановления матрицы суперпозиции

4.2.1. Задачи к-ЫБХ и ГОЯХ

4.3. Вычислительный эксперимент

4.3.1. Используемые алгоритмы алгоритмов

4.4. Вычислительны эксперимент

4.5. Выводы

Глава 5. Априорные знания и привилеированная информация в дискрими-

нативных задачах

5.1. Задача определения позы человека

5.2. Метод учета априорной информации

5.2.1. Оценка качества

5.3. Вычислительный эксперимент

5.3.1. Сравнение с оригинальной моделью (РоэеРогшег)

5.4. Выводы

Глава 6. Априорные предположения в генеративных задачах на примере

задачи языкового моделирования

6.1. Анализ поведения языковых моделей на реальных данных

6.2. Анализ результатов эксперимента

6.3. Выводы

Заключение

Список основных обозначений

Список иллюстраций

Список таблиц

Список литературы

Введение

Задачи частичного обучения представляют особый интерес в области машинного обучения ввиду ограниченности размеченных данных. Одним из ключевых способов достичь существенно лучших результатов при использовании неразмеченных данных является использование информативных априорных предположений, которые могут улучшить обобщающую способность моделей. Данная работа направлена на анализ существующих и разработку новых методов частичного обучения с акцентом на использование информативных априорных предположений.

Актуальность темы Современные методы машинного обучения сталкиваются с проблемой нехватки размеченных данных, особенно в прикладных областях, где аннотация данных является дорогостоящим и трудоемким процессом. Ставится задача частичного обучения, предполагающая использование как размеченных, так и неразмеченных данных. Методы решения подобных задач становятся важным инструментом, поскольку они позволяют использовать неразмеченные данные для повышения качества решения прикладных задач. В этой работе особое внимание уделено выбору априорных предположений и их влиянию на процесс обучения.

Выбор информативных априорных предположений при решении задачи может значительно сократить требования к количеству размеченных примеров в обучающей выборке, обеспечивая при этом высокую точность предсказаний модели.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Априорная информация в задаче частичного обучения»

Цели работы

1. Разработка методов использования информативных априорных предположений в задачах частичного обучения.

2. Адаптация теоретических методов использования априорной информации к прикладным задачам.

3. Экспериментальная проверка предложенных методов на прикладных задачах из различных областей.

Методы исследования

Для достижения поставленных целей используются вероятностные [1] и байесовские методы анализа. Для анализа временных рядов используются авторегрессионные методы. Для посроение информативных векторных представлений объектов используются линейные методы, их нелинейные обобщения, а также методы на основе глубокого обучения. Для анализа результатов работы предлагаемых моделей используются методы статистического анализа [2, 3].

Основные положения, выносимые на защиту

1. Предложен метод использования априорной информации при построении моделей и мультимоделей в задачах частичного обучения и обучения с учителем. Доказана теорема об эквивалентности использования неразмеченных данных заданию априорного распределения на параметры модели в задаче частичного обучения.

2. Предложен подход к использованию априорной информации в дискрими-нативных задачах. Сформулирована и доказана теорема об эквивалентности добавления штрафного члена к оптимизируемому функционалу и наложения априорных ограничений на распределение параметров модели.

3. В вычислительном эксперименте продемонстрировано, что предлагаемый метод использования априорной информации позволяет точность базовых моделей без использования дополнительных наборов данных.

4. Сформулирована и доказана теорема об использования подводки для изменения порождающего распределения генеративной модели, использующей механизм внимания.

5. В вычислительном эксперименте продемонстрировано влияние различных подводок для генеративной языковой модели и проведено сравнение ответов модели в зависимости от корректности и релевантности примеров.

Научная новизна

Разработаны новые подходы к использованию априорных знаний при построении и настройке параметров моделей. Предложен метод использования информации об инвариантности данных, не требующий дополнительной информации на этапе применения. Проанализированы способности языковых моделей к приобретению способности решать новые задачи на этапе применения.

Теоретическая значимость

Диссертационная работа носит теоретико-прикладной характер. В работе проводится теоретический анализ методов использования априорной информации в задачах привилегированного и частичного обучения. Доказана теорема о наложении ограничений на целевое распределение путём использования неразмеченных данных заданию априорного распределения в задаче частичного обучения. Доказана теорема об эквивалентности регуляризационного члена и априорного распределения параметров модели в дискриминативных задачах. Доказана теорема о влиянии подводки на результат генерации и ее эквивалентности изменению параметров модели в задаче языкового моделирования.

Практическая значимость

Предложенные в работе методы применимы в задачах обучения с учителем и задачах частичного обучения и обучения с учителем. Полученные результаты проиллюстрированы на примере задач компьютерного зрения и языкового моделирования. Предлагаемые методы позволяют ускорить сходимость моделей

на этапе обучения и добиться лучших результатов без повышения сложности итоговой модели.

Степень достоверности и апробация работы

Достоверность результатов подтверждена доказательствами, экспериментальной проверкой полученных методов на реальных задачах частичного обучения; публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК. Результаты работы докладывались и обсуждались на следующих научных конференциях:

1. The 11th International Conference on Analysis of Images, Social Networks and Texts, 2023, Yerevan, Armenia

2. 33rd Conference of Open Innovations Association (FRUCT), 2023, Zilina, Slovakia

3. 31st Conference of Open Innovations Association (FRUCT), 2022, Helsinki, Finland

4. 13-я Международная конференция «Интеллектуализация обработки информации» ИОИ-2020, 2020, Москва, Россия

5. 12-я Международная конференция «Интеллектуализация обработки информации» И0И-2018, 2018, Гаэта, Италия

Работа поддержана грантом Российского фонда фундаментальных исследований №20-37-90050, Построение информативных априорных моделей в задачах привилегированного обучения.

Публикации по теме диссертации

Основные результаты по теме диссертации изложены в 6 печатных изданиях в журналах, рекомендованных ВАК.

1. Neychev R., Shibaev; I., Strijov V. Optimal spanning tree reconstruction in symbolic regression // Informatics and Applications — 2023. Vol. 1. — Pp. 3542.

2. Kulikov V., Neychev R., Makarov I. Whether Large Language Models Learn at the Inference Stage? // Recent Trends in Analysis of Images, Social Networks and Texts. AIST 2023. Communications in Computer and Information Science, vol 1905. Springer — 2023. — Т.. — С..

3. Kaprielova M, Neichev R, Tikhonova A. Privileged Learning Using Regularization in the Problem of Evaluating the Human Posture // Journal of Computer and Systems Sciences International, — 2023. — Т., №. — С. 538-541.

4. Самохина А.М, Нейчев Р.Г., Гончаренко В.В., Григорян Р.К., Стри-жов В.В. Модели классификации выборки вызванных потенциалов P300 // Системы и средства информатики — 2022. — Т. 32, №. 3 — С. 3649.

5. Marusov A., Kaprielova M., Neychev R. Enhancing Human Pose Estimation with privileged learning // 31st Conference of Open Innovations Association (FRUCT), Helsinki, Finland, 2022 — Т., №. — С. 174-180.

6. Каприелова М.С., Леонов В.Ю., Нейчев Р.Г. Распознавание движений человека по видеоданным // Известия РАН. Теория и системы управления — 2022. — Т., № 2. — С. 100-106.

Личный вклад

Все приведенные результаты, кроме отдельно оговоренных случаев, получены диссертантом лично.

Структура и объем работы

Диссертация состоит из оглавления, введения, шести разделов, заключения, списка иллюстраций, списка таблиц, перечня основных обозначений и списка литературы из 60 наименований. Основной текст занимает 82 страницы.

Краткое содержание работы по главам В главе 1 рассмотрены методы использования информативных априорных распределений в задачах обучения с учителем и частичного обучения. Сформулирована и доказана теорема о наложении ограничений на целевое распределение путём использования неразмеченных данных.

В главе 2 рассматриваются методы построения мультимоделей и смеси экспертов с использованием информативных априорных предположений. Проде-монстировано, что для мультимоделей использование информативных априорных предположений позволяет улучшить стабильность модели и качество предсказаний.

В главе 3 рассматирваются механизм дистилляции, привилегированного обучения и обобщенной дистилляции. Продемонстрировано, что предсказания и скрытые представления, порождаемые модель-учителем в ходе дистилляции выступают в роли дополнительных информативных предположений для модели-ученика.

В главе 4 рассматриваются задача порождения модели оптимальной на основе выборки с помощью методов символьной регрессии. Предложен двух-этапный алгоритм для решения задачи символьной регресси, основанный на предсказании зашумленной матрицы суперпозиции и ее дальнейшем восстановлении.

В главе 5 рассматриваются способы использования априорных предположений в дискриминативных задачах. Сформулирована и доказана теорема об эквивалентности добавления штрафного члена к оптимизируемому функционалу и наложения априорных ограничений на распределение параметров модели. Полученные результаты проиллюстрированы на примере задачи оценки позы тела человека.

В главе 6 рассматриваются способы использования априорной информации

в генеративных задачах на примере задачи языкового моделирования. Сформулирована и доказана теорема об использования подводки для изменения порождающего распределения генеративной модели, использующей механизм внимания. Рассматриваются способности больших языковых моделей приобретать новые навыки на этапе применения и предложены объяснения подобного поведения.

Глава 1

Априорные предположения и байесовский подход к задачам

машинного обучения.

Усложнение прикладных задач, которые рассматриваются в области машинного обучения влечет использование все более вычислительно сложных моделей. Увеличение сложности модели влечет повышение потребности моделей в объемах данных для обучения. Разметка данных требует болших трудозатрат и объем доступных размеченных данных уже не является достаточным для обучения современных моделей. Ввиду этого постановка задачи обучения с учителем уже не подходит во многих областях. Введем формальные определения: Определение 1. В задаче обучения с учителем заданы:

• Выборка D = (X, Y), где X = (x^}iEp — множество объектов, а Y = (yi}ieV, У ^ Y С Rp, xi E X С Rm — соответствующие им ответы, а P соответствует множеству индексов для размеченной части данных. Такая выборка называются размеченной;

• Семейство моделей F;

• Функционал ошибки S : X х Y х F —> R;

Требуется найти модель f E F, минимизирующую функцию ошибки:

f = arg min S(f, X, Y)

Для размеченных данных может быть построена матрица плана X:

У' Х0 x0 ...] Г - x0 l xm

у! x'l X'/ ... У lxr

yn Xn xn... Y nxr X nxm

Ввиду того, что объем размеченных данных ограничен, все большее число прикладных задач решается с помощью методов частичного и привилегированного обучения.

Определение 2. В задаче частичного обучения заданы:

• Размеченная выборка V = (X, Y), где X = {х;},;Ер — множество объектов, а V = {у,;}^, У, Е ¥ С х, Е X С Кт — соответствующие им ответы, а Р соответствует множеству индексов для размеченной части данных.

• Неразмеченная выборка Хип8ирегУ18(^ = {х^- }^ер, состоящая лишь из признаковых описаний объектов без соответствующих значений целевой переменной;

• Семейство моделей

• Функционал ошибки Б : X х ¥ х $ —> К;

Целью является поиск отображения (модели) f : X ^ Y, которое минимизирует функцию ошибки на размеченных данных и соответствует заданным критериям и возможным ограничениям на неразмеченных данных:

f = arg min (S(f, X,, Y,) + AC(f, Xu))

F

где A — это параметр регуляризации, а C — дополнительный критерий или ограничение, применяемый к неразмеченным данным.

Т.е. в задаче частичного обучения доступно не только множество размеченных пар объект-ответ, но и множество объектов, для которых не определены (или не заданы явно) ответы.

Задача привиллегированного обучения дополняет задачу частичного обучения. В отличие от частичного обучения, в задаче привилегированного обучения ответы доступны для всех объектов, но для некоторых объектов также доступно дополнительное, привилегированное признаковое описание. Определение 3. Задача привиллегированного обучения — задача обучения с учителем, где для части объектов помимо основного x доступно привилле-гированное признаковое описание x* £ X* С Rp. Термин был предложен В. Вапником в [4].

Введем дополнительно понятие структурной сложности модели: Определение 4. Структурной сложностью модели будем называть количество обучаемых параметров модели, необходимых для построения предсказаний.

Стоит отметить, что большинство актуальных современных подходов учитывают специфику данных и решаемой задачи, т.е. опираются на априорные знания или предположения.

Определение 5. Априорной информацией будем называть предположения о структуре данных, зависимостях между ними или о свойствах решаемой задачи, доступные эксперту на этапе построения модели.

1.1. Байесовский вывод и информативные априорные предположения

Применение информативных априорных предположений базируется на байесовском выводе. Основной принцип этого подхода выражен через теорему Байеса, которая представляет собой математическое уравнение для обновления вероятности гипотезы при появлении новых данных.

В противоположность частотному подходу, который, хотя и эффективно используется в ряде случаев, полагается исключительно на имеющиеся данные, байесовский подход предлагает более гибкую и интуитивно понятную структуру, особенно в ситуациях с ограниченными данными или сложными моделями.

Ключевым элементом байесовского вывода является теорема Байеса, которая описывает процесс обновления априорных вероятностей на основе новых данных. Математически она формулируется следующим образом:

P (в|Я) = РЖМ,

v \) р(D) >

где:

• P(в |D) — апостериорная вероятность параметров в при условии данных

D;

• P(D|в) — правдоподобие, вероятность данных при известных параметрах;

• P(в) — априорная вероятность, представляющая начальные предположения о параметре до получения данных;

• P(D) — маргинальная вероятность, выступающая в роли нормализующей константы для получения апостериорной вероятности.

Теорема Байеса позволяет естественным образом включать априорные знания в процесс вывода, преобразуя априорные предположения в апостериорное распределение при появлении новых данных. Это делает байесовский подход особенно гибким и адаптивным.

Рассмотрим пример диагностического теста на заболевание, при котором частота болезни составляет 1%. Тест обладает 99%-й точностью как для истинно положительных, так и для истинно отрицательных результатов. Допустим, у пациента положительный результат теста. Необходимо оценить вероятность того, что пациент действительно болен.

Пусть заданы следующие условия:

• в = 1 — наличие болезни, в = 0 — отсутствие болезни;

• P(в = 1) = 0.01 — априорная вероятность заболевания;

• P(positive|в = 1) = 0.99 — правдоподобие истинно положительного результата;

• P(positive|e = 0) = 0.01 — правдоподобие ложно положительного результата.

Теорема Байеса позволяет вычислить апостериорную вероятность того, что пациент болен, при условии положительного результата теста:

^ .. ч P (positive | в = 1) • P (в = 1)

P (в = 1|positive) = —^---J-

v |F 7 P (positive)

где P(positive) — полная вероятность положительного результата теста, которая вычисляется следующим образом:

P(positive) = P(positive|в = 1) • P(в = 1) + P(positive^ = 0) • P(в = 0)

Подставляя известные значения:

P(positive) = (0.99 x 0.01) + (0.01 x 0.99) = 0.0198

Теперь можем найти апостериорную вероятность:

„/л ,, ..Л 0.99 х 0.01 лг

Р (в = ШоэШуе) =-= 0.5

v ^ ; 0.0198

Несмотря на высокую точность теста, вероятность того, что пациент действительно болен при положительном результате теста, составляет всего 50%. Это связано с низкой частотой встречаемости заболевания, из-за чего количество ложно положительных результатов оказывается значительным по сравнению с истинно положительными.

1.1.1. Байесовский вывод

Байесовский вывод основан на трёх ключевых составляющих: априорное распределение, правдоподобие и апостериорное распределение.

• Априорное распределение Р(0) — это наше изначальное предположение о параметрах 0 до получения данных. Эти априорные предположения могут быть как информативными, так и неинформативными, что зависит от уровня априорных знаний.

• Правдоподобие Р(VI0) — вероятность наблюдаемых данных Р при фиксированном значении параметров 0.

• Апостериорное распределение Р(0^) — это обновлённое убеждение о параметре 0, основанное на априорном распределении и правдоподобии, отражающее информацию, полученную после наблюдения данных.

1.1.2. Типы априорных предположений

Априорные предположения играют ключевую роль в байесовском выводе. В зависимости от объёма информации, которую они передают, априорные распределения можно разделить на несколько типов:

• Неинформативные априорные предположения — выражают отсутствие информации о параметре 0. Такие априорные предположения выбираются для минимального влияния на апостериорное распределение, позволяя данным играть главную роль в выводе. Примером может служить равномерное распределение или распределение Джеффри, которое сохраняет свою форму при преобразовании параметров.

• Слабо информативные априорные предположения — предоставляют некоторую информацию о параметре, не доминируя в выводе. Они действуют как стабилизаторы, уменьшая вероятность крайних значений параметров. Например, нормальное априорное распределение с большим разбросом вокруг вероятного среднего значения служит примером слабо информативного априорного распределения.

• Информативные априорные предположения — используются при наличии значительного объема априорных знаний. Примером может служить медицинская область, где предшествующие исследования предоставляют надёжные оценки параметров. Такие априорные предположения могут существенно влиять на апостериорное распределение, особенно при малом количестве данных.

Выбор априорного распределения может существенно изменить апостериорный вывод. В условиях ограниченных данных информативные априорные предположения оказывают сильное влияние, в то время как неинформативные априорные предположения позволяют данным больше влиять на результат.

Рассмотрим подбрасывание монеты. Если у нас нет информации о честности монеты, можно использовать равномерное априорное распределение в — Uniform(0,1) для вероятности выпадения орла. Если же мы подозреваем, что монета может быть нечестной, но не уверены в степени её смещения, подойдёт слабо информативное нормальное априорное распределение со средним 0.5 и большой дисперсией. Если есть значительные основания полагать, что монета не честная, можно использовать Бета-распределение в — Beta(10,1).

1.1.3. Сопряженные распределения

Определение 6. Сопряженное априорное распределение — это априорное распределение, который при использовании с определённой функцией правдоподобия приводит к апостериорному распределению из того же семейства распределений, что и априорное. Такие распределения выбираются для снижения сложности вычислений, т.к. они обеспечивают наличие аналитического решения в байесовском выводе.

Утверждение 1. Если априорное распределение P(в) и правдоподобие P(^|в) принадлежат сопряжённым семействам, апостериорное распределение P(в|D) сохраняет ту же форму, что и априорное. Это значительно упрощает обновление апостериорного распределения при наблюдении новых данных.

Рассмотрим задачу оценки вероятности успеха в в биномиальном испытании, например, вероятность выпадения орла при подбрасывании монеты. Если мы используем априорное Бета-распределение в — Beta(a, в) и биномиальное правдоподобие Р|в — Binomial(n, в), то апостериорное распределение будет также иметь форму Бета-распределения:

P(в|Р) - Beta(a + x, в + n - x)

где x — количество успехов в n испытаниях. Т.к. рассматриваются сопряженные распределения, необходимо лишь обновить значения параметров а и в на основе доступных данных.

Сопряжённые априорные распределения полезны в условиях ограниченных вычислительных ресурсов или при необходимости частого обновления апостериорного распределения в реальном времени. Они позволяют избежать сложных численных методов.

В то же время, несмотря на предоставляемые преимущества, сопряжённые распределения не всегда соответствуют наилучшим предположения, особенно в сложных моделях, где более гибкие распределения не являющиеся сопряженными могут быть предпочтительнее.

1.2. Априорные предположения в задаче обучения с учителем

Модели обучения с учителем в значительной степени зависят от априорных предположений, поскольку они позволяют включать дополнительную информацию, которая влияет как на оценку параметров, так и на прогнозы. Рассмотрим применение априорных предположений на примере байесовской линейной и логистической регрессий.

Рассмотрим использование нормального априорного распределения в линейной регрессии и его связь с методами регуляризации. В байесовской линейной регрессии модель имеет вид:

у = хтв + е, е (0,а2)

где в качестве априорного предположения для коэффициентов регрессии используется нормальное распределение:

в (^о, Ее)

Для набора данных V = {(х;,у;)}^=1 правдоподобие для в задается следующим образом:

N

Р(ОД = П N (У;|хТв,^2)

¿=1

Априорное распределение для в задаётся как:

р(в) = N(в|^о, Ее)

Применяя теорему Байеса, апостериорное распределение для параметра в с учётом данных V выражается следующим образом:

Так как и правдоподобие, и априорное распределение являются нормальными, апостериорное распределение р(в^) также будет нормальным. Параметры этого распределения могут быть получены аналитически.

Если матрица ковариации Х0 обратима, ковариация апостериорного распределения Хм и апостериорное среднее можно вычислить следующим образом:

Апостериорное среднее является байесовской оценкой коэффициентов регрессии, которая комбинирует информацию из данных (через правдоподобие) и априорное распределение для в- Апостериорная ковариация Хм определяет неопределённость этих оценок после учёта данных.

Использование нормального априорного распределения для коэффициентов регрессии позволяет получить аналитическое решение для апостериорного распределения, что облегчает вычисления и интерпретацию. Если априорное распределение центрировано в нуле (^0 = 0) и ковариация равна Х0 = а-1!, апостериорное среднее принимает вид:

Полученное выражение эквивалентно решению в задачи с помощью гребневой регрессии, что будет рассмотрено далее.

Регуляризация как априорные предположения Нормальное априорное распределение в байесовской линейной регрессии тесно связано с методами регуляризации, распространёнными в частотной статистике. Рассмотрим несколько примеров:

1. В гребневой регрессии добавляется штраф на норму Ь2 коэффициентов:

соответствует байесовской линейной регрессии с нормальным априорным распределением на в, центрированным в нуле.

2. Регуляризацию можно рассматривать как наложение априорных ограничений на параметры модели. Параметр регуляризации А в гребневой регрессии соответствует точности а в нормальном априорном распределении. Большие значения А подразумевают сильные априорные предположения о малости коэффициентов, что эквивалентно малой дисперсии априорного распределения.

где: X — матрица плана, строки которой равны хт, а у — вектор наблюдаемых

значений.

= (ХТХ + аа2!) 1 Хту

3. Введение регуляризации посредством нормального априорного распределения вносит смещение в оценки, но также уменьшает дисперсию, особенно в условиях работы с пространствами высоких размерностей или в случае мультиколлинеарности признаков. Это помогает получить более устойчивые модели на новых данных.

4. Рассмотрение регуляризации через призму байесовских априорных распределений позволяет глубже понять, как и почему она работает. Это подчеркивает важность априорных знаний и их влияние на формирование конечных оценок.

Использование нормального априорного распределения в байесовской линейной регрессии не только позволяет аналитически решить задачу и получить нормальное апостериорное распределение, но и связано с частотными методами регуляризации, такими как гребневая регрессия. Это подчеркивает двойственную интерпретацию регуляризации как ограничения для предотвращения переобучения и как способа включения априорных убеждений о параметрах.

1.2.1. Апостериорный вывод и доверительные интервалы

Апостериорное распределение позволяет делать прогнозы для новых данных

xnew-

p(y new1 xnew, x, y) = J p(y new1 xnew,

В случае нормального распределения это позволяет учитывать как неопределённость в параметрах модели, так и случайный шум в данных.

Рассмотрим набор данных о ценах на жильё, где цель — предсказать цену квартиры на основе ее характеристик, таких как площадь xi, количество комнат x2 и возраст дома x3. Модель линейной регрессии в данной задаче может быть представлена следующим уравнением:

y = во + в1Х1 + Р2Х2 + вз Хз + е

где y — цена квартиры, в = [в0, въ в2, в3]Т — вектор коэффициентов регрессии а е ~ N(0, а2) — нормальный шум.

В рамках байесовского подхода коэффициенты регрессии в рассматриваются как случайные величины. Априорное распределение отражает предположения о них до наблюдения данных.

Для коэффициентов регрессии предположим нормальное априорное распределение:

в -N(^о, So)

Для простоты предположим, что априорное распределение имеет нулевое среднее: = 0, а его ковариационная матрица имеет следующий вид: S0 = 100I, что указывает на высокую неопределённость относительно значе-нийкоэффициентов.

Для выборки D = (X, y) правдоподобие можно выразить следующим образом:

p(y|X, в)= N (Хв,а21)

Согласно теореме Байеса, апостериорное распределение для коэффициентов в имеет следующий вид:

р(в|Х у) = P(y|X,в)Р<в) р(в|Х'у) p(y|X)

Поскольку и априорное распределение, и правдоподобие являются нормальными, апостериорное распределение также будет нормальным:

p(0|X, y) = N(Vn, En),

где

E = (V + 1XT^

и

Vn = En ^ -1 XT y + E-^o^

С учетом предположений v0 = 0 и E0 = 100I, полученные выражения могут быть упрощены:

En = ( — I + 4XTX )

n V100 а2 )

Vn = En ^1 XTy^

Для предсказания цены квартиры с признаковым описанием xnew целевое распределение имеет вид:

new| xnew, X, y) = J p(y new| xnew, Распределение целевой переменной также является нормальным:

ynew|xnew, X, y — N (^ewVn xnew Enxnew + а )

Таким образом, полученная оценка среднего имеет вид xTewvn, а оценка дисперсии принимает форму xTewEnxnew + а2.

Полученное распределение позволяет оценить ожидаемую цену квартиры, а также получить интервалы предсказания для оценки неопределённости прогноза.

Продемонстрируем полученные результаты на реальной выборке. Пусть задан следующий набор данных для n = 3 квартир:

Квартира x1 (Площадь) x2 (Комнаты) x3 (Возраст дома) У (Цена)

1 200 3 20 500

2 150 2 15 350

3 180 3 30 400

Таблица 1.1: Синтетический набор данных

Пусть а2 = 25, т.е. а = 5.

Внесем свободный член в качестве фиктивного признака в матрицу X:

1 200 3 20 500

X = 1 150 2 15 , У = 350

1 180 3 30 400

Учитывая, что Е0 = 100I и а2 = 25, вычислим обратную ковариационную матрицу:

'0.01 0 0 0 ' 0 0.01 0 0 0 0 0.01 0 0 0 0 0.01

Е-1 =

1

100J

I

Теперь вычислим XTX: XTX =

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Нейчев Радослав Георгиев, 2025 год

Список литературы

1. Ширяев А. Н. Вероятность. — М.: Наука, 1980. — 640 pp.

2. Кобзарь А. И. Прикладная математическая статистика: для инженеров и научных работников. — М.: Физматлит, 2012. — 813 pp.

3. Bishop C. Pattern Recognition and Machine Learning (Information Science and Statistics). — Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006. — 416 pp.

4. Vapnik V., Izmailov R. Learning Using Privileged Information: Similarity Control and Knowledge Transfer // The Journal of Machine Learning Research. — 2015. — Vol. 16. — Pp. 2023-2049.

5. Hinton G., Vinyals O., Dean J. Distilling the Knowledge in a Neural Network // NIPS 2014 Deep Learning Workshop. — 2015. http://www. dlworkshop.org/accepted-papers.

6. Distilling Knowledge From a Deep Pose Regressor Network / M. U. Saputra, P. Gusmao, Y. Almalioglu et al. // 2019 IEEE/CVF International Conference on Computer Vision (ICCV). — Los Alamitos, CA, USA: IEEE Computer Society, 2019. — nov. — Pp. 263-272. https://doi.ieeecomputersociety. org/10.1109/ICCV.2019.00035.

7. RankDistil: Knowledge Distillation for Ranking / Sashank Reddi, Rama Kumar Pasumarthi, Aditya Menon et al. // Proceedings of The 24th International Conference on Artificial Intelligence and Statistics / Ed. by Arindam Banerjee, Kenji Fukumizu. — Vol. 130 of Proceedings of Machine Learning Research. — PMLR, 2021. — 13-15 Apr. — Pp. 2368-2376. https://proceedings.mlr. press/v130/reddi21a.html.

8. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // ArX-iv. — 2019. — Vol. abs/1910.01108. https://api.semanticscholar.org/ CorpusID:203626972.

9. In-context Reinforcement Learning with Algorithm Distillation / Michael Laskin, Luyu Wang, Junhyuk Oh et al. // ArXiv. — 2022. — Vol. abs/2210.14215. https://api.semanticscholar.org/CorpusID:253107613.

10. Devlin Jacob. Bert: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv:1810.04805. — 2018.

11. Vapnik Vladimir, Vashist Akshay. A new learning paradigm: Learning using privileged information // Neural Networks. — 2009. — Vol. 22, no. 5. — Pp. 544557. — Advances in Neural Networks Research: IJCNN2009. https://www. sciencedirect.com/science/article/pii/S0893608009001130.

12. Davis Lawrence. Handbook of genetic algorithms. — CumInCAD, 1991.

13. Koza John R. Genetic programming: on the programming of computers by means of natural selection. — MIT press, 1992. — Vol. 1.

14. Searson Dominic P, Leahy David E, Willis Mark J. GPTIPS: an open source genetic programming toolbox for multigene symbolic regression // Proceedings of the International multiconference of engineers and computer scientists / Citeseer. — Vol. 1. — 2010. — Pp. 77-80.

15. Searson Dominic P. GPTIPS 2: an open-source software platform for symbolic data mining // Handbook of genetic programming applications. — Springer, 2015. — Pp. 551-573.

16. Stanley Kenneth O, Miikkulainen Risto. Evolving neural networks through augmenting topologies // Evolutionary computation. — 2002. — Vol. 10, no. 2. — Pp. 99-127.

17. Gaier Adam, Ha David. Weight agnostic neural networks // Advances in neural information processing systems. — 2019. — Vol. 32.

18. Bochkarev Artem Maksimovich, Sofronov Ivan L'vovich, Strijov Vadim. Generation of expertly-interpreted models for prediction of core permeability // Sistemy i Sredstva Informatiki [Systems and Means of Informatics]. — 2017. — Vol. 27, no. 3. — Pp. 74-87.

19. Ras Charl, Swanepoel Konrad, Thomas Doreen Anne. Approximate euclidean Steiner trees // Journal of Optimization Theory and Applications. — 2017. — Vol. 172, no. 3. — Pp. 845-873.

20. Wang C, Wang Y, Yuille A.L . An Approach to Pose-Based Action Recognition // CVPR. — 2013. — Pp. 915-922.

21. An Expressive Deep Model for Human Action Parsing from a Single Image / Z. Liang, X. Wang, R. Huang, L. Lin // IEEE International Conference on Multimedia and Expo (ICME). — 2014. — Pp. 1-6.

22. Cho N.G., Yuille A.L., Lee S.W. Adaptive Occlusion State Estimation for Human Pose Tracking under Self-Occlusions // Pattern Recognition. — 2013. — Pp. 649-661.

23. Xiaohan B., Xiong C., Zhu S.C. Joint Action Recognition and Pose Estimation from Video // CVPR. — 2015. — Pp. 1293-1301.

24. Learning from Synthetic Humans / Giil Varol, Javier Romero, Xavier Martin et al. // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2017. — Pp. 4627-4635.

25. Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World / Matteo Fabbri, Fabio Lanzi, Simone Calderara et al. // Proceedings of the European Conference on Computer Vision (ECCV). — 2018. — September.

26. Lehrmann A.M., Gehler P.V., Nowozin S. A Non-parametric Bayesian Network Prior of Human Pose // 2013 IEEE International Conference on Computer Vision. — 2013. — Pp. 1281-1288.

27. 3D Human Pose Estimation with Spatial and Temporal Transformers / C. Zheng, S. Zhu, M. Mendieta et al. // Proc. IEEE International Conference on Computer Vision (ICCV). — 2021. — Pp. 11656-11665.

28. Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments / C. Ionescu, D. Papava, V. Olaru, C. Sminchis-escu // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2014. — Vol. 36, no. 7. — Pp. 1325-1339.

29. 3D Human Pose Estimation in Video With Temporal Convolutions and Semi-Supervised Training / D. Pavllo, C. Feichtenhofer, D. Grangier, M. Auli // CVPR. — 2019. — Pp. 7753-7762.

30. Attention Mechanism Exploits Temporal Contexts: Real-Time 3D Human Pose Reconstruction / R. Liu, J. Shen, H. Wang et al. // CVPR. — 2020. — Pp. 50645073.

31. Emergent abilities of large language models / Jason Wei, Yi Tay, Rishi Bom-masani et al. // arXiv preprint arXiv:2206.07682. — 2022.

32. The unreasonable effectiveness of few-shot learning for machine translation / Xavier Garcia, Yamini Bansal, Colin Cherry et al. // International Conference on Machine Learning / PMLR. — 2023. — Pp. 10867-10878.

33. Savchenko Andrey V. Fast inference in convolutional neural networks based on sequential three-way decisions // Information Sciences. — 2021. — Vol. 560.

— Pp. 370-385.

34. Ermakov Mikhail, Makarov Ilya. Few-shot Logo Recognition in the Wild // Proceedings of the 22nd International Symposium on Computational Intelligence and Informatics and 8th IEEE International Conference on Recent Achievements in Mechatronics, Automation, Computer Science and Robotics (CINTI-MACRo) / IEEE. — 2022. — Pp. 000393-000398.

35. Savchenko AV, Savchenko LV. Three-way classification for sequences of observations // Information Sciences. — 2023. — P. 119540.

36. Transformers generalize differently from information stored in context vs in weights / Stephanie CY Chan, Ishita Dasgupta, Junkyung Kim et al. // arXiv preprint arXiv:2210.05675. — 2022.

37. Data distributional properties drive emergent in-context learning in transformers / Stephanie Chan, Adam Santoro, Andrew Lampinen et al. // Advances in Neural Information Processing Systems. — 2022. — Vol. 35. — Pp. 18878-18891.

38. Grachev Artem M, Ignatov Dmitry I, Savchenko Andrey V. Neural networks compression for language modeling // Proceedings of International Conference on Pattern Recognition and Machine Intelligence (PReMI) / Springer. — 2017.

— Pp. 351-357.

39. Ad lingua: Text classification improves symbolism prediction in image advertisements / Andrey Savchenko, Anton Alekseev, Sejeong Kwon et al. // Proceedings of the 28th International Conference on Computational Linguistics. — 2020. — Pp. 1886-1892.

40. Chain-of-thought prompting elicits reasoning in large language models / Jason Wei, Xuezhi Wang, Dale Schuurmans et al. // Advances in Neural Information Processing Systems. — 2022. — Vol. 35. — Pp. 24824-24837.

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

Self-consistency improves chain of thought reasoning in language models / Xuezhi Wang, Jason Wei, Dale Schuurmans et al. // arXiv preprint arX-iv:2203.11171. — 2022.

Towards understanding chain-of-thought prompting: An empirical study of what matters / Boshi Wang, Sewon Min, Xiang Deng et al. // arXiv preprint arXiv:2212.10001. — 2022.

Saparov Abulhair, He He. Language models are greedy reasoners: A systematic formal analysis of chain-of-thought // arXiv preprint arXiv:2210.01240. — 2022.

Rethinking the role of demonstrations: What makes in-context learning work? / Sewon Min, Xinxi Lyu, Ari Holtzman et al. // arXiv preprint arXiv:2202.12837. — 2022.

Webson Albert, Pavlick Ellie. Do prompt-based models really understand the meaning of their prompts? // arXiv preprint arXiv:2109.01247. — 2021. Reynolds Laria, McDonell Kyle. Prompt programming for large language models: Beyond the few-shot paradigm // Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems. — 2021. — Pp. 1-7. GPT understands, too / Xiao Liu, Yanan Zheng, Zhengxiao Du et al. // arXiv preprint arXiv:2103.10385. — 2021.

Large language models are human-level prompt engineers / Yongchao Zhou, Andrei loan Muresanu, Ziwen Han et al. // arXiv preprint arXiv:2211.01910. — 2022.

Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP / Omar Khattab, Keshav Santhanam, Xiang Lisa Li et al. // arXiv preprint arXiv:2212.14024. — 2022.

Tree of thoughts: Deliberate problem solving with large language models / Shunyu Yao, Dian Yu, Jeffrey Zhao et al. // arXiv preprint arXiv:2305.10601. — 2023.

Training language models to follow instructions with human feedback / Long Ouyang, Jeffrey Wu, Xu Jiang et al. // Advances in Neural Information Processing Systems. — 2022. — Vol. 35. — Pp. 27730-27744. Bloom: A 176b-parameter open-access multilingual language model / Teven Le Scao, Angela Fan, Christopher Akiki et al. // arXiv preprint arX-iv:2211.05100. — 2022.

Crosslingual generalization through multitask finetuning / Niklas Muennighoff, Thomas Wang, Lintang Sutawika et al. // arXiv preprint arXiv:2211.01786. — 2022.

Qlora: Efficient finetuning of quantized llms / Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer // arXiv preprint arXiv:2305.14314. — 2023. Llama: Open and efficient foundation language models. / Hugo Touvron, Thibaut Lavril, Gautier Izacard et al. // arXiv preprint arXiv.2302.13971.

56. OpenAI. GPT-4 Technical Report. — 2023.

57. Training verifiers to solve math word problems / Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian et al. // arXiv preprint arXiv:2110.14168. — 2021.

58. Measuring and Narrowing the Compositionality Gap in Language Models. arXiv 2022 / O Press, M Zhang, S Min et al. // arXiv preprint arXiv:2210.03350.

59. Language models are few-shot learners / Tom Brown, Benjamin Mann, Nick Ryder et al. // Advances in neural information processing systems. — 2020. — Vol. 33. — Pp. 1877-1901.

60. Impact of pretraining term frequencies on few-shot reasoning / Yasaman Razeghi, Robert L Logan IV, Matt Gardner, Sameer Singh // arXiv preprint arXiv:2202.07206. — 2022.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.