Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Сагирова Алсу Рафаэлевна

  • Сагирова Алсу Рафаэлевна
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 123
Сагирова Алсу Рафаэлевна. Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2024. 123 с.

Оглавление диссертации кандидат наук Сагирова Алсу Рафаэлевна

Введение

Глава 1. Языковые модели для решения задач обработки

естественного языка

1.1 Эволюция языковых моделей

1.2 Языковые модели генерации последовательности

1.3 Механизм внимания и архитектура Transformer

1.4 Предобучение языковых моделей

1.5 Языковые модели с памятью

Глава 2. Рабочая память в модели Transformer

2.1 Описание архитектуры на основе модели Transformer с генеративной рабочей памятью в декодировщике

2.2 Вариации расположения токенов генеративной рабочей памяти в последовательности декодировщика

2.3 Схемы обучения и различные стратегии декодирования токенов генеративной рабочей памяти

2.4 Описание наборов данных и результаты экспериментов

2.5 Примеры предсказаний модели с генеративной рабочей памятью

и содержимого памяти

2.6 Обучаемая рабочая память в декодировщике модели Transformer

2.7 Выводы

Глава 3. Анализ содержимого генеративной рабочей памяти на

примере задачи машинного перевода

3.1 Наборы данных для задачи машинного перевода

3.2 Исследование содержимого генеративной рабочей памяти

3.3 Выводы

Глава 4. Глобальная эксплицитная память на основе

неопределенности предсказаний языковой модели

4.1 Глобальная эксплицитная память на основе неопределенности предсказаний элементов входной последовательности

4.2 Модель GEMFormer

4.3 Детали обучения и оценки качества моделей

4.4 Результаты экспериментов

4.5 Абляционное исследование

4.6 Анализ памяти

4.7 Исследование взаимной информации контекстного документа и вопроса

4.8 Выводы

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка»

Введение

Исследования в области искусственного интеллекта в последнее время получили большую популярность [1]. Благодаря появлению и развитию технологий параллельных вычислений на графических процессорах (GPU) стало возможным быстро и эффективно обучать и совершенствовать нейросетевые модели глубокого обучения. Универсальность работы с нейросетевыми моделями и наличие большого количества разнообразных публично доступных данных для их обучения позволили легко адаптировать и внедрять обученные модели для решения множества практических задач в различных областях науки, технологий и повседневной жизни. Так, нейросетевые архитектуры, созданные для обработки данных временных рядов [2], стали успешно применяться для обработки текстовых данных. Нейросетевые модели для обработки текстовых последовательностей получили название языковые модели.

Особенности строения различных естественных языков и важность понимания контекста для корректного анализа текстов привели к развитию нейросетевых архитектур, специализирующихся на обработке и генерации естественного языка и появлению архитектуры Transformer [3], полностью построенной на механизме внимания [4], который позволяет учитывать как синтаксические особенности языковых данных, так и локальные контекстные зависимости, присущие исследуемому языку. При этом, большинство существующих нейросетевых решений в области обработки естественного языка требует большого количества обучающих примеров [5] при обучении с нуля или адаптации под целевую задачу для достижения качества предсказаний, сравнимого со способностями человека. Также, для ускорения процесса обучения таких предсказательных моделей требуется большое количество вычислительных ресурсов.

В связи с увеличением сложности нейросетевых архитектур для обработки естественного языка и необходимостью автоматизации анализа всё больших объемов текста, стали появляться различные подходы к ускорению адаптации модели под целевую задачу [6] или, например, уменьшения вычислительной сложности модели [7; 8]. Однако существующие подходы

улучшения производительности популярных языковых моделей, в большинстве основанных на архитектуре Transformer, не решают проблему учета глобальных контекстных связей между различными, зачастую удаленными друг от друга, частями текста. В нейробиологии одной из теоретических концепций, обеспечивающих возможность логических рассуждений и синтеза разрозненной информации при принятии решений, является рабочая память (working memory). В нейропсихологии рабочей памятью называют когнитивную систему ограниченной емкости, позволяющую временно хранить информацию и манипулировать ей [9].

В научных исследованиях методов глубокого обучения также существует направление по аугментации нейросетевых моделей памятью (MANN, memory-augmented neural networks) [10]. Память, добавленная к языковым моделям, успешно используется для хранения агрегированных сжатых представлений обрабатываемого текста [11; 12]. Также в память записывают глобальные или копируют локальные представления входных данных для дальнейшего использования [13; 14]. Существующие подходы аугментации языковых моделей памятью используют неинтерпретируемые векторные представления для записи в память, что ограничивает возможности анализа содержимого памяти с точки зрения естественного языка. Еще одним недостатком существующих способов формирования памяти языковых моделей является изменение архитектуры основной модели, необходимое для реализации операций записи и чтения в память во время обучения модели и генерации предсказаний.

В связи с указанными проблемами была выбрана тема диссертационной работы.

Целью данной работы является исследование методов повышения эффективности нейросетевых моделей типа Transformer за счет добавления интерпретируемой рабочей памяти.

Для достижения поставленной цели были поставлены и решены следующие задачи:

1. Предложить и разработать методы аугментации моделей на основе архитектуры Transformer рабочей памятью для извлечения и хранения глобальной контекстной информации.

2. Разработать программный комплекс для аугментации моделей памятью.

3. Применить разработанные методы для обучения моделей на задачах машинного перевода и поиска ответа на вопрос по документу посредством многошаговых рассуждений.

4. Исследовать эффективность полученных моделей, проанализировать зависимости содержимого памяти от задачи и влияние состава памяти на качество предсказаний обученных моделей.

Научная новизна:

1. Предложен оригинальный метод добавления и использования интерпретируемой рабочей памяти в декодировщике модели генерации последовательности.

2. Предложен оригинальный метод добавления и использования глобальной эксплицитной памяти в предобученной языковой модели для решения проблемы обработки длинных текстов.

3. Впервые проведен анализ влияния сложности обрабатываемого текста на содержимое рабочей памяти.

4. Впервые исследована зависимость качества предсказаний дообученной модели, аугментированной глобальной интерпретируемой памятью, от свойств содержимого памяти.

Теоретическая значимость

— Разработан метод расширения нейросетевой архитектуры Transformer интерпретируемой генеративной рабочей памятью, позволяющей не только улучшить качество предсказаний машинного перевода, но и оценить способности модели к самостоятельной генерации информации релевантной задаче.

— Разработан метод аугментации предобученных моделей семейства Transformer глобальной эксплицитной памятью на основе неопределенности предсказаний элементов входной последовательности. Продемонстрировано, что аугментация глобальной эксплицитной памятью помогает улучшить качество решения задач, требующих многошаговых рассуждений и анализа длинных текстов на примере поиска ответа на вопрос по документу.

— Проведено исследование зависимости качества предсказаний модели от свойств содержания рабочей памяти.

Практическая значимость

— На примерах задач машинного перевода и поиска ответа на вопрос по документу посредством многошаговых рассуждений показано, что предложенные методы аугментации языковых моделей памятью позволяют получать более высокие оценки качества на целевых задачах, по сравнению с оригинальными моделями без добавления памяти.

— Метод добавления глобальной эксплицитной памяти GEMFormer, представленный в данной работе, прост в реализации и не требует изменения архитектуры языковой модели, к которой добавляется память. Поэтому он может быть применен к любой языковой модели.

— По результатам данной работы оформлено свидетельство о государственной регистрации программы для ЭВМ №2021662628 «Программа языковой модели кодировщик-декодировщик с рабочей памятью в декодере для предсказания следующего слова.» Программа позволяет улучшить качество предсказаний языковой модели кодировщик-декодировщик и может быть полезна исследователям и разработчикам систем обработки естественного языка.

Методология и методы исследования. В ходе работы была применена методология численного эксперимента для исследования рассматриваемых в диссертации задач. Были применены методы теории вероятностей, машинного обучения и теории нейронных сетей. Сравнение качества предсказаний исследуемых методов производилось на основании анализа усредненных по трём запускам значений метрик качества для каждого метода. Анализ различий между экспериментальными результатами исследуемых моделей выполнялся при помощи методов математической статистики. В главе 4 дополнительно проводился абляционный анализ предложенной архитектуры (ablation study). Абляционный анализ позволил оценить вклад индивидуальных элементов архитектуры предложенного решения в итоговый результат. Также для проведения численных экспериментов были применены методы разработки приложений на языке программирования Python, языке для написания

скриптов Bash, программных библиотеках машинного обучения TensorFlow и Pytorch.

Основные положения, выносимые на защиту:

1. Добавление рабочей памяти в декодировщик модели Transformer позволяет генерировать информацию, не представленную явно в обрабатываемом тексте, и в дальнейшем использовать ее для улучшения качества предсказаний модели.

2. Разграничение рассуждений модели и целевых предсказаний в выходной последовательности помогает улучшить точность не только финальных ответов модели, но и промежуточных рассуждений.

3. Дообучение языковой модели RoBERTa, аугментированной глобальной эксплицитной памятью из элементов входной последовательности, при предсказании которых выход модели имеет наименьшую неопределенность, повышает качество предсказаний на задаче поиска ответа на вопрос по документу посредством многошаговых рассуждений.

Достоверность полученных результатов обеспечивается методикой численного эксперимента. Детальное описание представленных алгоритмов позволяет воспроизвести их результаты. Полученные результаты согласуются и дополняют результаты, полученные в работах других авторов.

Апробация работы. Основные результаты диссертационной работы были представлены на:

— Ежегодная международная конференция «Диалог» 2021 (Annual International Conference "Dialogue" 2021), 16-19 июня 2021, онлайн

— XXIII международная научно-техническая конференция «Нейроинформатика-2021», 18-22 октября 2021, Москва, Россия

— BICA*AI 2021: BICA Workshop at ACM IVA 2021, 14 September 2021, online and Kyoto, Japan

— The 2023 Conference on Empirical Methods in Natural Language Processing «EMNLP 2023», 6-10 December 2023, Singapore

Личный вклад. Результаты, представленные в статьях [15—18], получены автором диссертации. Программа ЭВМ [19] разработана автором самостоятельно.

Публикации. Основные результаты по теме диссертации изложены в 4 печатных изданиях, 1 из которых издано в журнале, рекомендованном ВАК, 2 — в периодических научных журналах, индексируемых Web of Science и Scopus, 3 — в тезисах докладов. Зарегистрирована 1 программа для ЭВМ.

Объем и структура работы. Диссертация состоит из введения, пяти глав и заключения. Полный объём диссертации составляет 124 страницы с 45 рисунками и 16 таблицами. Список литературы содержит 80 наименований.

Благодарности. Автор выражает искреннюю признательность своему научному руководителю, кандидату физико-математических наук Михаилу Сергеевичу Бурцеву за наставничество, поддержку и предоставленные возможности. Автор благодарит свою маму Сагадат Габдухлаевну Сагирову за ее любовь, энергию и поддержку.

Особую благодарность автор выражает Московскому физико-техническому институту и, в частности, Андрею Михайловичу Райгородскому и физтех-школе прикладной математики и информатики за предоставленные возможности.

Глава 1. Языковые модели для решения задач обработки

естественного языка

1.1 Эволюция языковых моделей

Языковым моделированием (language modeling) называют задачу предсказания следующего слова в текстовой последовательности. Пусть задан словарь V = {v\,v2,... ,v\y|} и последовательность слов (токенов, элементов словаря) w\,w2,... ,Wf. Тогда задачей языкового моделирования является предсказание условной вероятности следующего токена в последовательности Р(wt+i\w\,w2,... ,wt) (рисунок 1.1). Такая предсказательная модель, присваивающая любой последовательности слов w\,w2,... ,Wt+\ значение Р(w\,w2,...,wt+\) в диапазоне от 0 до 1, называется языковой моделью (language model, LM). В более широком смысле, «языковыми» называют

Рисунок 1.1 — Языковая модель предсказания следующего слова.

предсказательные модели, описывающие как полную вероятность последовательности слов Рп)2,..., ^+1), так и условную вероятность следующего элемента заданной последовательности Р(/Ш1+1\/ш1,/ш2,... ^г) [20; 21]. Эти определения связаны между собой цепным правилом условной вероятности:

*+1

Р(П)1,П)2, . . . = ^ Р(п)г\п)1, . . . №-1). (1.1)

1=1

Первые языковые модели были основаны на Ж-граммах — последовательностях N слов (токенов) [22]. То есть вероятностное распределение токена в таких моделях рассчитывалось на основании N предшествующих ему токенов. Для

таких моделей выполняется Марковское свойство

Р(wt+l\wi,w2, . . . ,Wt) = Р(wt+l\wt-N+2, . . . ,Wt) =

Р(Wt-N+2, . . . ,Wj+l) P (Wt-N+2, ... ,Wt)

(1.2)

При этом в Ж-граммных моделях значения вероятности следующего токена вычисляются простым подсчетом частот встречаемости исследуемых последовательностей в заданном корпусе текстов:

Р (wt+l\wi ,W2, . . . ,Wt-N+2) =

C0Unt(wt-N+2, . . . ,Щ+1) C0Unt(wt-N+2 ,...,Wt) '

(1.3)

Несмотря на простоту и интуитивность подхода, Ж-граммные модели обладают рядом недостатков. Во-первых, вероятностное распределение модели определено только для последовательностей слов, встречающихся в используемом корпусе. Во-вторых, для работы модели необходимо хранить в памяти значения частот встречаемости всех Ж-граммов, встречающихся в корпусе. Также, увеличение размера корпуса и увеличение N влечет увеличение размера модели.

Для решения указанных проблем были применены нейронные сети прямого распространения (Feed-Forward Neural Networks, FFNN) с окном фиксированной ширины [23]. На вход такой нейросети подается конкатенация векторных представлений элементов (токенов) входной последовательности. Полученный объединенный вектор обрабатывается полносвязным слоем и слоем с функцией активации softmax (рисунок 1.2) для получения вероятностного распределения предсказаний на выходе модели.

Рисунок 1.2 — Механизм работы нейронной сети прямого распространения (Feed-Forward Neural Networks) для языкового моделирования [23].

Длина контекста, обрабатываемого моделью за один проход оказалась недостаточной для качественной работы с текстовыми данными. При этом увеличение длины входного контекста увеличивает размер модели, что сказывается на скорости работы модели. Еще одним недостатком нейросети прямого распространения является то, что во время обработки различные части входной последовательности домножаются на различные веса модели.

Решением указанных проблем стало применение рекуррентных нейронных сетей (Recurrent Neural Networks, RNN) [24] для обработки входной последовательности слева направо и предсказания распределения следующего элемента последовательности (рисунок 1.3) [25]. Однако, на практике модели RNN сталкиваются с проблемой исчезающих и взрывающихся градиентов, что влечет потерю способности улавливать долгосрочные зависимости и ухудшение обобщающей способности моделей.

Рисунок 1.3 — Механизм работы рекуррентной нейронной сети (Recurrent Neural Network) для языкового моделирования.

Решение проблемы забывания информации из далекого прошлого было представлено в архитектурах LSTM (Long Short-Term Memory) [26] и GRU (Gated Recurrent Unit) [27]. Для контроля за тем, какую информацию из прошлого нужно использовать при обработке текущего элемента последовательности в ячейках LSTM и GRU реализованы операции фильтрации (LSTM forget gate и GRU update gate, рисунок 1.4).

Позже для решения проблемы переобучения рекуррентных сетей в языковом моделировании были предложены способы регуляризации [28; 29] скрытых состояний LSTM и использование сверточной сети [30], соперничающей по скорости работы и качеству предсказаний с LSTM. Следующей нейросетевой архитектурой, изобретенной специально для задач обработки текстовых данных стала модель Transformer [3].

*t

а) ЬБТМ. б) СЯИ.

Рисунок 1.4 — Строение ячеек рекуррентных нейросетей.

1.2 Языковые модели генерации последовательности

Расширением техники предсказания следующего слова с помощью языковой модели стал подход авторегрессионной генерации продолжения текста. Рассмотрим языковую модель, которая по входной последовательности токенов w\,w2,...,wt предсказывает распределение Р (wt+i\wi,w2 ,...,wt). С помощью декодирования, например, жадным способом (greedy decoding), получим из этого распределения значение следующего токена последовательности и добавим его к исходной последовательности: w\,w2,... ,wt,wt+\. Используем полученную последовательность для предсказания токена Wt+2 и так далее, шаг за шагом продолжая генерацию текста [31].

Подход обучения языковых моделей для текстовой последовательности по заданной входной последовательности получил название sequence-to-sequence learning (seq2seq). Представленная нейросетевая модель [32] была разработана для решения задачи машинного перевода текстов с одного языка на другой. Модель seq2seq состоит из кодировщика (encoder, кодировщик) и декодировщика (decoder, декодировщик) (рисунок 1.5). Кодировщик преобразует входную последовательность в векторные представления. Каждый вектор содержит информацию о соответствующем токене последовательности и его локальном контексте. Декодировщик принимает на вход выходные представления кодировщика и уже сгенерированную

часть целевой последовательности (target sequence) и генерирует векторное представление предсказания для следующего токена. Это векторное представление подается на вход линейного слоя с функцией активации softmax и выходной размерностью равной размеру словаря для вычисления итогового вероятностного распределения для следующего токена целевой последовательности. Финальный линейных слой модели, преобразующий представления декодера в вероятностное распределение по словарю называют головой языкового моделирования (language modeling head).

Рисунок 1.5 — Пример работы модели генерации текста Sequence-to-sequence [32] для решения задачи машинного перевода. Выходные значения энкодера подаются на вход декодера наряду с уже сгенерированной частью перевода для продолжения генерации. [start] — специальный символ начала декодирования. Цикл генерации завершается когда декодер предсказывает специальный токен конца перевода или выходная последовательность достигает заданного предела длины.

Первые seq2seq модели для машинного перевода использовали одно-или многослойные RNN в качестве кодировщика и декодировщика [32]. Для обучения такой модели целевой текст разбивается на две части равной длины: вход декодировщика, состоящий из текста за исключением последнего токена, и целевая последовательность модели, полученная из текста со сдвигом вправо на один токен. Таким образом, декодировщик обучается генерировать следующий токен последовательности. Для корректности предсказаний во время обучения применяется техника teacher forcing, когда независимо от того, какой токен предсказала модель на следующем шаге генерации декодировщику на вход подается корректный токен целевого текста.

Для преобразования вероятностного распределения в токен из словаря наиболее часто применяются такие методы декодирования как, например, жадный выбор наиболее вероятного предсказания (greedy decoding), лучевой

поиск (beam search) [33] или методы семплирования top-k sampling или nucleus sampling [34].

Использование рекуррентных нейросетей в качестве кодировщика и декодировщика модели sequence-to-sequence имеет недостаток, называемый «проблемой узкого горлышка» (information bottleneck problem). Эта проблема состоит в том, что вся информация о входной последовательности кодируется в один вектор, и чем длиннее будет входная последовательность, тем сложнее будет модели учитывать всю информацию о последовательности в одном векторе фиксированного размера. Это приводит к ухудшению качества работы модели за счет потерь информации при кодировке входной последовательности (рисунок 1.6).

Рисунок 1.6 — Рекуррентная модель sequence-to-sequence.

Решением проблемы потерь информации при кодировании длинных текстов стало применение механизма внимания в seq2seq моделях и появление основанной на механизме внимания архитектуры Transformer.

1.3 Механизм внимания и архитектура Transformer

В 2015 году в статье [4] был представлен механизм внимания (attention mechanism) как решение проблемы потерь информации при машинном переводе текстов рекуррентной моделью sequence-to-sequence (рисунок 1.7). Для обработки входной последовательности используется двунаправленная рекуррентная нейросеть (biRNN), обрабатывающая последовательность

слева направо и справа налево. Полученные представления домножаются на обучаемые весовые коэффициенты (attention scores) относительной связи каждого токена последовательности со всеми остальными токенами. Далее полученные взвешенные состояния суммируются для получения выходного представления кодировщика для каждого токена последовательности. Агрегация информации посредством механизма внимания также решает проблему релевантности различных частей входного текста для генерации различных частей текста перевода.

Ум и

Х± х2 х3 Хт

Рисунок 1.7 — Иллюстрация механизма внимания из статьи [4]. Входная

последовательность х\... ,хт обрабатывается двунаправленной рекуррентной нейросетью, чтобы учитывать и левый, и правый контекст каждого элемента последовательности. При расчете выходных представлений кодировщика значение состояния каждого токена Xi домножается на соответствующий весовой коэффициент о^, показывающий относительную важность ¿-го токена входной последовательности для генерации ¿-го токена

выходной последовательности.

Архитектура Transformer была представлена в статье [3] для решения задачи машинного перевода. Модель состоит из кодировщика и декодировщика, представляющих собой N одинаковых последовательно соединенных Transformer-слоев (рисунок 1.8). Каждый слой энкодера состоит из механизма полного внимания последовательности на себя (self-attention) и полносвязного слоя с добавлением двух слоев нормализации. Нормализация состоит из остаточных связей (residual connections) [35] и нормализации слоя (layer

noгmalization) [36]: Ьауе^огт(х + SubLayeг(x)), где SubLayeг — это механизм внимания или полносвязный слой.

Рисунок 1.8 — Иллюстрация архитектуры Transformer из статьи [3].

Слои декодировщика состоят из маскированного внимания входной последовательности декодировщика на себя (masked self-attention), перекрестного внимания последовательности декодировщика на выходные представления кодировщика (cross-attention), полносвязного слоя и слоев нормализации. К результатам механизма внимания входной последовательности декодировщика на себя применяется каузальное маскирование (рисунок 1.9), состоящее в обнулении значений внимания для токенов последовательности, расположенных правее токена, обрабатываемого в данный момент. Таким образом гарантируется доступ модели к уже обработанным элементам последовательности и блокируется доступ к еще не сгенерированным элементам предсказываемой последовательности.

1 источник: http://ialammar.github.io/illustrated-gpt2/

Рисунок 1.9 — Иллюстрация1 разницы между полным вниманием (self-attention) и маскированным вниманием (masked self-attention).

Перекрестное внимание между элементами последовательности декодировщика и выходными представлениями кодировщика позволяет использовать релевантную информацию о входной последовательности при генерации перевода. Полученные выходные представления последнего слоя декодировщика передаются на линейный слой с функцией активации softmax для генерации вероятностного распределения предсказываемого токена.

Входные последовательности токенов кодировщика и декодировщика преобразуются в векторные представления с помощью соответствующих слоев проекций (input embedding и output embedding). Для учета порядка расположения элементов в последовательностях к векторным представлениям (эмбеддингам) входных последовательностей добавляются векторные представления позиций (positional encoding). Эти векторные представления могут представлены как обучаемые параметры модели [37; 38] или как фиксированные значения, заданные аналитически [3].

Рассмотрим подробнее механизм внимания, использованный в архитектуре Transformer. На рисунке 1.10а изображена схема механизма внимания взвешенного скалярного произведения. Из векторных представлений входной последовательности с помощью линейных преобразований получают векторы запросов (queries) Q G Rnqxdk, ключей (keys) К G Rnkxdk и значений

(values) V G Rnkxdv, где nq и — число запросов и ключей (то есть число элементов в последовательностях векторов запросов и ключей) в матрицах Q и К соответственно, причем nv = nq, а dq = d^, d^ и dv — это соответственные размерности векторов Q, К и V.

Далее из Q и V посредством скалярного произведения с последующей нормировкой формируется вектор весов значений матрицы V. Наконец, взвешенная сумма значений V дает так называемые оценки внимания (attention

scores). Полная формула вычисления оценок внимания представлена ниже:

OK т

Attention^, К, V) = softmax(-^=-)V.

Vdk

(1.4)

а) Механизм внимания (scaled dot-product attention)

б) Множественное внимание (multi-head attention)

Рисунок 1.10 — Иллюстрация механизма внимания в архитектуре

Transformer из статьи [3].

Заметим, что расчет скалярного произведения QKт требует 0(щ х nq) вычислений, что в случае полного внимания на себя (то есть при п^ = nq = п, где п — длина последовательности) превращается в 0(п2).

Для увеличения разнообразия представлений последовательности и возможности специализации весов модели сразу на нескольких аспектах естественного языка, авторы архитектуры Transformer предложили обучать и преобразовывать с помощью механизма множественного внимания (англ. multi-head attention) h независимых линейных преобразований над матрицами Q, К и V, таким образом получая h независимых голов внимания (attention heads). Затем результаты работы всех голов объединяются в единое расширенное представление:

MultiHead(Q, К, V ) = [headi ,head2,..., headh]W0, head, = Attention(QW^ KWXK, VW^),

(1.5)

где W ^ G Rdmodelxdk щт к ^ Rdmodei xdk ^ V ^ Rdmodelxdv и ^ О ^ Rhdv xdmodel _ матрицы соответствующих линейных преобразований, dmodel — скрытая размерность векторов запросов, ключей и значений. Иллюстрация множественного внимания представлена на рисунке 1.106. Заметим, что в статье «Attention Is All You Need» [3] авторы предлагают использовать 8 параллельных голов и выбирают размерности преобразований dk = dv = dmodei/h = 64. Уменьшение размерности каждой головы внимания позволяет сохранить общую вычислительную сложность на уровне внимания одной головы с полной размерностью. При этом количество слоев энкодера и декодера выбирают равным 6.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Сагирова Алсу Рафаэлевна, 2024 год

Список литературы

1. LeCun Y, Bengio Y, Hinton G. Deep learning // nature. — 2015. — Т. 521, № 7553. — С. 436.

2. Hopfield J. J. Neural networks and physical systems with emergent collective computational abilities. // Proceedings of the National Academy of Sciences. — 1982. — Т. 79, № 8. — С. 2554—2558. — DOI: 10.1073/pnas.79.8.2554. — eprint: https://www.pnas.org/doi/pdf/10.1073/pnas.79.8.2554. — URL: https://www.pnas.org/doi/abs/10.1073/pnas.79.8.2554.

3. Attention is all you need / A. Vaswani [и др.] // Advances in neural information processing systems. — 2017. — С. 5998—6008.

4. Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate // 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings / под ред. Y. Bengio, Y. LeCun. — 2015. — URL: http: //arxiv.org/abs/1409.0473.

5. Building Machines That Learn and Think Like People / B. M. Lake [и др.] // CoRR. — 2016. — Т. abs/1604.00289. — arXiv: 1604.00289. — URL: http: //arxiv.org/abs/1604.00289.

6. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer / C. Raffel [и др.] // CoRR. — 2019. — Т. abs/1910.10683. — arXiv: 1910.10683. — URL: http://arxiv.org/abs/1910.10683.

7. Beltagy I., Peters M. E., Cohan A. Longformer: The Long-Document Transformer // arXiv:2004.05150. — 2020.

8. Big bird: Transformers for longer sequences / M. Zaheer [и др.] // Advances in Neural Information Processing Systems. — 2020. — Т. 33.

9. Models of Working Memory: Mechanisms of Active Maintenance and Executive Control. / под ред. A. Miyake, P. Shah. — New York : Cambridge University Press, 1999.

10. Gulcehre C., Chandar S. Memory Augmented Neural Networks for Natural Language Processing // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts. — Copenhagen, Denmark : Association for Computational Linguistics, 09.2017. — URL: https: //aclanthology.org/D17-3005.

11. Gupta A., Berant J. GMAT: Global Memory Augmentation for Transformers. — 2020. — arXiv: 2006.03274 [cs.LG].

12. Memformer: The Memory-Augmented Transformer / Q. Wu [и др.] // CoRR. — 2020. — Т. abs/2010.06891. — arXiv: 2010.06891. — URL: https: //arxiv.org/abs/2010.06891.

13. Memory Transformer / M. S. Burtsev [и др.]. — 2021. — arXiv: 2006.11527 [cs.CL].

14. Bulatov A., Kuratov Y., Burtsev M. S. Recurrent Memory Transformer // NeurlPS 2022. — 2022.

15. Sagirova A., Burtsev M. Language model with uncertainty based memory augmentation for multi-hop question answering task // Proceedings of MIPT. — 2023. — Т. 15, № 3. — С. 73—85. — URL: https://mipt.ru/upload/ medialibrary/c64/07.pdf.

16. Sagirova A., Burtsev M. Extending Transformer Decoder with Working Memory for Sequence to Sequence Tasks // Advances in Neural Computation, Machine Learning, and Cognitive Research V / под ред. B. Kryzhanovsky [и др.]. — Cham : Springer International Publishing, 2022. — С. 253—260. — ISBN 978-3-030-91581-0. — DOI: https://doi.org/10.1007/978-3-030-91581-0_34.

17. Sagirova A., Burtsev M. Complexity of symbolic representation in working memory of Transformer correlates with the complexity of a task // Cognitive Systems Research. — 2022. — Т. 75. — С. 16—24. — DOI: https://doi.org/10. 1016/j.cogsys.2022.05.002. — URL: https://www.sciencedirect.com/science/ article/pii/S1389041722000274.

18. Sagirova A., Burtsev M. Uncertainty Guided Global Memory Improves Multi-Hop Question Answering // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing / под ред. H. Bouamor,

J. Pino, K. Bali. — Singapore : Association for Computational Linguistics, 12.2023. — С. 4317—4328. — URL: https://aclanthology.org/2023.emnlp-main.262.

19. Программа языковой модели кодировщик-декодировщик с рабочей памятью в декодере для предсказания следующего слова: а. с. / А. Сагирова, М. Бурцев ; федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)». — № 2021662628 ; заявл. 23.07.2021 ; опубл. 02.08.2021 (Российская Федерация). — 1 с.

20. Murphy K. P. Machine learning: a probabilistic perspective. — MIT press, 2012.

21. Schutze H., Manning C. D., Raghavan P. Introduction to information retrieval. Vol. 39. — Cambridge University Press Cambridge, 2008.

22. Shannon C. E. A mathematical theory of communication // The Bell system technical journal. — 1948. — Т. 27, № 3. — С. 379—423.

23. A neural probabilistic language model / Y. Bengio [et al.] // Journal of machine learning research. — 2003. — Vol. 3, Feb. — P. 1137-1155.

24. Rumelhart D. E., Hinton G. E., Williams R. J. Learning Internal Representations by Error Propagation // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations. — Cambridge, MA, USA : MIT Press, 1986. — С. 318—362. — ISBN 026268053X.

25. Recurrent neural network based language model / T. Mikolov [et al.] // Eleventh annual conference of the international speech communication association. — 2010. — P. 1045-1048.

26. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — P. 1735-1780.

27. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation / K. Cho [et al.] // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Doha, Qatar : Association for Computational Linguistics,

10/2014. — P. 1724-1734. — DOI: 10.3115/v1/D14-1179. — URL: https://www.aclweb.org/anthology/D14-1179.

28. Zaremba W, Sutskever I., Vinyals O. Recurrent neural network regularization // arXiv preprint arXiv:1409.2329. — 2014.

29. Merity S., Keskar N. S., Socher R. Regularizing and Optimizing LSTM Language Models // International Conference on Learning Representations. —2018. —URL: https://openreview.net/forum?id = SyyGPP0TZ.

30. Quasi-recurrent neural networks / J. Bradbury [et al.] // arXiv preprint arXiv:1611.01576. — 2016.

31. Graves A. Generating sequences with recurrent neural networks // arXiv preprint arXiv:1308.0850. — 2013.

32. Sutskever I., Vinyals O, Le Q. V. Sequence to Sequence Learning with Neural Networks // CoRR. — 2014. — T. abs/1409.3215. — arXiv: 1409.3215. — URL: http://arxiv.org/abs/1409.3215.

33. Tillmann C., Ney H. Word Reordering and a Dynamic Programming Beam Search Algorithm for Statistical Machine Translation // Computational Linguistics. — 2003. — T. 29, № 1. — C. 97—133. — DOI: 10 . 1162 / 089120103321337458. — URL: https://aclanthology.org/J03-1005.

34. The Curious Case of Neural Text Degeneration / A. Holtzman [h gp.]. — 2020. — arXiv: 1904.09751 [cs.CL].

35. Deep residual learning for image recognition / K. He [et al.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — P. 770-778.

36. Ba J. L., Kiros J. R., Hinton G. E. Layer normalization // arXiv preprint arXiv:1607.06450. — 2016.

37. Convolutional Sequence to Sequence Learning / J. Gehring [et al.] // ICML. —2017. — P. 1243-1252. — URL: http://proceedings.mlr. press/v70/gehring17a.html.

38. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin [et al.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — 2019. — P. 4171-4186.

39. Dai A. M., Le Q. V. Semi-supervised Sequence Learning // Advances in Neural Information Processing Systems 28 / ed. by C. Cortes [et al.]. — Curran Associates, Inc., 2015. — P. 3079-3087. — URL: http://papers. nips.cc/paper/5949-semi-supervised-sequence-learning.pdf.

40. Ramachandran P., Liu P., Le Q. Unsupervised Pretraining for Sequence to Sequence Learning // Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. — Copenhagen, Denmark : Association for Computational Linguistics, 09/2017. — P. 383-391. — DOI: 10.18653/v1/D17-1039. — URL: https://www.aclweb.org/anthology/D17-1039.

41. Learned in Translation: Contextualized Word Vectors / B. McCann [et al.] // Advances in Neural Information Processing Systems 30 / ed. by I. Guyon [et al.]. — Curran Associates, Inc., 2017. — P. 6294-6305. — URL: http: / / papers. nips. cc / paper / 7209- learned- in- translation- contextualized- word-vectors.pdf.

42. Semi-supervised sequence tagging with bidirectional language models / M. Peters [et al.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Vancouver, Canada : Association for Computational Linguistics, 07/2017. — P. 1756-1765. — DOI: 10.18653/v1/P17-1161. — URL: https://www. aclweb.org/anthology/P17-1161.

43. Deep Contextualized Word Representations / M. Peters [et al.] // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 06/2018. — P. 2227-2237. — DOI: 10.18653/ v1/N18-1202. — URL: https://www.aclweb.org/anthology/N18-1202.

44. Improving language understanding with unsupervised learning : tech. rep. / A. Radford [et al.]. — 2018.

45. Pre-trained models for natural language processing: A survey / X. Qiu [et al.] // arXiv preprint arXiv:2003.08271. — 2020.

46. Graves A., Wayne G., Danihelka I. Neural Turing Machines. — 2014. — arXiv: 1410.5401 [cs.NE].

47. Weston J., Chopra S., Bordes A. Memory Networks. — 2015. — arXiv: 1410. 3916 [cs.AI].

48. End-To-End Memory Networks / S. Sukhbaatar [h gp.]. — 2015. — arXiv: 1503.08895 [cs.NE].

49. Hybrid computing using a neural network with dynamic external memory / A. Graves [h gp.] // Nature. — 2016. — Okt. — T. 538, № 7626. — C. 471—476. — URL: http://dx.doi.org/10.1038/nature20101.

50. Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes / J. W. Rae [h gp.]. — 2016. — arXiv: 1610.09027 [cs.LG].

51. Hierarchical Memory Networks / S. Chandar [h gp.]. — 2016. — arXiv: 1605. 07427 [stat.ML].

52. Dynamic Neural Turing Machine with Soft and Hard Addressing Schemes / C. Gulcehre [h gp.]. — 2017. — arXiv: 1607.00036 [cs.LG].

53. Gulcehre C, Chandar S., Bengio Y. Memory Augmented Neural Networks with Wormhole Connections. — 2017. — arXiv: 1701.08718 [cs.LG].

54. Meng Y., Rumshisky A. Context-Aware Neural Model for Temporal Information Extraction // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — C. 527—536. — DOI: 10.18653/v1/P18-1049. — URL: https://www.aclweb. org/anthology/P18-1049.

55. Compressive Transformers for Long-Range Sequence Modelling / J. W. Rae [h gp.]. — 2019. — arXiv: 1911.05507 [cs.LG].

56. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context / Z. Dai [et al.] // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07/2019. — P. 2978-2988. — DOI: 10. 18653/v1 /P19-1285. — URL: https://www.aclweb.org/anthology/P19-1285.

57. ETC: Encoding Long and Structured Inputs in Transformers / J. Ainslie [h gp.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Online : Association for Computational Linguistics, 11.2020. — C. 268—284. — DOI: 10.18653/v1/2020.emnlp-main. 19. — URL: https://aclanthology.org/2020.emnlp-main.19.

58. Chain of Thought Prompting Elicits Reasoning in Large Language Models / J. Wei [h gp.] // CoRR. — 2022. — T. abs/2201.11903. — arXiv: 2201.11903. — URL: https://arxiv.org/abs/2201.11903.

59. Bleu: a Method for Automatic Evaluation of Machine Translation / K. Papineni [h gp.] // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. — Philadelphia, Pennsylvania, USA : Association for Computational Linguistics, 07.2002. — C. 311—318. — DOI: 10.3115/ 1073083.1073135. — URL: https://aclanthology.org/P02-1040.

60. Lavie A., Agarwal A. METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments // Proceedings of the Second Workshop on Statistical Machine Translation. — Prague, Czech Republic : Association for Computational Linguistics, 06.2007. — C. 228—231. — URL: https://aclanthology.org/W07-0734.

61. Training Verifiers to Solve Math Word Problems / K. Cobbe [h gp.] // CoRR. — 2021. — T. abs/2110.14168. — arXiv: 2110.14168. — URL: https://arxiv.org/ abs/2110.14168.

62. When and Why are pre-trained word embeddings useful for Neural Machine Translation / Q. Ye [h gp.] // HLT-NAACL. — 2018.

63. Levesque H. J., Davis E., Morgenstern L. The Winograd Schema Challenge // Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. — Rome, Italy : AAAI Press, 2012. — C. 552—561. — (KR'12). — ISBN 9781577355601.

64. Tiedemann J. Parallel Data, Tools and Interfaces in OPUS // LREC. — 2012.

65. Automatic Keyword Extraction from Individual Documents / S. Rose [h gp.] // Text Mining. Applications and Theory / nog peg. M. W. Berry, J. Kogan. — John Wiley, Sons, Ltd, 2010. — C. 1—20. — ISBN 9780470689646. — DOI: 10. 1002/9780470689646.ch1. — URL: http://dx.doi.org/10.1002/9780470689646. ch1.

66. Tsymbalov E., Fedyanin K., Panov M. Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampled Implicit Ensembles // CoRR. — 2020. — T. abs/2003.03274. — arXiv: 2003.03274. — URL: https://arxiv.org/ abs/2003.03274.

67. Explain My Surprise: Learning Efficient Long-Term Memory by Predicting Uncertain Outcomes / A. Sorokin [h gp.]. — 2022. — arXiv: 2207.13649 [cs.LG].

68. RoBERTa: A Robustly Optimized BERT Pretraining Approach / Y. Liu [h gp.] // ArXiv. — 2019. — T. abs/1907.11692.

69. HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering / Z. Yang [h gp.] // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 2018. — C. 2369—2380. — DOI: 10.18653/v1/D18-1259. — URL: https://aclanthology.org/D18-1259.

70. Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps / X. Ho [h gp.] // Proceedings of the 28th International Conference on Computational Linguistics. — Barcelona, Spain (Online) : International Committee on Computational Linguistics, 12.2020. — C. 6609—6625. — DOI: 10.18653/v1/2020.coling-main.580. — URL: https: //aclanthology.org/2020.coling-main.580.

71. MuSiQue: Multihop Questions via Single-hop Question Composition / H. Trivedi [h gp.] // Transactions of the Association for Computational Linguistics. — 2022.

72. Clark C, Gardner M. Simple and Effective Multi-Paragraph Reading Comprehension // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). —

Melbourne, Australia : Association for Computational Linguistics, 07.2018. — C. 845—855. — DOI: 10.18653/v1/P18-1078. — URL: https://aclanthology. org/P18-1078.

73. A Simple Yet Strong Pipeline for HotpotQA / D. Groeneveld [h gp.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Online : Association for Computational Linguistics, 11.2020. — C. 8839—8845. — DOI: 10.18653/v1/2020.emnlp-main.711. — URL: https://aclanthology.org/2020.emnlp-main.711.

74. Decomposing Complex Questions Makes Multi-Hop QA Easier and More Interpretable / R. Fu [h gp.] // Findings of the Association for Computational Linguistics: EMNLP 2021. — Punta Cana, Dominican Republic : Association for Computational Linguistics, 11.2021. — C. 169—180. — DOI: 10.18653/v1/ 2021 .findings-emnlp. 17. — URL: https://aclanthology.org/2021.findings-emnlp.17.

75. Towards Interpretable and Reliable Reading Comprehension: A Pipeline Model with Unanswerability Prediction / K. Nishida [h gp.] // CoRR. — 2021. — T. abs/2111.09029. — arXiv: 2111.09029. — URL: https://arxiv.org/abs/2111. 09029.

76. Dynamically Fused Graph Network for Multi-hop Reasoning / Y. Xiao [h gp.] // CoRR. — 2019. — T. abs/1905.06933. — arXiv: 1905.06933. — URL: http://arxiv.org/abs/1905.06933.

77. Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question Answering / S. Wang [h gp.] // Proceedings of the 29th International Conference on Computational Linguistics. — Gyeongju, Republic of Korea : International Committee on Computational Linguistics, 10.2022. — C. 1655—1665. — URL: https://aclanthology.org/2022.coling-1.142.

78. HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale Supervision / W. Zhao [h gp.]. — 2023. — arXiv: 2305.14237 [cs.CL].

79. Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents / M. Tu [h gp.] // CoRR. — 2019. — T. abs/1911.00484. — arXiv: 1911.00484. — URL: http://arxiv.org/abs/ 1911.00484.

80. ReadTwice: Reading Very Large Documents with Memories / Y. Zemlyanskiy [h gp.] // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — Online : Association for Computational Linguistics, 06.2021. — C. 5189—5195. — DOI: 10.18653/v1/2021 .naacl-main.408. — URL: https: //aclanthology.org/2021.naacl-main.408.

Список рисунков

1.1 Языковая модель предсказания следующего слова....................10

1.2 Механизм работы нейронной сети прямого распространения (Feed-Forward Neural Networks) для языкового моделирования [23]. 11

1.3 Механизм работы рекуррентной нейронной сети (Recurrent

Neural Network) для языкового моделирования........................12

1.4 Строение ячеек рекуррентных нейросетей............................13

1.5 Пример работы модели генерации текста Sequence-to-sequence [32] для решения задачи машинного перевода. Выходные значения энкодера подаются на вход декодера наряду с уже сгенерированной частью перевода для продолжения генерации. [start] — специальный символ начала декодирования. Цикл генерации завершается когда декодер предсказывает специальный токен конца перевода или выходная последовательность достигает заданного предела длины...... 14

1.6 Рекуррентная модель sequence-to-sequence.............. 15

1.7 Иллюстрация механизма внимания из статьи [4]. Входная последовательность х\,х2,... ,хт обрабатывается двунаправленной рекуррентной нейросетью, чтобы учитывать и левый, и правый контекст каждого элемента последовательности. При расчете выходных представлений кодировщика значение состояния каждого токена Xi домножается на соответствующий весовой коэффициент о^, показывающий относительную важность ¿-го токена входной последовательности для генерации t-го токена выходной

последовательности......................................................16

1.8 Иллюстрация архитектуры Transformer из статьи [3]................17

1.9 Иллюстрация10 разницы между полным вниманием (self-attention) и маскированным вниманием (masked self-attention). 18

1.10 Иллюстрация механизма внимания в архитектуре Transformer из статьи [3]..................................................................19

1.11 Схема предобученной sequence-to-sequence модели [40]. Красным цветом выделены параметры кодировщика, синим — параметры декодировщика. Параметры первых слоев кодировщика и декодировщика и параметры головы языкового моделирования декодировщика предобученные (выделены закрашенными рамками). Остальные параметры модели инициализируются

случайными значениями........................ 21

1.12 Иллюстрация метода контекстных векторов (СоУе) из

статьи [41]. а) Модель предобучают на задаче машинного перевода, Ь) веса обученного кодировщика используют для дообучения на целевую задачу..................... 22

1.13 Порядок обработки входной последовательности различными нейросетевыми архитектурами..................... 24

1.14 Формат входных данных и схема работы модели GPT на различных задачах обработки естественного языка [44]. Специальные токены Start и Delim обозначают начало последовательности и границы между ее частями (например, предложениями текста в задачах сравнения или контекстным документом и ответом в вопросно-ответных задачах). Токен Extract используется для получения представления входной последовательности в виде одного вектора, к которому потом применяется линейный слой для решения целевой задачи.....25

1.15 Предобучение (слева) и дообучение (справа) модели BERT [38]. . 25

1.16 Префиксная специализация целевой задачи в модели T5 [6]. В начало входной последовательности добавляется

префикс — ключевая фраза с описанием задачи. После префикса идет стандартная входная последовательность. Такой подход к специализации целевой задачи позволяет использовать одну модель генерации текста как для экстрактивных, так и для генеративных задач........................... 27

1.17 Формат данных предобучения модели T5 [6]. Выбранные для маскирования токены или последовательности токенов заменяются на соответствующий токен-маску (<X>, <Y>) во входной последовательности. В целевой последовательности токены, маскирующие части текста, которые необходимо восстановить, располагаются слева от целевых токенов для сохранения относительного порядка расположения маскированных элементов текста. В конец последовательности добавляется специальный токен <Z>, обозначающий конец обрабатываемой последовательности................. 28

1.18 Архитектура Neural Turing Machine [46]. Во время каждого цикла обновления сеть-контроллер получает входные данные из внешней среды и в ответ выдает выходные данные. Также она читает из матрицы памяти и записывает в матрицу памяти через набор параллельных голов чтения и записи. Пунктирная линия указывает разделение между процессами внутри NTM и

внешним миром............................. 28

1.19 Модель End-to-end Memory Network [48]. a) Версия модели, состоящая из одного слоя, b) трехслойная версия End-to-end Memory Network............................. 30

1.20 Механизм работы краткосрочной и долгосрочной памяти

Compressive Transformer [55]. В каждый момент времени t самые старые элементы сжатых воспоминаний отбрасываются, а самые старые п состояний из краткосрочной памяти сжимаются и записываются на освободившееся место в сжатой памяти. Во время обучения сжатая память оптимизируется отдельно от

основной языковой модели....................... 31

1.21 Сравнение механизмов внимания моделей Transformer и ETC [57]. 32

1.22 Схема внимания модели BigBird [8]. a) Внимание на случайные токены, b) внимание скользящим окном размера 3, c) внимание двух глобальных токенов, d) комбинированная схема внимания. . 32

1.23 Модификации Transformer слоя для моделей MemTransformer, MemCtrl Transformer и MemBottleneck Transformer [13]....... 33

1.24 Модель GMAT [11]. a) Схема внимания модели. b) Схема фрагментированного внимания (chunked self-attention): каждый токен входной последовательности использует стандартное внимание внутри своего фрагмента и при взаимодействии с токенами памяти, но не использует внимание по отношению к другим фрагментам входной последовательности.......... 35

1.25 Пример затравки цепочки рассуждений (chain of thought) [58]. Слева изображен пример стандартного входа-выхода большой языковой модели с затравкой, состоящей из одного примера текстовой математической задачи и ответа к ней и условие задачи, которую надо решить. При таком формате входных данных генерируемый моделью ответ получается неверным. Справа изображена затравка с использованием такого же примера с добавлением пошагового описания решения задачи. Такой вид затравки указывает модели, что сначала нужно сгенерировать рассуждение на основе условия задачи, и только после этого сгенерировать ответ. В результате модель выдает не только верный ответ, но и обоснование на естественном языке. . . 36

2.1 Transformer с генеративной рабочей памятью в декодировщике. На вход декодировщика подаются токены у\,... ,yt-i, сгенерированные моделью к текущему моменту времени, и соответствующий вектор типов токенов т\,... ,mt-\. Тип токена определяется бинарной величиной uik такой, что mi = 1 если соответствующий токен yi принадлежит целевой последовательности перевода, и uij = 0 если соответствующий yj записывается в память. Выходной слой модели Transformer имеет размерность target_vocabulary_size + 2. Два последних значения выходного слоя определяют тип предсказанного токена. Оставшиеся значения задают предсказание токена. Функция потерь рассчитывается на основе предсказаний целевой последовательности и примеров из обучающей выборки. Перед расчетами функции потерь элементы предсказанной последовательности, соответствующие токенам памяти, удаляются из последовательности................... 39

2.2 Маски внимания self-attention со скользящим окном для текста решения системы трех уравнений. Размер окна 256 токенов, длина последовательности 729 токенов. По осям располагаются токены генерируемой последовательности. Желтым обозначены токены, используемые для расчета внимания, синим — остальные токены. У базовой модели внимание рассчитывается локально : для предсказания каждого токена используются предыдущие 256 токенов. У модели с памятью в добавление к локальному вниманию на токены промежуточных результатов устанавливается глобальное внимание (желтые вертикальные полосы на рисунке б) с полным доступом к выбранным токенам. Ширина окна локального внимания соответственно сокращается для сохранения общей длины обрабатываемой части контекста.................... 49

3.1 Распределения количества уникальных токенов, хранящихся в рабочей памяти, для датасетов TED, WSC, IT Documents и Open Subtitles. Соответствие цветов гистограмм наборам данных до и после дообучения представлено на рисунке (б). До дообучения разнообразие памяти WSC, Open Subtitles и IT Documents было больше, чем разнообразие памяти предсказаний TED. После дообучения рабочая память всех датасетов была в основном заполнена одним повторяющимся токеном. Таким образом, при обработке новых данных, не встретившихся во время дообучения, модель демонстрирует более высокую вариабельность содержимого рабочей памяти. Более сложные датасеты имеют большее разнообразие памяти. После дообучения и ознакомления модели с новыми данными в рабочей памяти появилось больше повторяющихся токенов. . . . 59

3.2 Среднее количество уникальных токенов рабочей памяти, измеренное после каждой эпохи дообучения. Пунктирные линии представляют собой линейные аппроксимации методом наименьших квадратов. График подтверждает, что с течением дообучения содержимое рабочей памяти становится более однородным. Минимальное количество уникальных токенов памяти оказывается больше для более сложных текстов (IT Documents и WSC), чем для более простых (Open Subtitles и TED). 60

3.3 Вероятности найти одно или несколько (а) ключевых слов, извлеченных из предсказаний модели, и (б) знаменательных слов в рабочей памяти для всех наборов данных. Разница в вероятностях наличия ключевых слов статистически значима для пары IT Documents-TED до и после дообучения (р < 0.01) и для пары IT Documents-Open Subtitles после дообучения

(р < 0.0001). Вероятности знаменательных слов статистически значимо различаются для всех пар датасетов типа сложный-простой до и после дообучения (р < 0.01)......... 61

3.4 Зависимость среднего количества уникальных токенов в памяти от длины предсказанной последовательности (с указанием линейной аппроксимации методом наименьших квадратов). Среднее разнообразие памяти не зависит существенно от длины предсказаний модели.......................... 62

3.5 Распределения частей речи в рабочей памяти для всех наборов данных после дообучения. Распределения показаны до семи вхождений, поскольку ни одна из исследованных частей речи не встречается более семи раз. После дообучения память для простых текстов (TED и Open Subtitles) содержит сочинительные союзы (CCONJ), местоимения (PRON) и знаки препинания (PUNCT). Рабочая память WSC и IT Documents чаще всего состоит из определителей (DET), существительных (NOUN), имен собственных (PROPN) и глаголов (VERB). Такие

же части речи чаще всего встречаются в памяти до дообучения. . 63

4.1 Тепловая карта вероятностей генерации ошибочного

предсказания модели КоБЕКТа-Ьазе, дообученной на задачу, для

токенов контекстного документа из валидационной выборки датасета HotpotQA. Токены с максимальным значением вероятности генерации ошибочного предсказания выделены красным цветом............................. 69

4.2 Тепловая карта энтропии базовой модели для токенов контекстного документа из валидационной выборки датасета HotpotQA................................. 70

4.3 Схема работы метода СЕМ^те^ Контекстный документ,

разбитый на сегменты, подается на вход модели-кодировщика ^БЕИТа с головой языкового моделирования. По полученным вероятностным распределениям оценивается неопределенность и формируется последовательность глобальной эксплицитной памяти. Объединенная последовательность, состоящая из вопроса, памяти и сегментов контекста, используется для

генерации целевых предсказаний................... 71

4.4 Изменение значений энтропии для ответа, полезных фактов и фактов зашумления в процессе дообучения модели GEMFormer Low (Н < 0.3). На графике изображены среднее и стандартное отклонение значений энтропии для примеров из валидационной выборки датасета HotpotQA...................... 82

4.5 Зависимость качества предсказания ответа на вопрос от размера памяти. Пунктирные линии на графике отображают среднее по выборке значение качества. Сплошные линии соответствуют значениям скользящего среднего меры F1 для ответов....... 84

4.6 Зависимости качества предсказания ответа от содержимого глобальной эксплицитной памяти................... 85

4.7 Значения энтропии, полученные на основе предсказаний предобученной модели RoBERTa-base................. 86

4.8 Разница значений энтропии после одной эпохи дообучения модели и до начала дообучения. Токены с неотрицательными значениями разницы энтропий записаны темным шрифтом, токены с отрицательными значениями указаны более светлым шрифтом................................. 87

4.9 Значения энтропии токенов контекстного документа из валидационной выборки датасета HotpotQA на основе предсказаний базовой модели. Для данного документа фактами, содержащими необходимую для корректного ответа информацию являются следующие предложения: «Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer.», «Edward Davis Wood Jr. (October 10,

1924 - December 10, 1978) was an American filmmaker, actor,

writer, producer, and director.»..................... 89

4.10 Сравнение качества предсказаний и релевантности глобальной памяти полезным фактам задачи для моделей, обученных с критерием отбора в память Hq < 0.3 и Нс > 0.3 для случаев генерации предсказаний с различными парами пороговых констант для Hq и Нс.......................... 91

4.11 Сравнение качества предсказаний и релевантности глобальной памяти полезным фактам задачи для моделей, обученных с критерием отбора в память Hq < 0.3 и Нс > 0.4 для случаев генерации предсказаний с различными парами пороговых констант для Hq и Нс.......................... 92

4.12 Сравнение качества предсказаний и релевантности глобальной памяти полезным фактам задачи для моделей, обученных с критерием отбора в память Hq < 0.3 и Нс > 0.5 для случаев генерации предсказаний с различными парами пороговых констант для Hq и Нс.......................... 93

4.13 Плотности распределений Hq и Нс для примеров с различными видами верного ответа......................... 95

Список таблиц

1 Количество примеров данных для каждой языковой пары. В столбце «оригинал» указаны размеры выборок обучения и валидации исходного набора данных. Размеры выборок после фильтрации показывают количество примеров в обучающих и валидационных выборках после фильтрации токенизированных

предложений по длине......................... 42

2 Значения BLEU 4 (среднее по 3 запускам и стандартное отклонение) для трех языковых пар TED. Приведены результаты для 10 и 20 эпох обучения. Лучшие значения выделены жирным шрифтом...................... 43

3 Значения METEOR (среднее по 3 запускам и стандартное отклонение) для трех языковых пар TED для 10 и 20 эпох обучения. Лучшие значения выделены жирным шрифтом.....44

4 Примеры предсказаний перевода Pt-En. Токены [start] и [end] обозначают начало и конец перевода. В круглых скобках указаны токены памяти, остальные токены являются

элементами целевого перевода..................... 45

5 Сравнение качества предсказаний ответов (Result TSR) и пошаговых решений (Solution TSR) на синтетическом наборе

данных систем линейных уравнений для моделей Transformer с обучаемой рабочей памятью и без нее. Значения TSR каждого эксперимента усреднены по 3 запускам с различными случайными зернами (random seed). Лучшие значения выделены

жирным шрифтом............................ 48

6 Влияние способа обработки последовательности на качество

предсказаний моделей Transformer с обучаемой рабочей памятью и без нее................................. 50

7 Наборы данных для исследования содержимого генеративной рабочей памяти. Для каждого набора данных мы предоставляем размер выборки для анализа предсказаний, минимальную, максимальную и среднюю длину текста в токенах для оригинальных переводов из датасета (столбец «ориг.») и для предсказаний переводов до дообучения (столбец «до») и после дообучения (столбец «после»)..................... 54

8 Качество предсказаний моделей с генеративной рабочей памятью. Первые две строки соответствуют моделям без памяти. Третья и четвертая строки — моделям Transformer с рабочей памятью в декодере. В последней строке показаны результаты работы модели, предобученной с рабочей памятью, для которой внимание на токены памяти было отключено во

время генерации предсказаний..................... 56

9 Примеры последовательностей разной длины, предсказываемых моделью Transformer с рабочей памятью в декодере и эталонные переводы. Элементы рабочей памяти обрамляются круглыми скобками. [start] и [end] обозначают начальный и конечный токены последовательности соответственно. Остальные токены представляют предсказанный перевод................. 56

10 Статистики датасетов для задачи MHQA............... 72

11 Гиперпараметры обучения для датасетов MHQA.......... 76

12 Качество предсказания ответа на вопрос (Ans F1), предложений контекста, необходимых для ответа (Supp F1) и значения объединенной меры (Joint F1). Для всех экспериментов указано

среднее и стандартное отклонение по 3 запускам. Наилучшие

значения выделены жирным шрифтом................ 78

13 Качество предсказаний модели СЬа1СРТ. Значения меры П представлены для полных валидационных выборок датасетов HotpotQA, MuSiQue и для 2500 примеров из валидационной выборки 2WikiMHQA.......................... 78

14 Результаты абляционного исследования на данных HotpotQA. No Q/Doc only обозначает эксперимент с исключением токенов вопроса из входной последовательности на этапе генерации памяти. No fine-tune обозначает использование модели с весами предобучения для генерации памяти и дообучение модели с такой памятью на задачу MHQA. Random memory обозначает модель с памятью, состоящей из токенов, случайным образом выбранных из контекстного документа................ 80

15 Сравнение модели GEMFormer с существующими методами решения задачи multi-hop question answering. Значения показателей качества моделей, приведенных для сравнения, взяты из научных статей, в которых указанные методы были представлены. Символ * означает, что значения показателей качества были взяты из статьи [74].................. 82

16 Зависимость среднего размера памяти и количества токенов полезных фактов среди всех токенов памяти от качества предсказаний............................... 83

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.