Интерпретация представления знаний в нейросетевых моделях автоматической обработки естественного языка тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Сериков Олег Алексеевич
- Специальность ВАК РФ00.00.00
- Количество страниц 109
Оглавление диссертации кандидат наук Сериков Олег Алексеевич
Оглавление
Стр.
Введение
1.1 Тема, содержание и структура работы
1.2 Обработка естественного языка и искусственный интеллект
1.2.1 Понятие языковых моделей
1.2.2 Типы языковых моделей
1.2.3 Интерпретируемость языковых моделей
1.3 Современное языковое моделироавание в контексте лингвистики
1.3.1 Основные уровни естественного языка и их обработка языковыми моделями
1.3.2 Онтологическая семантика и логико-понятийное представление естественного языка. Структурированное представление знаний
1.3.3 Грамматические категории и типологическое разнообразие. Мультиязычность
1.4 Основные задачи и подходы исследования
Глава 2. Грамматическое знание в языковых моделях
2.1 Первые эксперименты с пробингом морфосинтаксиса в мультиязычных Трансформерах
2.1.1 Выбор мультиязычных моделей
2.1.2 Данные для мультиязычного пробинга
2.1.3 Методология исследования. Диагностическая классификация, анализ нейронов
2.1.4 Результаты экспериментов
2.1.5 Выводы
2.2 Массивный мультиязычный пробинг
2.2.1 Выбор мультиязычных моделей
2.2.2 Данные Universal Dependencies для мультиязычного пробинга
2.2.3 Методология исследования. Диагностическая классификация
2.2.4 Результаты экспериментов
2.2.5 Выводы
2.3 Усвоение грамматического знания языковыми моделями
2.3.1 Выбор моделей. Кодировщик и декодировщик
2.3.2 Данные. Источники пробинговых задач
2.3.3 Методология исследования. Сравнение промежуточных версий модели
2.3.4 Результаты экспериментов
2.3.5 Выводы
2.4 Семантические скетчи — машиночитаемое представление семантических предикатов
2.4.1 Данные для построения семантических скетчей
2.4.2 Методология исследования. Поведенческий пробинг
2.4.3 Результаты экспериментов и выводы
2.5 Выводы к главе
Глава 3. Экстралингвистическое знание в больших языковых
моделях (LLM)
3.1 Семантические знания на уровне слов
3.1.1 Данные для интерпретации значений слов
3.1.2 Методология исследования. Сингулярное разложение векторных представлений
3.1.3 Результаты анализа
3.1.4 Выводы
3.2 Экстралингвистические знания в LLM
3.2.1 Методология исследования. Интерпретируемый алгоритм анализа текстов
3.2.2 Результаты и анализ экспериментов
3.2.3 Выводы
3.3 Выводы к главе
Заключение
Список литературы
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Способы актуализации реалий в текстах южнославянских сказок2010 год, кандидат филологических наук Петрович, Майя Александровна
Автоматизированные системы управления и обработки информации для архивов медицинских документов1999 год, кандидат технических наук Трояновская, Ольга Вадимовна
Категория оптативности в современном русском языке2003 год, доктор филологических наук Алтабаева, Елена Владимировна
Синтаксическая интерференция и способы ее изучения1981 год, кандидат филологических наук Ковылина, Людмила Николаевна
Высказывания с семантикой состояния в современном русском языке2001 год, доктор филологических наук Матханова, Ирина Петровна
Введение диссертации (часть автореферата) на тему «Интерпретация представления знаний в нейросетевых моделях автоматической обработки естественного языка»
Введение. Языковое моделирование в лингвистическом контексте 1.1 Тема, содержание и структура работы
Большие языковые модели являются флагманским подходом в решении задач автоматической обработки естественного языка и искусственного интеллекта. Такие модели снабжены механизмом отображения контекстов (последовательностей слов или токенов) в векторное пространство. Векторы контекстов оказываются информативными источниками признаков при решении разнообразных задач методами машинного обучения. Построенные таким образом системы показывают высокое качество на специфичных задачах1 [1; 2] и сопоставимые с человеческими результаты в задачах общего искусственного интеллекта [3; 4]. В основе большого количества прикладных продуктов также лежат большие языковые модели [5; 6].
Одним из ключевых факторов, который делает большие языковые модели уникальными, оказывается их способность настраиваться, опираясь на большие коллекции данных. Благодаря большому количеству использованных в обучении данных (обучающие корпуса для языковых моделей могут достигать сотен гигабайт), языковые модели оказываются способными корректно обрабатывать сложные лингвистические паттерны и порождать естественно звучащие тексты. Предварительное обучение на огромных корпусах текстов, оказывается достаточным для того, чтобы с минимальным дообучением моделей решать большое множество предварительных задач [7; 8]. Таким образом, предварительно обученные языковые модели используются для решения широкого спектра задач, таких как анализ тональности, разметка именованных сущностей, классификация текстов и машинный перевод. Растёт популярность языковых моделей, предоставляемых в качестве отдельного сервиса (подобно системам Instruct GPT [9], GPT4 [10] и GigaChat [11]. Использование больших языковых моделей обеспечивает прирост качества и в алгоритмах обработки нетекстовых данных (видео, звук, табличные данные) для решения мультимодальных задач [12; 13].
1https://www.dialog-21.ru/evaluation/
В последние годы исследования, направленные на интерпретацию языковых моделей, стали особенно популярны. В 2022 году на одной из крупнейших конференций, посвященных автоматической обработке естественного языка, ЕМКЬР 2022 [14], именно направление интерпретации «черных ящиков» стало самым большим по количеству публикаций [15]. Повсеместное применение языковых моделей вызывает особенный интерес к предсказуемости и обоснованию их поведения. Объяснимость поведения таких систем важна для оценки рисков их применения. Кроме того, способность систематизировать закономерности в поведении моделей потенциально полезна для их улучшения: обучение языковых моделей требует редких ресурсов, и, следовательно, опирается на разносторонний предварительный анализ. Используемые вновь и вновь системы обработки языка опираются в решении задач на когда-то усвоенное в форме миллиардов численных переменных знание. Такой формат представления информации затрудняет объяснение и предсказание их поведения. Исследования, направленные на объяснение поведения построенных языковых моделей, ведутся в направлениях оценки и интерпретации поведения моделей на конкретных задачах, а также в направлении общей интерпретации таких систем при помощи техник пробинга (исследования связи между поведением отдельных элементов модели и каким-то свойством обрабатываемых данных). Большая часть пробинговых исследований сконцентрированы на анализе усвоения моделями грамматики языка, семантический пробинг осуществляется реже.
Таким образом, оказывается актуальной интерпретация представления знаний в нейросетевых моделях автоматической обработки естественного языка. Термин "знание" здесь и дальше мы понимаем в том же смысле, что он используется в методологии графов знаний, восходящей к реляционным семантическим структурам: пара <термы, набор семантических отношений между ними>, которая отражает экстралингвистическую реальность онтологического или энциклопедического характера. В экспериментах, которые были реализованы в рамках диссертационного исследования, знание было представлено в качестве набора структур вида <тип отношения/предиката, его участники> или подобных им. Источником таких данных был выбран ресурс Wikidata [16]. Под грамматическим и лексико-семантическим знанием моделей понималась способность моделей решать задачи, связанные с соответствующими уровнями языка, на основании промежуточных вычисленных векторных представлений рассматривае-
мых языковых единиц. Материалы, вошедшие в данную работу, в том числе документация к реализованным инструментам и популярное изложение полученных с их помощью результатов размещены в публичном репозитории https: //github.com/oserikov/PhD.
Целью данной работы является интерпретация лингвистических и экстралингвистических знаний, накапливаемых в языковых моделях.
Для достижения поставленной цели оказалось необходимо решить следующие задачи:
1) Анализ и систематизация релевантных направлений исследований, методов и инструментов интерпретации языковых моделей, их ключевых выводов и слабых сторон,
2) Определение требований к данным, необходимым для проведения интерпретационного исследования знаний в языковых моделях,
3) Составление методологии проведения интерпретационного исследования знаний в языковых моделях на основании проведенного обзора предметной области и установленных требований к данным,
4) Проверка применимости уровневой модели языка к анализу представления языка в нейросетевых моделях,
5) Проведение семантико-синтаксической интерпретации языковых моделей,
6) Проведение экстралингвистической семантической интерпретации языковых моделей,
7) Публикация инструментов интерпретации исследования знаний в языковых моделях в открытом доступе, реализующих воплощение методологии.
Основные положения, выносимые на защиту:
1) Среди существующих техник структурной интерпретации языковых моделей преобладающее большинство работ посвящены интерпретации грамматических структур, возникающих в моделях. Воплощение семантических структур и структур описания знаний в языковых моделях оказывается недоисследованным,
2) Для проведения исследований, восполняющих эту лакуну, оказывается полезна разметка скрытых в текстах структур. Источниками такой разметки могут быть как лингвистические ресурсы (например, скетчи с раз-
меткой семантических ролей), так и ресурсы более общего порядка (графы знаний, соотнесённые с текстами),
3) Поведение различных участков нейронной сети оказывается скоррели-рованно с наличием различных типов предикатов, кодирующих знания. При этом для похожих по смыслу предикатов наибольшие корреляции показывают похожие участки нейронной сети,
4) Для обеспечения сопоставимости результатов интерпретации различных языковых моделей, относящихся часто к разным языкам, необходим инструментарий, стандартизующий проведение таких исследований.
Научная новизна:
1) Впервые для интерпретации языковых моделей применяются подходы, основанные на семантических ролях и графах знаний,
2) Впервые предложена методология эксплицитного анализа специализации голов внимания языковых моделей,
3) Иерархия типов предикатов, наполняющих граф знаний, была впервые установлена детерминированным путем на основании интерпретации языковой модели.
Научная значимость исследования обуславливается выработкой методологии применения богатого инструментария теоретической лингвистики к интерпретации семантической информации и знаний, выделяемых в языковых моделях. В научную значимость также вносит вклад выработка подхода к детерминированному подходу к построению иерархий типов отношений, присутствующих в графах знаний.
Практическая значимость исследования состоит в том, что были выложены в открытый доступ все инструменты, разработанные для проведения экспериментов. Таким образом для широкого сообщества исследователей становится возможным исследовать сильные и слабые стороны языковых моделей с точки зрения усвоения ими грамматического, семантического и экстралингвистического знания. Эксперименты, посвящённые интерпретации модели BLOOM, опубликованные вместе с описанием самой модели в работе [17] может служить примером такого использования разработанных инструментов. Также были выделены сильные и слабые стороны существующих мультиязычных языковых моделей, что может оказаться важным при выборе очередной модели для решения прикладной задачи.
Степень достоверности полученных результатов обеспечивается тем, что результаты работы были успешно опубликованы в изданиях и рецензируемых сборниках конференций. Результаты находятся в соответствии с результатами, полученными другими авторами, внося вклад в развивающуюся научную дискуссию об интерпретации нейросетевых моделей языка. Эксперименты, описанные в разделах 2.1,2.2,2.3,2.4,3.1,3.2 работы, опубликованы в статьях [18], [19], [17], [20], [21], [22].
Апробация работы обеспечена успешным применением полученных результатов научным сообществом в последовавших исследованиях [17].
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Формирование языковой способности у младших школьников с нарушениями речи2001 год, кандидат педагогических наук Карпушкина, Елена Александровна
Лингвокультурологический аспект исследования языковых единиц2003 год, доктор филологических наук Иванова, Светлана Викторовна
Методология порождения вторичного текста: когнитивный аспект2010 год, доктор филологических наук Исенбаева, Галина Ивановна
Математическое моделирование процесса анализа близости предикатов семантических отношений2007 год, кандидат технических наук Корнышов, Александр Николаевич
Заключение диссертации по теме «Другие cпециальности», Сериков Олег Алексеевич
Заключение
В настоящем диссертационном исследовании представлена и применена методология пробинга знания в нейросетевых языковых моделях. Сторонним эффектом разработки методологии стало также появление и вывод в широкий доступ инструментов, обеспечивающих возможность осуществлять пробинг языковых моделей.
Пробинговое исследование грамматических способностей языковых моделей позволило выделить основные принципы распределения грамматического знания по слоям и нейронам этих моделей. Инструментарий, легший в основу методологии проведенного исследования, оказался удобен для проведения других исследований по интерпретации поведения языковых моделей и был представлен в виде системы для интерпретации языковых моделей, изложенной в статье [19]. Система позволяет исследователям проводить большие количества экспериментов (сотни и тысячи) об интерпретации языковых моделей и анализировать их результаты, представленные в едином формате и интерфейсе. Система была применена при интерпретации новой языковой модели BLOOM (эксперименты изложены в работе [17]) и позволили установить пределы обобщения грамматических способностей языковой модели на незнакомые ей языки. Распределение грамматического знания по моделям оказалось сильно зависимым от обучающей задачи, представленной модели (секция 2.1) или языка, на котором обучена модель (раздел 2.2). Однако же нам удалось установить, что знание, важное для решения грамматических задач, всё же имеют некоторый характерный принцип распределения по слоям нейросети. Преимущественно такое грамматическое знание располагаются в средних и следующих за ними слоях модели, и такая специализация слоёв начинает формироваться в моделях постепенно, с самых первых эпох их обучения (раздел 2.3).
Пробинговые задачи о грамматике не раскрывают самой интересной подробности об устройстве знания в нейросетях. В дальнейших экспериментах мы стремились узнать, как в моделях организовано семантическое и экстралингвистическое знание. В разделе 2.4 мы описали способ представления данных и формулирования пробинговых задач для анализа более глубинных представлений в нейросетях. Затем (раздел 3.1) мы установили важную характеристику векторно-
го представления языка — иерархическую организацию векторных представлений, причём эта организация согласована с абстрактными экстралингвистическими подходами к выделению смежных тем. Раздел 2.4 также позволил нам удостовериться в том, что если описать свойства текстов в терминах отношений и их участников, то между этими свойствами текстов и свойствами поведения моделей будет прослеживаться связь. Для того чтобы подробнее исследовать это свойство векторных представлений в языковых моделях, в разделе 3.2 при помощи корреляционного пробинга была произведена непосредственно интерпретация представления знаний в моделях. Именованные отношения уже не были представлены семантическими скетчами, а брались из онтологической модели ресурса WikiData. При помощи таких данных языковая модель типа Трансформер была исследована на предмет наличия в ней областей, отвечающих за факты, изложенные в WikiData при помощи двухместных семантических предикатов. Нам удалось показать, что участков, имеющих такую избирательную специализацию, нет как на уровне слоев языковой модели, так и на более подробном уровне голов внимания, составляющих эти слои — знание о фактах распределено неравномерно (четвёртый и десятый слои оказались наиболее информированы), но всё же по всем слоям модели. Анализ специализации голов внимания языковой модели на типах предикатов WikiData позволил нам выстроить иерархию этих предикатов. Полученная схема группирования предикатов WikiData оказалась согласованной со смыслами этих предикатов, однако расходится с тем, как эти предикаты сгруппированы в ресурсе WikiData, первоисточнике.
Появившееся в недавнее время широкое множество мультиязычных моделей мотивирует исследователей предлагать новые методы оценки этих моделей с целью отбирать наиболее полезные для решения прикладных задач системы. Тем не менее даже возросший спрос на мультиязычные оценочные наборы данных не привел к удовлетворению нехватки качественных наборов данных на "непопулярных" в интернет-сообществе языках. Это свойство прослеживается в нашей работе двояко. Во-первых, как мы отмечаем в разделе 2.2, прямым следствием такого состояния области является неизбежное тяготение больших мультиязычных моделей к характеристикам (хорошему пониманию характеристик) языков европейских или хотя бы широко представленных в интернете. С другой же стороны, сама оценка языков, находящихся на противоположной стороне этого спектра популярности, по-прежнему оказывается затруднена. Используя самый полный на-
бор грамматически размеченных текстов на языках мира, Universal Dependencies, мы всё равно сталкиваемся с нехваткой данных. Стремясь измерить наличие в векторных представлениях периферийных (относящихся к непопулярным языкам или грамматическим категориям) грамматических знаний, мы сталкиваемся с нехваткой данных, необходимых для замеров на том же уровне достоверности, что и, например, в экспериментах про английский язык.
В наших экспериментах мы уделили основное внимание архитектуре Трансформеров-кодировщиков, именно такой архитектуре следуют модели BERT, наиболее подробно рассмотренные нами в обеих исследовательских главах. Модель BLOOM — пример декодировщика, её архитектура родственна популярным моделям GPT — была в Разделе 2.2 подвергнута грамматическому пробингу и сравнению с кодировщиками XLM-R и M-BERT, и с точки зрения мультиязычного пробинга продемонстрировала те же свойства, что и кодировщики. Модель T5 — кодировщик-декодировщик — была подвергнута в Разделе 2.3 хронологическому пробингу и продемонстрировала отличные от наблюдаемых в кодировщиках паттерны распределения знания по слоям модели, но подобно рассмотренному кодировщику BERT демонстрировала постепенное проявление упомянутых паттернов. Несмотря на то, что наши наблюдения отражают наличие фундаментальных верхнеуровневых сходств в усвоении грамматики моделями трёх разных архитектур (кодировщики, декодировщики и кодировщики-декодировщики), важно отметить необходимость гораздо более глубокого исследования моделей с компонентом декодировщика. Эта мотивация следует из известного [116] наблюдения — кодировщики решают задачи понимания языка при помощи анализа векторных представлений текстов гораздо лучше, чем другие два типа моделей. Таким образом, несмотря на то, что механизм декодировщи-ка обеспечивает современным моделям впечатляющую способность порождать качественные тексты или даже давать ответы на вопросы [9], векторные представления в этих моделях пока поддаются интерпретации хуже. Возможно, примененные нами в этой работе методы анализа кодировщиков могли бы пролить свет на это занимательное противоречие, наблюдаемое в моделях с декодиров-щиком.
В нашей работе мы предложили два разных способа интерпретации векторных представлений языка с точки зрения семантики или даже экстралингвистического знания, но не грамматики. Эти два термина (знание семантическое
и знание экстралингвистическое) почти постоянно упомянуты вместе, часто потому, что выделение именно семантических машиночитаемых данных, которые бы позволили проанализировать модели с точки зрения исключительно семантических языковых закономерностей, представляется трудным. Частично эту трудность разрешает формат семантических скетчей, предложенный нами в Разделе 2.4, однако даже при наличии разработанного нами формата необходимо большое количество исследований, которые бы позволили финализировать методологию интерпретации семантических свойств в векторных представлениях языка. Без дополнительных доработок не могут быть применены для анализа семантического знания и методы, разработанные для статических дистрибутивных векторных моделей. Например, в нашей работе метод анализа статических дистрибутивных моделей позволил заметить важное свойство семантики в векторных пространствах — иерархическую организацию — но никак не мог быть переиспользован в дальнейшем поиске иерархии семантических отношений в контекстных дистрибутивных представлениях языка, полученных из модели BERT. Таким образом, заложив методологическую базу для пробинговой интерпретации семантических свойств в языковых моделях мы отмечаем возможность проведения широкого количества дополнительных исследований в этой области. Пробинг же разнообразной фактической информации, широко представленной в виде разнообразных публичных графов и баз знаний, на данный момент представляется гораздо легче осуществимым.
Существующие большие языковые модели становятся основой все большего количества прикладных систем, так и исследований. Практическое применение этих моделей и их исследование оказывается затруднено невозможностью объяснения точных причин того или иного результата работы таких моделей. Одной из техник упорядочивания такой степени неопределенности является пробинговая интерпретация в контексте известных структурных описаний области применения моделей. Предложенная и апробированная в работе методология пробинго-вых исследований предлагает теоретическую базу и инструментарий для будущих исследований.
Список литературы диссертационного исследования кандидат наук Сериков Олег Алексеевич, 2024 год
Список литературы
1. RUSSE-2022: Findings of the First Russian Detoxification Shared Task Based on Parallel Corpora / D. Dementieva [и др.]. —.
2. RuArg-2022: Argument Mining Evaluation / E. Kotelnikov [и др.] // arXiv preprint arXiv:2206.09249. — 2022.
3. Superglue: Learning feature matching with graph neural networks / P.-E. Sarlin [и др.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2020. — С. 4938—4947.
4. RussianSuperGLUE: A Russian language understanding evaluation benchmark / T. Shavrina [и др.] // arXiv preprint arXiv:2010.15925. — 2020.
5. Блог Яндекса. Алгоритм «Палех»: как нейронные сети помогают поиску Яндекса. — доступ 3 ноября 2023. — https://yandex.ru/blog/company/ algoritm-palekh-kak-neyronnye-seti-pomogayut-poisku-yandeksa.
6. Conversational ai: The science behind the alexa prize / A. Ram [и др.] // arXiv preprint arXiv:1801.03604. — 2018.
7. Language models are unsupervised multitask learners / A. Radford [и др.] // OpenAI blog. — 2019. — Т. 1, № 8. — С. 9.
8. Language Models are Few-Shot Learners / T. Brown [и др.] // Advances in Neural Information Processing Systems. Т. 33 / под ред. H. Larochelle [и др.]. — Curran Associates, Inc., 2020. — С. 1877—1901. — URL: https:// proceedings. neurips. cc/paper/2020/file/ 1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
9. Training language models to follow instructions with human feedback / L. Ouyang [и др.] // arXiv preprint arXiv:2203.02155. — 2022.
10. OpenAI. GPT-4 Technical Report. — 2023. — arXiv: 2303.08774 [cs.CL].
11. SberDevices. Русскоязычная нейросеть от Сбера. — доступ 3 ноября 2023. — https://developers.sber.ru/portal/products/gigachat.
12. Language is not all you need: Aligning perception with language models / S. Huang [и др.] // arXiv preprint arXiv:2302.14045. — 2023.
13. AIRI. RUDOLPH: One Hyper-Tasking Transformer can be creative as DALL-E and GPT-3 and smart as CLIP. — 2022. — https://github.com/ai-forever/ru-dolph.
14. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing / под ред. Y. Goldberg, Z. Kozareva, Y. Zhang. — Abu Dhabi, United Arab Emirates : Association for Computational Linguistics, 12.2022. — С. 11689—11698.—URL: https://aclanthology.org/2022.emnlp-main.803.
15. Proceedings of the Fifth BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP / под ред. J. Bastings [и др.]. — Abu Dhabi, United Arab Emirates (Hybrid) : Association for Computational Linguistics, 12.2022. — URL: https://aclanthology.org/2022.blackboxnlp-L0.
16. Vrandecic D., Krotzsch M. Wikidata: a free collaborative knowledgebase // Communications of the ACM. — 2014. — Т. 57, № 10. — С. 78—85.
17. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model / B. Workshop [идр.]. —2023. — arXiv: 2211.05100 [cs.CL].
18. Mikhailov V., Serikov O., Artemova E. Morph Call: Probing Morphosyntactic Content of Multilingual Transformers // Proceedings of the Third Workshop on Computational Typology and Multilingual NLP. — Online : Association for Computational Linguistics, 06.2021. — С. 97—121. — DOI: 10.18653/v1/ 2021.sigtyp-1.10. — URL: https://aclanthology.org/2021.sigtyp-1.10.
19. Universal and Independent: Multilingual Probing Framework for Exhaustive Model Interpretation and Evaluation / O. Serikov [и др.] // Proceedings of the Fifth BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP. — Abu Dhabi, United Arab Emirates (Hybrid) : Association for Computational Linguistics, 12.2022. — С. 441—456. — URL: https : / / aclanthology.org/2022.blackboxnlp-1.37.
20. SemSketches2021: Experimenting with the machine processing of the pilot semantic sketches corpus | SemSketches2021: опыт автоматической обработки пилотного корпуса семантических скетчей //. Т. 20. Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. — 2021. — С. 560—570.
21. Высокоуровневая семантическая интерпретация структуры статических моделей для русского языка / О. А. Сериков [и др.] // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. — 2023. — Т. 21, № 1. — С. 67—82.
22. Attention Understands Semantic Relations / A. Chizhikova [и др.] // Proceedings of the Thirteenth Language Resources and Evaluation Conference. — Marseille, France : European Language Resources Association, 06.2022. — С. 4040— 4050. — URL: https://aclanthology.org/2022.lrec-1.430.
23. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
24. Graves A., Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures // Neural networks. — 2005. — Т. 18, № 5/6. — С. 602—610.
25. Graves A., Mohamed A.-r., Hinton G. Speech recognition with deep recurrent neural networks. — 2013.
26. Bulatov A., Kuratov Y., Burtsev M. Recurrent memory transformer // Advances in Neural Information Processing Systems. — 2022. — Т. 35. — С. 11079— 11091.
27. Dissecting Contextual Word Embeddings: Architecture and Representation / M. E. Peters [и др.] // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 10.2018. — С. 1499—1509. — DOI: 10.18653/ v1/D18-1179. — URL: https://aclanthology.org/D18-1179.
28. Sutskever I.., Vinyals O., Le Q. V.Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — Т. 27.
29. Bahdanau D., Cho K., Bengio Y. Neural machine translation by jointly learning to align and translate // arXiv preprint arXiv:1409.0473. — 2014.
30. Shi X., Padhi I.., Knight K. Does String-Based Neural MT Learn Source Syntax? // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. — Austin, Texas : Association for Computational
Linguistics, 11.2016. — C. 1526—1534. — DOI: 10.18653/v1/D16-1159. — URL: https://aclanthology.org/D16-1159.
31. Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks / Y. Adi [h gp.] // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. —URL: https://openreview.net/ forum?id=BJh6Ztuxl.
32. Conneau A., Kiela D. Senteval: An evaluation toolkit for universal sentence representations // arXiv preprint arXiv:1803.05449. — 2018.
33. Attention is all you need / A. Vaswani [h gp.] // Advances in neural information processing systems. — 2017. — T. 30.
34. Schmidhuber ./.Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets // ICANN'93: Proceedings of the International Conference on Artificial Neural Networks Amsterdam, The Netherlands 13-16 September 1993 3. — Springer. 1993. — C. 460—463.
35. Schmidhuber /.Learning to control fast-weight memories: An alternative to dynamic recurrent networks // Neural Computation. — 1992. — T. 4, № 1. — C. 131—139.
36. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin [h gp.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — C. 4171—4186. — DOI: 10 . 18653 / v1 /N19 - 1423. — URL: https://aclanthology.org/N19-1423.
37. Improving language understanding by generative pre-training / A. Radford [h gp.].—2018.
38. Mukherjee S., Awadallah A. H. Distilling bert into simple neural networks with unlabeled transfer data // arXiv preprint arXiv:1910.01769. — 2019.
39. Linguistic Knowledge and Transferability of Contextual Representations / N. F. Liu [h gp.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — C 1073—1094. —DOI: 10.18653M/N19-1112. — URL: https://aclanthology.org/N19-1112.
40. Xlnet: Generalized autoregressive pretraining for language understanding / Z. Yang [h gp.] // Advances in neural information processing systems. — 2019. — T. 32.
41. GLUE: A multi-task benchmark and analysis platform for natural language understanding / A. Wang [h gp.] // arXiv preprint arXiv:1804.07461. — 2018.
42. Superglue: A stickier benchmark for general-purpose language understanding systems / A. Wang [h gp.] // Advances in neural information processing systems. — 2019. — T. 32.
43. Gender bias in neural natural language processing / K. Lu [h gp.] // Logic, language, and security: essays dedicated to Andre Scedrov on the occasion of his 65th birthday. — 2020. — C. 189—202.
44. Language models get a gender makeover: Mitigating gender bias with few-shot data interventions / H. Thakur [h gp.] // arXiv preprint arXiv:2306.04597. — 2023.
45. Vig J.BertViz: A tool for visualizing multihead self-attention in the BERT model // ICLR workshop: Debugging machine learning models. T. 3. — 2019.
46. Gunning D., Aha D. DARPA's explainable artificial intelligence (XAI) program // AI magazine. — 2019. — T. 40, № 2. — C. 44—58.
47. Introducing Superalignment. — URL: https: //openai. com/blog/introducing-superalignment.
48. Dream technical report for the alexa prize 4 / D. Baymurzina [h gp.] // 4th Proc. Alexa Prize. — 2021.
49. Beesley K. R., Karttunen L. Finite-state morphology: Xerox tools and techniques // CSLI, Stanford. — 2003. — C. 359—375.
50. Brill E. A simple rule-based part of speech tagger // Speech and Natural Language: Proceedings of a Workshop Held at Harriman, New York, February 23-26, 1992. — 1992.
51. Brants T. TnT-a statistical part-of-speech tagger // arXiv preprint cs/0003055. — 2000.
52. Equations for part-of-speech tagging / E. Charniak [h gp.] // AAAI. T. 11. — 1993. —C. 784—789.
53. Weizenbaum /.ELIZA—a computer program for the study of natural language communication between man and machine // Communications of the ACM. — 1966. — T. 9, № 1. — C. 36—45.
54. Apertium: a free/open-source platform for rule-based machine translation / M. L. Forcada [h gp.] // Machine translation. — 2011. — T. 25. — C. 127—144.
55. Ooms /.hunspell: High-performance stemmer, tokenizer, and spell checker // R package version. — 2018. — T. 3.
56. On the Opportunities and Risks of Foundation Models / R. Bommasani [h gp.] // CoRR. — 2021. — T. abs/2108.07258. — arXiv: 2108.07258. — URL: https: //arxiv.org/abs/2108.07258.
57. Self-Organization and Artificial Life / C. Gershenson [h gp.] // Artificial Life. — 2020. — CeHT. — T. 26, № 3. — C. 391—408. — DOI: 10. 1162/artl_a_ 00324. — eprint: https://direct.mit.edu/artl/article-pdf/26/3/391/1896088/artl\ _a\_00324.pdf. — URL: https://doi.org/10.1162/artl%5C_a%5C_00324.
58. Dresp-Langley B. Seven Properties of Self-Organization in the Human Brain // Big Data and Cognitive Computing. — 2020. — T. 4, № 2. — DOI: 10.3390/ bdcc4020010. — URL: https://www.mdpi.com/2504-2289/4/2/10.
59. Gordon D. M. The ecology of collective behavior in ants // Annual review of entomology. — 2019. — T. 64. — C. 35—50.
60. Probing for the Usage of Grammatical Number / K. Lasri [h gp.] // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Dublin, Ireland : Association for Computational Linguistics, 05.2022. — C. 8818—8831. — DOI: 10.18653/v1/2022.acl-long. 603. —URL: https://aclanthology.org/2022.acl-long.603.
61. An overview of early vision in inceptionv1 / C. Olah [ugp.] //Distill. — 2020. — T. 5, № 4. — e00024—002.
62. McCoy R. T., Min J., Linzen T. BERTs of a feather do not generalize together: Large variability in generalization across models with similar test set performance // Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP. — Online : Association for Computational Linguistics, 11.2020. — C. 217—227. — DOI: 10.18653/v1/ 2020.blackboxnlp-1.21. — URL: https://aclanthology.org/2020.blackboxnlp-1.21.
63. Malkin D., Limisiewicz T., Stanovsky G. A balanced data approach for evaluating cross-lingual transfer: Mapping the linguistic blood bank // arXiv preprint arXiv:2205.04086. — 2022.
64. Dalrymple M. Lexical functional grammar. — Brill, 2001.
65. Thread: circuits / N. Cammarata [h gp.] // Distill. — 2020. — T. 5, № 3. — e24.
66. Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models / S. Marks [h gp.]. — 2024. — arXiv: 2403.19647 [cs.LG].
67. What do you learn from context? Probing for sentence structure in contextualized word representations /1. Tenney [h gp.] // arXiv e-prints. — 2019. — Man. — arXiv:1905.06316.— arXiv: 1905.06316 [cs.CL].
68. Analyzing individual neurons in pre-trained language models / N. Durrani [h gp.] // arXiv preprint arXiv:2010.02695. — 2020.
69. What you can cram into a single $&!#* vector: Probing sentence embeddings for linguistic properties / A. Conneau [h gp.] // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — C. 2126—2136. — DOI: 10.18653/v1/P18-1198. — URL: https: //www.aclweb.org/anthology/P18-1198.
70. Kitaev N., Klein D. Constituency Parsing with a Self-Attentive Encoder // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — C. 2676—2686. — DOI: 10.18653/v1/ P18-1249. — URL: https://aclanthology.org/P18-1249.
71. Jointly Predicting Predicates and Arguments in Neural Semantic Role Labeling / L. He [h gp.] // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). — Melbourne, Australia : Association for Computational Linguistics, 07.2018. — C. 364—369. — DOI: 10.18653/v1/P18-2058. —URL: https://aclanthology.org/P18-2058.
72. Linguistically-Informed Self-Attention for Semantic Role Labeling / E. Strubell [h gp.] // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium : Association for Computational Linguistics, 11.2018. — C. 5027—5038. — DOI: 10.18653/v1/D18-1548. — URL: https://aclanthology.org/D18-1548.
73. Lee K., He L., Zettlemoyer L. Higher-Order Coreference Resolution with Coarse-to-Fine Inference // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). — New Orleans, Louisiana : Association for Computational Linguistics, 06.2018. — C. 687—692. — DOI: 10.18653/v1/N18-2108. —URL: https://aclanthology.org/N18-2108.
74. What do Neural Machine Translation Models Learn about Morphology? / Y. Belinkov [h gp.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Vancouver, Canada: Association for Computational Linguistics, 07.2017. — C. 861—872. — DOI: 10.18653/v1/P17-1080. —URL: https://aclanthology.org/P17-1080.
75. Evaluating Layers of Representation in Neural Machine Translation on Part-of-Speech and Semantic Tagging Tasks / Y. Belinkov [h gp.] // Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers). — Taipei, Taiwan : Asian Federation of Natural Language Processing, 11.2017. — C. 1—10. —URL: https://aclanthology.org/I17-1001.
76. Zhang K., Bowman S. Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis // Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. — Brussels, Belgium : Association for Computational Linguistics, 11.2018. — C. 359—361. — DOI: 10.18653/v1/ W18-5448. — URL: https://aclanthology.org/W18-5448.
77. Alain G., Bengio Y. Understanding intermediate layers using linear classifier probes // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Workshop Track Proceedings. — OpenReview.net, 2017. —URL: https://openreview.net/forum?id=HJ4-rAVtl.
78. Hewitt J., Manning C. D. A Structural Probe for Finding Syntax in Word Representations // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — C. 4129—4138. —DOI: 10.18653/v1/N19-1419. —URL: https://aclanthology.org/N19-1419.
79. Hewitt J., Liang P. Designing and Interpreting Probes with Control Tasks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 11.2019. — C. 2733—2743. — DOI: 10. 18653/ v1/D19-1275. —URL: https://aclanthology.org/D19-1275.
80. Interpretability at Scale: Identifying Causal Mechanisms in Alpaca / Z. Wu [h gp.] // Advances in Neural Information Processing Systems. T. 36 / nog peg. A. Oh [h gp.]. — Curran Associates, Inc., 2023. — C. 78205—78226. — URL: https : / / proceedings . neurips . cc / paper _ files / paper / 2023 / file / f6a8b109d4d4fd64c75e94aaf85d9697-Paper-Conference.pdf.
81. Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs / A. Warstadt [h gp.]. — 2019. — arXiv: 1909.02597 [cs.CL].
82. Taktasheva E., Mikhailov V., Artemova E. Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with Controllable Perturbations. — 2021.—DOI: 10.18653/v1/2021.mrl-1.17. — URL: http://dx.doi.org/10. 18653/v1/2021.mrl-1.17.
83. Chi E. A., Hewitt J., Manning C. D. Finding Universal Grammatical Relations in Multilingual BERT // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — C. 5564—5577. — DOI: 10 . 18653/v1/2020 . acl-main.493. —URL: https://aclanthology.org/2020.acl-main.493.
84. Linspector: Multilingual probing tasks for word representations / G. G. §ahin [и др.] // Computational Linguistics. — 2020. — Т. 46, № 2. — С. 335—385.
85. wav2vec: Unsupervised pre-training for speech recognition / S. Schneider [и др.] // arXiv preprint arXiv:1904.05862. — 2019.
86. Robust speech recognition via large-scale weak supervision / A. Radford [и др.] // International Conference on Machine Learning. — PMLR. 2023. — С. 28492—28518.
87. Троянский П. Машина для подбора и печатания слов при переводе с одного языка на другой. — 1935.
88. Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin [и др.] // arXiv preprint arXiv:1810.04805. — 2018.
89. SIGMORPHON 2020 shared task 0: Typologically diverse morphological inflection / E. Vylomova [и др.] // arXiv preprint arXiv:2006.11572. — 2020.
90. SIGMORPHON-UniMorph 2023 shared task 0: Typologically diverse morphological inflection / O. Goldman [и др.] // Proceedings of the 20th SIGMORPHON workshop on Computational Research in Phonetics, Phonology, and Morphology. — 2023. — С. 117—125.
91. Multi-source synthetic treebank creation for improved cross-lingual dependency parsing / F. Tyers [и др.] // Proceedings of the Second Workshop on Universal Dependencies (UDW 2018) / под ред. M.-C. de Marneffe, T. Lynn, S. Schuster. — Brussels, Belgium : Association for Computational Linguistics, 11.2018. — С. 144—150.—DOI: 10.18653/v1/W18-6017. — URL: https: //aclanthology.org/W18-6017.
92. Rogers A., Kovaleva O., Rumshisky A. A primer in bertology: What we know about how bert works // Transactions of the Association for Computational Linguistics. — 2020. — Т. 8. — С. 842—866.
93. Distributed representations of words and phrases and their compositionality / T. Mikolov [и др.] // Advances in neural information processing systems. — 2013. —С. 3111—3119.
94. Firth J. A synopsis of linguistic theory, 1930-1955 // Studies in linguistic analysis. — 1957. — С. 10—32.
95. Bulatov A., Kuratov Y., Burtsev M. Recurrent memory transformer // Advances in Neural Information Processing Systems. — 2022. — Т. 35. — С. 11079— 11091.
л
96. Dessi D., Recupero D. R., Sack H. An assessment of deep learning models and word embeddings for toxicity detection within online textual comments // Electronics. — 2021. — Т. 10, № 7. — С. 779.
97. Mikhailov V., Serikov O., Artemova E. Morph call: Probing morphosyntactic content of multilingual transformers // arXiv preprint arXiv:2104.12847. — 2021.
98. Voloshina E., Serikov O., Shavrina T. Is neural language acquisition similar to natural? a chronological probing study // arXiv preprint arXiv:2207.00560. — 2022.
99. The bigscience roots corpus: A 1.6 tb composite multilingual dataset / H. Lauren?on [и др.] // Advances in Neural Information Processing Systems. — 2022. — Т. 35. — С. 31809—31826.
100. RuSentEval: Linguistic Source, Encoder Force! / V. Mikhailov [и др.] // arXiv preprint arXiv:2103.00573. — 2021.
101. Is neural language acquisition similar to natural? A chronological probing study | Усвоение языка у языковых моделей и человека: хронологическое пробинг-исследование //. Т. 21. Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. — 2022. — С. 550—563.
102. The multiberts: Bert reproductions for robustness analysis / T. Sellam [и др.] // arXiv preprint arXiv:2106.16163. — 2021.
103. Nie A., Bennett E., Goodman N.DisSent: Learning sentence representations from explicit discourse relations // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — 2019. — С. 4497—4510.
104. Chen M., Chu Z., Gimpel K. Evaluation benchmarks and learning criteria for discourse-aware sentence representations // arXiv preprint arXiv:1909.00142. — 2019.
105. Kilgarriff A., Tugwell D. Sketching words // Lexicography and natural language processing: a festschrift in honour of BTS Atkins. — 2002. — С. 125—137.
106. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies / K. Anisimovich [и др.] // Компьютерная лингвистика и интеллектуальные технологии. — 2012. — С. 91—103.
107. Пиперски А. Генеральный интернет-корпус русского языка и понятие репрезентативности в корпусной лингвистике // Современные проблемы науки и образования. — 2013. — № 5. — С. 578—578.
108. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. —2019. — arXiv: 1905.07213 [cs.CL].
109. StrakaM., Strakova J.Tokenizing, pos tagging, lemmatizing and parsing ud 2.0 with udpipe // Proceedings of the CoNLL 2017 shared task: Multilingual parsing from raw text to universal dependencies. — 2017. — С. 88—99.
110. Distributed representations of words and phrases and their compositionality / T. Mikolov [и др.] // Advances in neural information processing systems. — 2013. —Т. 26.
111. Национальный корпус русского языка. 2003—2023. — URL: https : / / ruscorpora.ru.
112. Benko V., Zakharov V. P. Very large Russian corpora: new opportunities and new challenges // Computational linguistics and intellectual technologies. — 2016. — С. 83—98.
113. Cabot P.-L. H., Navigli R. REBEL: Relation extraction by end-to-end language generation // Findings of the Association for Computational Linguistics: EMNLP 2021. — 2021. — С. 2370—2381.
114. T-rex: A large scale alignment of natural language with knowledge base triples / H. Elsahar [и др.] // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). — 2018.
115. DocRED: A large-scale document-level relation extraction dataset / Y. Yao [и др.] // arXiv preprint arXiv:1906.06127. — 2019.
116. What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? / T. Wang [и др.]. — 2022. — arXiv: 2204.05832
[cs.CL] .
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.