Вариационное моделирование правдоподобия с триплетными ограничениями в задачах информационного поиска тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Кузнецова Маргарита Валерьевна
- Специальность ВАК РФ05.13.17
- Количество страниц 104
Оглавление диссертации кандидат наук Кузнецова Маргарита Валерьевна
Введение
Глава 1. Постановка задачи
Глава 2. Обзор литературы
2.1 Обучение на "шумных" данных
2.2 Генеративные модели
2.3 Модели оценки совместного правдоподобия
2.3.1 Обучение на частично-размеченных или неразмеченных
выборках
2.4 Метрическое обучение
2.5 Примеры прикладных задач
2.5.1 Обработка текстов на естественном языке
2.5.2 Компьютерное зрение
2.5.3 Задачи интеграции гетерогенных данных
Глава 3. Оценка совместного правдоподобия
3.1 Оценка правдоподобия с помощью вариационных методов
3.2 Совместное правдоподобие для двух доменов
3.3 Моделирование совместного правдоподобия для двух доменов
3.3.1 Сумма оценок по двум вспомогательным вариационным распределениям
3.3.2 Оценка с факторизованным вариационным распределением
3.4 Моделирование триплетных ограничений
3.5 Совместное правдоподобие с триплетными ограничениями
3.6 Теоретический анализ устойчивости модели с помощью
функция влияния
3.6.1 Анализ функции влияния для УБТЛ модели
Глава 4. Анализ прикладных задач
4.1 Структура УБТЛ-модели и детали реализации
4.2 Модель УБТЛ с условиями Каруша-Куна-Таккера
Стр.
4.3 Эксперименты на выборке МШБТ
4.4 Эксперимент на выборке Се1еЬА
4.5 Кросс-языковая классификация документов
4.6 Поиск переводных заимствований на коллекции еЫЬгагу
4.7 Поиск перефразированных текстовых заимствований
4.8 Поиск "внутренних" текстовых заимствований
Заключение
Список литературы
Введение
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Байесовский выбор субоптимальной структуры модели глубокого обучения2020 год, кандидат наук Бахтеев Олег Юрьевич
Обучение на неразмеченных данных с использованием генеративных моделей2023 год, кандидат наук Григорьев Тимофей Андреевич
Тензорные сети и машинное обучение для динамических и стационарных квантовых систем2020 год, кандидат наук Лучников Илья Андреевич
Вероятностный метод для адаптивного времени вычислений в нейронных сетях2019 год, кандидат наук Фигурнов, Михаил Викторович
Методы структурного обучения в задачах совместной разметки2014 год, кандидат наук Шаповалов, Роман Викторович
Введение диссертации (часть автореферата) на тему «Вариационное моделирование правдоподобия с триплетными ограничениями в задачах информационного поиска»
Актуальность темы.
Задача синтеза алгоритмов отображения данных, пришедших из разных источников (доменов), в одно общее скрытое пространство (пространство оценок) [1], крайне актуальна для многих областей машинного обучения, таких как информационный поиск [2], перевод между доменами [3; 4] и генерация объектов [5].
В настоящей работе рассматриваются задачи, которые характеризуются наличием (возможно потенциальным) данных из различных источников, описывающих некоторое множество объектов. Или, говоря иначе, представляющим разные модальности объектов, составляющим это множество. Примером задачи с данными одинаковой структуры может являться машинный перевод [6] — дана выборка соответствующих предложений на разных языках, нужно построить отображение, переводящее тексты на одном языке в тексты на другом языке.
Также, по одной имеющейся модальности объекта можно осуществлять кросс-доменный поиск и формировать поисковую выдачу, состоящую из соответствующих модальностей другого домена. Примерами такого поиска могут являться тематический кросс-языковой поиск [7], или поиск фотографий одной и той же местности с разных ракурсов [8].
Настоящая работа посвящена синтезу обучаемых алгоритмов отображения объектов разных доменов в одно общее пространство оценок. В этом пространстве, с помощью полученных скрытых представлений этих объектов, отражающих все модальности, с ними можно будет работать напрямую, решая поставленные задачи и не прибегая к промежуточным этапам, например таким как использование отдельной системы для перевода между доменами. Промежуточные этапы обладают еще одним недостатком — при сведении данных разных доменов к одному, теряются важные характеристики объектов доменов. Другой актуальной задачей является генерация данных [9], в случае работы с двумя доменами — генерация условно-похожих пар. Таким образом, предлагаемая модель должна быть генеративной — исследователь должен иметь возможность генерировать пары из общего пространства, например, для задач пополнения выборок. Одной из наиболее известных генеративных моделей является автокодировщик [10; 11]. В статье [12] также было доказано, что автокодировщики с
3
некоторыми видами регуляризации позволяют оценить распределение данных p(X). В работе [13] проводились эксперименты с полученными оценками, в том числе для разных функций активации. Также в качестве генеративных моделей рассматриваются машины Больцмана [14], глубокие сети доверия [15], генеративные состязательные сети [16]. Более удобным инструментом для оценки p(D) и обучения внутренних представлений является вариационный автокодировщик, представленный в [17], с помощью которого можно проще решить все вышеперечисленные задачи, используя вариационные методы [17; 18].
Задача построения совместного отображения также носит название совместного обучения (joint learning) [5], дистрибутивного обучения (distributed representation learning) [7]. В ряде работ проводились исследования, позволяющие моделировать совместную плотность вероятности, используя вариационные методы. Основное различие работ заключается в используемых вспомогательных вариационных распределениях. В работе [19] вводятся две модели: VCCA (variational canonical correlation analysis) и ее усовершенствованный вариант — VCCA-private. В работе [5] вводится JMVAE — Joint Multimodal Variational Autoencoder. В работе [20] используется TELBO (triple ELBO) — сумма трех нижних вариационных оценок с различными коэффициентами перед слагаемыми ошибки реконструкции и дивергенции Кульбака-Лейблера. В ряде работ для решения требуемых задач используются генеративные состязательные сети [21]. Отдельно можно выделить ряд моделей, которые позволяют оценить правдоподобие на частично размеченных данных. Одну из первых моделей для этого представила группа авторов вариационного автокодировщика в работе [22] — по сути, расширение вариационного автокодировщика для частично-размеченных данных. Случай двух модальностей рассмотрен в статье [23] авторы использовали вариационный вывод и представили вспомогательное вариационное распределение с помощью техники Product of experts (PoE) [24]. В работе [21] рассматривается случай обучения на неразмеченных выборках, а именно перевод между доменами. Авторы оптимизируют функционал, представляющий собой комбинацию вариационных автокодировщиков и генеративных состязательных сетей.
С другой стороны, при решении различных практических задач анализа данных часто приходится сталкиваться с выборками, содержащими ошибки разметки [25]. Исследования показывают, что генеративные модели [26; 27] довольно уязвимы для шума в данных. Очень небольшое возмущение в выборке
может легко обмануть модель. Ограниченное число работ [2] рассматривает проблему устойчивости модели в задаче совместного обучения скрытых представлений нескольких доменов. На практике, собрать выборку пар высокого качества сложно и дорого с точки зрения затрат человеческого труда и времени. Из-за непрекращающегося роста данных для таких областей, как обработка естественного языка, компьютерное зрение, речь и т.д. эта задача становится практически невозможной. Таким образом, предлагаемый алгоритм должен быть в состоянии использовать эти объекты для обучения. Более того, алгоритм должен уметь выявлять такие объекты в процессе обучения и использовать полученные знания. Устойчивость использования вариационных методов исследуется в работе [27] — авторы рассматривают разные формы дивергенции Кульбака-Лейблера и их эффект на функцию влияния [28]. Похожая идея описывается в статье [29]. В работах рассматриваются задачи классификации и регрессии.
В данной работе, для создания алгоритма, устойчивого к небольшому количеству выбросов в выборке, предлагается использовать подход из метрического обучения [30], а именно так называемых "триплетных ограничений" [31]. Использование относительных ограничений как информации о том, что один объект более близок к другому, чем некоторый третий (также распространено название "ложный сосед"), позволяет форсировать обучение модели в верном направлении, при этом однако не накладывая жестких правил на соответствие объектов друг другу. В данной работе идея модифицируется для случая двух доменов — предполагается, что объекты в паре, составленной из разных доменов, близки друг другу, однако на каждой итерации обучения выбирается "ложный сосед" из других объектов доменов, не входящих в пару. Таким образом, формируется триплет. Моделируя правдоподобие такой тройки объектов (объекты в паре и выбранный "ложный сосед") и используя его в основной модели правдоподобия, как компоненту штрафа, можно научить модель разносить объекты в некорректно сопоставленной паре. Если выбранный "ложный сосед" оказывается ближе к объекту в паре, чем назначенный, накладываемый на модель штраф разносит их, не позволяя выучить некорректное соответствие. Комбинация триплетных ограничений с вероятностными моделями значительно повысила качество решения задачи генерации в работе [31]. Модификация триплетных ограничений для случая двух доменов позволит решить рассматриваемые в данной работе задачи. Так как модель содержит штраф, основанный
5
на триплетных ограничениях, это позволяет снизить влияние ошибок в обучающем наборе данных на итоговое качество решения задач.
Цели работы.
1. Исследовать методы вариационной оценки правдоподобия для случая двух доменов.
2. Предложить и исследовать метод оценки правдоподобия для двух доменов, позволяющий снизить влияние ошибок в обучающем наборе данных на итоговое качество решения задач.
3. Разработать программный комплекс и исследовать с его помощью практическую значимость предложенного метода на примерах модельных и реальных задач информационного поиска.
Методы исследования. Для достижения поставленных целей используется комбинация вероятностных генеративных моделей [5; 17] и метрического обучения [30; 31]. Для получения вариационных нижних оценок логарифма правдоподобия используется вариационный Байесовский вывод [18; 32]. Для исследования устойчивости модели к выбросам используются методы робастной статистики [33], а именно исследование функции влияния [28] применительно к вариационному выводу [27].
Основные положения, выносимые на защиту.
1. Предложена новая модель вариационного автокодировщика, моделирующего совместное правдоподобие данных разных доменов.
2. Предложена модель, основанная на триплетных ограничениях, позволяющая снизить влияние ошибок в обучающем наборе данных на итоговое качество решения задач.
3. Получены оценки логарифмов правдоподобия предлагаемых моделей вариационного автокодировщика.
4. Доказана устойчивость предлагаемого алгоритма.
5. Разработан программный комплекс для решения задач информационного поиска и генерации объектов.
6. Проведены эксперименты на модельных и реальных данных.
7. Результаты работы внедрены в промышленный инструмент поиска кросс-языковых и перефразированных заимствований.
Научная новизна. Разработан подход оценки совместного правдоподобия данных разных доменов. Предложена модель, основанная на триплетных ограничениях, позволяющая повысить качество отображения доменных данных в скрытое пространство и снизить влияние ошибок в обучающем наборе данных на итоговое качество решения задач. Доказана устойчивость предлагаемого алгоритма.
Теоретическая значимость. В данной работе предложенная ранее модель Вариационного автокодировщика обобщается на случай двух доменов. Выводится оценка правдоподобия предложенной модели. Предлагается расширенная модель вариационного автокодировщика для двух доменов, включающая в себя триплетные ограничения. Предлагается метод сэмплирования триплетных ограничений между доменами, что повышает качество решения многих задач. Доказывается устойчивость данной модели по отношению к ошибкам в выборке.
Практическая значимость. Предложенные в работе методы предназначены для решения задач кросс-доменного информационного поиска и генерации объектов. Разработанный программный комплекс предназначен для использования при решении таких задач машинного обучения как: информационный текстовый поиск, информационный поиск по изображениям, междоменный перевод, генерация условно-реальных данных для пополнения обучающих выборок.
Степень достоверности и апробация работы. Достоверность результатов подтверждена математическими доказательствами, экспериментальной проверкой полученных методов на реальных задачах выбора моделей глубокого обучения; публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК. Результаты работы докладывались и обсуждались на следующих научных конференциях.
1. "Локальное прогнозирование временных рядов с использованием инвариантных преобразований", Всероссийская конференция «57-я научная конференция МФТИ», 2014.
2. "A monolingual арргоаеЬ to detection of text reuse in Russian-English collection", Международная конференция «Artificial Intelligence and Natural Language Conference», 2015 [34].
7
3. "Machine-Translated Text Detection in a Collection of Russian Scientific Papers", Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-21», 2016 [35].
4. "Methods for Intrinsic Plagiarism Detection and Author Diarization", Международная конференция «Conference and Labs of the Evaluation Forum», 2016 [36].
5. "Детектирование переводных заимствований в текстах научных статей из журналов, входящих в РИНЦ", Всероссийская конференция «Математические методы распознавания образов ММРО», 2017 [37].
6. "Automatic generation of verbatim and paraphrased plagiarism corpus", Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-22», 2017 [38].
7. "Evaluation Tracks on Plagiarism Detection Algorithms for the Russian Language", Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-22», 2017 [39].
8. "Style Breach Detection with Neural Sentence Embeddings.", Международная конференция «Conference and Labs of the Evaluation Forum», 2017 [40].
9. "ParaPlagDet: The system of paraphrased plagiarism detection", Международная конференция «Big Scholar at conference on knowledge discovery and data mining», 2018.
10. "Variational learning across domains with triplet information", Международная конференция «Bayesian Deep Learning workshop, Conference on Neural Information Processing Systems», 2018 [41].
11. "CrossLang: the system of cross-lingual plagiarism detection", Международная конференция «Document Intelligence workshop, Conference on Neural Information Processing Systems», 2019 [42].
12. "Вариационное моделирование правдоподобия с триплетными ограничениями в задачах информационного поиска", Всероссийская конференция «Интеллектуализация обработки информации, ИОИ», 2020.
Работа поддержана грантами Российского фонда фундаментальных исследований, Фонда содействия инновациям и Фонда содействия развитию малых форм предприятий в научно-технической сфере.
1. 18-07-01441, Методы структурного обучения для синтеза алгоритмов поиска нечетких дубликатов в больших массивах текстовых данных.
8
2. Развитие-НТИ-2018, Развитие технологии обнаружения переводных заимствований, основанной на методах анализа больших текстовых данных.
3. Фонд содействия развитию малых форм предприятий в научно-технической сфере. Развитие технологии обнаружения переводных заимствований, основанной на методах анализа больших текстовых данных.
Публикации по теме диссертации. Основные результаты по теме диссертации изложены в 8 печатных изданиях, 3 из которых изданы в журналах, рекомендованных ВАК.
1. Bakhteev, O., Kuznetsova, R., Romanov, A. and Khritankov, A., 2015, November. A monolingual approach to detection of text reuse in Russian-English collection. In 2015 Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference (AINL-ISMW FRUCT) (рр. 3-10). IEEE [34].
2. Romanov, A., Kuznetsova, R., Bakhteev, O. and Khritankov, A., 2016. Machine-Translated Text Detection in a Collection of Russian Scientific Papers. Computational Linguistics and Intellectual Technologies [35].
3. Kuznetsov, M. P., Motrenko, A., Kuznetsova, R., Strijov, V. V., 2016. Methods for Intrinsic Plagiarism Detection and Author Diarization. In CLEF (Working Notes) (pp. 912-919). [36].
4. Кузнецова М. В., Стрижов В. В. Локальное прогнозирование временных рядов с использованием инвариантных преобразований // Информационные технологии. 2016. Т. 22. №. 6. С. 457. [43]
5. Safin, K., Kuznetsova, R., 2017. Style Breach Detection with Neural Sentence Embeddings. In CLEF (Working Notes). [40].
6. Smirnov, I., Kuznetsova, R., Kopotev, M., Khazov, A., Lyashevskaya, O., Ivanova, L., Kutuzov, A., 2017. Evaluation tracks on plagiarism detection algorithms for the russian language. Computational Linguistics and Intellectual Technologies [38].
7. Сафин К. Ф., Кузнецов М. П., Кузнецова М. В. Определение заимствований в тексте без указания источника //Информатика и её применения, 2017, Т. 11, №. 3, С. 73-79 [44].
8. Р.В. Кузнецова, О.Ю. Бахтеев, Ю.В. Чехович, Детектирование переводных заимствований в больших массивах научных документов, //Информатика и её применения, 2021, Т. 15, №. 1, С. 30-42.
Личный вклад. Все приведенные результаты, кроме отдельно оговоренных случаев, получены диссертантом лично при научном руководстве к.ф.-м.н. Ю. В. Чеховича.
Структура и объем работы. Диссертация состоит из оглавления, введения, четырех разделов, заключения и списка литературы из 150 наименований. Основной текст занимает 103 страниц.
Краткое содержание работы по главам. В первой главе вводится формальная постановка задачи, определяются задачи информационного поиска на двух доменах. Вводится понятие генеративной модели и задача информационного поиска формулируется как задача максимизация логарифма правдоподобия выборки.
Во второй главе описываются основные подходы для решения задачи информационного поиска. Описываются подходы к обучению на выборках, содержащих выбросы. Описываются методы оценки правдоподобия. Определяется совместное правдоподобие двух доменов и приводятся его различные оценки. Описывается подход метрического обучения, и чем он может быть полезен в случае задач информационного поиска и наличия выбросов в выборке. Описываются прикладные задачи, возникающие в области информационного поиска.
В третьей главе приводится описание вариационного вывода и вариационного автокодировщика. Анализируется совместное правдоподобие для двух доменов, предложенное в ряде работ, подчеркиваются его недостатки для задачи, поставленной перед автором данной работы. Предлагается алгоритм, устойчивый к небольшому количеству выбросов в выборке. Для этого предлагается использовать комбинацию вариационных методов и подход из метрического обучения, а именно так называемых "триплетных ограничений". Приводится теоретический анализ предложенного метода с помощью функции влияния.
В четвертой главе на базе предложенных алгоритмов описывается разработанный программный комплекс, на базе которого решаются задачи информа-
10
ционного поиска, описанные в главе 1. Результаты сравниваются с результатами известных алгоритмов. Также приводятся результаты работы промышленного модуля поиска переводных и перефразированных заимствований.
Глава 1. Постановка задачи
При решении практических задач анализа данных часто приходится сталкиваться с ситуациями, в которых исследуемые объекты описывается данными, имеющими разную природу или поступающими из разных источников (доменов). Например, это могут быть фотографии одной местности, снятые с разных точек или в различных условиях — ночных и дневных. Также речь может идти об объектах сходных в том или ином смысле: соответствующие друг другу тексты на разных языках, фотографии двойняшек разного пола, записи разных исполнений одинаковых музыкальных произведений и т.п. Обобщая, можно сказать, что данные из разных доменов описывают различные модальности одних и тех же объектов. В этих терминах задача информационного поиска возникает, когда по одной модальности объекта требуется найти другую, и наоборот — прямой и обратный информационный поиск. Другим примером является генерация условно-реальных пар объектов из разных модальностей. Ключевая проблема описанных данных заключается в том, что в реальной ситуации исследователь не обладает полной информацией о соответствии данных разных модальностей друг другу. Чаще всего доступен ограниченный набор пар данных из разных доменов, про которые известно такое сопоставление. Кроме того, в наборе доступных данных может присутствовать шум (ошибки), а именно часть указанных пар может быть сопоставлена некорректно. Выполним формальную постановку задачи.
Пусть заданы множества (домены) X = {xa}f= 1 С Хац и Y = {уь}<ь=1 С Yац всех доступных объектов одного и того же типа, где Хац, Yau — все объекты рассматриваемого типа. Пусть также задана выборка (X, Y) = {(x, 1, состоящая из N пар объектов (элементов доменов). Под парой здесь понимается биективное отображение: каждому элементу домена X соответствует один элемент домена Y. Предполагается, что каждая пара (x, y) отражает разные модальности одного и того же объекта.
Будем считать, что на декартовом произведении Хац, Yau определена функция simau:
simaii : (xCall, yd
all )xc„,, eXa;;,yd eYall ^ {0,1}, (1.1)
которая паре (хСаП, у^аН) ставит в соответствие 0 или 1 по следующему правилу:
вЪШаИ (хСа11 , У¿а,л) = <
1, когда хСа11 и Уаац являются разными модальностями
одного и того же объекта;
0, иначе.
(1.2)
На данной наблюдаемой выборке (X, V) задана функция вгт с частично известными значениями:
згт(хс, у¿) = <
1, когда хс и yd являются разными модальностями
одного и того же объекта; (1.3)
0, нет информации о соответствии объектов в паре.
Известно, что на некоторой небольшой части пар е << N вгт выдает ошибочное значение, т.е некоторые пары из (X, V) сопоставлены некорректно. Формализуем понятие модели:
Определение 1. Моделью f(W, (X, V)) назовем функцию вида:
f : W х (X, У) ^ згт, (1.4)
где W — пространство параметров.
Можно запросить значения функции 8гтац на ограниченной выборке пар = (Xtest,У^), где lDte.il << N.
Требуется найти отображение / по выборке (X,У), такое, что на достигается минимум некоторой функции потерь I:
/ = а^ттЕ^^^/(/(хс^, у^),r), (1.5)
/ еТ
г е {0,1}, Т —заданное семейство моделей.
Связанные подзадачи
Требуется построить алгоритм для:
13
1. информационного поиска: по заданному х найти у, удовлетворяющий некоторому критерию, и наоборот (прямой и обратный инф. поиск).
f search direct • ~Xall ^ Y, f search
• Yall ^ X
Vx G Xaii, Vy G f search direct(Xall) • SÍmaU (x, y) = 1
Vy G You, Vx G f search reverse(Yall) • SÍmaH (x, y) = 1
X
ЛЛ
Рисунок 1.1: Иллюстрация задачи информационного поиска fsearch direct.
2. генерации объекта y из по заданному x и наоборот.
fgen • X ^ Y С Yaii • V x G X 3 y G Y : simaii(x, y) = 1
X
Л/
Рисунок 1.2: Иллюстрация задачи генерации объекта /деп.
3. двунаправленной генерации условно-реальных пар (X, у).
¡Ыдеп : X, У ^ X, У С Хаи, Ya.il : VX е X, Уу С У згтац(X, у) = 1
Xall Уа11
ных пар ¡Ьгдеп.
Одной из постановок задачи информационного поиска при работе с данными из разных доменов является моделирование совместного распределения р^, У). Задачу предлагается решать не в стандартных подходах решения задач классификации, так как метки пар не дают полной информации, тем более, он могут быть ошибочными. Нужно учитывать свойства самих объектов, формирующих пару. Оценка совместного распределения объектов доменов позволяет это сделать, как и решить задачу генерации объектов. Для этого используются генеративные модели, введем определение:
Определение 2. Генеративная модель — модель, восстанавливающая плотность выборки (X, У) — ро(X, У), описанной с помощью некоторой параметрической модели с вектором параметром 9.
Задача оценки совместного правдоподобия заключается в нахождении таких параметров 0, которые доставляют максимум логарифму правдоподобия выборки:
в = а^тах^рв(X, У). (1.6)
тве®
Для оценки логарифма правдоподобия вводится промежуточное пространство (пространство оценок) Z е для отображения туда объектов из выборки (X,У). Задача заключается в подборе таких параметров. О построении пространства оценок подробно рассказано в Главе (3).
^II У а11
Рисунок 1.4: Схематичное изображение некорректного соответствия объектов пары.
Глава 2. Обзор литературы
2.1 Обучение на "шумных" данных
Успех многих задач машинного обучения зависит от наличия выборок данных, размеченных вручную. Для многих задач требуется разметка экспертов, что является дорогостоящим и трудозатратным процессом. Существуют и другие виды получения размеченных выборок, например, сбор данных из Интернет с готовыми метками классов (фотографии с подписями [45], ревью на кинофильмы с меткой семантической окраски текста [46] и т. д.) или использование предобученных классификаторов данных для разметки поступающих объектов. Такие методы позволяют получить размеченные выборки без значительных усилий, но, как следствие вышеописанных методов получения разметки, содержат объекты с некорректными, или "шумными" метками классов. В ряде работ было показано, что системы машинного обучения переобучаются на "шумных" объектах [47], и не обладают достаточной обобщающей способностью, что делает их непригодными для дальнейшего применения.
Для обучения моделей на "шумных" данных часто используется метод коррекции функции ошибки. Применяются методы присвоения новых меток классов "шумными" объектам. Неизвестные корректные метки классов моделируются как скрытые переменные [48]. В ряде работ используются графические модели [49], случайные условные поля [50], глубокие нейронные сети [51]. Для присвоения меток классов были предложены методы на основании предсказаний нейронных сетей [52] и бутстрапа [53; 54]. Другой класс методов коррекции функции ошибки присваивает новые веса объектам обучающей выборки [55]. Распространенный метод заключается в том, чтобы считать объекты с наименьшей ошибкой корректными. Такие объекты могут быть использованы для тренировки и присвоения весов оставшимся объектам выборки [56; 57]. Также, для присвоения весов используются смешанные модели [58] и комбинации нескольких нейронных сетей [59].
Отдельно стоит рассмотреть задачи оценки правдоподобия данных в случае "шумных" выборок. В [27] для анализа устойчивости модели к шуму в данных выводится функция влияния [28] для вариационного вывода. Основ-
17
ной смысл функции влияния — отразить уровня шума е в выборке X = {х^}^ 1 на некоторую статистику Т. Анализ этой функции позволяет сделать вывод об устойчивости модели. В работе [60] авторы предлагают взвешенное правдоподобие. Анализ устойчивости также проводится с помощью функции влияния. В работе [61] рассматривается устойчивое метрическое обучение с помощью вариационного вывода. Рассматриваются триплетные ограничения, которые подробнее будут рассмотрены в разделе (2.4).
2.2 Генеративные модели
Для получения внутренних представлений объектов выборки часто используются генеративные (порождающие) модели. Введем формальное определение:
Определение 3. Генеративная модель — модель, приближающая совместное распределение объектов выборки Ю: р(Ю), где выборка Ю может, например, иметь вид Ю = (X), Ю = (X, У) или, в случае задачи классификации, Ю = (X, г), где г — соответствующие объектам X метки классов.
Одной из наиболее известных генеративных моделей является автокодировщик [10; 11], отображающий вектор объекта выборки е в вектор меньшей размерности Ь е ё, << п с помощью нелинейного отображения, называемого кодирующим блоком Ь = /(х) и использующий это представление и другое нелинейное отображение, называемое декодирующим блоком, чтобы раскодировать их обратно г = д(Ь). В процессе обучения минимизируется ошибка реконструкции между исходными данными х и их раскодированным представлением д(/(х)). Такая минимизация позволяет выделить основные характеристики изучаемого пространства и выделить их в скрытом представления объектов выборки. В статье [12] также было доказано, что автокодировщики с некоторыми видами регуляризации позволяют оценить распределение данных р^). В работе [13] проводились эксперименты с полученными оценками, в том числе для разных функций активации. Много работ посвящено различным архитектурам нейронных сетей, использующихся для
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Математическое и программное обеспечения обучения и оценки рекомендательных систем на основе синтетических данных2023 год, кандидат наук Лысенко Антон Викторович
Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов2022 год, кандидат наук Никитин Андрей Дмитриевич
Математические методы обработки изображений пористых сред при отсутствии размеченных данных2024 год, кандидат наук Лаврухин Ефим Валерьевич
Алгоритмическое обеспечение нейро-нечеткой системы классификации состояний объектов сложной структуры2022 год, кандидат наук Чернобаев Игорь Дмитриевич
Априорное распределение параметров в задачах выбора моделей глубокого обучения2022 год, кандидат наук Грабовой Андрей Валериевич
Список литературы диссертационного исследования кандидат наук Кузнецова Маргарита Валерьевна, 2021 год
Список литературы
1. Рудаков К. В. Алгебраическая теория универсальных и локальных ограничений для алгоритмов распознавания // М.: ВЦ РАН. — 1992.
2. Cross-modal learning with adversarial samples / C. Li, S. Gao, C. Deng, D. Xie, W. Liu // Advances in Neural Information Processing Systems. — 2019. — с. 10792—10802.
3. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks / J.-Y. Zhu, T. Park, P. Isola, A. A. Efros // CoRR. — 2017. — т. abs/1703.10593. — arXiv: 1703.10593. — URL: http://arxiv.org/abs/1703. 10593.
4. Found in translation: Learning robust joint representations by cyclic translations between modalities / H. Pham, P. P. Liang, T. Manzini, L.-P. Morency, B. Poczos // Proceedings of the AAAI Conference on Artificial Intelligence. т. 33. — 2019. — с. 6892—6899.
5. Suzuki M, Nakayama K., Matsuo Y. Joint multimodal learning with deep generative models // arXiv preprint arXiv:1611.01891. — 2016.
6. Koehn P. Europarl: A Parallel Corpus for Statistical Machine Translation // Conference Proceedings: the tenth Machine Translation Summit. — AAMT. Phuket, Thailand : AAMT, 2005. — с. 79—86.
7. Wei L, Deng Z.-H. A Variational Autoencoding Approach for Inducing Cross-lingual Word Embeddings // Proceedings of the 26th International Joint Conference on Artificial Intelligence. — AAAI Press, 2017. — с. 4165—4171. — (IJCAI'17).
8. StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation / Y. Choi, M.-J. Choi, M. Kim, J.-W. Ha, S. Kim, J. Choo // CoRR. — 2017. — т. abs/1711.09020. — arXiv: 1711.09020. — URL: http://arxiv.org/abs/1711.09020.
9. A neural generative autoencoder for bilingual word embeddings / J. Su, S. Wu, B. Zhang, C. Wu, Y. Qin, D. Xiong // Information Sciences. — 2018. — т. 424. — с. 287—300.
10. Olshausen B. A., Field D. J. Sparse coding with an overcomplete basis set: A strategy employed by V1? // Vision research. — 1997. — т. 37, № 23. — с. 3311—3325.
11. Efficient learning of sparse representations with an energy-based model / M. Ranzato, C. Poultney, S. Chopra, Y. L. Cun // Advances in neural information processing systems. — 2007. — с. 1137—1144.
12. Alain G., Bengio Y. What regularized auto-encoders learn from the data-generating distribution // The Journal of Machine Learning Research. — 2014. — т. 15, № 1. — с. 3563—3593.
13. Kamyshanska H, Memisevic R. On autoencoder scoring // International Conference on Machine Learning. — 2013. — с. 720—728.
14. Ackley D. H, Hinton G. E., Sejnowski T. J. A learning algorithm for Boltzmann machines // Cognitive science. — 1985. — т. 9, № 1. — с. 147—169.
15. Hinton G. E., Osindero S., Teh Y.-W. A fast learning algorithm for deep belief nets // Neural computation. — 2006. — т. 18, № 7. — с. 1527—1554.
16. Generative Adversarial Nets / I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio // Advances in Neural Information Processing Systems 27 / под ред. Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, K. Q. Weinberger. — 2014. — с. 2672—2680.
17. Kingma D. P., Welling M. Auto-encoding variational bayes // arXiv preprint arXiv:1312.6114. — 2013.
18. An introduction to variational methods for graphical models / M. I. Jordan, Z. Ghahramani, T. S. Jaakkola, L. K. Saul // Machine learning. — 1999. — т. 37, № 2. — с. 183—233.
19. Wang W, Lee H, Livescu K. Deep Variational Canonical Correlation Analysis // CoRR. — 2016. — т. abs/1610.03454. — arXiv: 1610.03454. — URL: http://arxiv.org/abs/1610.03454.
20. Generative models of visually grounded imagination / R. Vedantam, I. Fischer, J. Huang, K. Murphy // arXiv preprint arXiv:1705.10762. — 2017.
21. Liu M.-Y., Breuel T., Kautz J. Unsupervised Image-to-Image Translation Networks // CoRR. — 2017. — т. abs/1703.00848. — arXiv: 1703.00848. — URL: http://arxiv.org/abs/1703.00848.
22. Semi-supervised Learning with Deep Generative Models / D. P. Kingma, S. Mohamed, D. Jimenez Rezende, M. Welling // Advances in Neural Information Processing Systems 27 / под ред. Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, K. Q. Weinberger. — 2014. — с. 3581—3589.
23. Wu M, Goodman N. Multimodal generative models for scalable weakly-supervised learning // Advances in Neural Information Processing Systems. —
2018. — с. 5575—5585.
24. Hinton G. E. Training products of experts by minimizing contrastive divergence // Neural computation. — 2002. — т. 14, № 8. — с. 1771—1800.
25. Angluin D., Laird P. Learning from noisy examples // Machine Learning. — 1988. — т. 2, № 4. — с. 343—370.
26. Understanding the limitations of conditional generative models / E. Fetaya, J. Jacobsen, W. Grathwohl, R. Zemel // arXiv preprint arXiv:1906.01171. —
2019.
27. Futami F., Sato I., Sugiyama M. Variational inference based on robust divergences // International Conference on Artificial Intelligence and Statistics. — 2018. — с. 813—822.
28. Robust statistics: the approach based on influence functions. т. 196 / F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw, W. A. Stahel. — John Wiley & Sons, 2011.
29. Regli J.-B, Silva R. Alpha-beta divergence for variational inference // arXiv preprint arXiv:1805.01045. — 2018.
30. Bellet A., Habrard A., Sebban M. A survey on metric learning for feature vectors and structured data // arXiv preprint arXiv:1306.6709. — 2013.
31. Karaletsos T, Belongie S., Ratsch G. Bayesian representation learning with oracle constraints // arXiv preprint arXiv:1506.05011. — 2015.
32. Bishop C. M. Pattern recognition and machine learning. — springer, 2006.
33. Huber P. J. Robust statistics. т. 523. — John Wiley & Sons, 2004.
34. A monolingual approach to detection of text reuse in Russian-English collection / O. Bakhteev, R. Kuznetsova, A. Romanov, A. Khritankov // 2015 Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference (AINL-ISMW FRUCT). — IEEE. 2015. — с. 3—10.
35. Machine-Translated Text Detection in a Collection of Russian Scientific Papers / A. Romanov, R. Kuznetsova, O. Bakhteev, A. Khritankov // Dialogue. — 2016. — с. 2.
36. Methods for Intrinsic Plagiarism Detection and Author Diarization. / M. P. Kuznetsov, A. Motrenko, R. Kuznetsova, V. V. Strijov // CLEF (Working Notes). — 2016. — с. 912—919.
37. Бахтеев О. Ю., Кузнецова М. В. Детектирование переводных заимствований в текстах научных статей из журналов, входящих в РИНЦ // Математические методы распознавания образов. — 2017. — т. 18, № 1. — с. 128—129.
38. Andrey Khazov M. K. Automatic generation of verbatim and paraphrased plagiarism corpus // Dialogue. — 2017.
39. Evaluation Tracks on Plagiarism Detection Algorithms for the Russian Language / M. Kopotev, I. Smirnov, R. Kuznetsova, O. Lyashevskaja, A. Kutuzov, L. Ivanova, K. A. // Computational Linguistics and Intellectual Technologies. 16 (23). — 2017. — (Komp'uternaa lingvistika i intellektual'nye tehnologii ; 23). — Volume: Proceeding volume: 16 (23).
40. Safin K., Kuznetsova R. Style Breach Detection with Neural Sentence Embeddings. // CLEF (Working Notes). — 2017.
41. Kuznetsova R., Bakhteev O, Ogaltsov A. Variational learning across domains with triplet information. — 2018.
42. CrossLang: the system of cross-lingual plagiarism detection / O. Bakhteev, A. Ogaltsov, A. Khazov, K. Safin, R. Kuznetsova // Workshop on Document Intelligence at NeurIPS 2019. — 2019.
43. Кузнецова М., Стщжов В. Локальное пpогнозиpование вpеменных pя-дов с использованием инваpиантных пpеобpазований // INFORMATION TECHNOLOGIES. — 2016. — т. 22, № 6. — с. 457.
44. Сафин К. Ф., Кузнецов М. П., Кузнецова М. В. Определение заимствований в тексте без указания источника // Информатика и её применения. — 2017. — т. 11, № 3. — с. 73—79.
45. User conditional hashtag prediction for images / E. Denton, J. Weston, M. Paluri, L. Bourdev, R. Fergus // Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining. — 2015. — с. 1731—1740.
46. Sharma R., Nigam S., Jain R. Opinion mining of movie reviews at document level // arXiv preprint arXiv:1408.3829. — 2014.
47. Robust inference via generative classifiers for handling noisy labels / K. Lee, S. Yun, K. Lee, H. Lee, B. Li, J. Shin // International Conference on Machine Learning. — PMLR. 2019. — с. 3763—3772.
48. Goldberger J., Ben-Reuven E. Training deep neural-networks using a noise adaptation layer. — 2016.
49. Learning from massive noisy labeled data for image classification / T. Xiao, T. Xia, Y. Yang, C. Huang, X. Wang // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — с. 2691—2699.
50. Vahdat A. Toward robustness against label noise in training deep discriminative neural networks // arXiv preprint arXiv:1706.00038. — 2017.
51. Cleannet: Transfer learning for scalable image classifier training with label noise / K.-H. Lee, X. He, L. Zhang, L. Yang // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2018. — с. 5447—5456.
52. Yi K., Wu J. Probabilistic end-to-end noise correction for learning with noisy labels // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — с. 7017—7025.
53. Training deep neural networks on noisy labels with bootstrapping / S. Reed, H. Lee, D. Anguelov, C. Szegedy, D. Erhan, A. Rabinovich // arXiv preprint arXiv:1412.6596. — 2014.
54. Dimensionality-driven learning with noisy labels / X. Ma, Y. Wang, M. E. Houle, S. Zhou, S. Erfani, S. Xia, S. Wijewickrema, J. Bailey // International Conference on Machine Learning. — PMLR. 2018. — с. 3355—3364.
55. Combating label noise in deep learning using abstention / S. Thulasidasan, T. Bhattacharya, J. Bilmes, G. Chennupati, J. Mohd-Yusof // arXiv preprint arXiv:1905.10964. — 2019.
56. Shen Y, Sanghavi S. Learning with bad training data via iterative trimmed loss minimization // International Conference on Machine Learning. — PMLR. 2019. — c. 5739—5748.
57. Mentornet: Learning data-driven curriculum for very deep neural networks on corrupted labels / L. Jiang, Z. Zhou, T. Leung, L.-J. Li, L. FeiFei // International Conference on Machine Learning. — PMLR. 2018. — c. 2304—2313.
58. Unsupervised label noise modeling and loss correction / E. Arazo, D. Ortego, P. Albert, N. O'Connor, K. McGuinness // International Conference on Machine Learning. — PMLR. 2019. — c. 312—321.
59. Co-teaching: Robust training of deep neural networks with extremely noisy labels / B. Han, Q. Yao, X. Yu, G. Niu, M. Xu, W. Hu, I. Tsang, M. Sugiyama // arXiv preprint arXiv:1804.06872. — 2018.
60. Wang Y, Kucukelbir A., Blei D. M. Robust probabilistic modeling with bayesian data reweighting // International Conference on Machine Learning. — PMLR. 2017. — c. 3646—3655.
61. Wang D., Tan X. Robust distance metric learning via bayesian inference // IEEE Transactions on Image Processing. — 2017. — t. 27, № 3. — c. 1542—1553.
62. Skip-thought vectors / R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, S. Fidler // Advances in neural information processing systems. — 2015. — c. 3294—3302.
63. Grounded compositional semantics for finding and describing images with sentences / R. Socher, A. Karpathy, Q. V. Le, C. D. Manning, A. Y. Ng // Transactions of the Association for Computational Linguistics. — 2014. — t. 2. — c. 207—218.
64. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — t. 9, № 8. — c. 1735—1780.
65. Empirical evaluation of gated recurrent neural networks on sequence modeling / J. Chung, C. Gulcehre, K. Cho, Y. Bengio // arXiv preprint arXiv:1412.3555. — 2014.
66. MacKay D. J., Mac Kay D. J. Information theory, inference and learning algorithms. — Cambridge university press, 2003.
67. beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework / I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, A. Lerchner // ICML. — 2017.
68. Scan: Learning hierarchical compositional visual concepts / I. Higgins, N. Sonnerat, L. Matthey, A. Pal, C. P. Burgess, M. Bosnjak, M. Shanahan, M. Botvinick, D. Hassabis, A. Lerchner // arXiv preprint arXiv:1707.03389. — 2017.
69. High-resolution image synthesis and semantic manipulation with conditional gans / T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, A. Tao, J. Kautz, B. Catanzaro // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — c. 8798—8807.
70. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation / Z. Yi, H. Zhang, P. Tan, M. Gong // CoRR. — 2017. — t. abs/1704.02510. — arXiv: 1704.02510. — URL: http://arxiv.org/abs/1704.02510.
71. Triangle Generative Adversarial Networks / Z. Gan, L. Chen, W. Wang, Y. Pu, Y. Zhang, H. Liu, C. Li, L. Carin // CoRR. — 2017. — t. abs/1709.06548. — arXiv: 1709.06548. — URL: http://arxiv.org/abs/1709. 06548.
72. Norouzi M, Fleet D. J., Salakhutdinov R. R. Hamming distance metric learning // Advances in neural information processing systems. — 2012. — c. 1061—1069.
73. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — c. 815—823.
74. Towards universal paraphrastic sentence embeddings / J. Wieting, M. Bansal, K. Gimpel, K. Livescu // arXiv preprint arXiv:1511.08198. — 2015.
75. Hinton G., Roweis S. T. Stochastic neighbor embedding // NIPS. t. 15. — Citeseer. 2002. — c. 833—840.
76. Adaptively learning the crowd kernel / O. Tamuz, C. Liu, S. Belongie, O. Shamir, A. T. Kalai // arXiv preprint arXiv:1105.1033. — 2011.
77. Van Der Maaten L, Weinberger K. Stochastic triplet embedding // 2012 IEEE International Workshop on Machine Learning for Signal Processing. — IEEE. 2012. — c. 1—6.
78. Koehn P. Statistical machine translation. — Cambridge University Press, 2009.
79. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean // arXiv preprint arXiv:1301.3781. — 2013.
80. Harris Z. S. Distributional structure // Word. — 1954. — t. 10, № 2/3. — c. 146—162.
81. Mikolov T, Le Q. V., Sutskever I. Exploiting similarities among languages for machine translation // arXiv preprint arXiv:1309.4168. — 2013.
82. Bilingual correspondence recursive autoencoder for statistical machine translation / J. Su, D. Xiong, B. Zhang, Y. Liu, J. Yao, M. Zhang // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. — 2015. — c. 1248—1258.
83. Zhang B., Xiong D., Su J. BattRAE: Bidimensional attention-based recursive autoencoders for learning bilingual phrase embeddings // Thirty-First AAAI Conference on Artificial Intelligence. — 2017.
84. SchUtze H, Manning C. D., Raghavan P. Introduction to information retrieval. t. 39. — Cambridge University Press Cambridge, 2008.
85. Tai K. S., Socher R., Manning C. D. Improved semantic representations from tree-structured long short-term memory networks // arXiv preprint arXiv:1503.00075. — 2015.
86. Learning discriminative projections for text similarity measures / W.-t. Yih, K. Toutanova, J. C. Platt, C. Meek // Proceedings of the fifteenth conference on computational natural language learning. — 2011. — c. 247—256.
87. Skip-thought vectors / R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, S. Fidler // Advances in neural information processing systems. — 2015. — c. 3294—3302.
88. Deep unordered composition rivals syntactic methods for text classification / M. Iyyer, V. Manjunatha, J. Boyd-Graber, H. Daume III // Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers). — 2015. — с. 1681—1691.
89. Grounded compositional semantics for finding and describing images with sentences / R. Socher, A. Karpathy, Q. V. Le, C. D. Manning, A. Y. Ng // Transactions of the Association for Computational Linguistics. — 2014. — т. 2. — с. 207—218.
90. Towards universal paraphrastic sentence embeddings / J. Wieting, M. Bansal, K. Gimpel, K. Livescu // arXiv preprint arXiv:1511.08198. — 2015.
91. Никитов А. В., Орчаков О. А., Чехович Ю. В. Плагиат в работах студентов и аспирантов: проблема и методы противодействия // Университетское управление: практика и анализ. — 2012. — № 5.
92. Plagiarism detection across distant language pairs / A. Barron-Cedeno, P. Rosso, E. Agirre, G. Labaka // Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). — 2010. — с. 37—45.
93. Franco-Salvador M., Rosso P., Montes-y-Gomez M. A systematic study of knowledge graph analysis for cross-language plagiarism detection // Information Processing & Management. — 2016. — т. 52, № 4. — с. 550—570.
94. Hanane E., Erritali M, Oukessou M. Semantic Similarity/Relatedness for Cross language plagiarism detection // 2016 13th International Conference on Computer Graphics, Imaging and Visualization (CGiV). — IEEE. 2016. — с. 372—374.
95. Image-to-Image Translation with Conditional Adversarial Networks / P. Isola, J.-Y. Zhu, T. Zhou, A. A. Efros // CoRR. — 2016. — т. abs/1611.07004. — arXiv: 1611.07004. — URL: http://arxiv.org/abs/1611.07004.
96. Vulnerability vs. Reliability: Disentangled Adversarial Examples for Cross-Modal Learning / C. Li, H. Tang, C. Deng, L. Zhan, W. Liu // Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. — 2020. — с. 421—429.
97. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks / J. Lu, D. Batra, D. Parikh, S. Lee // arXiv preprint arXiv:1908.02265. — 2019.
98. Tan H., Bansal M. Lxmert: Learning cross-modality encoder representations from transformers // arXiv preprint arXiv:1908.07490. — 2019.
99. Vl-bert: Pre-training of generic visual-linguistic representations / W. Su, X. Zhu, Y. Cao, B. Li, L. Lu, F. Wei, J. Dai // arXiv preprint arXiv:1908.08530. — 2019.
100. Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // arXiv preprint arXiv:1810.04805. — 2018.
101. Semi-Supervised Optimal Transport for Heterogeneous Domain Adaptation. / Y. Yan, W. Li, H. Wu, H. Min, M. Tan, Q. Wu // IJCAI. t. 7. — 2018. — c. 2969—2975.
102. Kantorovich L. V. On the translocation of masses // Journal of mathematical sciences. — 2006. — t. 133, № 4. — c. 1381—1382.
103. VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data / C. Ma, S. Tschiatschek, J. M. Hernandez-Lobato, R. Turner, C. Zhang // arXiv preprint arXiv:2006.11941. — 2020.
104. Jensen J. L. W. V. Sur les fonctions convexes et les inegalites entre les valeurs moyennes // Acta mathematica. — 1906. — t. 30. — c. 175—193.
105. Kullback S., Leibler R. A. On information and sufficiency // The annals of mathematical statistics. — 1951. — t. 22, № 1. — c. 79—86.
106. Kullback S. Information theory and statistics. — Courier Corporation, 1997.
107. Burda Y., Grosse R., Salakhutdinov R. Importance weighted autoencoders // arXiv preprint arXiv:1509.00519. — 2015.
108. Stein C. A bound for the error in the normal approximation to the distribution of a sum of dependent random variables // Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, Volume 2: Probability Theory. — The Regents of the University of California. 1972.
109. Kuhn H. W., Tucker A. W. Nonlinear programming // Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, 1950. — Berkeley, Los Angeles : University of California Press, 1951. — c. 481—492.
110. Karush W. Minima of Functions of Several Variables with Inequalities as Side Constraints // Master's thesis. — 1939. — hhb.
111. Triple generative adversarial nets / L. Chongxuan, T. Xu, J. Zhu, B. Zhang // Advances in neural information processing systems. — 2017. — c. 4088—4098.
112. Learning to discover cross-domain relations with generative adversarial networks / T. Kim, M. Cha, H. Kim, J. K. Lee, J. Kim // arXiv preprint arXiv:1703.05192. — 2017.
113. Deep Learning Face Attributes in the Wild / Z. Liu, P. Luo, X. Wang, X. Tang // Proceedings of International Conference on Computer Vision (ICCV). — 2015.
114. Levi G., Hassner T. Age and Gender Classification Using Convolutional Neural Networks // IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) workshops. — 06.2015.
115. Modular Generative Adversarial Networks / B. Zhao, B. Chang, Z. Jie, L. Sigal // CoRR. — 2018. — t. abs/1804.03343. — arXiv: 1804.03343. — URL: http://arxiv.org/abs/1804.03343.
116. Yu X., Ying Z, Li G. Multi-Mapping Image-to-Image Translation with Central Biasing Normalization // CoRR. — 2018. — t. abs/1806.10050. — arXiv: 1806.10050. — URL: http://arxiv.org/abs/1806.10050.
117. Wang Y, Dantcheva A., Bremond F. From attributes to faces: a conditional generative network for face generation //. — 09.2018. — c. 1—5.
118. Klementiev A., Titov I., Bhattarai B. Inducing Crosslingual Distributed Representations of Words // COLING. — 2012.
119. Moses: Open Source Toolkit for Statistical Machine Translation / P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst // Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. — Prague, Czech Republic : Association for Computational Linguistics, 2007. — c. 177—180. — (ACL '07).
120. Gouws S., Bengio Y., Corrado G. BilBOWA: Fast Bilingual Distributed Representations Without Word Alignments // Proceedings of the 32Nd International Conference on International Conference on Machine Learning - Volume 37. — Lille, France : JMLR.org, 2015. — c. 748—756. — (ICML'15).
121. An Autoencoder Approach to Learning Bilingual Word Representations / A. P. S. Chandar, S. Lauly, H. Larochelle, M. M. Khapra, B. Ravindran, V. Raykar, A. Saha // Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2. — Cambridge, MA, USA : MIT Press, 2014. — c. 1853—1861. — (NIPS'14).
122. Discovering text reuse in large collections of documents: A study of theses in history sciences / A. S. Khritankov, P. V. Botov, N. S. Surovenko, S. V. Tsarkov, D. V. Viuchnov, Y. V. Chekhovich // 2015 Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference (AINL-ISMW FRUCT). — IEEE. 2015. — c. 26—32.
123. Fuzzy semantic plagiarism detection / A. H. Osman, N. Salim, Y. J. Kumar, A. Abuobieda // International Conference on Advanced Machine Learning Technologies and Applications. — Springer. 2012. — c. 543—553.
124. Vashchilin S., Kushnir H. Comparison plagiarism search algorithms implementations // 2017 2nd International Conference on Advanced Information and Communication Technologies (AICT). — 2017. — c. 97—100.
125. Comparisons of keyphrase extraction methods in source retrieval of plagiarism detection / H. Ning, L. Kong, M. Wang, C. Du, H. Qi // 2015 4th International Conference on Computer Science and Network Technology (ICCSNT). t. 1. — IEEE. 2015. — c. 661—664.
126. Dutta S., Bhattacharjee D. Plagiarism Detection by Identifying the Keywords // 2014 International Conference on Computational Intelligence and Communication Networks. — IEEE. 2014. — c. 703—707.
127. Grman J., Ravas R. Improved implementation for finding text similarities in large collections of data // Notebook Papers of CLEF 2011 LABs and Workshops. — 2011.
128. Grozea C, Popescu M. The encoplot similarity measure for automatic
detection of plagiarism notebook for PAN at CLEF 2011. — 2011.
100
129. Cross-language plagiarism detection over continuous-space-and knowledge graph-based representations of language / M. Franco-Salvador, P. Gupta, P. Rosso, R. E. Banchs // Knowledge-based systems. — 2016. — t. 111. — c. 87—99.
130. Usingword embedding for cross-language plagiarism detection / J. Ferrero, F. Agnes, L. Besacier, D. Schwab // arXiv preprint arXiv:1702.03082. — 2017.
131. Moses: Open source toolkit for statistical machine translation / P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens [h gp.] // Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions. — Association for Computational Linguistics. 2007. — c. 177—180.
132. Sutskever I., Vinyals O, Le Q. V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — c. 3104—3112.
133. Li J., Luong M.-T, Jurafsky D. A hierarchical neural autoencoder for paragraphs and documents // arXiv preprint arXiv:1506.01057. — 2015.
134. An autoencoder approach to learning bilingual word representations / S. C. AP, S. Lauly, H. Larochelle, M. Khapra, B. Ravindran, V. C. Raykar, A. Saha // Advances in neural information processing systems. — 2014. — c. 1853—1861.
135. Semi-supervised recursive autoencoders for predicting sentiment distributions / R. Socher, J. Pennington, E. H. Huang, A. Y. Ng, C. D. Manning // Proceedings of the 2011 conference on empirical methods in natural language processing. — 2011. — c. 151—161.
136. He H, Gimpel K., Lin J. Multi-perspective sentence similarity modeling with convolutional neural networks // Proceedings of the 2015 conference on empirical methods in natural language processing. — 2015. — c. 1576—1586.
137. Hashing for similarity search: A survey / J. Wang, H. T. Shen, J. Song, J. Ji // arXiv preprint arXiv:1408.2927. — 2014.
138. Higher order contractive auto-encoder / S. Rifai, G. Mesnil, P. Vincent, X. Muller, Y. Bengio, Y. Dauphin, X. Glorot // Joint European conference on machine learning and knowledge discovery in databases. — Springer. 2011. — c. 645—660.
139. Jenssen M., Joos F., Perkins W. On kissing numbers and spherical codes in high dimensions // Advances in Mathematics. — 2018. — t. 335. — c. 307—321.
140. Cybenko G. Approximation by superpositions of a sigmoidal function // Mathematics of control, signals and systems. — 1989. — t. 2, № 4. — c. 303—314.
141. Enriching Word Vectors with Subword Information / P. Bojanowski, E. Grave, A. Joulin, T. Mikolov // arXiv preprint arXiv:1607.04606. — 2016.
142. Tiedemann J. News from OPUS-A collection of multilingual parallel corpora with tools and interfaces // Recent advances in natural language processing. t. 5. — 2009. — c. 237—248.
143. Plagiarism meets paraphrasing: Insights for the next generation in automatic plagiarism detection / A. Barron-Cedeno, M. Vila, M. A. Marti, P. Rosso // Computational Linguistics. — 2013. — t. 39, № 4. — c. 917—947.
144. External and intrinsic plagiarism detection using vector space models / M. Zechner, M. Muhr, R. Kern, M. Granitzer // Proc. SEPLN. t. 32. — 2009. — c. 47—55.
145. Tschuggnall M, Specht G. Countering Plagiarism by Exposing Irregularities in Authors' Grammar // 2013 European Intelligence and Security Informatics Conference. — IEEE. 2013. — c. 15—22.
146. Zu Eissen S. M, Stein B. Intrinsic plagiarism detection // European conference on information retrieval. — Springer. 2006. — c. 565—569.
147. Stamatatos E. Intrinsic plagiarism detection using character n-gram profiles // threshold. — 2009. — t. 2, № 1, 500.
148. Outlier-based approaches for intrinsic and external plagiarism detection / G. Oberreuter, G. L'Huillier, S. A. Rios, J. D. Velasquez // International Conference on Knowledge-Based and Intelligent Information and Engineering Systems. — Springer. 2011. — c. 11—20.
149. Bensalem I., Rosso P., Chikhi S. Intrinsic plagiarism detection using n-gram classes // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). — 2014. — c. 1459—1464.
150. Overview of the Author Identification Task at PAN-2017: Style Breach Detection and Author Clustering. / M. Tschuggnall, E. Stamatatos, B. Verhoeven, W. Daelemans, G. Specht, B. Stein, M. Potthast // CLEF (Working Notes). — 2017.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.