Тематические и нейросетевые модели языка для разведочного информационного поиска тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Янина Анастасия Олеговна
- Специальность ВАК РФ00.00.00
- Количество страниц 186
Оглавление диссертации кандидат наук Янина Анастасия Олеговна
1.2 Обзор литературы
1.3 Тематический разведочный поиск
2 Вероятностное тематическое моделирование
2.1 Постановка задачи вероятностного тематического моделирования
2.2 Вероятностный латентный семантический анализ (РЬБЛ)
2.3 Латентное размещение Дирихле (ЬЭЛ)
2.4 Аддитивная регуляризация тематических моделей (АРТМ)
2.4.1 Постановка задачи и основная теорема АРТМ
2.4.2 Обобщение модели латентного размещениея Дирихле в терминах аддитивной регуляризации
2.4.3 Мультимодальная аддитивная регуляризация
2.4.4 Алгоритм подбора оптимальной стратегии регуляризации
2.4.5 Алгоритм подсчета абсолютных коэффициентов регуляризации через относительные
2.4.6 Иерархический АРТМ и теорема о построении иерархической тематической модели с регуляризаторами межуровне-вых связей
2.5 Генеративные нейронные иерархические тематические модели
2.6 Древовидная нейронная тематическая модель (ТБКТМ)
2.6.1 Модифицированный регуляризатор разнообразия для
иерархических тематических моделей
2.6.2 Доказательство эквивалентности модифицированного регу-ляризатора разнообразия тем в нейротематических моделях и регуляризаторов декоррелирования и разреживания меж-
уровневых связей в АРТМ
2.7 Выводы к главе
3 Тематический разведочный поиск
3.1 Алгоритм тематического разведочного поиска
3.2 Данные для вычислительных экспериментов
3.3 Алгоритм оценки качества разведочного поиска
3.4 Библиотека с открытым кодом BigARTM
3.5 Сравнение тематического и асессорского поиска
3.6 Сравнение тематического поиска с конкурирующими подходами
3.7 Настройка гиперпараметров тематических моделей
3.7.1 Подбор оптимальной меры близости
3.7.2 Подбор оптимальной структруры тематической иерархии
3.7.3 Подбор оптимального набора модальностей
3.7.4 Подбор оптимальных стратегий регуляризации
3.8 Посегментный разведочный поиск
3.9 Разведочный поиск на основе нейронных тематических моделей
3.10 Гибридный разведочный поиск на основе нейронных и тематических представлений
3.11 Выводы к главе
4 Тематическая суммаризация и аннотирование текстов
4.1 Обзор литературы
4.2 Алгоритм тематической экстрактивной суммаризации
4.2.1 Модель выделения аспектов на основе механизма внимания (Attention-based Aspect Extraction, ABAE)
4.2.2 Гетерогенный Biased LexRank
4.3 Оценка качества тематического аннотирования текстов
4.3.1 Создание датасета тематических аннотаций
4.3.2 Метрики для оценки качества тематического аннотирования текстов
4.4 Эксперименты: результаты и обсуждение
4.5 Выводы к главе
5 Ранжирование разведочной поисковой выдачи
5.1 Обзор литературы
5.2 Принцип работы капсульных нейронных сетей
5.3 Капсульные нейронные сети для ранжирования документов
5.4 Эксперименты: результаты и обсуждение
5.4.1 Данные для вычислительных экспериментов
5.4.2 Предобработка данных
5.4.3 Оценка качества работы алгоритма ранжирования
5.4.4 Результаты и обсуждение экспериментов
5.4.5 Сравнение с конкурирующими подходами
5.5 Выводы к главе
6 Увеличение разнообразия разведочной поисковой выдачи с помощью обучения с подкреплением
6.1 Обзор литературы
6.2 Постановка задачи обучения с подкреплением
6.3 Diverse Deep Deterministic Policy Gradient
6.4 Эксперименты: результаты и обсуждение
6.4.1 Данные для вычислительных экспериментов
6.4.2 Алгоритм оценки качества рекомендаций
6.4.3 Эксперимент с добавлением шума
6.4.4 Обеспечение разнообразия рекомендаций
6.5 Выводы к главе
Заключение
Список иллюстраций
Список таблиц
Список литературы
Введение
Тематическое моделирование находит широкое применение в области информационного поиска, автоматического аннотирования, ранжирования и категоризации текстовых документов. В этой диссертационной работе мы изучаем методы решения задач разведочного (исследовательского) поиска с помощью вероятностного тематического моделирования и нейросетевых моделей языка.
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Эффективная реализация алгоритмов тематического моделирования с аддитивной регуляризацией2020 год, кандидат наук Апишев Мурат Азаматович
Методы оценивания качества и многокритериальной оптимизации тематических моделей в библиотеке TopicNet2020 год, кандидат наук Булатов Виктор Геннадьевич
Единственность матричного разложения и сходимость регуляризованных алгоритмов в вероятностном тематическом моделировании2020 год, кандидат наук Ирхин Илья Александрович
Семантические векторные представления текста на основе вероятностного тематического моделирования2019 год, кандидат наук Потапенко Анна Александровна
Агрегированное представление текстов для задач поиска в коллекциях текстовых документов2019 год, кандидат наук Фролов Дмитрий Сергеевич
Введение диссертации (часть автореферата) на тему «Тематические и нейросетевые модели языка для разведочного информационного поиска»
Актуальность темы исследования
В современном мире важность знаний, сбора и систематизации информации становится все выше и выше. Постиндустриальное общество, где главной движущей силой экономики становятся научные разработки и индустрия знаний, создает условия для постоянного увеличения количества людей, которые всю жизнь занимаются самообразованием, приобретают навыки в рамках своей профессии и развивают творческий подход к вопросам усвоения и обработки информации. К таким специалистам относятся не только студенты, преподаватели или ученые, но и люди самых разных родов деятельности. Упрощение процессов информационного поиска, приобретения и переработки знаний с помощью алгоритмов машинного обучения позволяет повысить эффективность работы огромного количества сотрудников, а также сэкономить время каждого, кто хотя бы единожды пытался понять, где находится край науки по интересующей теме или разобраться в смежной предметной области.
Обычные системы информационного поиска удовлетворяют краткосрочные поисковые интересы пользователей, отвечают на короткие запросы и не предполагают последующей аналитической обработки результатов поиска. Разведочный информационный поиск (Exploratory Search), наоборот, обслуживает долгосрочные информационные потребности, используя в качестве запроса не только
короткий, но и длинный текст или подборку документов, а также предполагает дальнейший анализ найденного контента. Его цель — помочь пользователю ускорить процесс приобретения и структурирования новых знаний. Разведочный поиск, в противовес привычному итерационному поиску по ключевым словам, сопутствует усваиванию и творческой переработке новой информации. Системы разведочного поиска могут использоваться для изучения различной информации: научно-технической, образовательной, юридической или новостной.
Открытой актуальной проблемой остаётся создание механизмов разведочного поиска, обеспечивающих высокие показатели точности и полноты поиска при измерении на реальных пользовательских данных. Парадигма разведочного поиска, при которой в качестве поискового запроса задается тема (намеченная достаточно широко), гораздо менее распространена, чем классический поиск по ключевым словам. Разведочных поисковых систем на текущий момент практически нет, но во всем мире ведется активная работа над их созданием. В контексте разведочного поиска и запрос, и выдача становятся более сложными, что, в свою очередь, дает возможность для применения более продвинутых способов обработки и систематизации информации.
Для решения подобных задач необходимы новые виды поисковых систем. Примером такой системы может стать разведочный поисковик, который учитывает интересующие пользователя темы, мониторит Интернет, находит документы по выбранным темам, систематизирует и иерархически структурирует найденные тексты, а также показывает развитие темы во времени. Один из инструментов построения разведочного поисковика — это вероятностное тематическое моделирование. Тематическая иерархия корпуса текстов позволяет увидеть, какие темы представлены в коллекции и какая терминология соответствует каждой из тем, систематизировать и категоризировать документы, а также сформировать достаточно полное представление о тематической направленности доступной в корпусе информации, автоматически формируя рубрикатор документов со сложной вложенной структурой. Подобные технологии позволяют людям разных родов деятельности быстрее разбираться в плохо структурированных базах знаний, учиться новому, повышать уровень своего профессионализма и расширять кругозор, а значит наращивать свой интеллектуальный капитал и востребованность на рынке труда.
Цели и задачи диссертационной работы
В диссертационной работе были поставлены следующие цели:
• Создать алгоритмы и численные методы для решения задачи разведочного поиска тематически и семантически близких текстов в векторных пространствах, основанных на тематических, нейросетевых и гибридных способах представления документов.
• Теоретически обосновать и протестировать алгоритм генерации интерпретируемых векторных представлений документов с учетом иерархической структуры текстовой коллекции.
• Разработать методику оценивания качества разведочного поиска.
• Разработать комплекс программ для упрощения анализа разведочной поисковой выдачи пользователем: численный метод генерации персонализированных тематических кратких изложений текстов (аннотаций), алгоритм ранжирования разведочной поисковой выдачи, а также методы повышения тематического разнообразия поисковой выдачи путем внедрения рекомендательных стратегий на основе обучения с подкреплением.
Для достижения поставленных целей решались следующие задачи:
• Предложить алгоритм тематического разведочного поиска семантически близких документов на основе тематических иерархий и каскадного уточняющего отбора тематик, сокращающего пространство дочерних тем путем исключения нерелевантных тем родительского уровня.
• Разработать численные методы разведочного поиска на основе векторизации текстов с помощью унимодальных, мультимодальных, аддитивно регуляризованных, иерархических, нейронных тематических моделей.
• Предложить и математически обосновать алгоритм подбора оптимальной стратегии регуляризации, а также теоретически обосновать алгоритм получения абсолютных коэффициентов регуляризации через относительные значения.
• Предложить и теоретически обосновать построение иерархической аддитивно регуляризованной тематической модели путем доказательства теоремы об эквивалентности добавления дочернего уровня тематической иерархии и добавления в исходную коллекцию псевдодокументов специального вида.
• Разработать, обосновать и протестировать методику оценивания качества разведочного поиска с использованием асессорских оценок.
• Эмпирически показать, что использование иерархических тематических моделей позволяет значительно повысить точность и полноту поиска по сравнению с плоскими тематическими моделями.
• Разработать гибридные способы векторизации документов на основе тематических и нейросетевых эмбеддингов.
• Исследовать проблему разведочного поиска по тематически неоднородным документам, разработать алгоритм оценки семантической близости текстов по предварительно выделенным тематически однородным сегментам.
• Изучить стратегии регуляризации в нейротематических моделях, доказать эквивалентность модифицированного регуляризатора разнообразия тем в иерархических нейротематических моделях и регуляризаторов де-коррелирования дочерних тем и разреживания межуровневых связей в иерархическом АРТМ.
• В рамках построения комплекса программ для упрощения анализа разведочной поисковой выдачи пользователем разработать метод экстрактивной суммаризации документов для генерации персонализированных аннотаций с фокусом на интересующие пользователя темы и аспекты исходного текста и меру близости для ранжирования разведочной поисковой выдачи.
• Исследовать способы увеличения разнообразия разведочной поисковой выдачи с помощью обучения с подкреплением. Предложить стратегию добавления шума в действия агента для нахождения правильного баланса между разнообразием и точностью рекомендаций.
Научная новизна
• Предложен алгоритм тематического разведочного поиска, позволяющий по широкому поисковому запросу (описанию поисковой потребности пользователя, текстовому документу или тематически однородной подборке документов) находить тематически и семантически близкие статьи. Полученный численный метод на основе вероятностного иерархического тематического моделирования позволяет решать задачу разведочного поиска с точностью и полнотой поиска выше, чем 90%, показывая результаты лучше, чем не только у существующих подходов на основе классических тематических моделей и нейросетевых подходов, но и чем у ручного поиска с привлечением асессоров-людей. Важно отметить интерпретируемость предложенных иерархических тематических эмбеддингов, что позволяет автоматически строить рубрикатор коллекции документов. Другая отличительная черта предложенного тематического поиска — каскадный уточняющий отбор тематик, сокращающий пространство дочерних тем за счет исключения нерелевантных тем родительского уровня. Данная методика ранее не встречалась в литературе по разведочному поиску и тематическому моделированию.
• Разработан алгоритм оценивания качества разведочного поиска, учитывающий двухэтапную оценку релевантности документов асессорами. На основе этого метода созданы наборы данных разведочных поисковых запросов и релевантных им документов на русском и английском языках на основе статей коллективных блогов сайтов habr.ru и techcrunch.com. Вычислительные эксперименты с использованием этих двух датасетов, а также датасета научных статей с сайта arxiv.org [36] показывают преимущество разработанного нами тематического поиска перед конкурирующими подходами как по критериям точности и полноты поиска, так и по времени работы алгоритма за счет сравнительно небольшого размера инвертированного индекса тем, который используется для поиска в нашем алгоритме.
• Теоретически доказан ряд утверждений и теорем в рамках построения тематических (в том числе классических, иерархических, нейротематиче-ских, мультимодальных) моделей текстовых коллекций для последующего
использования полученных тематических представлений для разведочного поиска:
— Предложено теоретическое построение иерархической аддитивно ре-гуляризованной тематической модели путем доказательства эквивалентности использования регуляризатора межуровневых связей и добавления в иерархическую тематическую модель псевдодокументов специального вида.
— Теоретически обоснован алгоритм подбора оптимальной стратегии регуляризации для мультимодальных плоских и иерархических тематических моделей.
— Сформулирован и теоретически обоснован алгоритм подсчета абсолютных коэффициентов регуляризации через их относительные значения.
— Проведен вариационный вывод древовидной нейротематической модели ТБКТМ [157] и изучены ее стратегии регуляризации.
— Доказана эквивалентность применения модифицированного регуляри-затора разнообразия тем в рамках иерархической нейротематической модели ТБКТМ и аддитивно регуляризованной иерархической тематической модели с регуляризаторами декоррелирования дочерних тем и разреживания межуровневых связей.
• Для упрощения процесса анализа результатов разведочного поиска мы разработали комплекс программ, состоящий из нескольких алгоритмов и численных методов:
— Алгоритм тематического аннотирования (суммаризации) текстов. Введена постановка задачи тематической суммаризации и предложен алгоритм генерации персонализированых кратких изложений текстов с фокусом на интересующие конкретного пользователя темы и аспекты. Научная новизна нашего подхода к тематическому аннотированию статей состоит в добавлении тематической информации в гетерогенный граф предложений и аспектов статей с последующим использованием данного графа для отбора наиболее важных
предложений исходного текста с целью добавления в экстрактивную суммаризацию.
— Метод ранжирования документов из разведочной поисковой выдачи. Предложен алгоритм ранжирования результатов разведочного поиска на основе капсульных нейронных сетей. В результате проведенных вычислительных экспериментов и сравнительного анализа показано, что использование капсульной сети значительно улучшает качество ранжирования по сравнению с классическими подходами, такими как косинусная мера близости и функция ранжирования ВМ25.
— Метод увеличения тематического разнообразия документов в разведочной поисковой выдаче. Для увеличения разнообразия разведочной поисковой выдачи с помощью документов, тематически близких к уже просмотренным пользователем статьям, предлагается вычислительный метод, основанный на обучении с подкреплением в рекомендательной среде. Новизна метода состоит в стратегии добавления шума Diverse DDPG (D3PG), сгенерированного из случайного процесса Орнштейна-Уленбека, которая помогает агенту найти правильный баланс между разнообразием и точностью рекомендаций.
Теоретическая и практическая значимость результатов работы
Теоретически полученные результаты изложены с необходимой степенью детализации в тексте диссертации, а также представлены для научного обсуждения на 12 конференциях Всероссийского или международного уровня. Численные методы и алгоритмы, изложенные в диссертации, могут быть использованы в сервисах разведочного поиска. Программные средства (скрипты на языке Python) для встраивания предложенных в диссертационной работе методов в сервис разведочного поиска научных статей scisearch.ai подготовлены и протестированы.
Методология и методы исследования
В работе использованы методы цифровой обработки текстов, анализа данных и машинного обучения. Применялись методы тематического моделирования, включая подход аддитивной регуляризации тематических моделей (АРТМ), реализованный в библиотеке BigARTM [56]. Кроме того, использовались предобученные языковые модели на основе архитектуры Трансформер [19] из библиотеки transformers [74].
Положения, выносимые на защиту
Основным результатом данной работы является алгоритм тематического разведочного поиска, основанный на поиске семантически близких текстов в векторном пространстве интерпретируемых иерархических тематических эм-беддингов. Приводится теоретическое обоснование построения иерархической аддитивно регуляризованной тематической модели, а также формулируется и теоретически обосновываются алгоритмы подбора оптимальной стратегии регуляризации и подсчета абсолютных коэффициентов регуляризации через их относительные значения. На защиту выносятся следующие положения:
• Разработан, обоснован и протестирован алгоритм тематического разведочного поиска, который по текстовому описанию поискового запроса пользователя, документу или подборке документов находит статьи заданной тематики, учитывая положение статьи в иерархической тематической структуре коллекции и используя инвертированный индекс тем.
• Предложено теоретическое построение иерархической тематической модели путем доказательства теоремы об эквивалентности использования регуляризатора межуровневых связей в иерархии и добавления в иерархическую тематическую модель псевдодокументов специального вида; на основе иерархической аддитивно регуляризованной тематической модели предложен алгоритм генерации интерпретируемых иерархических эмбед-дингов документов для разведочного поиска и автоматического построения рубрикатора текстовой коллекции.
• Предложен алгоритм оценивания качества разведочного поиска, учитывающий двухэтапную оценку релевантности документов асессорами.
• Предложен, теоретически обоснован и протестирован алгоритм подбора оптимальной стратегии регуляризации для тематических моделей, сформулирован и теоретически обоснован алгоритм подсчета абсолютных коэффициентов регуляризации через их относительные значения.
• Проведен вариационный вывод древовидной нейротематической модели TSNTM [157], изучены ее стратегии регуляризации, доказана эквивалентность применения регуляризатора разнообразия тем в рамках иерархической нейротематической модели и аддитивно регуляризованной тематической модели с регуляризаторами декоррелирования матрицы © дочернего уровня и разреживания межуровневых связей.
• В рамках разработки комплекса программ, ориентированного на упрощение анализа разведочной поисковой выдачи, предложены алгоритмы ранжирования результатов разведочного поиска на основе капсульных нейронных сетей и алгоритм тематического аннотирования текстов на базе гетерогенного графа предложений и тематических аспектов.
• Для увеличения разнообразия документов в разведочной поисковой выдаче предложен алгоритм обучения с подкреплением Diverse DDPG (D3PG), использующий стохастичность процесса Орнштейна-Уленбека для обнаружения одновременно разнообразных и точных стратегий рекомендации текстовых документов.
Степень достоверности и апробация результатов
Результаты, представленные в данной диссертации, имеют математическое обоснование, а также проверены экспериментально на реальных текстовых коллекциях. Достоверность результатов обеспечивается обширным анализом работ в области исследования, описанием проведённых вычислительных экспериментов, их воспроизводимостью, а также апробацией результатов на практике. Основные результаты диссертации были представлены и обсуждались на следующих конференциях:
1. 24-я конференция ACM по менеджменту информации и знаний (the 24th ACM Conference on Information and Knowledge Management, CIKM-2015), 2015, Мельбурн, Австралия.
2. Аналитика и управление данными в областях с интенсивным использованием данных (Data Analytics and Management in Data Intensive Domains, DAMDID), 2015, Обнинск, Московская область, Россия.
3. 11-я Международная конференция «Интеллектуализация обработки информации» (the 11th International Conference on Intelligent Data Processing: Theory and Applications), 2016, Барселона, Испания.
4. Конференция по искусственному интеллекту и естественному языку (Conference on Artificial Intelligence and Natural Language, AINL-2017), 2017, Санкт-Петербург, Россия.
5. 3-й Всероссийский молодежный научный форум «Наука будущего — наука молодых», 2017, Нижний Новгород, Россия.
6. 12-я Международная конференция «Интеллектуализация обработки информации» (the 12th International Conference on Intelligent Data Processing: Theory and Applications), 2018, Гаэта, Италия.
7. 25-я конференция ассоциации открытых инноваций (the 25th Conference of Open Innovations Association, FRUCT), 2019, Хельсинки, Финляндия.
8. Международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов-2019», 2019, Москва, Россия.
9. 19-я Всероссийская конференция с международным участием «Математические методы распознавания образов» (ММРО-2020), Москва, Россия.
10. 20-я Всероссийская конференция с международным участием «Математические методы распознавания образов» (ММРО-2021), Москва, Россия.
11. 10-я Международная конференция по анализу изображений, социальных сетей и текстов (the 10th International Conference on Analysis of Images, Social Networks and Texts, AIST-2021), 2021, Тбилиси, Грузия.
12. 16-я конференция ACM по рекомендательным системам (the 16th ACM Conference on Recommender Systems), 2022, Сиэтл, штат Вашингтон, США.
Работа поддержана грантами РФФИ:
1. 20-37-90025, Разведочный информационный поиск с неявной обратной связью по релевантности.
2. 20-07-00936, Вычислительные методы обработки естественного языка для разведочного информационного поиска, накопления, анализа и систематизации предметных знаний.
3. 17-07-01536, Вероятностное тематическое моделирование и разведочный информационный поиск.
4. 16-37-00498, Мультимодальные тематические модели для социальных медиа, рекомендательных систем и многоязычных текстовых коллекций.
Публикации
Материалы диссертации опубликованы в 15 печатных работах в журналах и материалах конференций, рекомендованных ВАК, из них 8 индексируются Scopus и/или WoS.
1. Vorontsov K., Frei O., Apishev M., Romov P., Suvorova M., Yanina A. Non-bayesian additive regularization for multimodal topic modeling of large collections // ACM Conference on Information and Knowledge Management, Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications. -2015. - P. 29-37.
2. Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. - 2016. - Т. 2. - №. 2. - С. 173-186.
3. Ianina A., Golitsyn L., and Vorontsov K. Multi-objective topic modeling for exploratory search in tech news // Proceedings of the Conference on Artificial Intelligence and Natural Language. - 2017. - Springer, Cham. - P. 181-193.
4. Ianina A., Vorontsov K . Regularized multimodal hierarchical topic model for document-by-document exploratory search // 25th Conference of Open Innovations Association (FRUCT). - IEEE, 2019. - P. 131-138.
5. Ianina A., Vorontsov K. Hierarchical Interpretable Topical Embeddings for Exploratory Search and Real-Time Document Tracking // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). - 2020. - V. 11. - №. 4. - P. 134-152.
6. Nesterenko A., Ianina A. Learning to Rank with Capsule Neural Networks // Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts (AIST-2021). - 2022. - LNCS, V. 13217. - P. 108-121.
7. Zheltova K., Ianina A., Malykh V. Topical Extractive Summarization // Proceedings of the Artificial Intelligence and Natural Language Conference (AINL-2022). - 2022. (Принята в печать 07.10.2022).
8. Grishanov A., Ianina A., Vorontsov K. Multiobjective Evaluation of Reinforcement Learning Based Recommender Systems // Proceedings of the 16th ACM Conference on Recommender Systems. - 2022. - P. 622-627.
9. Воронцов К., Фрей А., Ромов П., Янина А., Суворова М., Апишев М. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. - 2015. - С. 28-36.
10. Ianina A., Vorontsov K. Multimodal topic modeling for exploratory search in collective blog. // Intelligent Data Processing: Theory and Applications: Book of abstracts of the 11th International Conference (Moscow, Russia - Barcelona, Spain, 2016). — Moscow: TORUS PRESS, 2016. - P. 186-187.
11. Янина А. О. Мультимодальные тематические модели для разведочного поиска. // Сборник тезисов участников форума «Наука будущего-наука молодых». - 2017. - С. 145-146.
12. Ianina A., Vorontsov K. Topical Exploratory Search. // Intelligent Data Processing: Theory and Applications: Book of abstracts of the 12th International
Conference (Moscow, Russia - Gaeta, Italy, 2018). — Moscow: TORUS PRESS, 2018. - P. 146-147.
13. Еремеев М, Янина А. О. Разведочный поиск на основе тематического моделирования. // Сборник тезисов XXVI Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2019»; секция «Вычислительная математика и кибернетика». - 2019. - С. 114-116.
14. Ianina A., Vorontsov K. Regularized multomodal hierarchical topic model for document-by-document exploratory search // Mathematical Methods for Pattern Recognition: Book of abstract of the 19th Russian National Conference on with International Participation. - Russian Academy of Sciences, 2020. - P. 253-258.
15. Ramazanova A., Ianina A., Vorontsov K. Neural topic models for article recommendation // Mathematical Methods for Pattern Recognition: Book of abstract of the 20th Russian National Conference with International Participation. - Russian Academy of Sciences, 2021. - P. 350-355.
Личный вклад автора
Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Автор данной диссертационной работы предложила несколько алгоритмов разведочного поиска текстов, в том числе алгоритм, основанный на интерпретируемых иерархических тематических представлениях текстов, каскадный метод сравнения тематических векторов, методы ранжирования и оценки результатов исследовательского поиска. Реализация алгоритмов осуществлялась автором под научным руководством д.ф.-м.наук К.В.Воронцовым. У автора было много успешных коллабораций. Результаты, полученные совместно с соавторами, четко обозначены как таковые либо в тексте диссертации, либо в ссылке на результат.
Структура диссертации
Диссертация состоит из введения, 6 глав, заключения и библиографии. Общий объём диссертации составляет 186 страниц, из них 168 страниц текста, включая 42 рисунка и 30 таблиц. Библиография включает 180 наименований на 18 страницах.
Содержание диссертации
Во введении обоснована актуальность диссертационной работы, сформулированы цели и методы исследований, поставлены основные задачи, обоснована их научная новизна, показана теоретическая и практическая значимость полученных результатов, сформулированы положения, выносимые на защиту, представлен список основных публикаций и конференций, на которых были представлены результаты диссертационной работы.
В первой главе формулируется постановка задачи разведочного поиска и приводится обзор подходов к решению этой задачи. Вводятся понятия запроса и поисковой выдачи разведочного поиска. Описаны характерные особенности и требования к системам разведочного поиска. Рассмотрены классические подходы к решению задачи разведочного поиска и поиска документов по пользовательской подборке. Приводится сравнительная характеристика полнотекстового (по ключевым словам) и разведочного поиска с описанием основных особенностей обеих задач. В этой главе также дан обзор существующих решений для задач разведочного поиска с акцентом на поиске научных статей, а также высокоуровневое описание предложенной нами методологии тематического разведочного поиска.
Во второй главе изучается проблема тематического моделирования и способов его применения для решения задачи разведочного поиска. Эта глава содержит обзор классических моделей тематического моделирования (РЬБЛ, ЬБЛ) и аддитивной регуляризации тематических моделей. Вводится понятие регуляри-затора, рассматриваются наиболее популярные регуляризаторы и стратегии по их комбинированию при обучении тематических моделей. Порядок включения регуляризаторов и правила изменения их весовых коэффициентов в процессе итераций регуляризованного ЕМ-алгоритма называется стратегией регуляризации. Мы теоретически обосновываем и тестируем на коллекции русскоязычных и англоязычных статей коллективных блогов habr.ru и techcrunch.com алгоритм эффективного поиска оптимальной стратегии регуляризации, позволяющий избежать полного перебора по сетке весовых коэффициентов регуляризации и при этом получить субоптимальное качество работы тематической модели.
В рамках вопроса о выборе оптимальной стратегии регуляризации вводится понятие относительных коэффициентов регуляризации, а также формулируется и теоретически обосновывается алгоритм вывода абсолютных значений коэффициентов регуляризации через относительные значения для мультимодальных тематических моделей, обученных для решения задачи разведочного поиска.
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Энтропийные тематические модели и методы их агрегирования2023 год, доктор наук Кольцов Сергей Николаевич
Эволюционные методы оптимизации для автоматической настройки гиперпараметров тематических моделей с аддитивной регуляризацией2022 год, кандидат наук Ходорченко Мария Андреевна
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Метод и алгоритмы построения интеллектуальной диалоговой системы на основе динамического представления графов знаний2019 год, кандидат наук Романов Алексей Андреевич
Математическое и программное обеспечение вероятностного тематического моделирования потока текстовых документов2017 год, кандидат наук Карпович, Сергей Николаевич
Список литературы диссертационного исследования кандидат наук Янина Анастасия Олеговна, 2022 год
Список литературы
1. "Deep reinforcement learning for search, recommendation, and online advertising: a survey"by Xiangyu Zhao, Long Xia, Jiliang Tang, and Dawei Yin with Martin Vesely as coordinator / X. Zhao [h gp.] // ACM sigweb newsletter. — 2019. — Spring. — C. 1—15.
2. A capsule network for recommendation and explaining what you like and dislike / C. Li [h gp.] // Proceedings of the 42nd international ACM SIGIR conference on research and development in information retrieval. — 2019. — C. 275—284.
3. A capsule network-based embedding model for knowledge graph completion and search personalization / T. Vu [h gp.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — 2019. — C. 2180—2189.
4. A Contextual-Bandit Approach to Personalized News Article Recommendation / L. Li [h gp.] // Proceedings of the 19th International Conference on World Wide Web. — Raleigh, North Carolina, USA : Association for Computing Machinery, 2010. — C. 661—670. — (WWW '10). — ISBN 9781605587998. — DOI: 10.1145/1772690.1772758. — URL: https://doi.org/10.1145/1772690.1772758.
5. A model-based heuristic evaluation method of exploratory search / E. Palagi [h gp.]. — 2018.
6. A phrase mining framework for recursive construction of a topical hierarchy / C. Wang [h gp.] // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. — 2013. — C. 437—445.
7. A survey on session-based recommender systems / S. Wang [и др.] // ACM Computing Surveys (CSUR). — 2021. — Т. 54, № 7. — С. 1—38.
8. A theoretical analysis of NDCG type ranking measures / Y. Wang [и др.] // Conference on learning theory. — PMLR. 2013. — С. 25—54.
9. A topic-based search, visualization, and exploration system / C. E. Grant [и др.] // The Twenty-Eighth International Flairs Conference. — 2015.
10. Adams R., Ghahramani Z., Jordan M. Tree-Structured Stick Breaking Processes for Hierarchical Data // Advances in Neural Information Processing Systems. — 2010. — Июнь. — Т. 23.
11. Afsar M. M., Crump T., Far B. Reinforcement learning based recommender systems: A survey // arXiv preprint arXiv:2101.06286. — 2021.
12. Agichtein E, Brill E, Dumais S. Improving web search ranking by incorporating user behavior information // Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. — 2006. — С. 19—26.
13. Ahmed A., Hong L, Smola A. Nested Chinese Restaurant Franchise Process: Applications to User Tracking and Document Modeling // Proceedings of the 30th International Conference on Machine Learning. Т. 28 / под ред. S. Dasgupta, D. McAllester. — Atlanta, Georgia, USA : PMLR, 17-19 Jun.2013. — С. 1426—1434. — (Proceedings of Machine Learning Research ; 3). — URL: http://proceedings.mlr.press/v28/ahmed13.html.
14. Alvarez-Melis D., Jaakkola T. S. Tree-structured decoding with doubly-recurrent neural networks. — 2016.
15. An Unsupervised Neural Attention Model for Aspect Extraction / R. He [и др.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Vancouver, Canada : Association for Computational Linguistics, 07.2017. — С. 388—397. — DOI: 10 . 18653/v1/P17- 1036. — URL: https : //www. aclweb . org/anthology/ P17-1036.
16. An unsupervised neural attention model for aspect extraction / R. He [h gp.] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — 2017. — C. 388—397.
17. Andrzejewski D., Buttler D. Latent topic feedback for information retrieval // Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. — 2011. — C. 600—608.
18. Apishev M. Effective Implementations of Topic Modeling Algorithms // Programming and Computer Software. — 2021. — T. 47, № 7. — C. 483—492.
19. Attention is all you need / A. Vaswani [h gp.] // Advances in neural information processing systems. — 2017. — T. 30.
20. Ba L. J., Kiros J. R, Hinton G. E. Layer Normalization // CoRR. — 2016. — T. abs/1607.06450. — arXiv: 1607.06450. — URL: http://arxiv.org/abs/ 1607.06450.
21. Bai X., Guan J., Wang H. A model-based reinforcement learning with adversarial training for online recommendation // Advances in Neural Information Processing Systems. — 2019. — T. 32.
22. Bassiou N. K., Kotropoulos C. L. Online PLSA: Batch updating techniques including out-of-vocabulary words // IEEE transactions on neural networks and learning systems. — 2014. — T. 25, № 11. — C. 1953—1966.
23. Belwal R. C, Rai S., Gupta A. Text summarization using topic-based vector space model and semantic measure // Information Processing & Management. — 2021. — T. 58, № 3. — C. 102536.
24. Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin [h gp.] //. — 2018.
25. Bigartm: Open source library for regularized multimodal topic modeling of large collections / K. Vorontsov [h gp.] // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2015. — C. 370—381.
26. Blei D. M., Griffiths T. L., Jordan M. I. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies // Journal of the ACM (JACM). — 2010. — T. 57, № 2. — C. 1—30.
27. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation // Journal of machine Learning research. — 2003. — Т. 3, Jan. — С. 993—1022.
28. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Т. 3. — С. 993—1022.
29. Chen H, Jin H, Zhang F. CBL: Exploiting community based locality for efficient content search service in online social networks // IEEE Transactions on Services Computing. — 2015. — Т. 10, № 6. — С. 868—878.
30. Chien J.-T, Chang Y.-L. Bayesian sparse topic model // Journal of Signal Processing Systems. — 2014. — Т. 74, № 3. — С. 375—389.
31. Chirkova N., Vorontsov K. Additive regularization for hierarchical multimodal topic modeling // Journal Machine Learning and Data Analysis. — 2016. — Т. 2, № 2. — С. 187—200.
32. Continuous control with deep reinforcement learning. / T. P. Lillicrap [и др.] // ICLR / под ред. Y. Bengio, Y. LeCun. — 2016.
33. Costa A., Roda F. Recommender systems by means of information retrieval // Proceedings of the international conference on web intelligence, mining and semantics. — 2011. — С. 1—5.
34. Craw S. Manhattan Distance // Encyclopedia of Machine Learning and Data Mining / под ред. C. Sammut, G. I. Webb. — Boston, MA : Springer US, 2017. — С. 790—791. — ISBN 978-1-4899-7687-1. — DOI: 10.1007/978-1-4899-7687-1_511. — URL: https://doi.org/10.1007/978-1-4899-7687-1_511.
35. Cui P., Hu L., Liu Y. Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks // arXiv preprint arXiv:2010.06253. — 2020.
36. Dai A. M., Olah C., Le Q. V. Document embedding with paragraph vectors // arXiv preprint arXiv:1507.07998. — 2015.
37. Dear: Deep reinforcement learning for online advertising impression in recommender systems / X. Zhao [и др.] // Proceedings of the AAAI Conference on Artificial Intelligence. Т. 35. — 2021. — С. 750—758.
38. Deep learning based recommender system: A survey and new perspectives / S. Zhang [h gp.] // ACM Computing Surveys (CSUR). — 2019. — T. 52, № 1. — C. 1—38.
39. Deep reinforcement learning based recommendation with explicit user-item interactions modeling / F. Liu [h gp.] // arXiv preprint arXiv:1810.12027. — 2018.
40. Deep Reinforcement Learning for List-wise Recommendations / X. Zhao [h gp.] // ArXiv. — 2018. — T. abs/1801.00209.
41. Deep reinforcement learning for page-wise recommendations / X. Zhao [h gp.] // Proceedings of the 12th ACM Conference on Recommender Systems - RecSys '18. — ACM Press, 2018. — DOI: 10. 1145/3240323.3240374. — URL: https://doi.org/10.1145/3240323.3240374.
42. Deep Reinforcement Learning in Large Discrete Action Spaces / G. Dulac-Arnold [h gp.]. — 2015. — arXiv: 1512.07679 [cs.AI].
43. Deeppavlov: An open source library for conversational ai / M. Burtsev [h gp.] //. — 2018.
44. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // Journal of the Royal Statistical Society: Series B (Methodological). — 1977. — T. 39, № 1. — C. 1—22.
45. Dieng A. B., Ruiz F. J., Blei D. M. Topic modeling in embedding spaces // Transactions of the Association for Computational Linguistics. — 2020. — T. 8. — C. 439—453.
46. Ding R., Nallapati R., Xiang B. Coherence-Aware Neural Topic Modeling. — 2018. — arXiv: 1809.02687 [cs.CL].
47. Discourse-Aware Neural Extractive Text Summarization / J. Xu [h gp.]. — 2020. — arXiv: 1910.14142 [cs.CL].
48. Distributed distributional deterministic policy gradients / G. Barth-Maron [h gp.] // arXiv preprint arXiv:1804.08617. — 2018.
49. DRN: A deep reinforcement learning framework for news recommendation / G. Zheng [h gp.] // Proceedings of the 2018 world wide web conference. — 2018. — C. 167—176.
50. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [h gp.]. — 2013. — arXiv: 1301.3781 [cs.CL].
51. Eisenstein J., Ahmed A., Xing E. P. Sparse additive generative models of text // Proceedings of the 28th international conference on machine learning (ICML-11). — 2011. — C. 1041—1048.
52. Empirical evaluation of gated recurrent neural networks on sequence modeling / J. Chung [h gp.] // arXiv preprint arXiv:1412.3555. — 2014.
53. End-to-End Deep Reinforcement Learning Based Recommendation with Supervised Embedding / F. Liu [h gp.] // Proceedings of the 13th International Conference on Web Search and Data Mining. — Houston, TX, USA : Association for Computing Machinery, 2020. — C. 384—392. — (WSDM '20). — ISBN 9781450368223. — DOI: 10.1145/3336191.3371858. — URL: https://doi.org/10.1145/3336191.3371858.
54. Enriching word vectors with subword information / P. Bojanowski [h gp.] // Transactions of the Association for Computational Linguistics. — 2017. — T. 5. — C. 135—146.
55. Erkan G. Using Biased Random Walks for Focused Summarization //. — 2006.
56. Fast topic modeling library based on a technique called Additive Regularization of Topic Models. — 2015. — URL: http://bigartm.org/.
57. Feldman S. The Answer Machine. // Searcher. — 2000. — T. 8, № 1. — C. 58— 73.
58. Feuding families and former friends: Unsupervised learning for dynamic fictional relationships / M. Iyyer [h gp.] // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2016. — C. 1534—1544.
59. Frei O., Apishev M. Parallel non-blocking deterministic algorithm for online topic modeling // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2016. — C. 132—144.
60. Fujimoto S., Hoof H., Meger D. Addressing function approximation error in actor-critic methods // International conference on machine learning. — PMLR. 2018. — C. 1587—1596.
61. G-softmax: improving intraclass compactness and interclass separability of features / Y. Luo [h gp.] // IEEE transactions on neural networks and learning systems. — 2019. — T. 31, № 2. — C. 685—699.
62. Gensim—statistical semantics in python / R. Rehrek, P. Sojka [h gp.] // Retrieved from genism. org. — 2011.
63. Google News Personalization: Scalable Online Collaborative Filtering / A. S. Das [h gp.] // Proceedings of the 16th International Conference on World Wide Web. — Banff, Alberta, Canada : Association for Computing Machinery, 2007. — C. 271—280. — (WWW '07). — ISBN 9781595936547. — DOI: 10. 1145/ 1242572.1242610. — URL: https://doi.org/10.1145/1242572.1242610.
64. Graph-based Neural Multi-Document Summarization / M. Yasunaga [h gp.] // Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017). — Vancouver, Canada : Association for Computational Linguistics, 08.2017. — C. 452—462. — DOI: 10.18653/v1/K17-1045. — URL: https://www.aclweb.org/anthology/K17-1045.
65. Grishanov A., Ianina A., Vorontsov K. Multiobjective Evaluation of Reinforcement Learning Based Recommender Systems // Proceedings of the 16th ACM Conference on Recommender Systems. — 2022. — C. 622—627.
66. Grounded compositional semantics for finding and describing images with sentences / R. Socher [h gp.] // Transactions of the Association for Computational Linguistics. — 2014. — T. 2. — C. 207—218.
67. Harper F. M., Konstan J. A. The MovieLens Datasets: History and Context // ACM Trans. Interact. Intell. Syst. — New York, NY, USA, 2015. — fleK. — T. 5, № 4. — ISSN 2160-6455. — DOI: 10 . 1145/2827872. — URL: https : //doi.org/10.1145/2827872.
68. Haveliwala T. Efficient computation of PageRank : Tex. oth. / Stanford. — 1999.
69. He H., Gimpel K., Lin J. Multi-perspective sentence similarity modeling with convolutional neural networks // Proceedings of the 2015 conference on empirical methods in natural language processing. — 2015. — C. 1576—1586.
70. Hellinger E. Neue begründung der theorie quadratischer formen von unendlichvielen veränderlichen. // Journal für die reine und angewandte Mathematik. — 1909. — T. 1909, № 136. — C. 210—271.
71. Hierarchical reinforcement learning for integrated recommendation / R. Xie [h gp.] // Proceedings of the AAAI Conference on Artificial Intelligence. T. 35. — 2021. — C. 4521—4528.
72. Hierarchical topic models and the nested Chinese restaurant process / T. Griffiths [h gp.] // Advances in neural information processing systems. — 2003. — T. 16.
73. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — 1999. — C. 50—57.
74. Huggingface's transformers: State-of-the-art natural language processing / T. Wolf [h gp.] //. — 2019.
75. Ianina A., Golitsyn L, Vorontsov K. Multi-objective topic modeling for exploratory search in tech news // Conference on Artificial Intelligence and Natural Language. — Springer. 2017. — C. 181—193.
76. Ianina A., Vorontsov K. Hierarchical Interpretable Topical Embeddings for Exploratory Search and Real-Time Document Tracking // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). — 2020. — T. 11, № 4. — C. 134—152.
77. Ianina A., Vorontsov K. Regularized multimodal hierarchical topic model for document-by-document exploratory search // 2019 25th Conference of Open Innovations Association (FRUCT). — IEEE. 2019. — C. 131—138.
78. Ianina A., Vorontsov K. Regularized multimodal hierarchical topic model for document-by-document exploratory search // Mathematical Methods for Pattern Recognition: Book of abstract of the 19th Russian National Conference with International Participation. — 2020. — C. 253.
79. Ianina A., Vorontsov K. Multimodal topic modeling for exploratory search in collective blog // Journal of Machine Learning and Data Analysis. — 2016. — T. 2, № 2. — C. 173—186.
80. Improving language understanding by generative pre-training / A. Radford [h gp.]. — 2018.
81. Ishwaran H., James L. F. Gibbs sampling methods for stick-breaking priors // Journal of the American Statistical Association. — 2001. — T. 96, № 453. — C. 161—173.
82. Jaccard P. Distribution de la flore alpine dans le bassin des Dranses et dans quelques regions voisines // Bull Soc Vaudoise Sci Nat. — 1901. — T. 37. — C. 241—272.
83. Jacso P. Google Scholar: the pros and the cons // Online information review. — 2005.
84. Jarvelin K, Kekalainen J. Cumulated gain-based evaluation of IR techniques // ACM Transactions on Information Systems (TOIS). — 2002. — T. 20, № 4. — C. 422—446.
85. Jiang T. Exploratory search: a critical analysis of the theoretical foundations, system features, and research trends // Library and Information Sciences. — Springer, Berlin, Heidelberg, 2014. — C. 79—103.
86. Katz L. A new status index derived from sociometric analysis // Psychometrika. — 1953. — T. 18, № 1. — C. 39—43.
87. Kingma D. P., Ba J. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. — 2014.
88. Kingma D. P., Welling M. Auto-encoding variational bayes // arXiv preprint arXiv:1312.6114. — 2013.
89. Kipf T. N., Welling M. Semi-supervised classification with graph convolutional networks // arXiv preprint arXiv:1609.02907. — 2016.
90. Koike E, Itoh T. An interactive exploratory search system for on-line apparel shopping // Proceedings of the 8th International Symposium on Visual Information Communication and Interaction. — 2015. — C. 103—108.
91. Kompan M., Bielikova M. Content-Based News Recommendation // ECommerce and Web Technologies / nog peg. F. Buccafurri, G. Semeraro. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2010. — C. 61—72. — ISBN 978-3-642-15208-5.
92. Koren Y., Bell R., Volinsky C. Matrix Factorization Techniques for Recommender Systems // Computer. — Washington, DC, USA, 2009. — Abr — T. 42, № 8. — C. 30—37. — ISSN 0018-9162. — DOI: 10.1109/MC.2009.263. — URL: https://doi.org/10-1109/MC.2009.263.
93. Kraaij W., Post W. Task based evaluation of exploratory search systems // Proc. of SIGIR 2006 Workshop, Evaluation Exploratory Search Systems, Seattle, USA. — 2006. — C. 24—27.
94. Kullback S., Leibler R. A. On information and sufficiency // The annals of mathematical statistics. — 1951. — T. 22, № 1. — C. 79—86.
95. Kutuzov A., Kuzmenko E. WebVectors: a toolkit for building web interfaces for vector semantic models // International conference on analysis of images, social networks and texts. — Springer. 2016. — C. 155—161.
96. Language models are few-shot learners / T. Brown [h gp.] // Advances in neural information processing systems. — 2020. — T. 33. — C. 1877—1901.
97. Language Models are Unsupervised Multitask Learners / A. Radford [h gp.] //. — 2019.
98. Larsson M., Ugander J. A concave regularization technique for sparse mixture models // Advances in Neural Information Processing Systems. — 2011. — T. 24.
99. Le Q., Mikolov T. Distributed representations of sentences and documents // International conference on machine learning. — PMLR. 2014. — C. 1188— 1196.
100. Learning to collaborate in multi-module recommendation via multi-agent reinforcement learning without communication / X. He [h gp.] // Fourteenth ACM Conference on Recommender Systems. — 2020. — C. 210—219.
101. Learning to rank for information retrieval / T.-Y. Liu [h gp.] // Foundations and Trends in Information Retrieval. — 2009. — T. 3, № 3. — C. 225—331.
102. Li W., McCallum A. Pachinko allocation: DAG-structured mixture models of topic correlations // Proceedings of the 23rd international conference on Machine learning. — 2006. — C. 577—584.
103. Lin C.-Y. Rouge: A package for automatic evaluation of summaries // Text summarization branches out. — 2004. — C. 74—81.
104. Lin C.-Y., Och F. Looking for a few good metrics: ROUGE and its evaluation // Ntcir Workshop. — 2004.
105. Liu Z., Wen S., Quan Y. Deep Reinforcement Learning based Group Recommender System // arXiv preprint arXiv:2106.06900. — 2021.
106. Marchionini G. Exploratory search: from finding to understanding // Communications of the ACM. — 2006. — T. 49, № 4. — C. 41—46.
107. Miao Y., Grefenstette E, Blunsom P. Discovering discrete latent topics with neural variational inference // International Conference on Machine Learning. — PMLR. 2017. — C. 2410—2419.
108. Miao Y., Yu L., Blunsom P. Neural variational inference for text processing // International conference on machine learning. — PMLR. 2016. — C. 1727— 1736.
109. Mihalcea R., Tarau P. TextRank: Bringing Order into Text // Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. — Barcelona, Spain : Association for Computational Linguistics, 07.2004. — C. 404—411. — URL: https://www.aclweb.org/anthology/W04-3252.
110. Mimno D., Hoffman M., Blei D. Sparse stochastic inference for latent Dirichlet allocation // arXiv preprint arXiv:1206.6425. — 2012.
111. Mimno D, Li W., McCallum A. Mixtures of hierarchical topics with pachinko allocation // Proceedings of the 24th international conference on Machine learning. — 2007. — C. 633—640.
112. Mind: A large-scale dataset for news recommendation / F. Wu [h gp.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — 2020. — C. 3597—3606.
113. Mining ethnic content online with additively regularized topic models / M. Apishev [h gp.] // Computacion y Sistemas. — 2016. — T. 20, № 3. — C. 387— 403.
114. Modeling topic hierarchies with the recursive Chinese restaurant process / J. Kim [h gp.] //. — 10.2012. — C. 783—792. — DOI: 10 . 1145/2396761. 2396861.
115. Mueller J., Thyagarajan A. Siamese recurrent architectures for learning sentence similarity // Proceedings of the AAAI conference on artificial intelligence. T. 30. — 2016.
116. Murtagh F. Multilayer perceptrons for classification and regression // Neurocomputing. — 1991. — T. 2, № 5/6. — C. 183—197.
117. Nallapati R., Zhai F., Zhou B. SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents. — 2016. — arXiv: 1611.04230 [cs.CL].
118. Nested Hierarchical Dirichlet Processes / J. Paisley [h gp.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2015. — OeBp. — T. 37, № 2. — C. 256—270. — ISSN 2160-9292. — DOI: 10.1109/tpami.2014. 2318728. — URL: http://dx.doi.org/10.1109/TPAMI.2014.2318728.
119. Nesterenko A., Ianina A. Learning to Rank with Capsule Neural Networks // Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts (AIST-2021). T. 13217. — Springer Cham, 2022. — C. 108— 121. — ISBN 978-3-031-16499-6.
120. Neural Collaborative Filtering / X. He [h gp.] // Proceedings of the 26th International Conference on World Wide Web, WWW 2017, Perth, Australia, April 3-7, 2017 / nog peg. R. Barrett [h gp.]. — ACM, 2017. — C. 173—182. — DOI: 10 . 1145/3038912 . 3052569. — URL: https : //doi . org/10 . 1145/ 3038912.3052569.
121. Ng S. K., Krishnan T., McLachlan G. J. The EM algorithm // Handbook of computational statistics. — Springer, 2012. — C. 139—172.
122. Non-bayesian additive regularization for multimodal topic modeling of large collections / K. Vorontsov [h gp.] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications. — 2015. — C. 29—37.
123. Nonparametric Variational Auto-encoders for Hierarchical Representation Learning / P. Goyal [h gp.]. — 2017. — arXiv: 1703.07027 [cs.LG].
124. Otterbacher J., Erkan G., Radev D. R. Biased LexRank: Passage retrieval using random walks with question-based priors // Information Processing & Management. — 2009. — T. 45, № 1. — C. 42—54.
125. Palagi E. Evaluating exploratory search engines: designing a set of user-centered methods based on a modeling of the exploratory search process // PhD thesis / Palagi Emilie. - Universite Cote d'Azur. — 2018.
126. Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation // Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). — 2014. — C. 1532—1543.
127. Pernkopf F., Peharz R., Tschiatschek S. Introduction to probabilistic graphical models // Academic Press Library in Signal Processing. T. 1. — Elsevier, 2014. — C. 989—1064.
128. Philip S., Shola P., Abari O. Application of Content-Based Approach in Research Paper Recommendation System for a Digital Library // International Journal of Advanced Computer Science and Applications. — 2014. — okt. — T. 5. — DOI: 10.14569/IJACSA.2014.051006.
129. Proximal Policy Optimization Algorithms / J. Schulman [h gp.]. — 2017. — arXiv: 1707.06347 [cs.LG].
130. Pujara J., Skomoroch P. Large-scale hierarchical topic models // NIPS Workshop on Big Learning. T. 128. — 2012.
131. Punjabi A., Schmid J., Katsaggelos A. K. Examining the benefits of capsule neural networks // arXiv preprint arXiv:2001.10964. — 2020.
132. Quadrana M., Cremonesi P., Jannach D. Sequence-aware recommender systems // ACM Computing Surveys (CSUR). — 2018. — T. 51, № 4. — C. 1—36.
133. Rahman M. Search engines going beyond keyword search: A survey // International Journal of Computer Applications. — 2013. — T. 75, № 17. — C. 1—8.
134. Ramazanova A., Ianina A., Vorontsov K. Neural topic models for article recommendation // Mathematical Methods for Pattern Recognition: Book of abstract of the 20th Russian National Conference with International Participation. — 2021. — C. 350.
135. Rehurek R., Sojka P. Gensim-python framework for vector space modelling // NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic. — 2011. — T. 3, № 2.
136. Riedl M., Biemann C. TopicTiling: a text segmentation algorithm based on LDA // Proceedings of ACL 2012 student research workshop. — 2012. — C. 37—42.
137. Roberta: A robustly optimized bert pretraining approach / Y. Liu [h gp.] //. — 2019.
138. Sabour S., Frosst N., Hinton G. E. Dynamic routing between capsules // arXiv preprint arXiv:1710.09829. — 2017.
139. Scalable and robust construction of topical hierarchies / C. Wang [h gp.] // arXiv preprint arXiv:1403.3460. — 2014.
140. Scalable topical phrase mining from text corpora / A. El-Kishky [h gp.] // arXiv preprint arXiv:1406.6312. — 2014.
141. Schauer H. From elementary discourse units to complex ones // 1st SIGdial Workshop on Discourse and Dialogue. — 2000. — C. 46—55.
142. Scherer M., Landesberger T. v., Schreck T. Topic modeling for search and exploration in multivariate research data repositories // International Conference on Theory and Practice of Digital Libraries. — Springer. 2013. — C. 370—373.
143. Scikit-learn: Machine learning in Python / F. Pedregosa [h gp.] // the Journal of machine Learning research. — 2011. — T. 12. — C. 2825—2830.
144. Seqgan: Sequence generative adversarial nets with policy gradient / L. Yu [h gp.] // Proceedings of the AAAI conference on artificial intelligence. T. 31. —
2017.
145. Shah C., Hendahewa C., Gonzalez-Ibanez R. Rain or shine? Forecasting search process performance in exploratory search tasks // Journal of the Association for Information Science and Technology. — 2016. — T. 67, № 7. — C. 1607— 1623.
146. Shashanka M., Raj B., Smaragdis P. Sparse overcomplete latent variable decomposition of counts data // Advances in neural information processing systems. — 2007. — T. 20.
147. Singh R., Hsu Y.-W., Moon N. Multiple perspective interactive search: a paradigm for exploratory search and information retrieval on the web // Multimedia tools and applications. — 2013. — T. 62, № 2. — C. 507—543.
148. Singh V., Singh A. Learn-as-you-go: feedback-driven result ranking and query refinement for interactive data exploration // Procedia Computer Science. —
2018. — T. 125. — C. 550—559.
149. Srivastava A., Sutton C. Autoencoding Variational Inference For Topic Models. — 2017. — arXiv: 1703.01488 [stat.ML].
150. Srivastava N. Learning size and structure of document ontologies using generative topic models. — 2010.
151. Tan Y, Ou Z. Topic-weak-correlated latent dirichlet allocation // 2010 7th International Symposium on Chinese Spoken Language Processing. — IEEE. 2010. — C. 224—228.
152. Taxonomy of educational objectives, handbook I: the cognitive domain. New York: David McKay Co / B. S. Bloom [h gp.]. — 1956.
153. Top-k off-policy correction for a REINFORCE recommender system / M. Chen [h gp.] // Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. — 2019. — C. 456—464.
154. TopicNet: Making additive regularisation for topic modelling accessible / V. Bulatov [h gp.] // Proceedings of the 12th Language Resources and Evaluation Conference. — 2020. — C. 6745—6752.
155. Transformer-xl: Attentive language models beyond a fixed-length context / Z. Dai [h gp.] //. — 2019.
156. Transforming Wikipedia into Augmented Data for Query-Focused Summarization / H. Zhu [h gp.]. — 2019. — arXiv: 1911.03324 [cs.CL].
157. Tree-Structured Neural Topic Model / M. Isonuma [h gp.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Online : Association for Computational Linguistics, 07.2020. — C. 800—806. — DOI: 10 . 18653/v1/2020 . acl-main . 73. — URL: https : //www . aclweb . org/anthology/2020.acl-main.73.
158. Uhlenbeck G. E, Ornstein L. S. On the theory of the Brownian motion // Phys. Rev. — 1930. — T. 36, № 3. — C. 823—841.
159. Using word embeddings for information retrieval: How collection and term normalization choices affect performance / D. Roy [h gp.] // Proceedings of the 27th ACM international conference on information and knowledge management. — 2018. — C. 1835—1838.
160. Veas E. E., Sciascio C. di. Interactive topic analysis with visual analytics and recommender systems // 2nd Workshop on Cognitive Computing and Applications for Augmented Human Intelligence, CCAAHI2015, International Joint Conference on Artificial Intelligence, IJCAI, Buenos Aires, Argentina. — 2015.
161. Vorontsov K., Potapenko A. Additive regularization of topic models // Machine Learning. — 2015. — T. 101, № 1. — C. 303—323.
162. Vorontsov K., Potapenko A. Tutorial on probabilistic topic modeling: Additive regularization for stochastic matrix factorization // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2014. — C. 29— 46.
163. Vuong T., Jacucci G., Ruotsalo T. Proactive information retrieval via screen surveillance // Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. — 2017. — C. 1313— 1316.
164. Wang C., Blei D. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process // Advances in neural information processing systems. — 2009. — T. 22.
165. Wasserstein auto-encoders / I. Tolstikhin [h gp.] // arXiv preprint arXiv:1711.01558. — 2017.
166. Wei X., Croft W. B. LDA-based document models for ad-hoc retrieval // Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. — 2006. — C. 178—185.
167. Weston J., Bengio S., Usunier N. Wsabie: Scaling up to large vocabulary image annotation // Twenty-Second International Joint Conference on Artificial Intelligence. — 2011.
168. White R. W., Roth R. A. Exploratory search: Beyond the query-response paradigm // Synthesis lectures on information concepts, retrieval, and services. — 2009. — T. 1, № 1. — C. 1—98.
169. Wiener N. Collected works with commentaries. — Mit Press, 1976.
170. Xie P., Deng Y., Xing E. Diversifying restricted boltzmann machine for document modeling // Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. — 2015. — C. 1315— 1324.
171. Yi X, Allan J. A comparative study of utilizing topic models for information retrieval // European conference on information retrieval. — Springer. 2009. — C. 29—41.
172. Zavitsanos E, Paliouras G., Vouros G. A. Non-parametric estimation of topic hierarchies from texts with hierarchical Dirichlet processes. // Journal of Machine Learning Research. — 2011. — T. 12, № 10.
173. Zhang L. Neural Topic Models. — 2020. — https : //github . com/zll17/ Neural_Topic_Models.
174. Zhao C, Hu L. CapDRL: A Deep Capsule Reinforcement Learning for Movie Recommendation // Pacific Rim International Conference on Artificial Intelligence. — Springer. 2019. — C. 734—739.
175. Zheltova K., Ianina A., Malykh V. Topical Extractive Summarization // Proceedings of the Artificial Intelligence and Natural Language Conference 2022 (AINL-2022). — Springer. 2022.
176. Zhuang Z., Cucerzan S. Re-ranking search results using query logs // Proceedings of the 15th ACM international conference on Information and knowledge management. — 2006. — С. 860—861.
177. Воронцов К. В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. — 2021. — URL: http : / /www . machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf.
178. Ирхин И. А., Воронцов К. В. Сходимость алгоритма аддитивной регуляризации тематических моделей // Труды Института математики и механики УрО РАН. — 2020. — Т. 26, № 3. — С. 56—68.
179. Янина А., Воронцов К. Тематический информационный поиск // Тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации". — 2018. — С. 112—113.
180. Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. — 2016. — Т. 2, № 2. — С. 173—186.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.