Методы оценивания качества и многокритериальной оптимизации тематических моделей в библиотеке TopicNet тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Булатов Виктор Геннадьевич
- Специальность ВАК РФ05.13.18
- Количество страниц 147
Оглавление диссертации кандидат наук Булатов Виктор Геннадьевич
Введение
Глава 1. Вероятностное тематическое моделирование
1.1 Задача тематического моделирования
1.2 Классические тематические модели
1.3 Аддитивная регуляризация тематических моделей
1.3.1 Тематическое моделирование в рамках подхода ЛКГМ
1.3.2 Мультимодальное тематическое моделирование
1.4 Приложения тематического моделирования
1.4.1 Анализ программных продуктов
1.4.2 Разведочный информационный поиск
1.5 Интерпретируемость тематических моделей
1.6 Проблемы тематического моделирования
1.6.1 Неинтерпретируемые темы
1.6.2 Вводящие в заблуждение темы
1.6.3 Неустойчивость
1.6.4 Доступность
1.6.5 Подбор гиперпараметров
Глава 2. Критерии качества тематических моделей
2.1 Экспертная оценка тематических моделей
2.2 Устойчивость
2.3 Различность тем
2.3.1 Оценки попарной различности между темами
2.3.2 Расстояние до известных распределений
2.4 Разреженность
2.5 Значимость
2.6 Теоретико-информационные критерии
2.7 Энтропия
2.8 Величины, полезные для диагностики
2.9 Анализ верхних токенов
2.9.1 Похожесть списков верхних токенов
2.9.2 Когерентность
2.9.3 Качество кластеризации
2.9.4 Критерий Ьо§Ый
2.9.5 Критерий ВЫ-эсоге
Глава 3. Внутритекстовая когерентность
3.1 Каркас вычисления когерентности
3.2 Критика метрик, основанных на верхних токенах
3.2.1 Учёт специфики коллекции
3.2.2 Когерентность и стоп-слова
3.3 Эксперимент: никаких оценок без представительства
3.4 Предлагаемая мера: внутритекстовая когрентность
3.5 Постановка задачи
3.6 Вычислительный эксперимент
3.6.1 Результаты
Глава 4. Повышение интерпретируемости тематических
моделей при помощи регуляризации
4.1 Относительные коэффициенты регуляризации
4.1.1 Регуляризация Ф и важные частные случаи
4.1.2 Регуляризация в и важные частные случаи
4.1.3 Использование на практике
4.2 Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
4.2.1 ЕМ-алгоритм с быстрой векторизацией документов
4.2.2 Эксперименты
4.2.3 Метрики
4.2.4 Результаты
4.2.5 Интуитивное объяснение особенностей ТЛЯТМ
4.3 Заключение
Глава 5. Библиотека TopicNet и её применение в конкретных
задачах
5.1 Сравнимые проекты
5.2 Технология в основе
5.2.1 Достоинства BigARTM
5.2.2 Недостатки BigARTM
5.3 Мотивация и видение
5.4 Архитектура
5.5 Механизм отбора моделей в TopicNet
5.6 Сравнение с конкурентами
5.6.1 Использование ресурсов
5.6.2 Качество построенных моделей
5.6.3 Использование псевдорегуляризатора быстрой векторизации
5.7 Адаптивная траектория регуляризации
5.7.1 Ухудшение модели
5.7.2 Архитектура Regularization Controller Cube
5.8 Заключение
Глава 6. Применение регуляризации для кластеризации
интентов
6.1 Предобработка
6.1.1 Объединение и фильтрация реплик
6.1.2 Автоматическое выделение п-грам
6.1.3 Распознавание именованных сущностей
6.1.4 Коррекция ошибок
6.2 Построение модели
6.2.1 Построение уровней иерархии
6.2.2 Обработка результатов моделирования
6.3 Эксперименты
6.3.1 Оценка качества
6.3.2 Базовые модели
6.3.3 Качество предложенной модели
6.4 Выводы
Заключение
Список сокращений и условных обозначений
Список литературы
Список рисунков
Список таблиц
Приложение А. Свидетельства о государственной регистрации
программ
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Единственность матричного разложения и сходимость регуляризованных алгоритмов в вероятностном тематическом моделировании2020 год, кандидат наук Ирхин Илья Александрович
Эффективная реализация алгоритмов тематического моделирования с аддитивной регуляризацией2020 год, кандидат наук Апишев Мурат Азаматович
Семантические векторные представления текста на основе вероятностного тематического моделирования2019 год, кандидат наук Потапенко Анна Александровна
Математическое и программное обеспечение вероятностного тематического моделирования потока текстовых документов2017 год, кандидат наук Карпович, Сергей Николаевич
Эволюционные методы оптимизации для автоматической настройки гиперпараметров тематических моделей с аддитивной регуляризацией2022 год, кандидат наук Ходорченко Мария Андреевна
Введение диссертации (часть автореферата) на тему «Методы оценивания качества и многокритериальной оптимизации тематических моделей в библиотеке TopicNet»
Введение
Тематическое моделирование — это обширное направление исследований в области автоматической обработки текстов. Тематическая модель коллекции текстовых документов определяет, к каким темам относится каждый документ и из каких слов состоит каждая тема. В отличие от обычных методов кластеризации, тематическая модель может относить документ не к одному кластеру-теме, а к нескольким, то есть она производит «мягкую кластеризацию», причём не только документов, но и слов.
Обычно тематические модели относят к методам машинного обучения «без учителя», поскольку они не требуют размеченных обучающих выборок. Это позволяет использовать тематическое моделирование в тех случаях, когда никаких дополнительных данных, кроме собственно текстовой коллекции, не имеется, например, для информационного поиска в больших текстовых массивах, для анализа специализированных текстов или текстов на редких языках, для анализа больших массивов текстоподобных данных, таких как программный код, тексты песен, банковские транзакции, географические данные, музыкальные произведения.
Результатом вероятностного тематического моделирования является конечное множество тем, каждая из которых описывается вероятностным распределением на множестве слов. Важным свойством темы является её интерпретируемость. Слова, имеющие большую вероятность в данной теме, должны относиться к одной предметной области и быть семантически связанными. Тема считается интерпретируемой, если, рассматривая наиболее частотные слова темы, эксперт может сказать, о чём эта тема, и дать ей определённое название [1]. Если все темы (или почти все) интерпретируемые, то о такой модели говорят, что она в целом является интерпретируемой. В таком случае модель может быть полезна для понимания тематической структуры коллекции. Интерпретируемость является трудно формализуемой характеристикой. Существуют различные экспертные и вычислительные методики её количественного оценивания [2].
Развитие вероятностного тематического моделирования началось с работы Т.Хофманна [3], в которой была предложена модель вероятностного латентного семантического анализа (Probabilistic Latent Semantic Analysis, PLSA). Построение тематической модели является некорректно поставленной задачей стохастического матричного разложения, которая имеет бесконечное множество решений. Для
доопределения постановки задачи и выбора наиболее подходящего решения необходимо вводить дополнительные ограничения на модель. Следующей важной вехой стала модель латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) [4], основанная на байесовской регуляризации искомых дискретных распределений с помощью априорных распределений Дирихле. В последующие годы на основе PLSA и LDA были разработаны сотни специализированных моделей, отличающихся способами регуляризации, структурой исходных данных и матричного разложения [5—7].
Аддитивная регуляризация тематических моделей (ARTM) позволяет комбинировать регуляризаторы для создания моделей с заданными свойствами [8; 9]. Это многокритериальный подход, основанный на оптимизации взвешенной суммы основного критерия (логарифма правдоподобия) и некоторого количества дополнительных критериев-регуляризаторов. Многокритериальный подход является ответом на практическую потребность строить модели, обладающие целым рядом необходимых свойств одновременно [10]. Соответственно, в каждой конкретной задаче тематического моделирования может быть много не только оптимизационных критериев, но и метрик качества, с помощью которых валидируется (оценивается) построенная модель. В частности, в [9] было показано, что комбинирование регуляризаторов сглаживания, разреживания, декоррелирования и отбора тем позволяет одновременно улучшить несколько метрик качества (разреженность, различность и интерпретируемость тем) без заметного ухудшения основного критерия правдоподобия (или перплексии) модели. Тематические модели для разведочного информационного поиска, в дополнение к этим свойствам, должны быть также мультимодальными (учитывать не только слова, но и биграммы, теги, категории, авторство документов) и иерархическими (разделять крупные темы на более мелкие подтемы) [11]. Построение таких моделей требует не только выбора множества модальностей и регуляризаторов, но и подбора различных гиперпараметров.
На основе теории аддитивной регуляризации тематических моделей была разработана библиотека тематического моделирования с открытым кодом BigARTM [12; 13]. Свойство аддитивности регуляризаторов позволило реализовать в BigARTM модульный подход, когда пользователь выбирает из библиотеки нужный ему набор регуляризаторов для построения модели с требуемыми свойствами. Возможность конструирования новых композитных моделей из «готовых блоков» существенно отличает BigARTM от других средств тематического моделирования,
основанных на теории байесовского обучения, в которой каждая новая модель требует проведения уникальных математических выкладок (байесовского вывода) и, как следствие, разработки нового программного кода.
Несмотря на модульность, гибкость, масштабируемость и высокую производительность [10], практическое применение библиотеки BigARTM наталкивается на ряд трудностей. Пользователь должен хорошо разбираться в теории ARTM, чтобы грамотно выбрать стратегию регуляризации, то есть последовательность включения регуляризаторов, затем подобрать число тем, коэффициенты регуляризации для каждого регуляризатора и другие гиперпараметры. Эта работа связана с проведением серий вычислительных экспериментов, которые требуют тщательного планирования, журнализации, валидации, визуализации и критического осмысления промежуточных результатов. Таким образом, BigARTM перекладывает на пользователя значительный объём работы, требующей пристального внимания и высокой квалификации.
Актуальной задачей является создание технических средств для автоматизации экспериментов по построению аддитивно регуляризованных тематических моделей, их валидации и выбора лучшей модели по заданной совокупности метрик качества.
Тематическое моделирование является полезным инструментом в цифровых гуманитарных исследованиях (digital humanities) [14; 15]. Однако процессы построения, валидации и выбора тематических моделей практически не алгоритмизированы [15]. Большое прикладное значение имеет разработка новых методов визуализации, автоматической валидации и выбора моделей [16].
Также исследователи сталкиваются с неустойчивостью [17] и неинтерпретируемостью тем [18]. Известно, что настройка гиперпараметров модели может повысить её устойчивость [19], однако на практике она выполняется редко, и для неё нет единой принятой методологии [19; 20].
Настройка гиперпараметров может помочь и с интерпретируемостью тем, особенно в рамках подхода ARTM. Известные регуляризаторы, такие как регуляризатор декоррелирования, способствуют повышению различности и интерпретируемости тем [21]; также можно использовать регуляризатор, напрямую оптимизирующий заданный критерий, как это было сделано в [22] для критерия средней когерентности тем.
К сожалению, интерпретируемости трудно дать формальное определение. Попытки определить плохие темы через расстояние до известных «мусорных»
тем или через низкие значения когерентности дают лишь срез проблематичных тем и имеют ограниченную область применимости [18]. Системный подход к измерению интерпретируемости предполагает оценивание каждой темы по нескольким критериям качества [23].
Таким образом, принятые методологии перекладывают ответственность за подбор гиперпараметров на исследователя; при этом процедура подбора остаётся нерегламентированной, что создаёт высокий барьер входа для неспециалистов. В обзорной монографии [7] подчёркивается важность снижения порога входа и более жёсткой регламентации процесса моделирования: «первоочередная исследовательская задача в тематическом моделировании... сделать его более доступным».
Мы видим, что важными нерешёнными проблемами являются: обеспечение интерпретируемости моделей, подбор гиперпараметров и стандартизация процесса построения тематической модели для широкого класса пользовательских прикладных задач.
Целью данного диссертационного исследования является разработка и реализация технологии построения интерпретируемых аддитивно регуляризован-ных тематических моделей, применимых для решения широкого класса задач тематического моделирования.
Для достижения поставленной цели решаются следующие задачи.
1. Реализация, эмпирическое исследование и улучшение автоматически вычисляемых критериев интерпретируемости тематических моделей, в том числе нового критерия внутритекстовой когерентности.
2. Разработка методологии и средств автоматизации проведения экспериментов по подбору стратегии регуляризации и выбору гиперпараметров тематической модели.
3. Проектирование архитектуры библиотеки TopicNet с открытым кодом на О^НиЬ для реализации данной методологии. Разработка и реализация интерфейсов, обеспечивающих создание пользовательских регуляризаторов и метрик качества в Торю^^
4. Поиск универсального «рецепта» построения аддитивно регуляризо-ванных тематических моделей, превосходящих ЬЭЛ по совокупности критериев качества, применение которого не требовало бы от пользователя знания теории ЛИТМ.
5. Решение прикладных задач с использованием разработанной библиотеки ТорюКе!, в частности, задачи кластеризации интентов в текстовой коллекции обращений клиентов в контактный центр.
Научная новизна. Предложена новая методология многокритериального выбора моделей на основе концепций «дерева экспериментов», «кубов гиперпараметров» и «рецептов моделирования» в рамках теории аддитивной регуляризации тематических моделей (ЛИТЫ). Разработан универсальный «рецепт» построения аддитивно регуляризованных тематических моделей, превосходящих ЬЭЛ по совокупности критериев качества. Предложен новый способ построения иерархических тематических моделей с разными весами модальностей на разных уровнях иерархии.
Теоретическая значимость. Работа вносит вклад в развитие теории аддитивной регуляризации тематических моделей (ЛИТЫ), предоставляя исследователям удобную инструментальную среду, позволяющую накопить эмпирический материал для изучения стратегий регуляризации и их влияния на качество тематических моделей при многокритериальном оценивании. Вводятся понятия внутритекстовой когерентности, относительных и абсолютных коэффициентов регуляризации, фактора балансировки, дерева экспериментов, куба гиперпараметров, рецепта моделирования.
Практическая значимость. Предложенные подходы и методы реализованы в библиотеке тематического моделирования с открытым кодом ТорюКе!, которая может быть использована и уже используется для решения различных прикладных задач анализа текстовых и транзакционных данных. Реализованные в библиотеке концепции дерева экспериментов, куба гиперпараметров и рецепта моделирования позволяют находить, сохранять и распространять в сообществе исследователей удачные приёмы решения прикладных задач тематического моделирования.
Показано, что использование относительных коэффициентов регуляризации обеспечивает возможность переноса стратегии обучения тематической модели на другие текстовые коллекции: один и тот же набор значений относительных коэффициентов регуляризации и/или весов модальностей может быть использован для различных прикладных задач. В случае, когда непосредственный перенос численных значений нецелесообразен из-за специфики новой коллекции, относительные коэффициенты облегчают подбор оптимальных значений, поскольку они находятся
в диапазоне [0,1] и интерпретируются как степень воздействия регуляризатора на модель в сравнении с основным критерием логарифмированного правдоподобия.
Предложенные в данной работе и реализованные в TopicNet механизмы были успешно применены для решения ряда прикладных задач: для кластеризации интентов в текстовой коллекции обращений клиентов в контактный центр [21], для анализа банковских транзакционных данных [24] и других.
Методология и методы исследования. В работе использованы методы теории вероятностей, численной оптимизации, автоматической обработки текстов, машинного обучения, вероятностного тематического моделирования. Экспериментальное исследование проводится на языке Python; опубликованная на GitHub библиотека TopicNet, подытоживающая результаты исследования, открыта для свободного использования и удовлетворяет принципам воспроизводимости результатов.
Основные положения, выносимые на защиту:
1. Разработана методология построения аддитивно регуляризованных тематических моделей, обеспечивающая формирование «рецептов моделирования» с автоматизированным подбором гиперпараметров по множеству критериев и отличающаяся использованием относительных коэффициентов регуляризации и кубов гиперпараметров.
2. Выстроена архитектура библиотеки TopicNet, обеспечивающая программную реализацию данной методологии и отличающаяся использованием удобного языка описания кубов гиперпараметров и возможностью создания пользовательских регуляризаторов и метрик качества на языке Python.
3. Создан универсальный рецепт моделирования, обеспечивающий многокритериальный выбор тематических моделей для широкого класса задач, отличающийся предварительной настройкой куба гиперпараметров по набору разнородных задач тематического моделирования.
4. Выполнена программная реализация нового критерия когерентности, обеспечивающая его эффективное вычисление и отличающаяся более полным использованием данных о сочетаемости слов внутри текстовых документов.
Достоверность полученных результатов обеспечивается вычислительными экспериментами на реальных текстовых коллекциях. Методика и результаты подробно описаны в тексте работы. Разработанный код библиотеки TopicNet и
проведённых экспериментов находится в открытом доступе, что обеспечивает воспроизводимость результатов. Достоверность также подтверждается тремя свидетельствами о регистрации программы для ЭВМ (№2019661840, №2019662102 и №2020613851).
Апробация работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах:
— Международная конференция по компьютерной лингвистике «Диалог», Москва, 1 июня 2018.
— International Conference Recent Advances in Natural Language Processing (RANLP), Варна, 3 сентября 2019.
— Открытая лекция в рамках образовательного проекта Физтех.Рост, Долгопрудный, 18 октября 2019.
— Открытый научный семинар «Методы анализа текстов», Москва, 28 марта 2018.
— Открытый научный семинар «Презентация TopicNet», Москва, 10 августа 2019.
— OpenTalks.AI — ведущая открытая конференция по искусственному интеллекту, Москва, 20 февраля 2020 года.
— International Conference on Language Resources and Evaluation (LREC), Марсель (должна была состояться в мае 2020).
Личный вклад. Личный вклад диссертанта в работы, выполненные с соавторами, заключается в следующем:
— В [25] предложен метод генерации полусинтетической выборки, проведены эксперименты по анализу репрезентативности высокочастотных слов в темах.
— В [21] выполнена реализация иерархической тематической модели средствами библиотеки TopicNet; предложен метод разделения слов и п-грам по функциональному назначению; предложены методы анализа ошибок моделирования; выполнены эксперименты с относительными коэффициентами регуляризации.
— В [26] описана архитектура библиотеки TopicNet, концепция кубов гиперпараметров и дерева эксперимента, методы отбора моделей и связанный с ними специализированный язык описания кубов; проведена часть экспериментов, связанная с GenSim и с различностью тем.
— В [27] предложена адаптация псевдорегуляризатора для библиотеки TopicNet и выполнена его программная реализация; проведена связанная с этим часть экспериментов.
Публикации. Основные результаты по теме диссертации изложены в трёх рецензируемых публикациях, две из которых проиндексированы Scopus. Статья [27] принята к публикации в 2020 году (ВАК и Scopus). Также получены три свидетельства о государственной регистрации программы для ЭВМ (№2019661840, №2019662102 и №2020613851).
Объем и структура работы. Диссертация состоит из введения, двух обзорных глав, четырёх глав с результатами проведенного исследования, заключения, списка литературы и приложения. Полный объём диссертации составляет 147 страниц, включая 19 рисунков и 14 таблиц. Список литературы содержит 159 наименований.
Глава 1. Вероятностное тематическое моделирование
Тематическое моделирование - это направление исследований на стыке машинного обучения и обработки естественного языка. Вероятностная тематическая модель коллекции текстовых документов описывает каждый документ дискретным вероятностным распределением на множестве тем, а каждую тему — дискретным вероятностным распределением на множестве слов. Наряду со словами могут использоваться словосочетания, теги, категории и даже нетекстовые сущности, поэтому для общности будем говорить не о словах, а о токенах или термах.
В данной главе рассматриваются постановка задачи вероятностного тематического моделирования и основы теории аддитивной регуляризации тематических моделей согласно [8; 10].
1.1 Задача тематического моделирования
Тематическая модель описывается двумя распределениями: p(w 11) (вероятность того, что тема t породит токен w) и p(t | d) (пропорция темы t в документе d). Часто используется обозначения tywt = p(w 11), Qtd = p(t | d). Два искомых распределения можно тогда представить в виде стохастических матриц Ф и ©.
С точки зрения тематического моделирования, корпус документов представляет собой последовательность трёхэлементных кортежей Пп = {(wi,di,ti) | i = 1,... . Токены Wi и документы di являются наблюдаемыми переменными, а темы ti являются скрытыми переменными.
Тематическое моделирование основано на формализации двух наблюдений лингвистической природы.
1. Существуют естественные кластеры слов, употребляемых вместе (темы).
2. В разных документах эти темы встречаются с разной частотой.
Главное допущение, лежащее в основе тематического моделирования, проще
всего сформулировать через процесс генерации документов. Тематическая модель «считает», что каждый документ порождается следующим образом:
1. Для каждой словопозиции i автор документа di выбирает случайную тему t из распределения p(t |
2. Из распределения p(w | di,t) выбирается случайное слово W{
Кажущаясся нереалистичность этого допущения на практике смягчается тем, что порядок слов в документе не важен для определения его тематики. Модель оперирует только с величинами ngw, обозначающими число вхождений слова w в документ d. Это предположение, называемое гипотезой мешка слов, сильно упрощает математический аппарат и поэтому часто используется в анализе текстов.
Ещё одно важное допущение, связанное с постановкой задачи, называется гипотезой условной независимости. Частота токена зависит только от его темы, но не зависит от документа:
p(w | d,t) = p(w 11). (1.1)
Тема может описывать множество терминов из какой-либо области: например, тема «театр» включает в себя слова «зритель», «опера», «премьера» и не включает в себя слова «космонавтика», «эмпиризм», «кредит» или «гемоглобин».
Однако темы могут иметь и более гибкую природу. Например, при анализе художественных текстов можно выделить темы, связанные с определённым персонажем; при анализе обращений в техподдержку можно выделить темы, связанные с конкретными проблемами; в анализе тональности текста (sentiment analysis) можно выделять темы, связанные с определёнными эмоциями.
Несмотря на то что тематическое моделирование предназначалось в первую очередь для поиска скрытых тем в текстовых документах, существуют и более экзотические сферы его применения:
— Анализ видеозаписей. Видеозапись является документом, в качестве токенов выступают признаки на его кадрах, а в качестве тем - события; например, проезд автомобиля через перекрёсток [28].
— Анализ изображений. Документ — это одно изображение, его токены — признаковое описание этого изображения, темы — находящиесся на изображении объекты [29].
— Судовые журналы кораблей. Документ — это одно путешествие, токен — координаты корабля в определённый день, а темы — различные «миссии», такие как перевозка грузов в определённый порт или китобойный промысел [16].
— Банковские транзакции. Документ — история покупок одного клиента, токен — код продавца, темы — типы потребительского поведения людей (например, «ремонт квартиры») [24].
— Анализ электрокардиосигналов. Документ — одна кардиограмма, токены — кодограммы (полученные на основе амплитуд и интервалов), темы — отдельные заболевания [30]
— Анализ музыкальных произведений. Документ — одно произведение, токены — последовательность тональных высотных классов (tonal pitch-classes), темы — тональные профили [31]
Для общности изложения далее мы будем использовать понятие токена вместо понятий термина или слова.
1.2 Классические тематические модели
Исторически тематическое моделирование вырастает из метода анализа многомерных данных, называемого факторным анализом (ФА). Две основные цели ФА — это выявление закономерностей в данных и нахождение более компактного способа описания данных. Как правило, в процессе ФА исследователь раскладывает данные на линейно независимые компоненты, называемые «факторами», затем отсекает незначимые факторы.
В работе [32] было предложено применить факторный анализ к задаче информационного поиска (information retrieval). Этот подход получил название латентного семантического анализа или латентной семантической индексации (Latent Semantic Indexing, LSI).
По любому документу d можно построить набор чисел v, в компоненте i которого будет указано nWi,d — число вхождений слова Wi в документ d. Этот набор чисел можно рассмотреть как вектор в пространстве высокой размерности. Также важную роль в латентном семантическом анализе играет терм-документная матрица, элемент которой на позиции (w, d) равен nwd — числу вхождений токена w в документ d и её разложение в произведение трёх матриц определённого вида.
Ключевая идея латентного семантического анализа заключается в том, что документы следует отображать в пространство более низкой размерности. Таким образом выявляется скрытая структура коллекции документов, позволяющая, например, сравнивать друг с другом пары документов, не имеющие общих слов.
Латентный семантический анализ был математически проанализирован в работе [33]: авторы рассмотрели корпус документов, сгенерированных определён-
ным вероятностным распределением, и доказали ряд результатов, касающихся геометрических свойств LSI. Использованное ими распределение фактически являлось упрощённой тематической моделью и описывалось в сходных терминах.
В 1999 году в работе [34] Хофманн рассмотрел статистическое обобщение задачи латентного семантического анализа и сформулировал задачу вероятностного латентного семантического анализа (PLSA), которая является базовой моделью в вероятностном тематическом моделировании. Введённые им понятия и метрики качества используются в тематическом моделировании и по сей день. Также в этой статье Хофман описал EM-алгоритм построения модели и экспериментально изучил его свойства.
PLSA можно считать прямым наследником LSA, поскольку его тоже можно проинтерпретировать в терминах матричного разложения. Терм-документная матрица представляется в виде произведения трёх матриц, задающих распределения вероятностей: p(d 11), p(w 11) и диагональной матрицы с диагональю p(t).
Модель PLSA была обобщена Блеем, Ыном и Джорданом в работе [4]. Они предложили накладывать дополнительное ограничение на модель, предполагая, что столбцы матриц Ф и В порождаются распределениями Дирихле. Модель латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) отличается от PLSA тем, что присутствует двухуровневая вероятностная порождающая модель, а для определения её параметров было предложено использовать математический аппарат байесовского вывода вместо условий Каруша-Куна-Таккера для задачи математического программирования, как это было сделано для модели PLSA.
Главным достоинством LDA является способность генерировать новые документы. Также считается, что LDA более устойчива к переобучению, хотя в этом вопросе нет окончательной ясности [35].
Большинство тематических моделей сегодня строится на основе LDA.
1.3 Аддитивная регуляризация тематических моделей
Для обучения параметров тематической модели tywt = p(w 1t) и 6td = p(t | d) в модели PLSA применяется принцип максимума правдоподобия:
ln^ Vwt6td ^ max. (1.2)
deD wed teT '
В тематическом моделировании было предложено множество моделей, базирующихся на PLSA и LDA, которые постепенно усложняли вероятностную модель за счёт учёта связей между документами [36—38], метаданных о документах [39], времени и мультиязычности [40], и даже информации о порядке слов в документе [41—44]. Возможность подобных расширений играет важную роль в приложениях тематического моделирования [7].
Традиционный способ построения новых тематических моделей путём обобщения модели LDA в рамках байесовского обучения описан в [7]. Рекомендации включают в себя: введение новой вероятностной модели коллекции документов (которая не должна быть слишком вычислительно сложной, оставаясь при этом реалистичной); нахождение нового алгоритма оценки апостериорного распределения параметров; реализацию этого алгоритма (при этом новая модель может оказаться несовместимой с известными вычислительными оптимизациями); валидацию результатов моделирования в экспериментах на реальных данных. В целом можно заметить, что построение тематических моделей, удовлетворяющих нескольким различным требований одновременно, остаётся трудной задачей в рамках байесовского обучения.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Тематические и нейросетевые модели языка для разведочного информационного поиска2022 год, кандидат наук Янина Анастасия Олеговна
Энтропийные тематические модели и методы их агрегирования2023 год, доктор наук Кольцов Сергей Николаевич
Метод и алгоритмы построения интеллектуальной диалоговой системы на основе динамического представления графов знаний2019 год, кандидат наук Романов Алексей Андреевич
Иерархическая классификация коллекций документов2017 год, кандидат наук Кузьмин, Арсентий Александрович
Исследование паттернов в текстах на основе динамических моделей2018 год, кандидат наук Кижаева Наталья Александровна
Список литературы диссертационного исследования кандидат наук Булатов Виктор Геннадьевич, 2020 год
Список литературы
1. Reading tea leaves: How humans interpret topic models [Текст] / J. Chang, S. Gerrish, C. Wang, J. L. Boyd-Graber, D. M. Blei // Advances in neural information processing systems. — 2009. — С. 288—296.
2. Automatic Evaluation of Topic Coherence [Текст] / D. Newman, J. H. Lau, K. Grieser, T. Baldwin // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. — Los Angeles, California : Association for Computational Linguistics, 2010. — С. 100—108. — (HLT '10). — URL: http://dl.acm. org/citation.cfm?id=1857999.1858011.
3. Hoffman, T. Probabilistic latent semantic indexing [Текст] / T. Hoffman // Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. — New York : ACM Press, 1999. — С. 50—57.
4. Blei, D. M. Latent dirichlet allocation [Текст] / D. M. Blei, A. Y. Ng, M. I. Jordan // Journal of machine Learning research. — 2003. — Т. 3, Jan. — С. 993—1022.
5. Knowledge discovery through directed probabilistic topic models: a survey [Текст] / A. Daud, J. Li, L. Zhou, F. Muhammad // Frontiers of Computer Science in China. — 2010. — Т. 4, № 2. — С. 280—301.
6. Blei, D. M. Probabilistic topic models [Текст] / D. M. Blei // Commun. ACM. — 2012. — Т. 55, № 4. — С. 77—84. — URL: http://doi.acm.org/10. 1145/2133806.2133826.
7. Applications of topic models [Текст] / J. Boyd-Graber, Y. Hu, D. Mimno [и др.] // Foundations and Trends® in Information Retrieval. — 2017. — Т. 11, № 2/3. — С. 143—296.
8. Vorontsov, K. Additive regularization for topic models of text collections [Текст] / K. Vorontsov // Doklady Mathematics. Т. 89. — Citeseer. Pleiades Publisher, 2014. — С. 301—304.
9. Vorontsov, K. V. Additive Regularization of Topic Models [Текст] / K. V. Vorontsov, A. A. Potapenko // Machine Learning, Special Issue on Data Analysis and Intelligent Optimization with Applications. — 2015. — Т. 101, № 1—3. — С. 303—323. — URL: http://dx.doi.org/10.1007/s10994-014-5476-6.
10. Fast and modular regularized topic modelling [Текст] / D. Kochedykov, M. Apishev, L. Golitsyn, K. Vorontsov // 2017 21st Conference of Open Innovations Association (FRUCT). — IEEE. 2017. — С. 182—193.
11. Ianina, A. Regularized multimodal hierarchical topic model for document-by-document exploratory search [Текст] / A. Ianina, K. Vorontsov // 2019 25th Conference of Open Innovations Association (FRUCT). — IEEE. 2019. — С. 131—138.
12. BigARTM: Open Source Library for Regularized Multimodal Topic Modeling of Large Collections [Текст] / K. Vorontsov, O. Frei, M. Apishev, P. Romov, M. Dudarenko // Analysis of Images, Social Networks and Texts - 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9-11, 2015, Revised Selected Papers. Т. 542 / под ред. M. Y. Khachay, N. Konstantinova, A. Panchenko, D. I. Ignatov, V. G. Labunets. — Springer, 2015. — С. 370—381. — (Communications in Computer and Information Science). — URL: http: //dx.doi.org/10.1007/978-3-319-26123-2.
13. Frei, O. Parallel non-blocking deterministic algorithm for online topic modeling [Текст] / O. Frei, M. Apishev // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2016. — С. 132—144.
14. Grimmer, J. Text as data: The promise and pitfalls of automatic content analysis methods for political texts [Текст] / J. Grimmer, B. M. Stewart // Political analysis. — 2013. — Т. 21, № 3. — С. 267—297.
15. Paakkonen, J. Humanistic interpretation and machine learning [Текст] / J. Paakkonen, P. Ylikoski // Synthese. — 2020. — С. 1—37.
16. Schmidt, B. M. Words alone: Dismantling topic models in the humanities [Текст] / B. M. Schmidt // Journal of Digital Humanities. — 2012. — Т. 2, № 1. — С. 49—65.
17. Mantyla, M. V. Measuring LDA topic stability from clusters of replicated runs [Текст] / M. V. Mantyla, M. Claes, U. Farooq // Proceedings of the 12th ACM/IEEE International Symposium on Empirical Software Engineering and Measurement. — 2018. — С. 1—4.
18. Boyd-Graber, J. Care and Feeding of Topic Models: Problems, Diagnostics, and Improvements [Текст] / J. Boyd-Graber, D. Mimno, D. Newman // Handbook of Mixed Membership Models and Their Applications. —.
19. Agrawal, A. What is wrong with topic modeling? and how to fix it using search-based software engineering [Текст] / A. Agrawal, W. Fu, T. Menzies // Information and Software Technology. — 2018. — Т. 98. — С. 74—88.
20. Chen, T.-H. A survey on the use of topic models when mining software repositories [Текст] / T.-H. Chen, S. W. Thomas, A. E. Hassan // Empirical Software Engineering. — 2016. — Т. 21, № 5. — С. 1843—1919.
21. Unsupervised dialogue intent detection via hierarchical topic model [Текст] / A. Popov, V. Bulatov, D. Polyudova, E. Veselova // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). — 2019. — С. 932—938.
22. Mavrin, A. Four Keys to Topic Interpretability in Topic Modeling [Текст] / A. Mavrin, A. Filchenkov, S. Koltcov // Conference on Artificial Intelligence and Natural Language. — Springer. 2018. — С. 117—129.
23. Fan, A. Assessing topic model relevance: Evaluation and informative priors [Текст] / A. Fan, F. Doshi-Velez, L. Miratrix // Statistical Analysis and Data Mining: The ASA Data Science Journal. — 2019. — Т. 12, № 3. — С. 210—222.
24. Topic Modelling for Extracting Behavioral Patterns from Transactions Data [Текст] / E. Egorov, F. Nikitin, V. Alekseev, A. Goncharov, K. Vorontsov // 2019 International Conference on Artificial Intelligence: Applications and Innovations (IC-AIAI). — IEEE. 2019. — С. 44—49.
25. Alekseev, V. Intra-text coherence as a measure of topic models' interpretability [Текст] / V. Alekseev, V. Bulatov, K. Vorontsov // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue. — 2018. — С. 1—13.
26. TopicNet: Making Additive Regularisation for Topic Modelling Accessible [Текст] / V. Bulatov, V. Alekseev, K. Vorontsov, D. Polyudova, E. Veselova, A. Goncharov, E. Egorov // Proceedings of The 12th Language Resources and Evaluation Conference. — 2020. — С. 6745—6752.
27. Ирхин, И. А. Аддитивная регуляризация тематических моделей с быстрой векторизацией текста [Текст] / И. А. Ирхин, В. Г. Булатов, К. В. Воронцов. — 2020.
28. Varadarajan, J. A sparsity constraint for topic models-application to temporal activity mining [Текст] / J. Varadarajan, R. Emonet, J.-M. Odobez // NIPS-2010 workshop on practical applications of sparse modeling: Open issues and new directions. Т. 12. — 2010.
29. Bouguila, N. Unsupervised selection of a finite Dirichlet mixture model: an MML-based approach [Текст] / N. Bouguila, D. Ziou // IEEE Transactions on Knowledge and Data Engineering. — 2006. — Т. 18, № 8. — С. 993—1009.
30. Валентинович, Ш. А. Регуляризация вероятностных тематических моделей для классификации символьных последовательностей [Текст] / Ш. А. Валентинович // Выпускная квалификационная работа. — 2015. — URL: http: //www.machinelearning.ru/wiki/images/a/ae/2015_417_ShapulinAV.pdf.
31. Moss, F. C. Transitions of Tonality: A Model-Based Corpus Study [Текст] : тех. отч. / F. C. Moss ; EPFL. — 2019.
32. Indexing by latent semantic analysis [Текст] / S. Deerwester, S. T. Dumais,
G. W. Furnas, T. K. Landauer, R. Harshman // Journal of the American society for information science. — 1990. — Т. 41, № 6. — С. 391.
33. Latent semantic indexing: A probabilistic analysis [Текст] / C. H. Papadimitriou,
H. Tamaki, P. Raghavan, S. Vempala // Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems. — ACM. 1998. — С. 159—168.
34. Hofmann, T. Probabilistic latent semantic analysis [Текст] / T. Hofmann // Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence. — Morgan Kaufmann Publishers Inc. 1999. — С. 289—296.
35. Lu, Y. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA [Текст] / Y. Lu, Q. Mei, C. Zhai // Information Retrieval. — 2011. — Т. 14, № 2. — С. 178—203.
36. Cohn, D. The missing link-a probabilistic model of document content and hypertext connectivity [Текст] / D. Cohn, T. Hofmann // Advances in neural information processing systems. — 2001. — С. 430—436.
37. McCallum, A. The author-recipient-topic model for topic and role discovery in social networks: Experiments with enron and academic email [Текст] / A. McCallum, A. Corrada-Emmanuel, X. Wang // Computer Science Department Faculty Publication Series. — 2005. — С. 44.
38. Nallapati, R. Link-PLSA-LDA: A New Unsupervised Model for Topics and Influence of Blogs. [Текст] / R. Nallapati, W. W. Cohen // ICWSM. — 2008. — С. 84—92.
39. Probabilistic author-topic models for information discovery [Текст] / M. Steyvers, P. Smyth, M. Rosen-Zvi, T. Griffiths // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM. 2004. — С. 306—315.
40. Zosa, E. Multilingual Dynamic Topic Model [Текст] / E. Zosa, M. Granroth-Wilding // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). — Varna, Bulgaria : INCOMA Ltd., 09.2019. — С. 1388—1396. — URL: https://www.aclweb.org/anthology/ R19-1159.
41. Gruber, A. Hidden topic markov models [Текст] / A. Gruber, Y. Weiss, M. Rosen-Zvi // Artificial intelligence and statistics. — 2007. — С. 163—170.
42. Wallach, H. M. Topic modeling: beyond bag-of-words [Текст] / H. M. Wallach // Proceedings of the 23rd international conference on Machine learning. — 2006. — С. 977—984.
43. A biterm topic model for short texts [Текст] / X. Yan, J. Guo, Y. Lan, X. Cheng // Proceedings of the 22nd international conference on World Wide Web. — ACM. 2013. — С. 1445—1456.
44. Balikas, G. On a topic model for sentences [Текст] / G. Balikas, M.-R. Amini, M. Clausel // Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. — ACM. 2016. — С. 921—924.
45. Vorontsov, K. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization [Текст] / K. Vorontsov, A. Potapenko // Analysis of Images, Social Networks and Texts - Third International Conference, AIST 2014, Yekaterinburg, Russia, April 10-12, 2014, Revised Selected Papers. Т. 436 / под ред. D. I. Ignatov, M. Y. Khachay, A. Panchenko, N. Konstantinova, R. Yavorskiy. — Springer, 2014. — С. 29—46. — (Communications in Computer and Information Science). — URL: http://dx.doi.org/10.1007/978-3-319-12580-0.
46. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections [Текст] / K. Vorontsov, O. Frei, M. Apishev, P. Romov, M. Suvorova, A. Yanina // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications. — Melbourne, Australia : ACM, 2015. — С. 29—37.
47. Yi, X. A Comparative Study of Utilizing Topic Models for Information Retrieval [Текст] / X. Yi, J. Allan // Advances in Information Retrieval, 31th European Conference on IR Research, ECIR 2009, Toulouse, France, April 6-9, 2009. Proceedings. Т. 5478 / под ред. M. Boughanem, C. Berrut, J. Mothe, C. Soulé-Dupuy. — Springer, 2009. — С. 29—41. — (Lecture Notes in Computer Science). — URL: http://dx.doi.org/10.1007/978-3-642-00958-7.
48. Wang, C. Collaborative topic modeling for recommending scientific articles [Текст] / C. Wang, D. M. Blei // Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA, August 21-24, 2011 / под ред. C. Apté, J. Ghosh, P. Smyth. — ACM,
2011. — С. 448—456. — URL: http://doi.acm.org/10.1145/2020408.2020480.
49. Statistical topic models for multi-label document classification [Текст] / T. N. Rubin, A. Chambers, P. Smyth, M. Steyvers // Machine Learning. —
2012. — Т. 88, № 1/2. — С. 157—208. — URL: http://dx.doi.org/10.1007/s10994-011-5272-5.
50. Varshney, D. Modeling Information Diffusion in Social Networks Using Latent Topic Information [Текст] / D. Varshney, S. Kumar, V. Gupta // Intelligent Computing Theory - 10th International Conference, ICIC 2014, Taiyuan, China, August 3-6, 2014. Proceedings. Т. 8588 / под ред. D.-S. Huang, V. Bevilacqua, P. Premaratne. — Springer, 2014. — С. 137—148. — (Lecture Notes in Computer Science). — URL: http://dx.doi.org/10.1007/978-3-319-09333-8.
51. Pinto, J. C. L. Modeling Multi-topic Information Diffusion in Social Networks Using Latent Dirichlet Allocation and Hawkes Processes [Текст] / J. C. L. Pinto, T. Chahed // Tenth International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2014, Marrakech, Morocco, November 23-27, 2014 / под ред. K. Yetongnon, A. Dipanda, R. Chbeir. — IEEE Computer Society, 2014. — С. 339—346. — URL: http:/ /ieeexplore.ieee.org/xpl/ mostRecentIssue.jsp?punumber=7080795.
52. Lee, S. S. Dynamic Item Recommendation by Topic Modeling for Social Networks [Текст] / S. S. Lee, T. Chung, D. McLeod // Eighth International Conference on Information Technology: New Generations, ITNG 2011, Las Vegas, Nevada, USA, 11-13 April 2011 / под ред. S. Latifi. — IEEE Computer Society, 2011. — С. 884—889.
53. Narayan, S. Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization [Текст] / S. Narayan, S. B. Cohen, M. Lapata // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — 2018. — С. 1797—1807.
54. A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization [Текст] / L. Wang, J. Yao, Y. Tao, L. Zhong, W. Liu, Q. Du // International Joint Conference on Artificial Intelligence. — 2018.
55. Scoring Sentence Singletons and Pairs for Abstractive Summarization [Текст] / L. Lebanoff, K. Song, F. Dernoncourt, D. S. Kim, S. Kim, W. Chang, F. Liu // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. — С. 2175—2189. — URL: https://www.aclweb.org/anthology/P19-1209.
56. Topic Modeling Users' Interpretations of Songs to Inform Subject Access in Music Digital Libraries [Текст] / K. Choi, J. H. Lee, C. Willis, J. S. Downie // Proceedings of the 15th ACM/IEEE-CS Joint Conference on Digital Libraries. — ACM. 2015. — С. 183—186.
57. Song Lyrics Summarization Inspired by Audio Thumbnailing [Текст] / M. Fell, E. Cabrio, F. Gandon, A. Giboin // RANLP. — 2019. — С. 328—337.
58. Modeling Storylines in Lyrics [Текст] / K. Watanabe, Y. Matsubayashi, K. Inui, S. Fukayama, T. Nakano, M. Goto // IEICE TRANSACTIONS on Information and Systems. — 2018. — Т. 101, № 4. — С. 1167—1179.
59. Exploring topic models in software engineering data analysis: A survey [Текст] / X. Sun, X. Liu, B. Li, Y. Duan, H. Yang, J. Hu // 2016 17th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). — IEEE. 2016. — С. 357—362.
60. Asuncion, H. U. Software traceability with topic modeling [Текст] / H. U. Asuncion, A. U. Asuncion, R. N. Taylor // 2010 ACM/IEEE 32nd International Conference on Software Engineering. Т. 1. — IEEE. 2010. — С. 95—104.
61. Feature location in source code: a taxonomy and survey [Текст] / B. Dit, M. Revelle, M. Gethers, D. Poshyvanyk // Journal of software: Evolution and Process. — 2013. — Т. 25, № 1. — С. 53—95.
62. Using IR methods for labeling source code artifacts: Is it worthwhile? [Текст] / A. De Lucia, M. Di Penta, R. Oliveto, A. Panichella, S. Panichella // 2012 20th IEEE International Conference on Program Comprehension (ICPC). — IEEE. 2012. — С. 193—202.
63. Yanina, A. Multi-objective Topic Modeling for Exploratory Search in Tech News [Текст] / A. Yanina, L. Golitsyn, K. Vorontsov // Communications in Computer and Information Science, vol 789. AINL-6: Artificial Intelligence and Natural Language Conference, St. Petersburg, Russia, September 20-23, 2017 / под ред. A. Filchenkov, L. Pivovarova, J. Zizka. — Springer International Publishing, Cham, 2018. — С. 181—193.
64. An overview of topic modeling and its current applications in bioinformatics [Текст] / L. Liu, L. Tang, W. Dong, S. Yao, W. Zhou // SpringerPlus. — 2016. — Сент. — Т. 5, № 1. — С. 1608. — URL: https://doi.org/10.1186/s40064-016-3252-8.
65. Integrated structural variation and point mutation signatures in cancer genomes using correlated topic models [Текст] / T. Funnell, A. W. Zhang, D. Grewal, S. McKinney, A. Bashashati, Y. K. Wang, S. P. Shah // PLoS computational biology. — 2019. — Т. 15, № 2. — e1006799.
66. Antons, D. Content, contribution, and knowledge consumption: Uncovering hidden topic structure and rhetorical signals in scientific texts [Текст] / D. Antons, A. M. Joshi, T. O. Salge // Journal of Management. — 2019. — Т. 45, № 7. — С. 3035—3076.
67. Милкова, М. Тематические модели как инструмент "дальнего чтения" [Текст] / М. Милкова // Цифровая экономика. — 2019. — № 1. — С. 57—70.
68. Nelson, R. K. Of Monsters, Men — And Topic Modeling [Текст] / R. K. Nelson // The New York Times Opinionator Blog. — 2011.
69. Nelson, R. K. Mining the dispatch [Текст] / R. K. Nelson // Mining the dispatch. — 2010. — URL: http://dsl.richmond.edu/dispatch/pages/intro.
70. Buurma, R. S. The fictionality of topic modeling: Machine reading Anthony Trollope's Barsetshire series [Текст] / R. S. Buurma // Big Data & Society. — 2015. — Т. 2, № 2. — С. 2053951715610591.
71. Goldstone, A. What can topic models of PMLA teach us about the history of literary scholarship [Текст] / A. Goldstone, T. Underwood. —.
72. Catching fire via"likes": Inferring topic preferences of trump followers on twitter [Текст] / Y. Wang, J. Luo, R. Niemi, Y. Li, T. Hu // Tenth International AAAI Conference on Web and Social Media. — 2016.
73. Using Topic Modeling to Detect and Describe Self-Injurious and Related Content on a Large-Scale Digital Platform [Текст] / P. J. Franz, E. C. Nook, P. Mair, M. K. Nock // Suicide and Life-Threatening Behavior. — 2020. — Т. 50, № 1. — С. 5—18.
74. Optimizing Semantic Coherence in Topic Models [Текст] / D. Mimno, H. M. Wallach, E. Talley, M. Leenders, A. McCallum // Proceedings of the Conference on Empirical Methods in Natural Language Processing. — Edinburgh, United Kingdom : Association for Computational Linguistics, 2011. — С. 262—272. — (EMNLP '11). — URL: http://dl.acm.org/citation.cfm? id=2145432.2145462.
75. Mehta, V. Evaluating topic quality using model clustering [Текст] / V. Mehta, R. S. Caceres, K. M. Carter // 2014 IEEE Symposium on Computational Intelligence and Data Mining (CIDM). — 2014.
76. The human touch: How non-expert users perceive, interpret, and fix topic models [Текст] / T. Y. Lee, A. Smith, K. Seppi, N. Elmqvist, J. Boyd-Graber, L. Findlater // International Journal of Human-Computer Studies. — 2017. — Т. 105. — С. 28—42.
77. Blei, D. M. A correlated topic model of science [Текст] / D. M. Blei, J. D. Lafferty // The Annals of Applied Statistics. — 2007. — С. 17—35.
78. Metagenes and molecular pattern discovery using matrix factorization [Текст] / J.-P. Brunet, P. Tamayo, T. R. Golub, J. P. Mesirov // Proceedings of the National Academy of Sciences. — 2004. — Т. 101, № 12. — С. 4164—4169. — eprint: https://www.pnas.org/content/101/12/4164.full.pdf. — URL: https://www.pnas.org/content/101/12/4164.
79. Greene, D. How many topics? stability analysis for topic models [Текст] / D. Greene, D. O'Callaghan, P. Cunningham // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. — Springer. 2014. — С. 498—513.
80. Belford, M. Stability of topic modeling via matrix factorization [Текст] / M. Belford, B. Mac Namee, D. Greene // Expert Systems with Applications. — 2018. — Т. 91. — С. 159—169.
81. Derbanosov, R. Stability of topic modeling via modality regularization [Текст] / R. Derbanosov, M. Bakhanova // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue. — 2020.
82. A density-based method for adaptive LDA model selection [Текст] / J. Cao, T. Xia, J. Li, Y. Zhang, S. Tang // Neurocomputing. — 2009. — Т. 72, № 7—9. — С. 1775—1781.
83. Deveaud, R. Accurate and effective latent concept modeling for ad hoc information retrieval [Текст] / R. Deveaud, E. SanJuan, P. Bellot // Document numerique. — 2014. — Т. 17, № 1. — С. 61—84.
84. Tang, J. "Look Ma, No Hands!"A Parameter-Free Topic Model [Текст] / J. Tang, M. Zhang, Q. Mei // arXiv preprint arXiv:1409.2993. — 2014.
85. Tan, Y. Topic-weak-correlated latent dirichlet allocation [Текст] / Y. Tan, Z. Ou // 2010 7th International Symposium on Chinese Spoken Language Processing. — IEEE. 2010. — С. 224—228.
86. Wang, L. Topic Discovery based on LDA_col Model and Topic Significance Re-ranking. [Текст] / L. Wang, B. Wei, J. Yuan // JCP. — 2011. — Т. 6, № 8. — С. 1639—1647.
87. Koltcov, S. Latent dirichlet allocation: stability and applications to studies of user-generated content [Текст] / S. Koltcov, O. Koltsova, S. Nikolenko // Proceedings of the 2014 ACM conference on Web science. — 2014. — С. 161—165.
88. How to effectively use topic models for software engineering tasks? an approach based on genetic algorithms [Текст] / A. Panichella, B. Dit, R. Oliveto, M. Di Penta, D. Poshynanyk, A. De Lucia // 2013 35th International Conference on Software Engineering (ICSE). — IEEE. 2013. — С. 522—531.
89. Fuzzy approach topic discovery in health and medical corpora [Текст] / A. Karami, A. Gangopadhyay, B. Zhou, H. Kharrazi // International Journal of Fuzzy Systems. — 2018. — Т. 20, № 4. — С. 1334—1345.
90. Krasnov, F. The number of topics optimization: clustering approach [Текст] / F. Krasnov, A. Sen // Machine Learning and Knowledge Extraction. — 2019. — Т. 1, № 1. — С. 416—426.
91. Topic significance ranking of LDA generative models [Текст] / L. AlSumait, D. Barbara, J. Gentle, C. Domeniconi // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. — Springer. 2009. — С. 67—82.
92. Vorontsov, K. V. Additive Regularization of Topic Models for Topic Selection and Sparse Factorization [Текст] / K. V. Vorontsov, A. A. Potapenko, A. V. Plavin // The Third International Symposium On Learning And Data Sciences (SLDS 2015). April 20-22, 2015. Royal Holloway, University of London, UK. / под ред. A. G. et al. — Springer International Publishing Switzerland 2015, 2015. — С. 193—202.
93. Potapenko, A. Robust PLSA performs better than LDA [Текст] / A. Potapenko, K. Vorontsov // European Conference on Information Retrieval. — Springer.
2013. — С. 784—787.
94. Ma, Y. A three-phase approach to document clustering based on topic significance degree [Текст] / Y. Ma, Y. Wang, B. Jin // Expert systems with applications. —
2014. — Т. 41, № 18. — С. 8203—8210.
95. Soleimani, H. Parsimonious topic models with salient word discovery [Текст] / H. Soleimani, D. J. Miller // IEEE Transactions on Knowledge and Data Engineering. — 2014. — Т. 27, № 3. — С. 824—837.
96. Than, K. Fully sparse topic models [Текст] / K. Than, T. B. Ho // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. — Springer. 2012. — С. 490—505.
97. Adaptive Region Clustering in LDA Framework for Image Segmentation [Текст] / X. Wang, J. Du, S. Wu, F. Li // Proceedings of 2013 Chinese Intelligent Automation Conference. — Springer. 2013. — С. 591—602.
98. Gerlach, M. A network approach to topic models [Текст] / M. Gerlach, T. P. Peixoto, E. G. Altmann // Science advances. — 2018. — Т. 4, № 7. — eaaq1360.
99. Bouguila, N. Unsupervised learning of a finite mixture model based on the Dirichlet distribution and its application to software modules categorization [Текст] / N. Bouguila, D. Ziou, J. Vaillancourt // IEEE Transactions on Image Processing. — 2004. — Т. 13, № 11. — С. 1533—1543.
100. Bouguila, N. High-dimensional unsupervised selection and estimation of a finite generalized Dirichlet mixture model based on minimum message length [Текст] / N. Bouguila, D. Ziou // IEEE transactions on pattern analysis and machine intelligence. — 2007. — Т. 29, № 10. — С. 1716—1731.
101. Bouguila, N. Clustering of count data using generalized Dirichlet multinomial distributions [Текст] / N. Bouguila // IEEE Transactions on Knowledge and Data Engineering. — 2008. — Т. 20, № 4. — С. 462—474.
102. Boutemedjet, S. A hybrid feature extraction selection approach for high-dimensional non-Gaussian data clustering [Текст] / S. Boutemedjet, N. Bouguila, D. Ziou // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2008. — Т. 31, № 8. — С. 1429—1443.
103. Zamzami, N. MML-Based Approach for Determining the Number of Topics in EDCM Mixture Models [Текст] / N. Zamzami, N. Bouguila // Advances in Artificial Intelligence. — 2018.
104. Koltcov, S. Application of Renyi and Tsallis entropies to topic modeling optimization [Текст] / S. Koltcov // Physica A: Statistical Mechanics and its Applications. — 2018. — Т. 512. — С. 1192—1204.
105. Виктор, Б. Использование графовой структуры в тематическом моделировании [Текст] / Б. Виктор // ВКР магистра. — 2016. — URL: http: //www.machinelearning.ru/wiki/images/4/4d/Bulatov-2016-ms.pdf.
106. Yang, A. Inferring Business Similarity from Topic Modeling [Текст] / A. Yang, C. Provinciali. —.
107. Newman, D. External evaluation of topic models [Текст] / D. Newman, S. Karimi, L. Cavedon // Australasian Document Computing Symposium, December 2009. — 2009. — С. 11—18.
108. Aletras, N. Evaluating topic coherence using distributional semantics [Текст] / N. Aletras, M. Stevenson //.
109. Lau, J. H. Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality. [Текст] / J. H. Lau, D. Newman, T. Baldwin // EACL. — 2014. — С. 530—539.
110. Roder, M. Exploring the space of topic coherence measures [Текст] / M. Roder, A. Both, A. Hinneburg // Proceedings of the eighth ACM international conference on Web search and data mining. — ACM. 2015. — С. 399—408.
111. Blei, D. M. Topic models [Текст] / D. M. Blei, J. D. Lafferty // Text mining: classification, clustering, and applications. — 2009. — Т. 10, № 71. — С. 34.
112. Sievert, C. LDAvis: A method for visualizing and interpreting topics [Текст] / C. Sievert, K. Shirley // Proceedings of the workshop on interactive language learning, visualization, and interfaces. — 2014. — С. 63—70.
113. Airoldi, E. M. A Poisson convolution model for characterizing topical content with word frequency and exclusivity [Текст] / E. M. Airoldi, J. M. Bischof // arXiv preprint arXiv:1206.4631. — 2012.
114. Taddy, M. On estimation and selection for topic models [Текст] / M. Taddy // Artificial Intelligence and Statistics. — 2012. — С. 1184—1193.
115. Валерьевна, Е. И. Иерархическая мультимодальная тематическая модель коллекции научно-популярных текстов [Текст] / Е. И. Валерьевна // ВКР магистра. — 2017.
116. Halliday, M. A. Cohesion in english [Текст] / M. A. Halliday, R. Hasan // English, Longman, London. — 1976.
117. Казаченко, О. Когерентность и когезия текста [Текст] / О. Казаченко // Альманах современной науки и образования. — 2009. — № 8—2. — С. 88—90.
118. Kuhn, H. W. The Hungarian method for the assignment problem [Текст] / H. W. Kuhn // Naval Research Logistics (NRL). — 1955. — Т. 2, № 1/2. —
C. 83—97.
119. Дойков, Н. В. Адаптивная регуляризация вероятностных тематических моделей [Текст] / Н. В. Дойков // ВКР бакалавра. — 2015. — URL: http: //www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf.
120. Egghe, L. Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments [Текст] / L. Egghe // Journal of the American Society for Information Science and Technology. — 2007. — Т. 58, № 5. — С. 702—709.
121. Wallach, H. M. Rethinking LDA: Why priors matter [Текст] / H. M. Wallach,
D. M. Mimno, A. McCallum // Advances in neural information processing systems. — 2009. — С. 1973—1981.
122. Configuring latent dirichlet allocation based feature location [Текст] / L. R. Biggers, C. Bocovich, R. Capshaw, B. P. Eddy, L. H. Etzkorn, N. A. Kraft // Empirical Software Engineering. — 2014. — Т. 19, № 3. — С. 465—500.
123. Rosen, C. What are mobile developers asking about? a large scale study using stack overflow [Текст] / C. Rosen, E. Shihab // Empirical Software Engineering. — 2016. — Т. 21, № 3. — С. 1192—1223.
124. Rehu,rek, R. Software Framework for Topic Modelling with Large Corpora [Текст] / R. Rehurek, P. Sojka // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. — Valletta, Malta : ELRA, 05.2010. — С. 45—50. — http://is.muni.cz/publication/884893/en.
125. Topic Modeling for the Social Sciences [Текст] / D. Ramage, E. Rosen, J. Chuang, C. D. Manning, D. A. McFarland // Neural Information Processing Systems (NIPS) Workshop on Applications for Topic Models: Text and Beyond. — Whistler, Canada, 12.2009. — URL: pubs/tmt-nips09.pdf.
126. McCallum, A. K. Mallet: A machine learning for language toolkit [Текст] / A. K. McCallum // http://mallet. cs. umass. edu. — 2002.
127. Li, W. Pachinko allocation: DAG-structured mixture models of topic correlations [Текст] / W. Li, A. McCallum // Proceedings of the 23rd international conference on Machine learning. — ACM. 2006. — С. 577—584.
128. Pol, M. Towards CLARIN-PL LTC Digital Research Platform for: Depositing, Processing, Analyzing and Visualizing Language Data [Текст] / M. Pol, T. Walkowiak, M. Piasecki // International Conference on Reliability and Statistics in Transportation and Communication. — Springer. 2017. — С. 485—494.
129. STTM: A Tool for Short Text Topic Modeling [Текст] / J. Qiang, Y. Li, Y. Yuan, W. Liu, X. Wu // arXiv preprint arXiv:1808.02215. — 2018.
130. Yin, J. A dirichlet multinomial mixture model-based approach for short text clustering [Текст] / J. Yin, J. Wang // Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM. 2014. — С. 233—242.
131. Zuo, Y. Word network topic model: a simple but general solution for short and imbalanced texts [Текст] / Y. Zuo, J. Zhao, K. Xu // Knowledge and Information Systems. — 2016. — Т. 48, № 2. — С. 379—398.
132. Topic modeling of short texts: A pseudo-document view [Текст] / Y. Zuo, J. Wu, H. Zhang, H. Lin, F. Wang, K. Xu, H. Xiong // Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. — 2016. — С. 2105—2114.
133. Short and sparse text topic modeling via self-aggregation [Текст] / X. Quan,
C. Kit, Y. Ge, S. J. Pan // Twenty-Fourth International Joint Conference on Artificial Intelligence. — 2015.
134. Improving topic models with latent feature word representations [Текст] /
D. Q. Nguyen, R. Billingsley, L. Du, M. Johnson // Transactions of the Association for Computational Linguistics. — 2015. — Т. 3. — С. 299—313.
135. Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering [Текст] / D. Jiang, Y. Song, R. Lian, S. Bao, J. Peng, H. He, H. Wu // arXiv preprint arXiv:1808.03733. — 2018.
136. Wang, X. Topics over time: a non-Markov continuous-time model of topical trends [Текст] / X. Wang, A. McCallum // Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM. 2006. — С. 424—433.
137. Gao, J. Clickthrough-based latent semantic models for web search [Текст] / J. Gao, K. Toutanova, W.-t. Yih // Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. — ACM. 2011. — С. 675—684.
138. Mining geographic knowledge using location aware topic model [Текст] / C. Wang, J. Wang, X. Xie, W.-Y. Ma // Proceedings of the 4th ACM workshop on Geographical information retrieval. — ACM. 2007. — С. 65—70.
139. Lian, R. Project Title [Текст] / R. Lian. — 2019. — https://github.com/baidu/ Familia/issues/81.
140. Guille, A. TOM: A library for topic modeling and browsing. [Текст] / A. Guille, E.-P. Soriano-Morales //.
141. Murzintcev Nikita, N. C. ldatuning: Tuning of the Latent Dirichlet Allocation Models Parameters [Текст] / N. C. Murzintcev Nikita. — 2020. — URL: https://CRAN.R-project.org/package=ldatuning ; R package version 1.0.2.
142. Potapenko, A. Interpretable probabilistic embeddings: bridging the gap between topic models and neural networks [Текст] / A. Potapenko, A. Popov, K. Vorontsov // Communications in Computer and Information Science, vol 789. AINL-6: Artificial Intelligence and Natural Language Conference, St. Petersburg, Russia, September 20-23, 2017. — Springer, Cham, 2017. — С. 167—180.
143. Chirkova, N. Additive regularization for hierarchical multimodal topic modeling [Текст] / N. Chirkova, K. Vorontsov // Journal Machine Learning and Data Analysis. — 2016. — Т. 2, № 2. — С. 187—200.
144. Sokolov, E. Topic Models Regularization and Initialization for Regression Problems [Текст] / E. Sokolov, L. Bogolubsky // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications. — Melbourne, Australia : ACM, 2015. — С. 21—27.
145. Additive Regularization for Topic Modeling in Sociological Studies of UserGenerated Text Content [Текст] / M. Apishev, S. Koltcov, O. Koltsova, S. Nikolenko, K. Vorontsov // MICAI 2016, 15th Mexican International Conference on Artificial Intelligence. Т. 10061. — Springer, Lecture Notes in Artificial Intelligence, 2016. — С. 166—181.
146. Mining Ethnic Content Online with Additively Regularized Topic Models [Текст] / M. Apishev, S. Koltcov, O. Koltsova, S. Nikolenko, K. Vorontsov // Computation y Sistemas. — 2016. — Т. 20, № 3. — С. 387—403.
147. Skachkov, N. Improving topic models with segmental structure of texts [Текст] / N. Skachkov, K. Vorontsov // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue. — 2018. — С. 652—661.
148. McCallum, A. K. Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering [Текст] / A. K. McCallum // http://www. cs. cmu. edu/mccallum/bow/. — 1996.
149. Huang, J. Maximum likelihood estimation of Dirichlet distribution parameters [Текст] / J. Huang // CMU Technique Report. — 2005. — URL: http://jonathan-huang.org/research/dirichlet/dirichlet.pdf.
150. Scalable topical phrase mining from text corpora [Текст] / A. El-Kishky, Y. Song, C. Wang, C. R. Voss, J. Han // Proceedings of the VLDB Endowment. — 2014. — Т. 8, № 3. — С. 305—316.
151. Application of a hybrid Bi-LSTM-CRF Model to the task of Russian named entity recognition [Текст] / M. Y. Arkhipov, M. S. Burtsev [и др.] // Conference on Artificial Intelligence and Natural Language. — Springer. 2017. — С. 91—103.
152. Vlasova, N. The Russian language collection for the named-entity recognition task [Текст] / N. Vlasova, E. Syleymanova, I. Trofimov // Language semantics: models and technologies. — 2014. — С. 36—40.
153. Yandex. Yandex search errors statistics [Текст] / Yandex. — 2016. — https: //yandex.ru/company/researches/2016/ya_spelling.
154. Quality evaluation and improvement for hierarchical topic modeling [Текст] / A. Belyy, M. Seleznova, A. Sholokhov, K. Vorontsov // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue. — 2018. — С. 110—123.
155. ADC: Advanced Document Clustering Using Contextualized Representations [Текст] / J. Park, C. Park, J. Kim, M. Cho, S. Park // Expert Systems with Applications. — 2019.
156. UMAP: Uniform Manifold Approximation and Projection [Текст] / L. McInnes, J. Healy, N. Saul, L. Grofiberger // Journal of Open Source Software. — 2018. — Т. 3, № 29. — С. 861.
157. Esposito, F. Topic modelling with word embeddings [Текст] / F. Esposito, A. Corazza, F. Cutugno // Proceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016). — 2016. — С. 129—134.
158. Distributed representations of words and phrases and their compositionality [Текст] / T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean // Advances in neural information processing systems. — 2013. — С. 3111—3119.
159. Efficient estimation of word representations in vector space [Текст] / T. Mikolov, K. Chen, G. Corrado, J. Dean // arXiv preprint arXiv:1301.3781. — 2013.
Список рисунков
3.1 Пример, иллюстрирующий, почему в некоторых случаях меры когерентности, основанные на верхних токенах, могут действовать плохо. Представлены два фрагмента текста. Связанные с темой «Черные дыры» слова выделены цветом (красный — сильно связан с темой, розовый — частично связан). Оба фрагмента содержат верхние слова темы примерно на одних и тех же местах в тексте; промежутки между ними заполнены либо слаботематичными словами (левый фрагмент), либо словами, относящимисся к другой теме (правый фрагмент). Когерентности, основанные на верхних токенах, «считают» что оба фрагмента — когерентные темы, хорошо описывающие данную коллекцию. Предлагаемые внутритекстовые меры качества учитывают поведение тем внутри всех слов, и поэтому имеют возможность определить правый фрагмент как имеющий более низкое качество. . 51
3.2 Демонстрация доли текста, покрытой верхними словами, на примере одного документа. Словопозиции обозначены серо-синим цветом, словопозиции верхних слов показаны красным цветом, зелёным цветом показаны словопозиции, имеющие ненулевой вклад в расчёт когерентности (т.е. попадающие в скользящее окно вместе с другим верхним словом)............................... 53
3.3 Интуитивный смысл меры когерентности, основанной на измерении различности тематик соседних слов. Тематические вектора слева более похожи, чем тематические вектора справа................ 55
3.4 Принцип вычисления длин сегментов для темы «Чёрные дыры» . . 56
3.5 Интуитивный смысл меры когерентности, основанной на подсчёте скачков тематики. Для каждой пары соседних слов п)1,п)2 критерий качества суммирует разности | ср^ - ср^ | + | ср^2 - ср^21, где ¿1 — наиболее вероятная тема слова а — наиболее вероятная тема слова ................................... 56
3.6 На графике показана зависимость мер качества от степени деградации матрицы Ф. Согласованность качества сегментации и перплексии говорит о том, что качество сегментации действительно характеризует «хорошесть» тематической модели.................... 57
3.7 Рисунок показывает фрагмент одного из сгенерированных документов, который состоит из двух соседних сегментов различных тем длиной 50 слов. Слова сегментов обработаны описанными ранее «хорошей» моделью и «плохой» моделью. Нераскрашенные слова были отнесены к какой-либо теме, отличной от двух «главных». Также приведены численные величины различных когерентностей и значения, характеризующие качество сегментации. Полужирным отмечены ситуации, в которых значение когерентности возрастает при улучшении качества модели........................ 61
3.8 Сравнение различных мер когерентности и качества сегментации, нарисованное как функция от степени деградации тематической модели а.................................. 62
4.1 Графики зависимости различных критериев качества тематических моделей для пяти моделей (ТЛЯТМ, РЬБА, ЬБА с 3 видами приоров). Каждой модели соответствуют три линии: среднее значение, минимум
и максимум (по пяти случайным перезапускам)............. 76
4.2 Графики зависимости различных критериев качества тематических моделей для четырёх моделей (ТАИТМ, и РЬБЛ с тремя различными комбинациями регуляризаторов). Каждой модели соответствуют три линии: среднее значение, минимум и максимум (по пяти случайным перезапускам)................................ 77
4.3 Графики зависимости различных критериев качества для пяти моделей (ТАИТМ, ТАИТМ с тремя различными комбинациями регуляризаторов и РЬБА с комбинацией фоновых тем и декоррелирования). Каждой модели соответствуют три линии: среднее значение, минимум и максимум...................... 78
4.4 Сравнение перплексии различных моделей. (а) ТАИТМ и РЬБА/ЬБА; (Ь) ТАИТМ и регуляризованные модели (с) ТАИТМ и его регуляризованные модификации. Каждой модели соответствуют три линии: среднее значение, минимум и максимум (по пяти случайным перезапускам)................................ 79
4.5 Сравнение различных метрик когерентности РЬБА и регуляризованных моделей ........................ 80
5.1 Вывод ТорТокепв¥1еуег. Для каждого токена вычисляется заданная функция, используемая для сортировки и выбора токенов для показа. Функция здаётся при инициализации вьювера.............. 90
5.2 Визуализация документов после понижения размерности посредством DocumentClusterViewer. Цвет каждой точки связан с темой соответствующего документа. ...................... 90
5.3 Пример двухэтапной схемы эксперимента. На первом этапе применяется регуляризатор с коэффициентом т, принимающим значения из некоторого множества {ti, т2, т3}. Лучшими моделями после первого этапа являются Model 1 и Model 2, поэтому Model 3 больше не участвует в процессе обучения. Второй этап связан с другим регуляризатором с коэффициентом £, принимающим значения из множества {£,1, £2}. В результате этого этапа у каждой из ранее отобранных моделей появляется два потомка.............. 92
5.4 Пример строки, задающей критерий отбора моделей. Здесь в качестве критериев отбора участвуют перплексия, контраст лексического ядра модальности @word и разреженность матрицы Ф. Результатом будут три модели, контраст которых не более чем на 5% отличается от наилучшего достигнутого контраста, имеют допустимую перплексию и
как можно более разреженны....................... 93
5.5 Пример базового эксперимента в TopicNet................ 96
5.6 Распределение когерентности тем..................... 97
Список таблиц
1 Формулы вычисления различных теоретико-информационных критериев качества ............................ 42
2 10 верхних слов в двух темах и оценки их качества при помощи ИМазэ-когерентности и И01-когерентности. Первая тема более интерпретируема, при этом численные оценки отмечают её низкую когерентность................................ 53
3 Доля коллекции, имеющая ненулевой вклад в счётчики парной сочетаемости 10 верхних слов. Статистики посчитаны по каждой теме отдельно; строка «суммарно» показывает представительность объединённого множества верхних слов всех тем............ 54
4 Примеры верхних слов в двух сравнимых темах. Слова общей лексики выделены жирным шрифтом. ТАИТМ выделяет слова общей лексики
в отдельные темы, в отличие от модели РЬБА.............. 80
5 Сравнение различных реализаций тематического моделирования по расходу вычислительных ресурсов. В первом столбце приведен максимальный объём оперативной памяти, занятой процессом во время обучения. Второй столбец показывает время, затраченное на обучение суммарно и количество построенных моделей (из которых
отбирается лучшая)..........................................................95
6 Сравнение качества различных моделей, построенных при помощи различных программных средств ........................................97
7 Сравнение моделей по ряду критериев качества. Повышение как UMass-когерентности так и LogLift означает улучшение модели. ... 99
8 Некоторые сценарии использования Regulariazation Controller Cube. 103
9 Точность базовых моделей........................116
10 Изменение качества в результате последовательных улучшений . . . 116
11 Увеличение точности классификации в результате функциональной группировки признаков..........................117
12 Подтемы темы «Тарифный план»....................117
13 Верхние документы темы первого уровня «Телефон и домашний интернет»..................................118
14 Верхние документы темы второго уровня «Отключить родительский контроль и антивирус», родителем которой является тема «Домашний телефон и интернет»............................119
Приложение А
Свидетельства о государственной регистрации программ
АЖ ФВДВРАЩШШ
СВИДЕТЕЛЬСТВО
о государственной регистрации программы для ЭВМ
№ 2020613851
Система создания таксономии текстовой коллекции диалогового контактного центра
Правообладатель: федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (Я II)
Авторы: Гончаров Алексей Владимирович (ЯП), Егоров Евгений Олегович (1111), Веселова Евгения Романовна (Я11), Булатов Виктор Геннадьевич (ЯП)
Заявка № 2020612931
Дата поступления 17 марта 2020 Г,
Дата государственной регистрации
в Реестре программ для эвм 23 марта 2020 г.
Руководитель Федеральной службы по интеллектуальной собственности
Г.П. Ивлиев
Ш
PdJXDC
(ОЖАШ ФВДЕРАЩШШ
СВИДЕТЕЛЬСТВО
о государственной регистрации программы для ЭВМ
№ 2019662102
Topic Net Cooking Machine
Ш
Правообладатель: федеральное государственное автономное образовательное учреждение высшего образовании «Московский физико-технический институт (национальный исследовательский университет)» (МФТИ) (ЯЪГ)
Авторы: Гончаров Алексей Владимирович (1111), Булатов Виктор Геннадьевич (Я1/), Воронцов Константин Вячеславович (ЯС)
Заявка № 2019660705
Дата поступления 30 августа 2019 Г.
Дата государственной регистрации в Рссстрс программ для эвм 17 сентября 2019 г.
Руководитель Федеральной службы по интеллектуальной собственности
Г. П. Ивлиев
¡ртешйежАш ФЗЕДШРАЩЖЖ
СВИДЕТЕЛЬСТВО
о государственной регистрации программы для ЭВМ
№ 2019661840
Topic Net Viewers
Правообладатель: федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (Я С)
Авторы: Гончаров Алексей Владимирович (ЯII), Булатов Виктор Геннадьевич (Я1), Воронцов Константин Вячеславович (Я11)
Заявка № 2019660707
Дата поступления 30 августа 2019 Г.
Дата I осударственной регистрации в Реестре программ для ЭВМ 10 сентября 2019 г.
Руководитель Федеральной службы по интеллектуальной собственности
Г.П. Ивлиев
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.