Автоматизированная классификация новостных интернет-текстов (на основе метода латентно-семантического анализа LSA) тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Мотовских Леонид Витальевич
- Специальность ВАК РФ00.00.00
- Количество страниц 134
Оглавление диссертации кандидат наук Мотовских Леонид Витальевич
Введение
Глава 1. Текст и медиатекст в пространстве интернет-СМИ
Понятие текста
Категории текста
Понятие медиатекста
Существующие системы классификации медиатекстов
Текст и медиатекст в интернете
Комментарии к публикациям
Текущее состояние интернет-СМИ
Системы классификации медиатекстов в интернет-СМИ
Выводы по первой главе
Глава 2. Проблема классификации текстов
Метод латентно-семантического анализа
Метод вероятностного латентно-семантического анализа
Использование методов машинного обучения в ЛСА
Алгоритмы контролируемого обучения
Классификатор k ближайших соседей (K-Nearest Neighbors)
Наивный байесовский классификатор (Naïve Bayes Method)
Деревья решений
Случайный лес
Метод решающих правил
Методы опорных векторов (Support Vector Machine)
Полиномиальная логистическая регрессия
Метод градиентного бустинга
Алгоритмы неконтролируемого обучения
Методы полуконтролируемого обучения
Выводы по второй главе
Глава 3. Автоматизированная классификация новостных текстов, представленных в интернет-СМИ
Преобразование полученных данных
Построение матрицы ТР-ГОР
Применение алгоритмов классификации
Базовые классификаторы
Случайный поиск
Случайный лес
Метод опорных векторов
Полиномиальная логистическая регрессия
Градиентный бустинг
Поиск по сетке
Случайный лес
Метод опорных векторов
к ближайших соседей
Полиномиальный наивный байесовский классификатор
Полиномиальная логистическая регрессия
Градиентный бустинг
Сравнение классификаторов
Дополнительная апробация классификаторов
Выводы по третьей главе
Заключение
Список литературы
Приложение 1. Программный код для сбора новостных материалов
Приложение 2. Программный код для построения классификаторов
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Вычислительный комплекс-классификатор текстов с использованием морфологического анализа и нейро-семантических сетей2017 год, кандидат наук Ле Мань Ха
Структура новостных текстов и их лексические особенности (на примере социальных сетей и интернет-СМИ)2020 год, кандидат наук Кудрина Лада Владимировна
Когнитивно-фреймовый анализ англоязычных текстов новостных интернет-сообщений2019 год, кандидат наук Чабанова, Анна Алексеевна
Информативность англоязычного медиатекста в лингвокогнитивном аспекте2012 год, кандидат наук Рябова, Елена Сергеевна
Прагматика кликбейтинга в интертекстуальном пространстве медиадискурса2020 год, кандидат наук Гаврикова Олеся Анатольевна
Введение диссертации (часть автореферата) на тему «Автоматизированная классификация новостных интернет-текстов (на основе метода латентно-семантического анализа LSA)»
ВВЕДЕНИЕ
Предстоящее исследование посвящено созданию системы классификации медатекстов интернет-СМИ на русском языке и последующей разработке автоматических классификаторов на основе методов машинного обучения с позиций лингвистики текста.
В связи с развитием интернет-технологий и увеличением количества публикаций в средствах массовой информации, опубликованных на интернет-порталах, все больше и больше людей сталкиваются с проблемой выделения из новостного потока необходимых и интересующих их новостных текстов. С появлением новых форматов представления текстов в интернете проблема только усиливается, особенно в новых медиа, в которых становится сложнее выделить отдельные жанры публикаций [Третьякова, Андропова 2017: 245; Мальцевич 2000: 77]. Количество же выделяемых жанров в интернет-СМИ только увеличивается, требуя создания новых систем классификации медиатекстов [Тертычный 2000; Киуру: 2014: 52].
Однако классификация медиатекстов в рамках предложенных лингвистами систем осложняется именно количеством представленных в интернете материалов. На больших наборах медиатекстов ручная классификация оказывается трудоемким процессом, даже несмотря на точность предложенной системы классификации. В связи с этим особое внимание получают способы автоматической классификации, основанные на машинном обучении, которые успешно применяются для решения различных текстовых задач в смежных отраслях лингвистики [Ломотин, Козлова, Романов 2017: 410; Sulea, Zampieri, Malmasi, Vela, Dinu, Van Genabith 2017].
Используемые в СМИ внутренние рубрикаторы отчасти решают данную классификации медиатекстов, по крайней мере для тех публикаций, которым проставлена какая-либо метка издания. В этом случае заранее клас-
сифицированные медиатексты могут стать источником для построения автоматического классификатора медиатекстов в интернет-СМИ [Рычагов 2017: 29].
Одним из методов, используемых для автоматической классификации текстов, стал метод латентно-семантического анализа LSA, основанный на применении матрицы TF-IDF. Развитие информационных технологий и появление новых программных решений для классификации позволило значительно улучшить результаты, полученные с помощью ЛСА, в частности, за счет применения различных классификаторов. В предстоящем исследовании с этой же целью были изучены некоторые из них.
Актуальность исследования обусловлена растущей ролью интернет-СМИ, увеличением количества публикуемых в интернете материалов и необходимостью применения автоматизированных средств для их классификации.
Объект исследования — тексты и медиатексты, представленные в интернет-СМИ.
Предмет исследования — способы автоматической классификации медиатекстов в интернет-СМИ.
Цель исследования — выявление имеющихся систем классификации медиатекстов, создание на основе полученных данных корпуса размеченных публикаций и разработка приложения для автоматизированной классификации медиатекстов.
Задачи исследования:
- Провести анализ имеющихся систем классификации медиатекстов, в том числе в интернет-СМИ
- Создать корпус размеченных медиатекстов в интернет-СМИ
- Разработать программный продукт для автоматической классификации медиатекстов
Методологической основой данной работы являются классические и современные работы по построению систем классификации текстов и ме-диатекстов (И. Р. Гальперин, Т. Г. Добросклонская, Г. Я. Солганик, А. А. Тертычный, A. Bell); исследования в области анализа новостных материалов в интернет-СМИ (М. Ю. Казак, К. В. Киуру, Т. В. Мальцевич, Е. А. Третьякова, L. T. Kasperova); работы по машинной обработке текстов на русском языке (Л. И. Воронова, Л. А. Гращенко, С. А. Рычагов, И. В. Се-галович, Р. В. Толмачев); исследования в области методов машинного обучения а также их применения к естественным языкам (J. Bergstra, D. Chechelnytskyy, R. Garreta, T. Hofmann).
Методика данной работы основывалась на исследованиях понятий текст и медиатекст, в том числе применительно к интернет-СМИ, проведенных Т. Г. Добросклонской, М. Ю. Казак, К. В. Киуру, Т. В. Мальцевич, А. А. Тертычного; заключалась в сборе и анализе медиатекстов интернет-СМИ на русском языке из разных источников, их последующей обработке; проведении автоматической классификации с помощью различных методов машинного обучения; статистическом анализе полученных результатов классификации.
Научная новизна заключается в исследовании возможностей автоматической классификации медиатекстов с помощью методов машинного обучения, что оказывает вклад в развитие технологий, а также собственной разработанной системой классификации медиатекстов.
Теоретическая значимость состоит во вкладе в теорию классификации медиатекстов в интернет-СМИ с применением автоматических компьютерных технологий.
Практическая ценность состоит в возможности применения полученных данных в учебных занятиях по теории текста и медиатекста, а также
разработке приложения, позволяющего проводить автоматическую классификацию медиатекстов в интернет-СМИ на основе определенных категорий.
Экспериментальный корпус — языковой материал на русском языке, автоматически собранный из средств массовых информации, представленных в сети интернет, а также разработанного программного продукта на языках Golang и Python для сбора, преобразования и классификации медиатекстов. Собранный корпус состоит из 12 000 материалов, общий объем имеющихся классификаторов составляет примерно 330 Мбайт.
Достоверность полученных результатов и надежность выводов обеспечивается наличием в итоговом корпусе материалов различных изданий и категорий, представительностью собранных 12 000 медиатекстов, разделением материалов на обучающую и тестовую выборки для последующей классификации; использованием 6 различных классификаторов; случайным поиском и поиском по сетке оптимальных значений параметров для инициализации классификаторов.
Апробация примененных в исследовании технологий и результатов исследования проводилась в рамках Первого воркшопа Математического центра в Академгородке (Новосибирск, 2020), конференции «Collegium Linguisticum 2021» (Москва), а также Международном молодежном научном форуме «Ломоносов-2021» (Москва).
На защиту выносятся следующие положения:
1. Особенности медиатекстов в интернет-СМИ обуславливают необходимость новых систем классификации медиатекстов;
2. Существует способ автоматической классификации медиатекстов в рамках выбранной системы;
3. Система классификации медиатекстов одного интернет-СМИ может применяться для классификации материалов других интернет-изданий.
Структура и объем диссертации. Диссертация состоит из введения, трех глав (каждая глава сопровождается выводами), заключения, списка литературы объемом 85 источников и 2 приложения. Основной текст диссертации изложен на 113 с., содержит 2 таблицы и 23 рисунка.
ГЛАВА 1. ТЕКСТ И МЕДИАТЕКСТ В ПРОСТРАНСТВЕ
ИНТЕРНЕТ - СМИ
Понятие текста
Согласно Большому словарю иностранных слов, слово «текст» образовано от латинского textum (ткань; сотканное) и имеет более 20 разных значений. Самым первым выделяется следующее: «всякая запечатленная в письменности или в памяти речь, написанные или сказанные кем-нибудь слова, которые можно воспроизвести, повторить в том же виде».
Помимо этого, под текстами также понимают документы как памятники письменности или определенные отрывки, предназначенные для учебных целей. В зависимости от области знаний, использующих слово текст, определения раскрывают дополнительные особенности применения данного термина: в музыке «слова, на которые пишется произведение», в типо-графике: шрифт размером в 20 пунктов, устаревшая мера длины [Большой словарь иностранных слов].
Однако большинство имеющихся в словаре определений сходятся в том, что текст — скорее письменное языковое образование. В научной литературе понятие текст уже давно не связано исключительно с письменными представлениями. Так в специализированной литературе приводится следующее определение текста: «...объединенная смысловой связью последовательность языковых единиц, основными свойствами которой являются связность и целостность» [Лингвистический энциклопедический словарь]. Более того, по мнению некоторых авторов, «Все носители языка... говорят только текстами, а не словами и не предложениями» [цит. по: Чувакин 2004: 88].
В одной из первых книг по лингвистической теории текста под авторством И. Р. Гальперина текст определяется как «произведение речетвор-ческого процесса, обладающее завершенностью, объективированное в виде письменного документа, литературно обработанное в соответствии с типом
этого документа, произведение, состоящее из названия (заголовка) и ряда особых единиц (сверхфразовых единств), объединенных разными типами лексическое, грамматической, логической, стилистической связи, имеющее определенную целенаправленность и прагматическую установку» [цит. по: Щипицина 2009: 55; цит. по: Горшков 2006: 56]. В дальнейшем И. Р. Гальперин описывает текст как «упорядоченную форму коммуникации, лишенную спонтанности» [Гальперин 2006: 10].
В более поздних публикациях определение текста уточняется и дополняется. Как утверждает А. А. Бернацкая, термин «текст» можно рассматривать в широком и узком понимании. Так, наиболее широким определением служит определение в семиотике: «текст — любая осмысленная последовательность любых знаков, любая форма коммуникации» [Бернацкая 2009: 30]. В более узком смысле, как указывает А. И. Горшков, существуют и другие определения текста с точки зрения предложений:
- «Текст — когерентная последовательность предложений» (К. Брин-
кер);
- «Текст — последовательность предложений, которые связаны друг с другом посредством синтагматической субституции» (Р. Харвег);
- «Текст — объединенная смысловой и грамматической связью последовательность речевых единиц: высказываний, сверхфразовых единиц (прозаических строф), фрагментов, разделов и т.д.» (Г. Я. Солганик) [цит. по: Горшков 2006: 54] Однако в своей более поздней публикации Г. Я. Солганик характеризует текст как «один из сложнейших объектов изучения, многоаспектный, практически и теоретически неисчерпаемый... В нем скрещивается действие всех факторов, формирующих речь, речевое общение... Все единицы, категории языка обретают подлинную жизнь именно в текстах, существуют для оформления текстов» [Солганик 2005: 7].
Согласно Н. Л. Абрамяну, текст может пониматься как «линейная цепочка соединенных сегментов», который может восприниматься не только
как носитель основного значения, смысл которого «равномерно размазан», но и как носитель значения цепочки сегментов, из которых он состоит [Абрамян 2012: 158].
В. П. Руднев раскрывает следующее определение текста: «Текст — это системное единство, проявляющее себя посредством повторяющихся мотивов, выявляемых посредством метода свободных ассоциаций, обнаруживающих скрытые глубинные мифологические значения, определяемые контекстом, с которым текст вступает в сложные взаимоотношения, носящие характер межмировых отношений между языком текста и языком реальности, строящихся как диалог текста с читателем и исследователем» [цит. по: Стариннова, Круглякова 2016].
Таким образом, в тексте сочетаются языковые и внеязыковые проявления. Семантическая структура текста формируется за счет тех или иных описываемых им событий, а его содержание определяется связями между этими событиями. Смысловая же структура текста тесно связана непосредственно с автором текста, отражая экстралингвистические факторы и «имеет сложную многоуровневую и многоаспектную организацию» [Пан-ченко, Качесова, Комиссарова, Чувакин, Земская 2010: 68].
Дальнейшее уточнение понятия «текст» варьируется с точки зрения изучающих его той или иной области гуманитарных наук. Более того, дополнительные особенности текста открываются на пересечении дисциплин. Как утверждает А. А. Бернацкая, каждая дисциплина (будь то информатика, герменевтика, лингвистика, прагматика, семиотика, психология, социология, риторика или книговедение) по-своему раскрывает различные аспекты текста [Бернацкая 2009: 31]. Ю. М. Лотман по-своему определяет внутренние критерии текста: «Текст обладает началом, концом и внутренней организацией. Внутренняя структура присуща всякому тексту по определению. Аморфное скопление знаков текстом не является» [Лотман 2002: 17].
Более того, в различных дисциплинах по-разному представлен подход к исследованию феномена текста. Текст может изучаться как:
- знак (сложный знак или знаковая последовательность) — в аспектах его устроенности: структурной, содержательной, функциональной (коммуникативной, прагматической); парадигматики и синтагматики;
- единица динамическая — в плане текстопорождения, текстообразо-вания и текстопонимания;
- текстовая деятельность;
- предмет теории интерпретации;
- компонент культуры, средство межкультурной коммуникации;
- как предмет типологических построений;
- психо- и социолингвистический феномен, явление культуры;
- комплексный, междисциплинарный объект [Панченко, Качесова, Комиссарова, Чувакин, Земская 2010: 14].
Помимо этого, существуют и различные подходы к методологии изучения текста. Так, согласно В. Е. Чернявской, при изучении текста следует выделять:
- Всеобщие признаки текста, отражающие его свойства как объекта исследования; инвариантные признаки, присущие каждому тексту и позволяющие задать общее определение текста;
- Типологические признаки, присущие только текстам определенных классов, видов, типов;
- Индивидуальные характеристики текста, присущие отдельным текстовым произведениям и отражающие их уникальное своеобразие [Чернявская 2014: 19].
Из-за обширности понятия текст и указанных выше различий в подходах к его изучению, разные ученые выделяют различные признаки и свойства текста. Стоит отметить, что особый интерес для исследований пред-
ставляют не столько формальные признаки текста, сколько «текстовые категории», непосредственно описывающие сущность текста [Ичкинеева 2019: 60].
Категории текста
Текстовая категория — это типологический признак текста, набор и взаимодействие которых «способен проявить структуру текстовой семантики» [Матвеева 1990: 10]. Как утверждает, З. Я. Тураева, «категории текста отражают его наиболее общие и существенные признаки и представляют собой ступеньки в познании его онтологических, гносеологических и структурных признаков» [цит. по Ичкинеева 2019: 59].
Текст не обладает только одной текстовой категорией, наоборот, каждый текст представлен совокупностью категорий. Однако, как утверждает Т. В. Матвеева, «даже глобальные текстообразующие признаки еще нельзя считать определившимися в их абсолютной и относительной значимости» [Матвеева 1990: 9]. Иными словами, остается открытым вопрос, сколько и какие категории текста присущи большинству представленных в мире текстов.
В одной из первых работ по описанию текстовых категорий, немецкие ученые де Богранд и Дресслер в качестве основных свойств текста выделяют следующие понятия: когезия, когерентность, воспринимаемость, интенциональность, ситуативность, информативность и интертекстуальность. В русскоязычной литературе первые три свойства известны под терминами связность, целостность и адресованность текста соответственно [Чернявская 2014: 22].
В отечественной литературе список категорий текста одним из первых был представлен в работе И. Р. Гальперина «Текст как объект лингвистического исследования». В ней ученый определяет такие категории текста
как информативность, членимость, проспекция, ретроспекция, когезия, континуум, модальность, автосемантия, завершенность, подтекст [Гальперин 2006: 50].
Несмотря на все многообразие представленных категорий текста, исследователи чаще всего сходятся в выделении определенной группы таких категорий. Рассмотрим ключевые категории текстов, наиболее часто упоминаемые в текстах других исследований.
Когезия (связность) — текстовая категория, которая проявляется в виде внутренних связей в тексте: грамматических, лексических, графических или ритмических. Совокупность таких связей объединяются тем, что «лежат на поверхности» [Гальперин 2006: 72].
В свою очередь, когерентность (целостность) текста основывается на содержательных связях: причинно-следственных, временных, рефереци-альных. В отличие от когезии, когерентность поддерживает целостность текстового смысла и отражает «глубинную структуру текста».
Традиционно именно категории когезии и когерентности выделяются как ключевые категории текста: «Цельность и связность — это системные свойства речевых произведений, они лежат в самой основе выделения лингвистики текста в самостоятельную научную дисциплину» [Филиппов 2003: 134]. Более того, именно эти категории выделяются как в зарубежной модели де Богранд и Дресслера, так и в отечественных моделях Гальперина и других исследователей [Гальперин 2006: 50; Каменская 1990: 41; Леонтьев 1976: 61].
Тем не менее некоторые исследователи отмечают, что эти две категории следует рассматривать неотделимо друг от друга. К примеру, согласно К. Бринкеру, когерентность проявляется и на таких более «поверхностных» уровнях текста как грамматический [цит. по Филиппов 2003: 53].
При этом согласно концепции Дресслера, текст является текстом тогда и только тогда, когда ему присущи все из перечисленных 7 свойств. Однако, как утверждает В. Е. Чернявская, тексты современных реалий не соответствуют традиционным представлениям и ожиданиям от текста: так, тексты, представленные в интернет-чатах, могут не иметь формальных обозначенных границ, т.е. завершенных [Чернявская 2014: 27].
В свою очередь, представленный в интернете текст может также не имеет другой категории — линейной упорядоченности. Другим примером несоответствия классическим моделям можно отнести генерируемые компьютером тексты с заранее неопределенными модификациями и изменениями. У текстов, созданных таким образом, нет однозначного и связанного с ними субъекта речи.
В современных исследованиях понятие текста расширяется не только за счет текстовых категорий. Важнейшей характеристикой текста является способ его производства, оказывающий значительное влияние на само понятие «текст» [Добросклонская 2008: 40]. В частности, текст, представленный в интернете, дополнительно обогащается иллюстрациями, фрагментами видео, ссылками на другие тексты или такими интерактивными элементами как спойлер. Все эти элементы также являются компонентами текста и анализируются наряду с текстовыми знаками.
В зависимости от указанных выше особенностей текста, зависят и методы, используемые к его изучению. Данное исследование будет посвящено отдельно исследуемому в литературе тексту, представленному в средствах массовой информации, «медиатексту».
Понятие медиатекста
В последние годы текст массовой коммуникации оказался одним из наиболее востребованных явлений массовой коммуникации, активно изучаемых мировой практикой и теорией [Шестакова 2013: 38]. Исторически понятие «медиатекст» появилось в 1990-е в англоязычной литературе.
Согласно позиции известного английского исследователя Алана Белла, «Определение медиатекста гораздо шире традиционного подхода к тексту как к набору слов, напечатанных на бумаге, оно включает в себя речь, музыкальное и звуковое сопровождение, иллюстрации и проч. ... Медиа-текст — это фактически отражение технологий, используемых для их создания» [Bell, Garrett 1998].
Как утверждает Т. Г. Добросклонская, текст в средствах массовой информации отличается от классического представления текста. Основным отличием является нелинейность, объемность и многослойность текста, выраженная за счет различных графических средств, дополняющих текст. Описание такого многоуровневого явления задается с помощью набора параметров, позволяющих точно описать представленный медиатекст. Вместе с этим, классический текст, использованный в СМИ наделяется дополнительными смысловыми оттенками и «медийными добавками» [Добросклонская 2008: 35].
Согласно Т. Г. Добросклонской, новостные тексты массовой информации характеризуются следующими факторами:
- реализация информативной функции языка;
- определенный формат содержания, представленный «сеткой» теленовостей;
- четкая структура списка тем или топиков (topics): политика, экономика, бизнес, образование, спорт, культура;
- устойчивые лингвостилистические признаки: определенные типы словосочетаний, наличие значительного числа клишированных и тематически связанных словосочетаний, использование постоянных текстообразую-щих элементов: фраз-связок, ссылок на источники информации, фраз для введения цитат;
- культурно-идеологическая модальность, способ интерпретации того или иного события, выраженный в «тональности» подачи информации;
- синхронная и диахронная повторяемость новостных текстов [там же:
Такие широкие определения медиатекста позволяют назвать медиа-текстом практически все, что появляется в СМИ, и, как следствие, выйти за границы классического понимания текста. Сущность медиатекста приближается к максимально широкому определению текста из семиотики, изложенному выше.
Вместе с этим, как утверждает М. Ю. Казак, некоторые признаки текстов неоднозначно представлены в медиатекстах [Казак 2013: 321]. К примеру, атрибут «авторства» не всегда возможно установить для каждого из текстов, представленного на сайте какого-нибудь новостного агре-гатора. Различные формы представления новостных материалов также делают необязательным наличие заголовка — другого атрибута текста в классическом понимании.
Отличия медиатекста от классического определения текста также вызваны условиями его создания и публикации. Как утверждает Е. С. Куб-рякова, концептуальными качествами медиатекста являются «подвижность, переходность и гетерогенность». В зависимости от темы предмета разговора медиатекст может относиться к нескольким категориям текста одновременно, пересекаясь между собой [Красноярова 2015: 92].
Другие отличия медиатекста от текста выделяет Ю. В. Рождественский, характерной особенностью медиатекстов обозначая их «вторич-ность». Благодаря систематизации, сокращению и переработке других, первичных видов текстов, тексты, представленные в СМИ, состоят из обработанных смысловых частей других текстов. Такая обработка исходного материла приводит к появлению нового вида текста «со своими законами построения и оформления смысла» [цит. по: Казак 2013: 323].
Помимо этого, особенностью медиатекста является «поликодо-вость». Современный текст в СМИ почти всегда дополняется невербальными знаковыми системами, к примеру, иллюстрациями. Формат интернет-СМИ заметно расширяет этот ряд, добавляя в тексты гиперссылки, сноски, вставки с дополнительными материалами по теме и т.д.
Еще одним отличием, характеризующим медиатекст, выступает «обязательная сегментация знакового продукта на некие усредненные ... блоки, из которых ... монтируется весь текст», что приводит к его «механистичности» [Костомаров 2005: 202]. Эффект механистичности усиливается за счет не всегда доступной читателю обратной связи, даже несмотря на попытки авторов медиатекста «сделать из читателей собеседников» [там же: 203].
Как указывает Г. Я. Солганик, первостепенной особенностью меди-атекстов является их массовость, ориентированность на большую аудиторию. Так, массовость аудитории приводит к «усреднению» языка текста: индивидуальные смысловые выражения, специальные термины, которые могут быть не понятны читателю, опускаются или заменяются на более доступные аналоги [Солганик 2005: 11].
В качестве другой особенности медиатекста Г. Я. Солганик выделяет специфичность категории автора, которая является основой принципа «совпадения производителя и субъекта речи», крайне важного для СМИ. Вместо абстрактного рассказчика автором медиатекста выступает конкретная личность «со своими вкусами и пристрастиями». В отличие от автора текста в классическом понимании, автор медиатекста не только выражает социальные интересы определенной группы, но и выступает на стороне читателя, разделяющий его быт и «земные потребности» [там же: 12].
М. Ю. Казак выделяет несколько ведущих признаков медиатекста:
- Медийность — «воплощение» текста теми или иными медиасред-ствами, а также ограничения на формат текста, обусловленные конкретным медиасредством.
- Массовость — значительный размер аудитории, которая выступает потребителем текста.
- Интегративность — объединение нескольких способов кодирования информации в тексте.
- Открытость [Казак 2013: 323].
Список отличий медиатекста от текста в традиционном понимании не ограничивается только этими проявлениями и подлежит дальнейшему изучению. Так, в литературе встречаются исследования отдельных аспектов медиатекста: его направленности, коммерциалированности или агрессивности по отношению к читателю.
Таким образом, с учетом особенностей медиатекстов, М. Ю. Казак предлагает следующее определение медиатекстов: «медиатекст — интегра-тивный многоуровневый знак, объединяющий в единое коммуникативное целое разные семиотические коды (вербальные, невербальные, медийные) и демонстрирующий принципиальную открытость текста на содержательно-смысловом, композиционно-структурном и знаковом уровнях» [там же: 323].
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Модификация, разработка и реализация методов классификации новостных текстов2014 год, кандидат наук Шаграев, Алексей Галимович
Экспрессивная перспектива англоязычного новостного дискурса: на материале газетных текстов о природных катастрофах2018 год, кандидат наук Пантина, Ольга Анатольевна
Алгоритмы интеллектуального поиска на основе метода категориальных векторов2016 год, кандидат наук Бондарчук, Дмитрий Вадимович
Дискурсивные стратегии представления информации в новостных текстах британских СМИ: на материале качественных Интернет-газет2015 год, кандидат наук Баженова, Екатерина Юрьевна
Новостной медиадискурс в современном онлайн-пространстве2016 год, кандидат наук Поплавская, Наталия Владимировна
Список литературы диссертационного исследования кандидат наук Мотовских Леонид Витальевич, 2023 год
- Сетература
- Электронные журналы
- Блоги
- Web 2.0
- Блог-литература
- Микроблогинг [Шульга 2009: 274]
В рамках указанной системы медиатексты в основном проявляются в виде электронных журналов. Однако издательство может использовать собственные аккаунты в социальных сетях для дополнительного привлечения аудитории за счет ссылок на статьи, в частности, в социальной сети микроблогов Twitter. В таком случае, в зависимости от редакционной политики медиатексты могут принимать композиционную структуру микробло-гинга, подобно тому, как это делает медиагруппа «РБК».
Согласно материалам Т. Г. Добросклонской, текст, представленный в интернет СМИ, является частным случаем медиатекста. Данная разновидность медиатекста характеризуется:
- По способу производства текста: текст в интернет-СМИ может быть как авторским, так и коллегиальным. В отличие от коллегиальных текстов, которые составляются от лица СМИ (ТАСС, BBC), авторские тексты содержат в себе указатель на автора материала, будь то колонка обозревателя или журналистское расследование.
- По форме создания текста тексты представлены в письменной форме.
- По форме воспроизведения тексты в электронных СМИ идентичны своему представлению по форме создания.
- По каналу распространения интернет-СМИ характеризуются исключительно интернетом, что накладывает определенные ограничения
на публикуемый текст. К примеру, текст не всегда приспособлен для воспроизведения в устной форме за счет иллюстраций, графических элементов или перекрестных ссылок на определенные части текста.
- По функционально-жанровому типу текста в зависимости от новостного издания тексты могут быть представлены как новостями, так и комментариями, публицистикой или рекламой.
- По тематической доминанте тексты электронных СМИ также вариативны и непосредственно зависят от издания [Добросклонская 2008: 50].
С учетом системы классификации М. Ю. Казак, которая пересекается с работами Т. Г. Добросклонской, медиатексты в интернет-СМИ однозначно характеризуются только в двух категориях. Так, каналом распространения текстов выступает интернет, а код текста — невербальный или, что более характерно для современных интернет-изданий, поликодовый [Казак 2013: 324].
Система классификации Т. Л. Каминской описывает аудиторию современных газет и журналов, поэтому подходит и для современных электронных СМИ без дополнительных адаптаций. Более того, печатные издания типа «Комсомольской правды» сохраняют свой язык повествования и общения с аудиторией на собственных интернет-сайтах.
То же самое касается и системы классификации, предложенной Г. С. Мельник. В зависимости от издания, авторского коллектива или конкретного автора язык текст статьи может быть использован для воздействия на конкретные институты, а может быть относительно нейтральным [цит. по: Чичерина 2007: 160].
Как уже отмечалось выше, в системе классификации Н. В. Чичериной, интернет-тексты сочетают в себе вербальные, визуальные и пространственные компоненты. Стоит отметить, что с развитием интернет-технологий список используемых компонентов может значительно расшириться.
Текст из печатных СМИ в интернете приобретает дополнительную информационную нагрузку, обусловленную своим каналом распространения. Подобно тому, как тексты, представленные на радио или телевидение, обогащаются особенным звуковым содержанием, интернет-тексты обладают отличительными свойствами. Исследователи выделяют следующие особенности текста в интернете: гипертекстуальность, интерактивность, нелинейность и незавершенность [Барышева, Касперова, Клушина, Селезнева, Смирнова 2015: 63].
Гипертекстуальность текста проявляется в возможности оставить ссылку на другой материал или источник, который может быть так же интересен читателю. Наличие в тексте гиперссылок на материалы по теме не только более подробно раскрывает сущность того или иного явления, но и способствует формированию более точной медийной картины мира. Более того, гипертекстуальность не ограничивается только ссылками внутри самого текста и дополнительно проявляется в блоках, окружающих публикации. Такими блоками выступают списки с похожими публикациями, врезками с недавно опубликованными материалами по теме и простыми списками наиболее часто просматриваемых материалов на сайте за последние сутки.
Интерактивность текста в интернете в первую очередь обусловливается возможностью вовлечения аудитории в обсуждение материалов. Более того, именно возможность прокомментировать текст приводит к формированию новых текстовых жанров в формате форумов, блогов или чатов [там же: 63].
Однако интерактивным может быть и сам материал, представленный в издании, к примеру, график, позволяющий сравнить экономические показатели интересующих читателя стран за определенный период времени. Отдельно выделяются интерактивные дополнительные секции текста, которые
по умолчанию скрыты и показываются только при нажатии на определенный отрезок в тексте. С их помощью редакция может комментировать излишне сложный термин, давать комментарий к другому событию или явлению, затронутому в статье, или скрывать «спойлеры» — контент, преждевременное прочтение которого может расстроить пользователей [Johnson, Rosenbaum 2015: 3].
Переход публикации в интернет-среду также вносит свои изменения и в привычные категории текста. Так, согласно И. Р. Гальперину, категории ретроспекции и проспекции предполагают подготовку читателя и нацелены на предвосхищение, либо пояснение событий, излагаемых в тексте. Реализация категории проспекции эксплицируется такими выражениями, как «об этом ниже», «как будет показано далее» и др., а ретроспекции — «как было показано выше», «об этом мы рассказывали в ...» [цит. по Ильина 2008: 6]. В гипертексте категории ретроспекции и проспекции выражены ссылками, и читатель может просмотреть пояснения или прочитать их сразу же. Автор же таким образом получает возможность связать между собой несколько цепочек событий, переплетая их между собой и вписывая их в общий информационный поток. В конечных гипертекстах, существует еще и содержание, как правило, состоящее из ссылок на текстовые вложения [там же: 6].
Таким образом, представленные в интернете тексты обладают своими особенностями, не свойственные медиатекстам на печатных носителях. Рассмотрим подробнее некоторые аспекты текстов, характерные только для интернет-пространства.
Комментарии к публикациям
Как утверждалось выше, категория интерактивности в медиатекстах, представленных в интернете, реализуется, в частности, за счет комментариев к публикации. До изобретения интернета комментарии в печатных газетах и журналах представляли собой бумажные письма, которые читатели
отправляли редакции издания. В свою очередь, редакция могла публиковать выдержки из наиболее интересных писем и давать на них публичный ответ, взаимодействуя со своим читателем. В настоящее время практически каждое интернет-СМИ располагает секцией комментариев, где любой пользователь может прокомментировать ту или иную публикацию.
Данная жанровая особенность текста в интернет-СМИ увеличивает возможности вовлечения читателя в обсуждение текста. Перед публикацией пользовательские комментарии могут проходить премодерацию, чтобы ограничить количество оскорбительных или неуместных реплик, хотя и регулировка требует дополнительных издержек от издания.
Другие интернет-издания дополнительно добавляют в комментарии вложенность. Так, на новостном портале vc.ru комментарий доступен для дальнейшего ответного комментирования, который, в свою очередь, тоже может быть прокомментирован. В результате под публикацией формируются ветки обсуждений, строящихся из первоначальных комментариев к публикации. Нередко пользователи сайта вступают в дискуссии, которые по количеству символов значительно превышают объем изначальной публикации.
Дополнительной особенностью подобных обсуждений является возможность оценить каждый комментарий, как негативно, так и позитивно. Счетчик суммирует количество отрицательных и положительных оценок, показывая общее значение «кармы комментария». Конечно, наиболее популярные комментарии привлекают больше внимания других читателей, а самые «заминусованные» высказывания могут быть автоматически скрыты на сайте для всех желающих и доступны только по клику.
Порядок отображения комментариев к статье может быть как прямым и хронологическим в порядке создания, так и на основе подобной системы оценок. Учитывая, что пользователи физически не могут прочитать
все доступные комментарии, сайты с подобными системами оценки ранжируют комментарии в зависимости от их рейтинга, «поднимая в топ» наиболее популярные комментарии. Однако исследователи выделяют следующие проблемы подобного подхода:
- «Холодный старт»: только что опубликованный комментарий еще не получил оценок и, как следствие, «тонет» в выдаче и, вполне вероятно, никогда так и не будет оценен.
- «Накрутка»: отдельные пользователи или скоординированные группы могут совместно голосовать за тот или иной комментарий в том числе с привлечением дополнительных аккаунтов [Risch, Krestel 2020: 579].
В современных блог-платформах типа Teletype читатель текста обладает значительно более широкой палитрой взаимодействия с текстом. Так, к каждой публикации в блоге привязываются счетчики «эмодзи», небольших изображений, отражающих ту или иную эмоцию, которую вызывает отраженные в тексте факты. Таким образом, каждый читатель способен самостоятельно определить не только какие материалы вызывают наибольшее одобрение или наибольшее недовольство, но и более детально увидеть, какие конкретно публикации вызывают у аудитории улыбку или гнев.
Текущее состояние интернет-СМИ
Вслед за ростом популярности интернет-СМИ и увеличением количества изданий, публикующих свои материалы в интернете, растет вероятность оттока читателей у печатных газет и журналов в пользу других, более удобных и эффективных каналов передачи информации. Для определения, возможна ли полноценная замена печатных изданий электронными, требуется понимать, тратят ли читатели интернет-СМИ меньше времени на потребление новостей из других источников, будь то телевидение, радио или печатная продукция [Curran, Coen, Aalberg, Hayashi, Jones, Splendore, Papathanassopoulos, Rowe, Tiffen 2013: 885].
Исследователи отмечают три причины, сдерживающие развитие интернет-журналистики. В первую очередь, это деятельность крупных медиа-холдингов, которые за счет имеющихся ресурсов вытесняют менее крупных игроков на рынке. В условиях интернета, где пользователи привыкли к бесплатному контенту, независимым новостным порталам сложно пробиться, даже несмотря на свой потенциал отличаться от существующих изданий [цит. по: Curran, Coen, Aalberg, Hayashi, Jones, Splendore, Papathanassopoulos, Rowe, Tiffen 2013: 892].
В качестве второй причины исследователи выделяют политические и социальные отличия между культурами. Так, новостные сайты зачастую отражают национальные особенности, представленные в стране. Более того, близкие друг к другу культуры разделяют и те или иные особенности, представленные в средствах массовой информации. Это явление особенно сильно наблюдается в интернет-СМИ под влиянием глобализации [Curran, Coen, Aalberg, Hayashi, Jones, Splendore, Papathanassopoulos, Rowe, Tiffen 2013: 893].
Третьей причиной, препятствующей развитию СМИ в интернете, является централизация интернет-порталов на той или иной аудитории, чаще всего ограниченной одной нацией. Крупные медиахолдинги, такие как BBC, CNN, Guardian, Wall Street Journal создают не глобальные мультиязычные новостные сайты, рассчитанные на весь мир, а, наоборот, концентрируются на определенных регионах. Компании развивают интернет-сайты, посвященные новостной повестке того или иного общества и чаще всего доступные только на понятном этому обществу языке.
В то же время исследователи отмечают появление закономерностей в поведении человека при чтении материалов из интернет-источников [Perrin 2015: 3]. Особенно сильно этот эффект проявляется с возрастом. К примеру, подростки в возрасте 11-17 лет потребляют значительно больше
контента, чем дети, но примерно столько же, сколько и зрелые люди [Rideout, Foehr, Roberts 2010: 11].
Более того, так как новые каналы распространения информации позволяют читателям общаться друг с другом, вовлечение в материалы средств массовой информации участвует формировании личности и удовлетворяет потребности человека в общении. Тем не менее ученые также выражают беспокойство негативным влиянием, которое оказывают интернет-порталы на здоровье человека [цит. по Twenge, Martin, Spitzberg 2019: 329].
Однако вопрос о снижении интереса к традиционным каналам распространения информации в пользу новых форматов все еще представляет
и л и и и
интерес для исследователей. С одной стороны, каждый взрослый человек тратит на потребление контента не более определенного числа часов в день. Следовательно, с повышением доли времени на прочтение материалов в интернете, время, потраченное на, к примеру, телевидение, должно снижаться. С другой стороны, материалы в интернете могут вызвать дополнительный интерес к определенной тематике и, как следствие, увеличить общее время на потребление контента из разных источников.
В работе Twenge J. et. al. утверждается, что с середины 2000-х годов наблюдается спад интереса к традиционным каналам распространения информации, таких как книги, журналы и телевидение. Ученые объясняют это явление появлением смартфонов и более доступного и быстрого интернета соединения [Twenge, Martin, Spitzberg 2019: 342].
Системы классификации медиатекстов в интернет-СМИ
Научно-технический прогресс и развитие сети интернет привело к появлению новых жанров в текстах СМИ как в количественном, так и в качественных аспектах. В связи с этим, традиционные системы классификации жанров информационных сообщений могут быть использованы для понимания жанровых особенностей медиатекстов, однако они не в пол-
ной мере отражают особенности современных текстов [Третьякова, Андропова 2017: 246]. Более того, новые жанры, появившиеся в связи с развитием информационных технологий и интернет СМИ, пусть исторически и происходят из более ранних жанров печатных изданий, необязательно прочно связаны с ранее существующими жанровыми системами [Шестакова 2013: 44].
Продолжая исследование системы классификации медиатекстов, в своей работе А. В. Колесниченко утверждает, что жанры интернет-газет существенно отличаются от жанров печатных изданий [Колесниченко 2018: 27]. Исследователь предлагает список из 10 основных жанров современных интернет-СМИ, дополнительно выделяя недостаточно изученную с точки зрения востребованности жанровую категорию «лонгрид» и категорию «прочее» для исключительных текстов, не попадающих в список ниже:
- Короткая новость
- Расширенная новость
- Репортаж
- Интервью
- Колонка
- Аналитическая статья
- Портрет
- Очерк
- Рецензия
- Расследование
В категории «Прочее» отдельно выделяются такие необычные жанры как «Карточки», «Кейс» или «Тест-драйв». Использование подобных жанров возможно только в интернет-СМИ из-за интерактивных особенностей публикуемых материалов.
Более того, в своей работе автор утверждает, что определенные жанры, характерные для печатных СМИ, такие как «очерк» или «репортаж»
менее востребованы в интернет-среде. В то же время жанры типа «подборка» или «случай / житейская история» из категории «Прочее» встречаются в изданиях гораздо чаще из-за возможности дополнить публикацию изображением или видео [там же: 34].
Другая система классификации медиатекстов представлена в работе К. В. Киуру. Автор подробно описывает следующие виды медиатекстов в зависимости от типа представленного контента:
- Информационная заметка
- Репортаж
- Авторский блог
- Статичная иллюстрация
- Фотолента, фоторепортаж, фотогалерея
- Слайд-шоу
- Карикатура
- Подкаст
- Аудиоиллюстрация
- Аудиоверсия
- Аудиосюжет
- Видеоиллюстрация
- Видеосюжет
- Потоковое видео
- Видеоколонка
- Аудиослайдшоу
- Интерактивная видеоколонка
- Интерактивный видеомост
- Мультимедийное ток-шоу
- Мультискрипт (интерактивное видео)
- Инфографика [Киуру 2014: 54]
Как отмечает автор, наиболее классическим жанром в любом виде СМИ (в том числе в электронном) является информационная заметка [там же: 52].
Указанные выше системы классификации имеют между собой пересечения и с другой системой, предложенной Е. А. Третьяковой и В. В. Антроповой для оперативно-новостных текстов в интернет-СМИ. В своей работе авторы выделяют следующие жанры:
- Заметка
- Онлайн-репортаж
- Новостной анонс
- Фоторепортаж [Третьякова, Андропова 2017: 247]
Столь малое количество выделяемых жанров по сравнению с системой, предложенной К. В. Киуру объясняется тем, что авторы заранее фокусируются на одном виде новостных текстов и не выделяют отдельные жанры в зависимости от использования фото или видеофайлов.
Таким образом, представленные выше системы классификации рознятся в количестве различных жанров интернет-публикаций, представленных в интернете, однако в достаточной степени описывают большинство имеющихся новостных текстов в интернет-СМИ. Подробно рассмотрим некоторые из описанных жанров с точки зрения представленного в них текста.
Отдельным новым жанром медиатекстов, появившегося только с развитием интернет-технологий, выступают трансляции — короткие заметки о происходящем событии, публикующиеся в режиме реального времени. Вместо того, чтобы напрямую следить за всем ходом процесса, к примеру, прямой трансляции выступления политика, читатель может подключиться в только в определенный момент времени и в удобном для себе темпе изучить самые важные отрывки из выступления. Более того, фокус исключительно на наиболее ярких моментах события позволяет быстрее
просматривать содержимое и параллельно заниматься отвлеченной от чтения текста деятельностью. К. В. Киуру в своей работе объединяет трансляции с репортажами, называя их онлайн-репортажами или, если речь идет о социальной сети Twitter, твиттер-репортажами. Подобным образом жанр онлайн-репортажа описывают Е. А. Третьякова и В. В. Антропова. Этим объясняется высокая оценка востребованности жанра «репортаж», который не является популярным в интернете по мнению А. В. Колесниченко.
Другим популярным жанром публикаций являются «карточки» — серия из коротких и емких абзацев, так или иначе раскрывающих один из аспектов темы. Каждая карточка состоит из простого заголовка-вопроса, как если бы читатель напрямую спрашивал журналиста по теме, и из ответа на этот вопрос. Первым вопросом чаще всего выступает обобщенный вопрос из серии «Что это такое?» или «Что случилось?» непосредственно раскрывающих суть явления. Каждый последующий блок вопроса и ответа логически вытекает из предыдущего.
Отдельно стоит выделить краткие публикации в СМИ, состоящие из одного медиафайла или публикации в социальной сети и текста новости из одного-двух описательных предложений. Затем следует непосредственно встроенный медиафайл, который так же доступен в социальной сети, которая разместила оригинальную публикацию. Разумеется, встроенный текст может как значительно отличаться от новостного жанра, так и отсутствовать вовсе.
Текст, представленный в статье, может дополнительно транслироваться в видеофайл, прикрепленный к публикации, на манер того, бегущей строки или всплывающих сообщений в телевизионных новостных передачах. Аудиофайлы могут использоваться не только для демонстрации отрывков из речи, но также дополнять или дублировать опубликованный на странице текст, подобно тому как новости освещаются на радиопередачах.
Представленные системы классификации медиатекстов дополнительно подтверждают, что существующие жанровые способы классификации газетных текстов не в полной мере учитывают особенности текстов в интернете. Так, к примеру, упомянутая выше система В. М. Горохова не в полной мере описывает жанровые особенности новых форматов публикаций (подборки или рекомендации), предлагаемых А. В. Колесниченко [Колесниченко 2018: 31]. Более того, мультимедийные форматы, реализуемые только в интернете, такие как «онлайн-трансляция» или «лонгрид» попросту не существовали на момент создания подобных систем классификации.
Выбор тех или иных жанров, преобладающих в издании, зависит от редакционной политики. Так, на новостном портале lenta.ru преобладают короткие новости, meduza.io (признана в России иноагентом) широко известна своими «карточками», в то время как в издании РБК «фирменным жанром» является кейс [там же: 36].
Внутренняя классификация медиатекстов, используемая редакцией издания, также отличается в зависимости от редакции того или иного СМИ. Так, зарегистрированная в Латвии русскоязычная компания «Meduza» классифицирует свои материалы скорее на основе их жанровых характеристик: «feature», «news», «shapito», «games». И если содержимое рубрик «feature» и «news» примерно перекликается с классификацией Т. Г. Добросклонской, то статьи из рубрики «Шапито» чаще всего написаны в свободном стиле с большим количеством иллюстраций или медиафайлов. Что касается рубрики «Игры», публикации в ней не всегда содержат текст.
Другим примером необычной классификации служит новостной портал Mash, публикации в котором попадают в две категории: «Mash» и «Видео». Материалы первой представляют собой короткие информационные заметки, зачастую сопровождаемые иллюстрацией или видео,
в то время как в категории «Видео» текстом обычно дается одно предложение, описывающее ролик, а дополнительный уточняющий текст появляется в виде субтитров или всплывающих сообщений в самом видео.
С учетом указанных выше систем классификации, в данной работе предлагается новая система классификации медиатекстов, представленных в электронных СМИ в зависимости от жанровых особенностей. Видовая принадлежность медиатекстов в ней устанавливается на основе нескольких критериев.
Первым критерием, который сразу позволяет установить отличия тех или иных публикаций между собой, является критерий длины статьи. Так как страница в интернете не имеет физических ограничений, как у печатной продукции, публикуемый материал может не быть разделенным на страницы. Как следствие, под длиной статьи подразумевается количество символов в тексте, которое может быть использовано для выделения особенностей отдельных жанров.
Так, в первую очередь среди всех медиатекстов в интернете выделяются публикации, не состоящие из текста в том виде, в котором он представлен в более традиционных печатных СМИ. В частности, это публикации, состоящие в основном из изображений, аудио или видеофрагментов, а также других интерактивных элементов и сопровождающиеся несколькими предложениями. Именно особенности формата размещения материалов в интернете позволяют выделить данные публикации в отдельную группу.
Подобные материалы встречаются почти на всех новостных сайтах. К примеру, в отдельную группу на сайте новостного агентства Mash выделяются видеоматериалы, сопровождаемые несколькими предложениями в описании, названии видеоролика или всплывающем тексте.
Согласно указанным выше классификациям, в эту группу попадают, к примеру, статичная или видеоиллюстрация, а также фотолента, фоторепортаж, фотогалерея из классификации, предложенной К. В. Киуру. В классификации А. В. Колесниченко особенности формата учтены в меньшей степени, поэтому однозначно в эту группу публикаций относятся только материалы, попадающие в категорию «Тест» из-за своей интерактивности и не столь значительной текстовой нагрузки.
Далее, по этому же критерию длины текста в отдельную группу выделяются наиболее объемные медиатексты, так называемые «лонгриды». Характерными особенностями этого жанра является подробное изучение определенного феномена и широкая временная протяженность описываемых событий, в противоположность классическим новостным сообщениям, описывающим «сегодня» [Мальцевич 2000: 78]. К жанру «лонгрида» также следует отнести крупные материалы, попадаемся под категорию «расследование» по классификации А. В. Колесниченко. Примером подобной необычного материала-расследования является подробный анализ российского наркотрафика на сайте новостного издания lenta.ru, объемной публикации с большим количеством интерактивных элементов (карты, раскрывающиеся элементы, звуковое сопровождение).
С учетом описанных ранее текстовых категорий при создании системы классификации медиатекстов в отдельную группу следует выделять материалы, отличающиеся от привычных новостных статей отдельной не-
и U U » U
линейной структурой подачи. В классическом проявлении линейность и хронологическая связность блоков в статье обеспечивается маркерами времени. Связь же с похожими материалами за другой временной промежуток устанавливается с помощью дополнительных блоков («Еще о ...» на сайте meduza.io, «На эту тему» у «ТАСС», «Ранее на эту тему» на сайте Russia Today) или с помощью гиперссылок. Однако материалы, соответствующие категориям «трансляция» или «подборка» по классификации
К. В. Киуру не обладают подобной линейностью. Характерной особенностью таких публикаций является тот факт, что части, из которых состоит материал, вполне могут быть самостоятельными новостными заметками или их основой. В определенной степени это соответствует самой идее данных форматов, которые создаются из множества отдельных элементов, посвященных определенной теме, не всегда попадая в ленту в хронологическом порядке.
Другой способ разделить медиатексты на группы основывается на существующей системы категоризации медиатекстов, принятой в анализируемом издании. В зависимости от такой системы и ее развитости материалы могут быть с выделенной редакцией темой — или без нее. Если в издании существует внутренняя рубрикация материалов по группам, и она используется для определения, в какую группу будет отнесен публикуемый материал, то она же и будет использования для прикрепления тегов и указания схожих материалов в соседних блоках по теме. Так, материалы в изданиях ТАСС или lenta.ru были отнесены редакцией к одной из представленных на их сайтах рубриках, в определенном смысле выступающими категориями текста, к примеру, «Политика», «Экономика», «Культура», «Спорт». В то же время в материалах на сайте meduza.io, как было отмечено ранее, внутренняя классификация отражает жанровые особенности материала, выделяя «разборы» и «истории», когда как на сайте новостного агентства Mash mash.ru принадлежность публикации к той или иной категории не выделяется вовсе.
С учетом вышеизложенных критериев классификации, современные медиатексты в зависимости от своих характеристик могут быть классифицированы следующим образом:
- По доминирующему способу представления информации: текстовые — мультимедийные. В группу мультимедийных текстов по классификации К. В. Киуру относятся аудио- и видеожанры (аудиоиллюстрация, видеосюжет)
- По наличию дополнительных, характерных для сети интернет вставок: статичные — интерактивные. Под интерактивными материалами в таком случае понимаются «мультискрипт (интерактивное видео)», инфо-графика и тесты.
- По линейно-хронологическому порядку представления материала в тексте: линейные — нелинейные. Под нелинейными текстами подразумеваются онлайн-трансляции, подборки и карточки и прочие жанры, где блоки текста не связываются между собой таким же образом, как абзацы в классических новостных заметках.
- По наличию указанных редакцией меток в системе категоризации: размеченные — неразмеченные. Метки или теги, указанные редакцией СМИ, выделяют тексты в отдельные группы, в которых, как следствие, проявляются другие жанровые особенности, накладываемые политикой издания.
С учетом предложенной выше системы классификации медиатек-стов, вновь поднимается вопрос о возможности автоматической классификации материалов интернет-СМИ в соответствии с определенными критериями. Однако перед этим следует отметить, что помимо своих жанровых и лингвистических особенностей интернет-текст отличается от печатного именно способом кодирования для корректного отображения у читателя.
Текст, предназначенный для читателя интернет-СМИ, размечается тегами стандартизированного языка разметки для просмотра интернет-материалов HTML. С его помощью конечное устройство пользователя «понимает», где начинается и заканчивается заголовок или параграф текста, где располагаются иллюстрации, куда перенаправляет гиперссылка и т. п.
К примеру, заголовок публикации о количестве аспирантов в России, представленной на сайте агентства ТАСС, заголовок дается как < h1 class="news-
header_title">Глава РАН рассказал, что количество аспирантов в России
сократилось почти вдвое<^1>, а все последующие параграфы текста обрамляются специальным тегом <p></p>.
Получается, что текст, представленный на «страницах» интернет-СМИ за счет языка разметки содержит больше информации, чем такой же текст в «сыром» виде. Эту информацию также следует использовать для классификации медиатекстов.
Так, задача классификации текстов по критерию доминирующего способа представления информации упрощается именно за счет использования языка разметки. Компьютеру достаточно загрузить исходный текст публикации, проанализировать его разметку на наличие тегов, обозначающих мультимедийный контент, и посчитать длину оставшегося текста. В большинстве случаев текст, представленный из двух предложений и тега < video>, может быть отнесен ко второй группе текстов. Подобным образом и представлены материалы в категории «Видео» на новостном портале mash.ru.
Классификация текстов по наличию интерактивных элементов может осуществляться подобным образом. К примеру, наличие большого количества кнопок, обозначающих на странице тегами <Ь^Шп> или <input> позволяют сделать вывод о интерактивности материала. Подобным образом оформляются материалы-тесты в новостном издании meduza.io.
Более того, язык разметки материалов на интернет-сайте позволяет задать единый шаблон для оформления материалов СМИ, представленных на сайте. В условиях, когда количество публикаций измеряется десятками тысяч, владельцы интернет-сайтов прибегают к шаблонам и компонентам, из которых собирается конечная интернет-страница с материалом. Иными словами, текст самой публикации «встраивается» в имеющийся шаблон
на сайте издания. Таким образом получается добиться динамичной структуры множества документов и единообразия в оформлении самих материалов и сопровождающих элементов: рубрик «по теме», навигации по сайту и т. д.
Именно анализ используемых на сайте шаблонов и языка разметки следует использовать для классификации текстов по другим предложенным выше критериям. В самом простом случае, подробные расследования, оформляемые изданиями как отдельные стилизованные материалы-лон-гриды, попросту не будут сходиться по своей структуре документа с другими заметками портала и, как следствие, выделяться в отдельный жанр при классификации.
Подобным образом возможна и классификация по критерию линейности. В наиболее простом случае достаточно проверки, соотносится ли материал с шаблоном публикаций, попадающих под жанр «трансляции» или «карточки» за счет своих дополнительных средств оформления. Подобным образом становится выделить жанр «подборок», где логическое разделение также может происходить с помощью тегов, разбивающий представленный текст на блоки.
Стоит отметить, что подобный подход становится не применим, если издание не использует дополнительных средств оформления нелинейных текстов. В таком случае, для успешной классификации требуется выделение логической структуры текста, что является достаточно трудоемкой задачей в условиях нестандартной структуры документов, представленных в интернет-СМИ [^огап, МеПо, Мога, Шоп^ 2000].
Что касается последнего критерия классификации в соответствии с наличием или отсутствием меток, проставленных редакцией СМИ, то задача выявления таких меток не представляет особой сложности. Более того, большинство интернет-СМИ сами указывают категорию, к которой относится текст, в ключевых словах, навигации, тегах или адресной строке.
В связи с этим особый интерес вызывает возможность не получения с сайта категории определенного материала, а, наоборот, присваивание категории еще не размеченному материалу или материалу из другого СМИ, редакционная политика которого выделяет другую систему классификации.
В таком случае под задачей автоматической классификации медиа-текстов интернет-СМИ будет пониматься задача автоматического определения категории неразмеченного медиатекста на основе существующей системы категоризации.
Выводы по первой главе
- Имеющиеся в интернет-СМИ медиатексты представляют особый интерес для изучения и классификации.
- За счет особенностей формата и жанровых характеристик публикуемые в интернет-СМИ текст представляет собой отдельный вид текста.
- С учетом имеющихся особенностей медиатекстов существующие системы классификации медиатекстов могут быть дополнены и уточнены новой системой, применяемой к интернет-текстам.
ГЛАВА 2. ПРОБЛЕМА КЛАССИФИКАЦИИ ТЕКСТОВ
С развитием интернета и ростом числа пользователей сети увеличивается количество электронных средств массовой информации, а также публикуемых в них материалов, которые доступны читателю. Однако, как было указано ранее в работе, в связи с этим усложняется как процесс отбора медиа-текстов, соответствующих той или иной системе классификации, так и процесс изучения всего объема представленных в интернете медиатекстов.
В исследовательских задачах особую значимость приобретает автоматическая классификация медиатекстов согласно их жанровым характеристикам. По сравнению с ручной классификацией, автоматическая имеет несколько значимых преимуществ: скорость классификации при большом количестве текстов и отсутствие «предпочтений» при их оценке [СЬесЬеЬуйкуу 2018: 2].
В некоторых случаях, таких как классификация материалов с выделением текстов жанра «аудиосюжета» и «видеосюжета» по системе классификации К. В. Киуру, задача классификации решается анализом структуры электронного документа. Как было указано в работе, наличие определенных ИТМЬ-тегов < audio> или < video> позволяет однозначно отнести материал к одному из жанров.
Дальнейший анализ структуры документа, а именно количество размеченных параграфов или общая длина материала позволяет отличить короткую от расширенной новости по классификации А. В. Колесниченко. Однако особый интерес вызывает возможность применения автоматической классификации к внутренним системам классификации, представленным в конкретных СМИ, и переносе их на другие СМИ для выявления схожих и различающихся между собой медиатекстов.
Подобная задача возникает и у средств массовой информации. На конкурентом рынке электронные СМИ вынуждены добавлять на сайт до-
полнительные интерактивные блоки для увеличения числа читателей и посетителей сайта. Одним из популярных способов удержания аудитории становятся блоки похожих или рекомендуемых читателю статей.
При создании таких блоков зачастую используется ручная классификация текстов: каждой статье выбирают категорию и выделяют ключевые слова. При появлении новой статьи происходит сравнение ключевых слов и темы, после чего статья попадает в ту или иную категорию.
При этом, если исходные данные недостаточно структурированы или система категоризации устарела, при ручной классификации требуется повторная и значительно более медленная классификация архивных материалов. С ростом количества статей в СМИ появляется необходимость добавления новых категорий и рубрик. Как следствие, возникает актуальная проблема автоматической классификации текстов — выявления и группировки похожих по темам текстов [Толмачев, Воронова 2017: 55].
Стоит отметить, что существует большое количество методов автоматической классификации текста, одним из которых является метод латентно-семантического анализа, которым зачастую и решается проблема автоматической классификации текста.
Метод латентно-семантического анализа
Одним из самых эффективных методов автоматической классификации большого количества текстов является латентно-семантический анализ (ЛСА), который позволяет установить контекстуальные значения слов в тексте и на основе этих значений определить тему текста. Основная идея ЛСА заключается в нахождении связей между представленными в текстах термах — словах или их последовательностей, n-грамм [Landauer, Foltz, Laham 1998: 6].
Метод включает в себя следующие этапы: предобработка текстов, составление матрицы TF-IDF «документы-термы», ее преобразование и ис-
пользование итоговой матрицы при сравнении текстов. Элементами итоговой матрицы выступают веса, учитывающие частоту использования терма в определенном тексте.
Предобработка анализируемых текстов позволяет сократить размерность будущей матрицы и уменьшить количество шумов. Хотя предобработка текстов тесно связана со сферой использования текстов и языком, на котором изложен текст, существуют основные операции, которые обычно применяются к входным данным:
- Лемматизация — приведение слов к их словарной форме.
- Удаление служебных частей речи.
- Исправление неверно написанных слов.
- Стемминг — выделение основы слов в исходных текстах и их использование в качестве анализируемых данных. Стоит заметить, что, например, применительно к текстам на русском и текстам на английском языках операция стемминга неодинаково эффективна из-за разного количества возможных словоформ в языках.
- Удаление из исходных данных термов, встречающихся лишь однажды.
- Удаление из текстов имен собственных и чисел, если в рамках тем текстов они не несут дополнительной смысловой нагрузки [Рычагов 2017: 29].
По обработанным данным составляется матрица TF-IDF (term frequency — inverted document frequency). Матрица TF-IDF или матрица «документы-термы» — это статистическая мера, представляющая собой двумерную матрицу, в строках которой указаны уникальные слова, выделенные из обработанных текстов, а в столбцах анализируемые тексты. На пересечении документа и терма указывается число включений определенного терма в документе.
Матрица TF-IDF показывает вес одного терма в одном документе в контексте определенной подвыборки документов. Чем выше это значение, тем чаще терм встречается в документе и тем реже он употребляется во всех документах подвыборки [Ramos 2003].
Применимо к задаче классификации текстов каждый исходный документ помечается индексом соответствующей категории, а затем происходит оценка каждого терма в рамках документа и категории. Полученная матрица используется для дальнейшей классификации других, еще не размеченных текстов.
В данном случае использование текстов электронных СМИ достаточно удобно, так как материалы издания сразу публикуются на сайте в определенной категории. Иными словами, сохраняемые тексты автоматически получают разметку в виде индекса их категории.
В матрице TF-IDF столбцами выступают все уникальные термы, поэтому в исходном тексте каждая отдельная словоформа будет иметь отдельный вес. Это приводит к появлению шумов при интерпретации полученных значений. Для получения более точных значений размерность матрицы уменьшается. Первым шагом в этом направлении, как было отмечено выше, выступает предварительная обработка текстов [Korenius, Laurikkala, Jarvelin, Juhola 2004].
Вторым способом уменьшения размерности матрицы TF-IDF выступает преобразование в матрицу меньшей размерности с помощью сингулярного разложения матрицы (Singular Value Decomposition, SVD). Исходная матрица A раскладывается на произведение трех матриц A = USVT, где:
- U и VT — ортогональные матрицы,
- S — диагональная матрица, значения на диагонали которой называются сингулярными коэффициентами матрицы A.
Исходя из правил умножения матриц, строки и столбцы матриц U и VT, соответствующие наименьшим коэффициентам диагональной матрицы S, менее всего влияют на итоговое произведение. Следовательно, для получения наилучшего приближения A* к исходной матрице A, необходимо в матрицах U и VT оставить только строки и столбцы, соответствующие первым k коэффициентам матрицы S.
Выбор k зависит от поставленной задачи: слишком большое значение может привести к потере вычислительной мощности метода, слишком маленькое, наоборот, приведет к чрезмерному «сглаживанию» и потере разницы между слишком схожими термами [Рычагов 2017: 30]. Один из автоматических способов проверки коэффициентов на значимость — установка критического значения, которое сравнивается со всеми коэффициентами. Итоговые матрицы U и VT изображают на графике, после чего полученные результаты интерпретируют исходя из расположения точек.
Хотя сингулярное разложение матрицы может привести к ухудшению качества модели, верно подобранное значение позволяет выделить два типа зависимостей в тексте: наиболее часто встречаемые в тексте слова — частотное распределение — и слова, которые зачастую находятся рядом — совместную встречаемость слов.
Основным недостатком является значительное снижение скорости вычисления при увеличении объема входных данных [Deerwester, Dumais, Furnas, Landauer, Harshman 1990: 18]. В связи с этим на практике также часто используется разработанный позднее метод вероятностного латентно-семантического анализа.
Стоит отметить, выделение термов — не единственный способ разбиение текста на более мелкие единицы, более того, выбор конкретной единицы разбиения текста остается на усмотрение исследователя. К примеру, единицей может выступать абзац, предложение, одно слово или словоформа из текста [Mann, Thompson 1988: 245].
Зачастую выбор единицы разбиения текста обуславливается особенностями текста. Так, для выделения сцен художественного фильма на основе текстового сопровождения (субтитров к фильму), единицей для разбиения выступает одна сцена из фильма [Scaiano, Inkpen, Laganiere, Reinhartz 2010: 296].
В задачах построения информационных систем исходные тексты разбиваются на параграфы длиной в символах не более установленного значения. В частности, использование таких параграфов вместо изначальных текстов позволяет построить более эффективную систему ответов на пользовательские запросы [Oh, Myaeng, Jang 2007: 3699].
Подходы к разделению текста на слова отличаются в разных языках. Для русских или английских текстов задача разбиение текста на слова довольно тривиальна: текст разделяется автоматически на основе «разделителей», которыми выступают пробел между словами или знаки препинания. В других языках, в частности, в китайском, задача может быть несколько сложнее из-за отсутствия пробелов в тексте, в следствие чего для классификации используются другие методы [Wu, Tseng 1993: 532].
Метод вероятностного латентно-семантического анализа
В качестве развития и улучшения метода ЛСА в 1999 году был предложен метод вероятностного латентно-семантического анализа PLSA (Probabilistic Latent Semantic Analysis) [Hofmann 1999: 50]. В отличие от метода ЛСА, метод ВЛСА моделирует вероятность совместной встречаемости документа и терма на основе заданного заранее количества возможных тем с.
Количество тем c задается исследователем заранее и не вычисляется из собранных данных. К примеру, при анализе текстов новостей на новостном сайте, темами могут выступить рубрики сайта [Толмачев, Воронова 2017: 55].
Предобработка исходных данных проводится по тем же принципам, что и для ЛСА. Также стоит учитывать и выбранные темы, в зависимости от которых эффективнее будет не учитывать при анализе те или иные термы.
Особенность ВЛСА — использование ЕМ-алгоритма (Expectation-maximization) поиска оценок максимального правдоподобия. С помощью него каждую итерацию создаются условные вероятности терминов-тем и тем-документов, которые приближаются до схождения. После этого формируются итоговые оценки, показывающие, к какой теме принадлежит документ.
Как было уже отмечено ранее, метод ЛСА может быть использован для классификации текстов новостного издания. В этом случае алгоритм может автоматически аннотировать поступающие материалы, присваивая им категорию и выбирая для этого определенную рубрику издания.
Другим практическим примером использования ЛСА в новостной среде может стать создание новых тем. Как только количество документов становится достаточно большим в рамках определенной категории, с помощью метода ЛСА возможно определить ключевые термы, присущие определенным документам, и, как следствие, верно выбрать новую категорию для имеющихся документов.
Ключевое и наиболее перспективное применение ЛСА в электронных СМИ — использование в новостных агрегаторах. На основе ЛСА информационные агентства могут предлагать читателям более релевантные материалы. Сами же репортеры на основе данных могут получать только необходимую информацию о конкретном событии и использовать ее для более подробного освещения статьи в других изданиях. Метод также может быть использован для:
- Составления тематических подборок по определенному событию. К примеру, экономические или политические последствия по одному и тому же новостному поводу.
- Отбора схожих по важности новостей, если в качестве темы будет использовано не название рубрики, а ключевые слова: рубрика «спорт», ключевое слово «финал» для всех проходящих турниров.
- Отбора схожих по теме новостей: новость о глобальном потеплении и новость о сокращении популяции белого медведя [Chechelnytskyy 2018:
4].
Использование методов машинного обучения в ЛСА
Достоинством метода латентно-семантического анализа является возможность его использования как в сочетании с обучением, так и без него. Стоит отметить, что методы машинного обучения успешно применяются для автоматизации работы с большими наборами текстов, увеличивая точность классификации по сравнению с классификацией без обучения. В частности, они используются для решения задач классификации текстов различных жанров, таких как научного [Ломотин, Козлова, Романов 2017: 410] и юридического текста [Sulea, Zampieri, Malmasi, Vela, Dinu, Van Genabith 2017].
Область применения методов машинного обучения распространяется и на жанр медиатекстов. Более того, они используются и для решения задач сентимент-анализа [Зверева 2014: 32] или выделения скрытых тем [Vargas-Calderón, Dominguez, Vinck-Posada, Camargo 2019: 1] медиатекстов.
Как было указано выше, подготовленная матрица TF-IDF позволяет оценить, насколько часто в документе встречается тот или иной терм. Она же и будет использоваться в качестве тренировочных данных для методов машинного обучения.
В зависимости от наличия разметки исходных текстов обычно выделяют три группы методов для классификации текстов [Dharmadhikari, Ingle, Kulkarni 2011: 162]:
- алгоритмы обучения с учителем или алгоритмы контролируемого обучения (supervised learning algorithms),
- алгоритмы обучения без учителя или алгоритмы неконтролируемого обучения (unsupervised learning algorithms),
- алгоритмы полуконтролируемого обучения (semi-supervised learning algorithms).
Алгоритмы контролируемого обучения
Особенность этой группы алгоритмов заключается в том, что они основываются на размеченных данных, в частности, выборках текстов, в которых каждый текст относится к определенному числу категорий. При этом считается, что каждый текст однозначно относится к каждой выбранной категории и однозначно не относится к каждой из невыбранных категорий. Задачей алгоритма для построения классификатора в таком случае является выбор наиболее точного вектора для классификации текстов. Таким образом проблема классификации текстов уточняется до проблемы категоризации.
Классификатор k ближайших соседей (K-Nearest Neighbors)
Классификатор k ближайших соседей достаточно хорошо изучен и неоднократно был применен в задачах классификации и категоризации текстов [Trstenjak, Mikac, Donko: 1356; Soucy, Mineau 2014: 1357]. Для проверяемого текста алгоритм находит k ближайших соседей среди текстов подвыборки для обучения и использует категории соседей для определения возможной категории, к которой относится искомый текст. Степень схожести соседей к проверяемому тексту используется как степень соотнесения искомого текста к категориям.
Алгоритм основывается на гипотезе, что характеристики текстов, относящихся к одной категории, схожи между собой. Следовательно, тексты в выборке, находящиеся в одном пространстве переменных, относятся к одной категории.
В своей классической реализации алгоритм определяет категорию по количеству соседей. Значимым улучшением алгоритма стало добавление весов (weighted k-NN). В таком случае категория текста X определяется дополнительно с учетом схожести текста X с каждым из своих соседей [Ozgür 2004: 67].
Особенностями алгоритма являются его пригодность к потокам данных и построение классификатора в процессе изучения. К достоинствам метода относятся его простота, эффективность, и легкость в применении. Основными недостатками метода выделяют его скорость работы на больших подвыборках и значительное уменьшение точности, если в исходной выборке текстов представлено много «шума» [Dharmadhikari, Ingle, Kulkarni 2011: 163].
Наивный байесовский классификатор (Naïve Bayes Method)
Наивный байесовский классификатор представляет собой простой вероятностный классификатор, который для определения категории текста основывается на теореме Байеса о возможной вероятности события в цепочке других связанных с ней других статистически значимых событий. Наивным (или строгим) классификатор называется из-за использования предположения в теореме, что ключевые характеристики текста независимы друг от друга, следовательно, их порядок не значим, а наличие одного признака не влияет на другие признаки в задаче классификации [Khan, Ba-harudin, Lee, Khan 2010: 10].
Достоинствами классификатора являются его нетребовательность к объему выборки для начала процесса классификации и достаточная точность и скорость работы на больших корпусах текста. Основной недостаток
метода заключается в его же «наивности»: если изначальное предположение о независимости характеристик неверно, алгоритм показывает плохие результаты при классификации.
Деревья решений
Деревья решений классифицируют исходные тексты из выборки путем построения структур данных, состоящих из вопросов с вариантами ответа «да» или «нет» и внешне напоминающих деревья. «Листьями» в таком дереве выступают искомые категории текстов, а «ветвями» — логические сложения признаков текста, которые могут говорить о той или иной категории [там же: 10].
Сильной стороной алгоритма является его универсальность: деревья успешно применяются к любым наборам данным. Другим достоинством алгоритма является его скорость при работе с крупными подвыборками текстов. Стоит отметить, что, так как существует большое количество возможных деревьев для построения на определенном наборе данных, существует определенный риск выбор такое дерева, которое было «переобучено» на исходных данных. Как следствие, такой классификатор покажет недостаточный уровень точности при классификации текстов вне изначальной выборки.
Случайный лес
Random forest или «случайный лес» — популярный алгоритм машинного обучения, который может быть использован для построения моделей прогнозирования. В частности, алгоритм успешно применяется для классификации текстов.
В основе алгоритма лежат регрессионные деревья [Speiser, Miller, Tooze, Ip 2019: 4] — простые модели, использующие бинарное разделение для вынесения предсказания. Деревья решений достаточно просты для практического использования, так как предлагают интуитивный способ предсказания. Несмотря на многочисленные достоинства в своей работе, алгоритм
зачастую предоставляет недостаточную точную в очень больших наборах данных или в моделях с большой взаимосвязью переменных [Speiser, Dur-kalski, Lee 2015].
Для работы алгоритма Random forest каждому дереву отдается для обучения классификации небольшой набор случайных элементов из подвы-борки. После обучения классификация происходит путем голосования: новым данным присваивается тот класс, за который проголосует большинство деревьев [Garreta, Moncecchi 2013: 52]. Как следствие, «случайный лес» зачастую обеспечивает большую точность, в сравнении с использованием одного дерева решений. В то же время алгоритм сохраняет преимущества древовидного поиска, к примеру, возможность интерпретировать связь между переменными [Fernández-Delgado, Cernadas, Barro, Amorim 2014: 3158]. Более того, Random forest показывает одно из лучших значений точности в задачах классификации текстов по сравнению с другими алгоритмами [Speiser, Miller, Tooze, Ip 2019: 4].
Метод решающих правил
Данный метод создает вывод о принадлежности текста к той или иной категории за счет набора решающих правил, определенным образом описывающих каждую из размеченных категорий. Правила задаются в формате «если X, то Y», где X — условие, а Y — вывод. Х создается на основе
и Т
признаков, соответствующих той или иной категории, а Y выступает название ожидаемой категории или другое решающее правило в том же формате.
Данный вид классификаторов зачастую применяется для задач с нетипичными данными, а также он подходит для осуществления семантического анализа текста. Главным недостатком данного вида методов является его зависимость от экспертизы человека для составления и обновления набора решающих правил.
Методы опорных векторов (Support Vector Machine) Метод опорных векторов — алгоритм обучения с учителем, подходящий для выделения неявных закономерностей в сложных наборах данных. Алгоритм производит дискриминантную классификацию на основе имеющихся примеров и способен предсказывать значения для новых, неизвестных ранее наборах данных.
В основе которых лежит принцип разделения подвыборки на несколько гиперплоскостей так, что элементы разных классов находятся от оптимальной гиперплоскости на максимально возможном расстоянии. Разделение гиперплоскости производится с помощью поиска и проведения таких n-размерных векторов, что представленные образцы в выборке будут наилучшим образом разделены на две группы в зависимости от наличия или отсутствия искомого признака. Предсказанием алгоритма в таком случае будет положение элемента относительно оптимальной гиперплоскости [Garreta, Moncecchi 2013: 13].
Метод также строится на принципах теории минимизации структурного риска (Structural Risk Minimization) [Khan, Baharudin, Lee, Khan 2010: 12] и применяется для самых разнообразных задач таких как категоризация текста, распознавание изображений, и оцифровка рукописных цифр и даже для задач биоинформатики [Pavlidis, Wapinski, Noble 2004: 586]. Подобная востребованность алгоритма обусловлена четырьмя факторами:
- Высокий уровень теоретического обоснования, основанной на принципе минимизации структурного риска.
- Хорошая масштабируемость алгоритма даже на относительно больших наборах данных.
- Универсальность алгоритма и его применимость для самых разных задач. Данный фактор обуславливается как общей устойчивостью алгоритма к выбросам (робастностью), так и большим разнообразием среди ис-
пользуемых ядерных функций алгоритма. Ядерная функция определяет поведение алгоритма, и ее легко заменить. Как следствие, алгоритм легко настраивается под особенности поставленной задачи, что обеспечивает дополнительную гибкость.
- Наконец, самый главный фактор популярности алгоритма — его точность, которая подтверждается не только теоретической базой, но и широким применением алгоритма на практике и, в частности, отличными результатами в решении поставленных задач [там же: 586].
В качестве входных данных алгоритм использует только три обязательных параметра: набор обучающих данных, набор соответствующих им меток классов и тестового набора данных. Применительно к задаче классификации текстов интернет-СМИ параметрами являются: обучающая выборка материалов, массив указанных им категорий и тестовая выборка, которая будет классифицирована алгоритмом.
Для построения классификатора алгоритму SVM требуются два набора данных: в котором искомый признак представлен и в котором искомый признак не представлен. Результаты классификации в таком случае не изменятся при удалении из обучающей выборки тех текстов, которые не относятся к опорным векторам, что, несомненно, является отличительным достоинством алгоритма.
Среди всех методов контролируемого обучения метод опорных векторов признается одним из лучших в задачах классификации как на крупных объемах данных, так и на наборах текстов с большим количеством размеченных признаков [Wang, Sun, Zhang 2006]. Однако это же приводит и к повышенной ресурсопотребляемости алгоритма, из-за чего он не всегда эффективно может применяться в определенных системах.
Полиномиальная логистическая регрессия
Полиномиальная логистическая регрессия (политомная логистическая регрессия, мультиклассовая логистическая регрессия, многопеременная регрессия и проч.), по сути, представляет собой метод классификации, обобщающий логистическую регрессию на задачи с несколькими классами. Вероятности, описывающие принадлежность текста к той или иной категории, моделируются с помощью логистической функции [Wang, Zhou, Jin, Liu, Lu 2017: 5].
В целом, концепция ПЛР происходит из бинарной логистической регрессии, классифицирующая по признаку 0 (неудача) или 1 (успех). Как показывает практика, такая модель может быть расширена для случаев, принимающих несколько значений, подобно тем, что представлены в проблеме классификации текстов.
Некоторые ученые отмечают, что модель логистической регрессии успешно применяется в процессе классификации текстов, так как сама модель имеет очень нестрогие требования для применения. В частности, модель не требует линейной зависимости между независимыми и зависимыми переменными, нормально распределенных переменных и наличия го-москедастичности. В свою очередь модели необходимо, чтобы наблюдения быть независимыми [El-Habil 2012: 272].
Метод градиентного бустинга
Градиентный бустинг — это семейство мощных методов машинного обучения, успешно применяющихся в большом количестве практических задач. Особенностью метода являются легкость в настройке, в частности в определении функции потерь.
В отличие от методов, основанных на нахождении усредненного значения («случайный лес»), метод ГБ заключается в последовательном подборе модели с учетом имеющейся функции потерь. В отличие от алго-
ритмического бустинга, который показывает недостаточную производительность и сложность при анализе, градиентный бустинг основывается на градиентном спуске и, по мнению ряда исследователей, не приводит к серьезному переобучению.
Метод ГБ заключается в последовательном подборе новых моделей, максимально коррелирующих с отрицательным градиентом функции потерь. Выбор функции потерь остается на усмотрение исследователя и зависит от особенностей применяемой задачи [Natekin, Knoll 2013: 1].
Алгоритмы неконтролируемого обучения
Если исходные данные не были размечены, классификация текстов происходит не относительно заранее определенных категорий (иными словами, к какой категорией соотносится тот или иной текст), а относительно общих характеристик представленных текстов. В этом случае имеет место проблема кластеризации текстов, то есть выделения общих групп текстов с помощью методов машинного обучения без учителя. Основная идея кластеризации заключается в создании таких кластеров, в которых представленные тексты схожи между собой сильнее, чем между текстами в других кластерах. Традиционно алгоритмы кластеризации относят ко двум большим группам: разделяющая кластеризация и иерархическая кластеризация.
В алгоритмах разделяющей кластеризации исходные тексты группируют в непересекающиеся группы без вложенности. Каждый текст относится к тому кластеру, с которым он максимально схож. Каждый кластер, в свою очередь, может быть представлен неким центром или конкретным представителем, который позволяет примерно описать все остальные тексты в кластере. После построения первичных кластеров точность кластеризации увеличивается за счет итеративного перемещения текстов из одного кластера в другой [Khan, Baharudin, Lee, Khan 2010: 9].
Данная группа алгоритмов кластеризации довольна эффективна, так как исходная выборка текстов считывается лишь единожды при инициализации. Тем не менее выделяют и недостатки такого подхода, в частности, зависимость результатов кластеризации от изначального порядка текстов.
Иерархическая кластеризация, в свою очередь, создает вложенные группы данных через объединение имеющихся кластеров или, наоборот, через разделение кластеров на более мелкие. В результаты работы алгоритма появляется «дендрограмма» — древовидная структура данных, в которой также указывается иерархия внутри элементов. Корнем такого дерева выступает общий кластер, в который включены все имеющиеся тексты из под-выборки, а листьями — конкретные тексты.
Выделяют два основных достоинства данного типа кластеризации: относительная несложность в реализации и достаточный уровень иллюстрации данных в подвыборке. Недостатком иерархической кластеризации является тот факт, что в результате работы алгоритма каждая новая выборка данных предоставит новый, уникальный набор кластеров.
Алгоритмы иерархической кластеризации, основанные на разделении кластеров, начинают свой процесс с одного общего кластера, в который входят все изначальные тексты. Каждая итерация алгоритма разделяет кластер с наиболее отличающимися друг от друга текстами, то есть с такими текстами, статистическая мера различия которых наиболее высока. Разделение продолжается до достижения некоторого заранее определенного критерия остановки, к примеру, общего количества полученных кластеров.
В алгоритмах, объединяющих кластеры между собой, каждый текст представляет собой отдельный кластер. Точно так же, процесс объединения наиболее похожих между собой текстов повторяется до достижения критерия остановки, который выбирается исходя из используемого алгоритма
кластеризации. Так в качестве критерия остановки может выступать величина схожести двух наиболее схожих (или наиболее отличающихся) текстов внутри кластера [Ozgur 2004: 67].
Методы полуконтролируемого обучения
Данные алгоритмы в своей основе для определения категории текста используют одновременно как размеченные, так и не размеченные тексты. В случае если процесс разметки всех имеющихся текстов в выборке занимает большое количество ресурсов, методы полуконтролируемого обучения показывают хорошие результаты как в задачах классификации, так и в задаче кластеризации текстов.
Одним из таких методов выступает метод совместного обучения (co-training). Данный метод требует, чтобы каждый текст в выборке был представлен как минимум в двух различных формах так, что каждая форма предоставляет дополнительную и различную информацию о тексте. Сами формы представления должны быть независимы друг от друга. Затем алгоритм выстраивает два классификатора для каждого из критериев разметки и использует наилучшие предсказания каждого из них для итеративной разметки оставшихся неразмеченных текстов в выборке. К примеру, при разметке научных статей один из классификаторов может быть обучен на самом тексте статьи, а другой — на ключевых словах, указанных в статьях, ссылающихся на исходную статью. В таком случае оба классификатора используются для выявления схожести текстов между собой [Blum, Mitchell 1998: 94].
Ключевым достоинством метода совместного обучения является его применимость почти ко всем существующим алгоритмам классификации. На практике же его применение ограничивается самими исходными данными, в которых не всегда получается выделить две независимые друг от друга формы.
Другими примерами методов полуконтролируемого обучения выступают EM-алгоритм (Expectation maximum) и C Graph based алгоритм, которые также применяются для задач классификации текстов [Nigam, McCallum, Thrun, Mitchell 2000: 103].
Выводы по второй главе
- Метод ЛСА успешно применяется для задач классификации текстов, в том числе в интернет-СМИ.
- Существует большое количество разнообразных методов машинного обучения, улучшающих точность классификации.
- Выбор наилучшего метода классификации и его параметров зависит от результатов классификации на определенном наборе медиатекстов.
ГЛАВА 3. АВТОМАТИЗИРОВАННАЯ КЛАССИФИКАЦИЯ НОВОСТНЫХ ТЕКСТОВ, ПРЕДСТАВЛЕННЫХ В ИНТЕРНЕТ - СМИ
С учетом описанных в предыдущих главах особенностях медиатекстов в интернет-СМИ, систем их классификации, а также имеющихся методов машинного обучения для решения непосредственной задачи классификации, в работе были исследованы результаты определенных методов классификации на определенной группе медиатекстов. Классификация происходила в рамках внутренней системы классификации издания.
Апробация описанных в предыдущей главе классификаторов происходила на созданном наборе текстов из 5 внутренних рубрик агентства «ТАСС». Согласно классификации Т. Г. Добросклонской, данные тексты относятся к категории «новости», в то время как А. В. Колесниченко более детально обозначает данные тексты как «короткие новости». По классификации К. В. Киуру, тексты являются «информационными заметками» или просто «заметками» по системе Е. А. Третьяковой и В. В. Антроповой. Классификация А. А. Тертычного позволяет однозначно отнести данные тексты к категориям информационных жанров.
Согласно предложенной в работе системы классификации, собранные в издании материалы являются текстовыми, статичными, цельными и размеченными. Последний пункт позволяет применить к текстам «ТАСС» собственную систему классификации, применяемую в издании.
Для сбора были использованы материалы категорий, в которых количество материалов достаточно высоко: «общество», «экономика», «политика», «спорт», «культура». При подборе статьей были проигнорированы материалы, которые также были включены в более узкие категории: «Москва», «недвижимость» и проч.
Выбор подобных текстов был обусловлен их относительной нейтральностью, а также характерному языку, присущему СМИ с многолетней историей. Стоит также отметить их удобство для преобразования в матрицу TF-IDF за счет доступности текстового содержимого и частого дублирования мультимедийного контента текстом.
Сбор осуществлялся с помощью созданной программы на языке программирования Go, создававшегося для серверной разработки [Balbaert 2012: 1]. Использование «горутин» из внутреннего инструментария языка позволило настроить быстрый и параллельный сбор статей из разных категорий.
Получение и сохранение текстов статей проходило в два этапа. Сначала делался общий запрос категории издания, в ответ на который приходил список материалов с заголовками и URL, но без полного текста. Вследствие этого, каждый из представленных материалов отдельно запрашивался с сервера.
Полученный исходный текст веб-страницы обрабатывался библиотекой для представления структуры HTML-текстов. В связи с особенностями публикации медиатекста в интернете, из текста выделялся блок, содержащий всю статью целиком, который рекурсивно проходился вглубь для извлечения всего имеющегося текста, представленного сложной структурой HTML тегов.
В результате было собрано 11122 статьи, опубликованные в декабре 2021 и январе 2022 года. Каждая статья была сохранена в отдельный текстовый документ, состоящий из заголовка и извлеченного текста публикации.
Каждой рубрике на сайте агентства соответствует уникальный идентификатор, который был использован как название категории документов. Количество статей по каждой категорий приведено на рис. 1.
Рис. 1. Количественное распределение статей по категориям.
При проверке длин текстов обнаружилось, что в материалы рубрик попадают тексты разных жанров: не только новостные заметки, но и краткие информационные сообщения из 1 предложения (ссылки на видеоролики или комментарии к ним), а также лонгриды — крупные материалы, посвященные памятным событиям (к примеру, подробный анализ истории железнодорожного строительства в России в честь юбилея железной дороги между Москвой и Санкт-Петербургом). Для улучшения качества выборки были отброшены все статьи с длиной в символах, меньшей 5-го и большей 95-го перцентиля.
Рис. 2. Распределение длин в символах общего набора статей.
Рис. 3. Распределение длин в символах итогового набора статей.
Рис. 4. Количественное распределение итогового набора статей по категориям.
Рис. 5. Диаграмма размаха длин в символах итогового набора статей. Как было указано ранее в работе, для применения методов машинного обучения тексты требовалось преобразовать определенным образом
для создания матрицы TF-IDF. Таким образом, в итоговый набор текстов к последующей обработке было включено 8453 статьи.
Преобразование полученных данных
Первым шагом в обработке текстов выступило удаление знаков пунктуации: запятых, точек, кавычек, скобок и проч. Стоит отметить, что из слов не был удален дефис: в словах с суффиксами -то, -либо, -нибудь или в сложных прилагательных — франко-японский, русско-немецкий — это бы привело к слиянию слов и искажению результатов последующей обработки. Также были удалены все цифры, отражающие числовые данные в тексте.
Следующим шагом стала замена всех заглавных букв на строчные. Эта замена позволила уменьшить количество уникальных термов в двух случаях: для термов в начале предложения и для термов — имен собственных: Минздрав, РФ.
После этого из текстов были удалены «стоп-слова» — список из наиболее часто употребляемых местоимений, предлогов, союзов и частиц. Так, присутствие частицы «не» в тексте статьи не может достоверно свидетельствовать о включении статьи в ту или иную категорию.
Дополнительно в список стоп-слов, подлежащих удалению из текста статьи, были отнесены:
- тасс — название информационного агентства присутствует в подписи всех материалов;
- млрд, млн, тыс — словесные сокращенные формы числительных, стабильно попадающие в список наиболее часто употребляемых слов среди всех статей;
- руб — как наиболее частая единица измерения после чисел.
Дальнейшим преобразованием стала лемматизация — приведение
слов к их словарным формам. Для выявления лемм слов в русском языке была использована бесплатная библиотека MyStem для морфологического
анализа [Сегалович, Маслов 1998; Зобнин, Нозырев 2015: 300]. Упомянутые выше слова с дефисами библиотека разделяла: так слово «кто-нибудь» разделялось на «кто» и «нибудь». После этого дефисы удалялись из текста.
Для оптимизации работы библиотеки каждая словоформа и ее лемма была сохранена в массив данных. Перед каждым последующим запросом к библиотеке словоформа проверялась в массиве на наличие леммы. Подобное кеширование полученных лемм позволило значительно ускорить процесс лемматизации за счет увеличения расхода памяти компьютера.
Стоит отметить, что в качестве альтернативы лемматизации также применяется стемминг — процесс выделения основы слова. Наиболее часто для стемминга слов русского языка используется алгоритм Snowball, разработанный Мартином Портером для многих индоевропейских языков [Гра-щенко, Муравлев 2018: 196]. В отличие от других алгоритмов стемминга, стемминг по Портеру использует не заранее известную базу слов, а работает с набором правил по обработке и определению приставок и суффиксов [Willett 2006: 2]. Как следствие, алгоритм обладает высокой скоростью обработки текстов, но не всегда верно выделяет основу у слова.
Рассмотрим пример до и после всех преобразований из статьи об общенациональной гонке «Лыжня России», представленной в категории «общество». До преобразования отрезок из статьи выглядел следующим образом: «Реализация проекта позволит существенно повысить доступность ряда жизненно необходимых лекарственных средств для людей с сахарным диабетом и станет важным шагом в снижении зависимости системы здравоохранения Узбекистана от импорта данных препаратов, обеспечении лекарственной безопасности и развитии биотехнологического производства в стране». В результате всех изложенных выше преобразований два предложения сократились до следующего ряда слов: «реализация проект позволять существенно повышать доступность ряд жизненно необходимый лекарственный средство человек сахарный диабет становиться
важный шаг снижение зависимость система здравоохранение узбекистан импорт данный препарат обеспечение лекарственный безопасность развитие биотехнологический производство».
Как видно из результата преобразования, количество уникальных словоформ значительно уменьшилось по сравнению с оригинальным текстом. Именно преобразованные тексты и были использованы для построения матрицы TF-IDF.
Построение матрицы ТР-ГОР
Перед непосредственным построением матрицы каждой категории из итогового набора обработанных текстов был проставлен соответствующий индекс (см. таблицу 1). В результате было получено два массива: массив обработанных текстов статей, и массив соответствующим им индексам категорий.
Категория Индекс
Общество 0
Экономика 1
Политика 2
Спорт 3
Культура 4
Табл. 1. Индексы категорий.
Затем каждый массив был одинаковым образом разделен на обучающую и тестовую подвыборки объемом 85% и 15% соответственно. Обучающая подвыборка использовалась для построения матрицы TF-IDF и дальнейшего применения алгоритмами машинного обучения, так как проверка полученных классификаторов должна производиться на ранее не используемых в обучении текстах.
Построение матрицы TF-IDF с помощью библиотеки для машинного обучения skleam происходит с помощью нескольких заданных ранее параметров:
- размерность п-грамм в матрице;
- верхний и нижний пороги использования термов в документах;
- максимальное количество термов в матрице.
Таким образом, при построении матрицы были использованы уни-граммы и биграммы, не учитывались термы, встречающиеся менее, чем в 10 документах, размерность матрицы была установлено в размере 700 термов. Установка верхнего порогового значения встречаемости термов в 5% не дала значительных изменений.
С помощью критерия хи-квадрат были отобраны термы, имеющие наиболее высокую нелинейную корреляцию с меткой категории. При указанных выше параметрах ^граммы при N = 1 составили:
- Экономика: объем, цена, газ, рынок, компания;
- Культура: музей, фестиваль, режиссер, театр, фильм;
- Общество: заражение, коронавирус, сутки, инфекция, пациент;
- Политика: песков, безопасность, лавров, нато, мид;
- Спорт: олимпиада, пекин, сборная, игра, олимпийский.
Представленные биграммы пересекались между собой в категориях,
наиболее частыми оказались: сборная россия, олимпийский игра, санкт петербург, коронавирусный инфекция. Только в категории «политика» наиболее частыми оказались биграммы, не представленные наиболее часто в других категориях: пресс секретарь, министр иностранный, иностранный дело, гарантия безопасность, мид рф. Как видно из представленных N грамм, наиболее часто используемые термы пересекаются с новостной повесткой опубликованных материалов.
Таким образом, на основе 85% материалов была построена матрица TF-IDF и затем применена к обеим подвыборкам для выделения числовых признаков. Именно массивы числовых признаков и соответствующие им метки будут использоваться для классификации с помощью алгоритмов машинного обучения.
Применение алгоритмов классификации
Работа с каждым из указанных ранее в работе алгоритмов классификации состояла из следующих этапов:
- Инициализация базового классификатора и применение его к обучающей выборке;
- Случайный поиск наилучших значений параметров классификации
- Поиск по сетке с целью уточнения найденных параметров;
- Сравнение наилучшего найденного классификатора с базовым классификатором;
- Апробация классификатора на тестовой выборке данных.
Стоит отметить, что у каждого классификатора существует свой собственный набор доступных для настройки параметров, задаваемый определенным списком значений. Так как перебор всех возможных сочетаний параметров может быть неэффективным с точки зрения затраченных ресурсов, для поиска наилучшей модели используется метод случайного поиска с ограничением на количество операций [Ве^^а, Bengio 2012: 281]. В этом случае случайно выбираются п сочетаний параметров и с каждым проводится классификация. Критерием для отбора лучшей модели выступает ее точность предсказания на тестовой выборке.
После нахождения определенных параметров с помощью случайного поиска, значения параметров уточняется и к уточненным параметрам применяется поиск по всей сетке параметров. В отличие от случайного поиска, поиск по сетке перебирает все возможные наборы параметров и выбирает среди них наилучшие.
Так как количество возможных комбинаций параметров значительно отличалось для каждого проводимого поиска, в определенных случаях случайный поиск занимал значительное время на перебор параметров, а в некоторых случаях отсутствовал вовсе: поиск сразу проходил по сетке.
Случайный поиск и поиск по сетке были дополнительно инициализированы с параметром n_jobs = -1. Это позволило максимально использовать имеющие процессоры компьютера для наиболее быстрого поиска параметров.
Помимо этого, данные из обучающей выборки были дополнительно разбиты на 3 части по 33% каждая и подвергнуты перекрестной проверке (cross-validation). Такая проверка проводится для уменьшения вероятности «переобучения» модели на обучающих данных и, если обучение происходит успешно, применить достаточно обученную модель к тестовой выборке.
Однако подобная перекрестная проверка приводит к уменьшению обучающей подвыборки. Это может негативно сказаться на результатах модели, особенно если количество данных уже было достаточно мало, а сами результаты модели могут зависеть от того, какие материалы попадут в какие из частей разделенной выборки.
Решением подобной проблемы выступает k-кратная перекрестная проверка. В своем базовом представлении модель обучается на k - 1 выборках и проверяется на оставшейся выборке. При этом процесс повторяется k раз, где тестовой выборкой каждый раз выступает другая выборка.
Результатом k-кратной перекрестной проверки в таком случае выступает среднее значение всех проверок. Как следствие, затраты на вычисление всех моделей вырастают в k раз.
Проверка 1
Проверка 2
Проверка 3
Набор 1 Набор 2 Набор 3
Набор 1 Набор 2 Набор 3
Набор 1 Набор 2 Набор 3
Рис. 6 k-кратная перекрестная проверка при k = 3. Синим выделен тестовый набор.
Базовые классификаторы
Были инициализированы следующие классификаторы с параметрами по умолчанию: классификатор случайный лес (random forest classifier), классификатор по методу опорных векторов (support vector machine classifier), классификатор k ближайших соседей (k nearest neighbors classifier), полиномиальный наивный байесовский классификатор (multinomial naïve Bayes classifier), полиномиальная логистическая регрессия (multinomial logistic regression), классификатор градиентного бустинга (gradient boosting classifier). Применительно к тестовой выборке классификаторы показали следующие результаты:
- Random Forest: 88,26%
- Support Vector Machine: 90,41 %
- K Nearest Neighbors: 87,6%
- Multinomial Naïve Bayes: 86,49%
- Multinomial Logistic Regression: 89,27%
- Gradient Boosting Machine: 87,31%
Таким образом, наилучшие результаты показал классификатор по методу опорных векторов. Сравним полученные результаты с классификаторами, полученными в ходе поиска наилучших параметры.
Случайный поиск
Случайный лес
Для построения первого набора классификаторов параметры принимали следующие значения:
- Использование метода Bootstrap, флаг 0 или 1;
- Максимальная глубина дерева: 20, 40, 60, 80, 100 узлов или без ограничений;
- Минимальное число элементов в листовой вершине: 1, 2 или 4;
- Минимальное число элементов для разделения узла: 5, 10 или 15;
- Количество деревьев: 200, 400, 600, 800 или 1000.
Общее количество возможных сочетаний всех возможных значений параметров составляет 540 классификаторов. Наилучший результат из 50 случайно отобранных показала модель с параметрами: [0; 100; 1; 15; 800] и точностью 87,43% на тестовой подвыборке.
Метод опорных векторов
Случайный поиск проводился по следующим параметрам:
- Параметр регуляризации: 0,0001, 0,001 или 0,01.
- Ядро алгоритма: линейная, базисная или полиномиальная функция; 0, 1 или 2 соответственно.
- Коэффициент для ядра функции: 0,0001, 0,001, 0,01, 0,1, 1, 10 или
100.
- Степень полинома: 1, 2, 3, 4 или 5.
При таком наборе значений параметров всего существует 315 различных сочетаний. Лучший результат показала модель с набором параметров [0,01; 3; 10; 2]. Точность предсказаний категорий на тестовой подвыборке составила 89,23%.
Полиномиальная логистическая регрессия
Были использованы следующие значения параметров:
- Величина регуляризации: 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1,0.
- Вес классов: единица или сбалансированные веса, флаг 0 или 1.
- Алгоритм оптимизации: Ньютоновский алгоритм сопряженного градиента (Newton Conjugate Gradient), алгоритм Бройдена — Флетчера — Гольдфарба — Шанно с ограниченной памятью (Limited Broyden — Fletcher — Goldfarb — Shanno algorithm), алгоритм стохастического среднего градиента (Stochastic Average Gradient, SAG), расширенный алгоритм стохастического среднего градиента (Stochastic Average Gradient Augmented, SAGA) [Adityasundar, SaiAbhigna, Lakshman, Phaneendra, MohanKumar 2020: 144]; 0, 1, 2 и 3 соответственно.
Из 80 возможных сочетаний параметров было отобрано и инициализировано 50. Лучший результат со средней точностью 87,83% показала модель с набором параметров [1,0; 0; 2].
Градиентный бустинг
Настраиваемые параметры:
- Интенсивность обучения: 0,1 или 0,5;
- Максимальное число узлов в дереве: 3, 10, 40;
- Минимальное число элементов в листовой вершине: 1, 2 или 4;
- Минимальное число элементов для разделения узла: 10, 30 или 50;
- Количество шагов бустинга: 200, 800;
- Доля элементов для подбора параметров обучателей: 0,5, 1.
Из 216 возможных сочетаний параметров так же случайным образом было выбрано 50. Наилучший результат из этих 50 классификаторов 88,51% показала модель с параметрами [0,1; 3; 1; 50; 200; 1].
Так как у классификатора k ближайших соседей и полиномиального наивного байесовского классификатора настраивалось 2 и 1 параметр соответственно, общее количество возможных сочетаний параметров не превышало 50. Как следствие, к этим алгоритмам был применен только поиск по сетке.
Поиск по сетке
Случайный лес
На основе полученных ранее значений параметры были оптимизированы следующим образом:
- Метод Bootstrap не использовался всегда, флаг всегда равен 0;
- Максимальная глубина дерева: 80, 100 или 120 узлов;
- Минимальное число элементов в листовой вершине: всегда 1;
- Минимальное число элементов для разделения узла: 10, 15 или 20;
- Количество деревьев: 800, 1000, и 1200.
Из 9 моделей наилучшую среднюю точность 87,48% показала модель с набором параметров [0; 80; 1; 20; 1000]. Подбор параметров оказался неэффективным, так как точность базового классификатора оказалась выше.
Метод опорных векторов
Случайный поиск проводился по следующим параметрам:
- Параметр регуляризации: 0,0001, 0,001, 0,01 или 0,1.
- Ядро алгоритма: только полиномиальная функция; всегда равен 2.
- Коэффициент для ядра функции: 1, 10 или 100.
- Степень полинома: 1, 2, 3.
При таком наборе значений параметров было проверено 36 различных моделей, лучший результат в 89,47% из которых был обнаружен у модели с набором параметров [0,001; 2; 10; 2]. Опять же поиск параметров оказался неэффективным, так как базовый классификатор показал более высокую точность.
k ближайших соседей
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.