Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Царёв, Дмитрий Владимирович
- Специальность ВАК РФ05.13.11
- Количество страниц 143
Оглавление диссертации кандидат наук Царёв, Дмитрий Владимирович
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
1 АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ ИНДУСТРИАЛЬНЫХ РЕШЕНИЙ УПРАВЛЕНИЯ КОНТЕНТНОЙ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИИ
1.1 Системы управления корпоративным контентом (ECM)
1.1.1 Классификация документов
1.1.2 Анализ отдельных документов
1.1.3 Поиск и анализ документов
1.1.4 Методы анализа контентных данных eDiscovery
1.2 Системы предотвращения утечек данных (DLP)
1.3 Выводы
2 МОДЕЛИРОВАНИЕ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЯ
2.1 Модель представления «мешок слов»
2.1.1 Предварительная обработка текста
2.1.2 Вычисление весовых коэффициентов термов
2.2 Тематическое представление документов
2.2.1 Сингулярное разложение матрицы ^"УВ)
2.2.2 Неотрицательная матричная факторизация (КМБ)
2.2.3 Ортонормированная неотрицательная матричная факторизация (ОКМБ)
2.3 Построение и применение тематической модели поведения пользователя
2.4 Удаление информационного шума из документа
2.4.1 Методы на основе сингулярного разложения
2.4.2 Методы на основе неотрицательной матричной факторизации
2.4.3 Экспериментальное исследование
2.5 Выводы
3 МЕТОДЫ ОБНАРУЖЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЯ
3.1 Базовый сценарий проведения экспериментальных исследований
3.2 Прогнозирование тематической направленности пользователя
3.2.1 Методы прогнозирования временных рядов
3.2.2 Экспериментальные исследования
3.3 Оценка принадлежности документа к характерным тематикам пользователя
3.3.1 Формирование экспериментальных данных
3.3.2 Экспериментальное исследование метода обнаружения аномального поведения пользователя
3.3.3 Экспериментальное исследование применения метода удаления информационного шума
3.4 Выводы
4 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ЭКСПЕРИМЕНТАЛЬНОГО ОБРАЗЦА ПРОГРАММНОГО КОМПЛЕКСА
4.1 Сценарии функционирования
4.1.1 Сбор поведенческой информации
4.1.2 Построение индивидуальных поведенческих моделей
4.1.3 Применение индивидуальных поведенческих моделей
4.2 Программная реализация
4.2.1 Архитектура системы
4.2.2 БСОМ-объект анализа поведенческой информации
4.2.3 Агент мониторинга поведенческой информации
4.2.4 Модуль консолидации поведенческой информации
4.2.5 Автоматизированное рабочее место
4.3 Оценка производительности
4.3.1 Оценка производительности агента мониторинга
4.3.2 Оценка производительности методов обнаружения аномального поведения пользователя
4.4 Апробация экспериментальной системы
4.5 Выводы
5 Заключение
6 Список литературы
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Интеллектуальная система анализа поведенческого профиля пользователя с использованием машинного обучения2022 год, кандидат наук Савенков Павел Анатольевич
Мониторинг работы пользователей корпоративных сетей2010 год, кандидат физико-математических наук Трошин, Сергей Владимирович
Защита от утечки информации на основе разделения зашифрованных и сжатых данных2022 год, кандидат наук Спирин Андрей Андреевич
Совершенствование инструментальных средств выявления утечек инсайдерской информации в финансово-кредитных организациях2013 год, кандидат наук Гончаров, Павел Игоревич
Разработка и внедрение комплекса методов автоматизации бизнес-процессов и защиты корпоративного программного и информационного обеспечения производственно-заготовительного предприятия по переработке текстильного вторсырья2013 год, кандидат наук Панкратов, Станислав Александрович
Введение диссертации (часть автореферата) на тему «Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности»
ВВЕДЕНИЕ
Актуальность темы исследования
За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах. Многими экспертами в области информационной безопасности (ИБ) отмечается тенденция возросшего количества внутренних вторжений по сравнению с внешними. Обеспокоенность относительно данной проблемы подкрепляется тем, что компании обычно направляют основные усилия на защиту от внешних угроз, в то время как аналитики отмечают, что более половины случаев вторжений и нарушений компьютерной безопасности происходят по вине собственных сотрудников или иных лиц, имеющих легитимный доступ к информационной системе [1-4]. Хищение и продажа конфиденциальной информации, распространение информации ограниченного доступа — вот лишь небольшой перечень ИБ-инцидентов, напрямую связанных с внутренними угрозами [2].
Таким образом, внутренние угрозы информационной безопасности вызваны вредоносными действиями пользователей (инсайдеров), которые имеют легитимный доступ к корпоративной сети. Данный тип атак, как правило, отличают от атак, которые являются следствием компрометации учётных записей сотрудников компании, где злоумышленник (хакер) получает доступ к корпоративным 1Т-ресурсам, используя украденные учётные данные [5].
В случае внутренней атаки инсайдер обычно действует злонамеренно и скорее всего знает, что нарушает политики безопасности своей компании [5]. Однако при классификации внутренних угроз также выделяют группу угроз, совершаемых без злого умысла (случайные), по неосторожности или технической некомпетентности [4, 6]. В [7] приводятся ключевые характеристики и отмечаются наиболее распространённые причины неумышленных нарушений, например, желание упростить работу, или оказание помощи сослуживцу, не обладающему соответствующими полномочиями.
Источниками внутренних угроз могут являться различные категории пользователей, имеющих или имевших доступ к корпоративной сети: действующие и бывшие сотрудники, бизнес-партнёры, подрядчики, внешние поставщики услуг (аутсорсеры) и т.п. Часто возникают случаи, когда у пользователей из перечисленных категорий могут быть несоответствующие права доступа. Во многих организациях права доступа сотрудников не отменяются при изменении роли (направления работы) сотрудника. Общая тенденция заключается в том, что с течением времени сотрудники накапливают права, но не теряют их [5]. В результате сотрудники с большим стажем работы в организации имеют доступ к корпоративным 1Т-ресурсам, которые не требуются для выполнения своих текущих должностных обязанностей. Также нередки случаи, когда при увольнении сотрудника у него всё ещё остаётся доступ к каким-либо корпоративным
программам или удалённым серверам. Таким образом, группу потенциально вредоносных пользователей корпоративной сети трудно идентифицировать, и она может быть намного шире, чем может показаться на первый взгляд.
Кроме того, количество данных, которые могут являться целью внутренних атак, постоянно растёт, причём с большой скоростью [5]. В качестве примера таких уязвимых данных обычно приводят финансовые отчёты, данные о клиентах или сотрудниках, техническую документацию продуктов и т.п. Подобные данные могут единовременно находиться в различных местах корпоративной сети, поскольку они требуются для обработки различными подразделениями/сотрудниками, сохраняются на корпоративных почтовых серверах, делаются резервные копии и т.п.
Утечка данных является одной из самых опасных внутренних угроз для современных компаний. Количество и сложность внутренних атак продолжает расти. В 2015 году было зарегистрировано на 64% больше атак, чем в 2014 году [8, 9]. Согласно исследованиям организации Ponemon Institute, проводимым при поддержке IBM, в 2016 году средний ущерб компании от утечки данных составил 4 млн долларов США за один инцидент, а средняя стоимость потерянного или украденного документа оценивается в 158 долларов США. Приведённые данные были получены на основе анализа 383 компаний в 12 странах [9, 10].
Приведём несколько примеров внутренних инцидентов нарушения безопасности из реальной жизни, которые связанны с утечками данных [5]:
- Менеджер по продажам копирует данные о текущих клиентах компании перед уходом на работу в конкурирующую фирму.
- Инженер компании решает открыть свой стартап и копирует техническую документацию текущего рабочего проекта.
- Научный сотрудник копирует данные проекта для продажи (в 2012 научный сотрудник из Dow Chemical был приговорён к пяти годам тюрьмы за продажу коммерческой тайны компаниям из Китая).
- Сотрудник спецслужбы копирует внутренние данные и коды программ, чтобы передать соответствующие сведения прессе.
Перечисленные примеры описывают лишь заключительный этап утечки данных — эксфилътрацию данных (англ. data exfiltration), т.е. несанкционированное копирование или перемещение данных с компьютера или устройства организации [11, 12]. Как показывают современные исследования утечек, от момента, когда пользователь решает украсть данные, до непосредственно пересылки данных, проходит от нескольких недель до нескольких месяцев, которые уходят на стадию подготовки утечки. Поэтому в настоящее время всё больше экспертов
сходится во мнении, что утечки данных необходимо определять ещё до стадии пересылки данных за информационный периметр компании [11, 12].
Опишем более детально типичные этапы утечки данных, в том числе предшествующие эксфильтрации данных (см. Рисунок 1). Легитимный сотрудник становится инсайдером начиная с некоторого переломного момента, например, после коммуникации с помощью социальных сетей/электронной почты с одним из конкурентов его компании (этап «Начало внутреннего вторжения»). После чего данный сотрудник-инсайдер вступает в исследовательскую фазу (этап «Фаза исследования»), в которой он пытается найти интересующую его информацию и получить к ней доступ, при этом пользуясь своими текущими правами или пытаясь легитимными способами расширить их. На данном этапе часто отмечаются случаи, когда инсайдер под разными предлогами просит у своих коллег воспользоваться их правами для доступа к определённой категории информации, в качестве примера подобного поведения обычно приводят действия Эдварда Сноудена [7]. Здесь также будет уместно отметить важность задачи аутентификации пользователей, т.е. определения того, что пользователь является тем, от имени кого он авторизовался. «Фаза исследования» у инсайдера может продолжаться неделями и месяцами, но с течением времени он, как правило, находит способ для получения доступа к интересующим данным.
Рисунок 1 Цепочка этапов утечки данных.
После получения доступа к желаемой информации наступает этап «Сокрытия данных». На данном этапе основная цель инсайдера — это протестировать существующие системы информационной безопасности компании и найти оптимальный способ для безопасной эксфильтрации полученной информации. До этой стадии попыток пересылки данных за
информационный периметр организации не предпринималось, поэтому традиционные средства защиты от утечек данных, такие как DLP-системы (англ. Data Loss Prevention — предотвращение утечек данных), не срабатывали. Для достижения цели этапа «Сокрытия данных» инсайдеру подойдут любые действия, которые в случае их раскрытия можно будет оправдать неосторожностью (халатностью) или незнанием (технической некомпетентностью), т.е. свести к неумышленному нарушению. Зачастую инсайдеры пользуются достаточно простыми приёмами, например, создают «фиктивные» данные, которые схожи по структуре содержания с данными, запланированными для эксфильтрации, но в тоже время которые не являются конфиденциальными. После чего, используя сформированные «фиктивные» данные, пытаются их шифровать, создавать архивы с паролем и в конечном счёте передавать их за пределы корпоративной сети, например, скопировав на внешний жесткий диск, или загрузив их через Dropbox, или отправив через Gmail, или воспользовавшись любым другим облачным приложением для передачи файлов. Инсайдер будет повторять подобные попытки пересылки данных с определённой периодичностью пока не определит способ передачи, при котором не срабатывают системы ИБ. Затем, имея доступ к интересующей конфиденциальной информации и выбрав способ её кражи, инсайдер переходит к заключительному этапу утечки — «Эксфильтрация данных».
Из приведённого выше описания сценария утечки данных следует, что в большинстве случаев непосредственно хищению информации предшествует аномальное (хотя возможно и разрешённое) поведение пользователя, т.е. пользователь еще до кражи информации начинает совершать действия, не характерные для его предыдущей активности как по набору выполняемых операций, так и по содержанию обрабатываемой информации. Также сама стадия подготовки к утечке данных, в течение которой наблюдается аномальное поведение пользователя, как правило, занимает достаточно длительное время, вплоть до нескольких месяцев. В связи с этим за последние несколько лет активное развитие получило направление анализа поведения пользователей для обнаружения аномалий [5, 12, 13].
Обычно целью внутренних вторжений является получение доступа к текстовой информации (финансовые отчёты, договора, техническая документация, электронная почта и т.п.) [5, 13], приведённые выше примеры внутренних вторжений это лишь подтверждают. Поэтому ключевым является выявление аномального поведения пользователей при работе с текстовыми данными. Аномальное поведение может свидетельствовать о том, что пользователь не является тем, от имени кого он авторизовался (задача аутентификации пользователей), или пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).
В настоящее время сформировался самостоятельный класс систем информационной безопасности, в основе которых лежат методы машинного обучения для выявления признаков несвойственного поведения пользователей. Компания Gartner1 данный класс систем обозначает как UEBA (англ. User and Entity Behavior Analytics — анализ поведения пользователей и систем) [12]. UEBA-системы, в отличие от DLP, осуществляют мониторинг широкого спектра действий пользователя и принимают решения не на основе экспертно сформированных политик безопасности, а на основе исторических данных о легитимной работе пользователя. Данные системы обнаруживают ранние признаки утечки, поэтому их основная цель состоит не в блокировке действий пользователей, а в предоставлении аналитических данных службе ИБ с описанием того, почему выявленные действия являются аномальными для конкретного пользователя. Согласно определению, приведённом в отчёте Gartner [12], UEBA-системы на основе методов машинного обучения выполняют построение и применение моделей поведения (профилей) пользователей для выявления признаков аномального поведения.
Поэтому актуальным является развитие направления обнаружения ранних признаков аномального поведения пользователей на основе методов машинного обучения для решения следующих задач информационной безопасности:
- Задача раннего обнаружения попыток хищения информации — процедура выявления фактов аномального или подозрительного поведения инсайдеров (авторизованных легальных пользователей или нарушителей, авторизовавшихся под чужим именем), которые могут предшествовать или непосредственно являться частью организации попытки хищения информации.
- Задача аутентификации полъзователей — процедура оценки достоверности того, что пользователь, работающий с защищаемой компьютерной системой, является действительно тем, от имени кого он авторизовался.
Степень разработанности темы
Существующие UEBA-системы с помощью методов машинного обучения анализируют данные об операциях пользователя (контекстную информацию), которые являются хорошо структурированными, например, данные системных журналов ОС, журналов SIEM, IDS/IPS, DLP систем; данные об операциях с файлами, электронной почтой. Анализ содержимого обрабатываемых пользователем текстовых данных представляет более сложную задачу и не рассматривается в существующих решениях UEBA-систем. Во-первых, текст является
1 Gartner, Inc.— компания, специализирующаяся на рынках информационных технологий, является мировым лидером в области исследований и консалтинговых услуг (http://www.gartner.com/technology/about.jsp).
неструктурированной информацией, а во-вторых, содержит данные гораздо большего объёма. Поэтому существующие подходы не способны выявить случаи нелегитимной активности пользователя при характерных для него действиях, но с нелегальным содержимым (контентом). Кроме того, только лишь анализ структурированной информации об операциях пользователя не даёт стопроцентную точность обнаружения утечки [14-16]. Следовательно, является актуальным исследование и разработка методов машинного обучения для оценки аномальности действий пользователя на основе контентного анализа информации, с которой он взаимодействует.
Новизну и актуальность выбранной темы диссертации подтверждает отчёт Gartner [12], в котором также подчёркивается, что анализ текстовых данных является гораздо более сложной задачей, чем анализ структурированных данных об операциях. Поэтому Gartner ожидает появление данного функционала в UEBA-системах в течение следующих нескольких лет, отмечая при этом важность анализа пользовательской текстовой информации для понимания и оценки злонамеренности действий пользователя.
Таким образом, на сегодняшний день не существует разработанных подходов к обнаружению аномального поведения пользователей на основе анализа содержимого обрабатываемых текстовых данных с использованием методов машинного обучения. Поэтому в работе также исследуются существующие подходы к анализу текстовой информации, применяемые в современных программных системах, функционал которых направлен на управление контентной информацией в организации. К данным системам были отнесены системы следующих классов: системы управления корпоративным контентом (англ. Enterprise Content Management, ECM), которые также включают средства электронного раскрытия информации (англ. eDiscovery); DLP-системы предотвращения утечек данных.
Более 80% информации организаций состоит из неструктурированных (контентных) данных, причём в подавляющем большинстве это текстовая информация [13, 17], например, содержащаяся в деловых документах, отчётах, контрактах, электронной почте и т.п. Понимание деловой ценности информации, циркулирующей внутри организации, и процессов, происходящих с ней, позволит разрабатывать свои политики безопасности и применять их к различным типам информации, а также управлять рисками, связанными с использованием конфиденциальных данных и наличием неизвестной или неконтролируемой информации [18]. Для решения указанных задач в настоящее время в организациях применяются ECM-системы. В рамках диссертационной работы данные системы представляют интерес не столько с точки зрения их роли в компьютерной безопасности, сколько из-за их аналитических возможностей по обработке корпоративного текстового контента, которые, в свою очередь, требуются для
исследования и разработки признаков, описывающих поведение пользователей, и методов их анализа.
В дополнение к ЕСМ-системам также детально рассматриваются ОЬР-системы, функционал которых направлен на управление контентной информацией организации, но с точки зрения решения задачи предотвращения утечек конфиденциальной информации путём блокирования передачи соответствующих документов. Данный класс систем представляет интерес как с точки зрения используемых технологий анализа текстового контента, так и с точки зрения используемых сценариев работы систем и их программной архитектуры.
Системы выделенных классов направлены на решение разных целевых задач, но все они содержат средства анализа текстового контента, функционирующего в корпоративной сети. Обзор современных индустриальных программных систем рассматриваемых классов обеспечит полное и всестороннее освещение подходов к анализу текстовой информации, применяемых в организациях для анализа своего контента, в том числе и для анализа работы своих сотрудников.
Цели и задачи
Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей на основе анализа содержимого потока обрабатываемых текстовых данных с использованием методов машинного обучения для задач информационной безопасности.
Объектом исследования диссертационной работы является поведенческая информация пользователей при работе с электронными текстовыми документами. Под поведенческой информацией пользователя будем понимать данные об операциях, выполняемых пользователем с электронными документами, и данные о содержимом этих документов.
Для каждого типа электронного документа и среды его функционирования определён свой набор операций, изменяющих его состояние. Например, для текстовых файлов на рабочем месте пользователя это операции: создание, чтение, изменение, перемещение, удаление; для почтовых сообщений, получаемых и отправляемых пользователем с помощью почтового клиента: получение сообщения и отправка сообщения. Изменения электронного документа могут быть двух типов:
- контентное — изменение содержимого документа (например, редактирование содержимого текстового файла);
- контекстное — изменение атрибутов документа (например, изменение имени или пути текстового файла).
Таким образом, при контентном изменении поведенческая информация включает в себя данные об операции, вызвавшей данное изменение, и о содержимом документа до и после его изменения; при контекстном изменении — только информацию об операции.
В рамках настоящей работы исследуется возможность обнаружения аномального поведения пользователей, основываясь на контенте электронных документов, к которым обращались пользователи. Факт обращения пользователя к документу определяется набором соответствующих операций. Поэтому описание самих операций пользователя отходит на второй план, а анализируется только содержимое электронных документов и время обращения к ним, или, говоря иными словами, поток текстовых данных.
При анализе текстового содержимого электронных документов возникает проблема наличия информационного шума, т.е. наличия в тексте документа схожей или однотипной информации, которая не влияет на общую семантику документа, а также информации, не относящейся к основному содержанию документа (например: титульный лист, заголовки форм документов, текст меню/рекламы на посещаемых web-страницах и т.п.). Таким образом, удаление информационного шума, путём выделения наиболее значимых фрагментов текста из анализируемых документов, позволит сократить объём обрабатываемой текстовой информации и приведёт к построению более точных моделей поведения пользователей, что, в свою очередь, улучшит качество обнаружения аномалий.
Для достижения поставленной цели необходимо решение следующих задач:
1. Разработать модель представления поведенческой информации пользователя о его работе с текстовыми данными и исследовать возможность применения методов удаления информационного шума.
2. Разработать методы обнаружения аномального поведения пользователя при работе с текстовыми данными, используя выбранную модель представления поведенческой информации. Разработанные методы должны быть основаны на машинном обучении и служить для построения и применения индивидуальных моделей поведения пользователей.
3. Разработать архитектуру и реализовать экспериментальный образец программного комплекса (ЭО ПК), выполняющего сбор поведенческой информации, построение и применение индивидуальных моделей поведения пользователей на основе разработанного комплекса алгоритмов для обнаружения аномального поведения.
Научная новизна заключается в предложенном новом подходе к анализу и моделированию поведения пользователя, основанном на отображении содержимого потока электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени представляет многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя. Разработаны новые методы, основанные на расчёте оценки принадлежности документов пользователя к характерным для него тематикам, и методы оценки отклонения тематической направленности пользователя от спрогнозированных значений.
Практическая значимость работы состоит в разработке и реализации экспериментального образца программного комплекса обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией, предназначенного для решения задач информационной безопасности. Полученные результаты диссертационной работы могут послужить основой для построения перспективных современных систем информационной безопасности класса ЦЕВА, которые будут включать средства анализа содержимого обрабатываемых пользователями текстовых данных. Причём могут использоваться как все разработанные программные модули для осуществления сбора поведенческой информации, построения и применения индивидуальных моделей поведения пользователей, так и только модули, служащие для сбора и представления в структурированном виде содержимого обрабатываемых пользователями текстовых данных.
Методология и методы исследования
При получении основных результатов диссертации использовались методы теории машинного обучения и анализа текстов на естественном языке, а также проведённые экспериментальные исследования на примере набора реальной корпоративной электронной почты. При разработке программных модулей экспериментальной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией использовались методы объектно-ориентированного анализа и проектирования.
Положения, выносимые на защиту
1. Предложена новая модель представления потока текстовых документов в виде многомерного временного ряда, где каждая компонента ряда показывает изменение веса тематики во времени, при этом характерные тематики потока определяются с использованием методов ортонормированной неотрицательной матричной факторизации. Разработанная модель представления предназначена для решения задач анализа поведения пользователя при работе с текстовыми данными и фильтрации информационного шума из потоков текстовых документов.
2. Разработаны два новых алгоритма обнаружения аномального поведения пользователя при работе с текстовыми данными, использующих предложенное тематическое представление потока текстовых документов: алгоритм на основе анализа оценок принадлежности документов к характерным тематикам пользователя; алгоритм на основе анализа отклонений при прогнозировании тематических временных рядов пользователя.
3. Разработана архитектура и реализован экспериментальный образец мультиагентного программного комплекса, использующий предложенный комплекс алгоритмов для обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.
Личный вклад автора заключается в выполнении основного объема теоретических и экспериментальных исследований, а также в разработке архитектуры и реализации экспериментального образца мультиагентного программного комплекса обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией. Автор выполнил анализ и оформление полученных результатов диссертационной работы в виде публикаций, научных докладов, патента на полезную модель и двух свидетельств о государственной регистрации программ для ЭВМ.
В работе [19] Д. В. Царёв предложил модель представления текстовой информации, основанную на выделении частых эпизодов (комбинаций термов текста), и провёл экспериментальные исследования.
В работах [20, 21, 22] Д. В. Царёв выполнил описание обзорной части, предложил новый алгоритм автоматического аннотирования текстовых документов, основанный на использовании неотрицательной матричной факторизации для тематического моделирования, и провёл экспериментальные исследования.
В работах [23, 25] Д. В. Царёв провёл экспериментальные исследования и показал возможность применения разработанного алгоритма автоматического аннотирования [20, 21, 22]
для удаления информационного шума из текстовых данных и, как следствие, сокращения объёма обрабатываемой текстовой информации в задачах классификации.
Работа [24] полностью выполнена Д. В. Царёвым. В данной работе приводится описание разработанной экспериментальной мультиагентной системы сбора информации о потоках текстовых данных, обрабатываемых пользователями корпоративной сети.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Исследование и разработка методик оценки защищенности информационных объектов от потенциальных нарушителей2019 год, кандидат наук Мартьянов Евгений Александрович
Экономико-математический инструментарий эффективного управления использованием радиочастотного ресурса2019 год, доктор наук Володина Елена Евгеньевна
Синтез резервного контура управления службы безопасности организации на основе сетей Петри2012 год, кандидат технических наук Мамаев, Александр Владимирович
Методика проведения расследования киберинцидента на основе автоматизированного анализа событий безопасности домена2022 год, кандидат наук Смирнов Станислав Игоревич
Обнаружение инсайдеров в компьютерных сетях на основе комбинирования экспертных правил, методов машинного обучения и обработки больших данных2020 год, кандидат наук Ушаков Игорь Александрович
Список литературы диссертационного исследования кандидат наук Царёв, Дмитрий Владимирович, 2017 год
6 СПИСОК ЛИТЕРАТУРЫ
1. Crossler R. E. et al. Future directions for behavioral information security research // Computers & Security. — 2013. — Т. 32. — С. 90-101.
2. Аналитический Центр InfoWatch, Безопасность информации в корпоративных информационных системах. Внутренние угрозы [Электронный ресурс]. — Электрон. дан. — [Б. м.] : InfoWatch, 2013. — Режим доступа: http://www.infowatch.ru/analytics/reports/4609. — 11.01.2017.
3. Смирнов Г. Особенности обеспечения информационной безопасности малого и среднего бизнеса [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2013. — Режим доступа: http://www.anti-malware.ru/Small_Business_Security. — 11.01.2017..
4. Угрозы информационной безопасности: обзор и оценка [Электронный ресурс]. — Электрон. дан. — [Б. м.] — Режим доступа: http://rus.safensoft.com/security.phtml?c=791. — 11.01.2017.
5. Preventing insider threats with UBA [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Exabeam, 2016. — Режим доступа: http://info.exabeam.com/exabeam_insider_threat. — 11.01.2017.
6. Утечка данных [Электронный ресурс]. — Электрон. дан. — [Б. м.] : SecurityLab.ru, 2016. — Режим доступа: http://www.securitylab.ru/news/tags/%F3%F2%E5%F7%EA%E0+%E4%E0%ED%ED%FB%F5/. — 11.01.2017.
7. Carl D. Willis-Ford. Non-Malicious Security Violations // 27th Annual Conference "Partners in Performance: Shaping the Future of Cybersecurity Awareness, Education, and Training." — NIST : Gaithersburg, Maryland — 2014.
8. Reviewing a year of serious data breaches, major attacks and new vulnerabilities [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2016. — Режим доступа: https://www-01.ibm.com/common/ssi/cgi-bin/ssialias?htmlfid=SEW03133USEN. — 05.03.2017.
9. Исследование IBM и Ponemon Institute: средний ущерб компаний от утечки данных вырос до 4 млн долларов [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, июнь 2016. — Режим доступа: http://www-03.ibm.com/press/ru/ru/pressrelease/50084.wss. — 05.03.2017.
10. 2016 Cost of Data Breach Study: Global Analysis [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Ponemon Institute, June 2016. — Режим доступа: http://www-03.ibm.com/security/data-breach/. — 05.03.2017.
11. ObservelT Data Loss Prevention Capabilities [Электронный ресурс]. — Электрон. дан. — [Б. м.] : ObserveIT, 2015. — Режим доступа: http://www.observeit.com/blog/observeit-data-loss-prevention-capabilities-1. — 05.03.2017.
12. Gartner. Market Guide for User and Entity Behavior Analytics [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2015. — Режим доступа: https://www.gartner.com/doc/reprints?id=1-2NK6M1R&ct=150922&st=sb. — 05.06.2016.
13. Turning Security Inside Out to Protect The Most Valuable Data [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2015. — Режим доступа: http://www.gartner.com/imagesrv/media-products/pdf/varonis/Varonis-1-2ME5EK5.pdf. — 05.03.2017.
14. Young W. T. et al. Use of domain knowledge to detect insider threats in computer activities // Security and Privacy Workshops (SPW). — IEEE, 2013. — С. 60-67.
15. Ted E. et al. Detecting insider threats in a real corporate database of computer usage activity // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM, 2013. — С. 1393-1401.
16. Young W. T. et al. Detecting unknown insider threat scenarios // Security and Privacy Workshops (SPW). — IEEE, 2014. — С. 277-288.
17. Symantec Data Loss Prevention Data Insight Enterprise [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Symantec, 2011. — Режим доступа: http://www.symantec.com/content/en/us/enterprise/fact_sheets/b -
sym dlp data insight enterprise DS 21005381-1.en-us.pdf. — 05.03.2017.
18. EMC выпускает решение для управления жизненным циклом неструктурированного содержания [Электронный ресурс]. — Электрон. дан. — [Б. м.] : EMC, 2010. — Режим доступа: https://russia. emc.com/about/news/press/2010/20100623 -01.htm. — 05.03.2017.
19. Петровский М.И., Глазкова В.В., Царёв Д.В. О выборе модели представления текстовой информации для задачи анализа и фильтрации Интернет-трафика // Математические методы распознавания образов: 13-я Всероссийская конференция. — М.: МАКС Пресс, 2007. — С. 519-522.
20. Машечкин И.В., Петровский М.И., Попов Д.С., Царёв Д.В. Латентно-семантический анализ в задаче автоматического аннотирования // Программирование. — Наука, 2011. — Т. 37. — № 6. — С. 67-77.
21. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Automatic text summarization using latent semantic analysis // Programming and Computer Software. — Springer, 2011. — Т. 37. — № 6. — С. 299-305.
22. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Text Summarization Method Based on Normalized Non-Negative Matrix Factorization // 3rd International Conference on Mechanical and Electrical Technology (ICMET-China 2011). — ASME Press, 2011. — С. 563-568.
23. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS), 2011 11th International Conference on. — IEEE, 2011. — С. 185-189.
24. Царёв Д.В. Исследование и разработка системы мониторинга потоков корпоративной электронной текстовой информации // Программные системы и инструменты. Тематический сборник №13. — М.: Изд-во факультета ВМиК МГУ, 2012. — С. 159-173.
25. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Supervised and Unsupervised Text Classification via Generic Summarization // International Journal of Computer Information Systems and Industrial Management Applications. — 2013. — Т. 5. — С. 509-515.
26. Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. — НИВЦ МГУ, 2013. — Т. 14. — № 1. — С. 91-102.
27. Герасимов С.В., Курынин Р.В., Петровский М.И., Попов И.С., Царёв Д.В., Шестимеров А.А. Технология оценки качества научно-технических документов // Программные системы и инструменты. Тематический сборник №14. — М.: Изд-во факультета ВМиК МГУ, 2013. — С. 158-171.
28. Герасимов С.В., Курынин Р.В., Машечкин И.В., Петровский М.И., Царёв Д.В., Шестимеров А.А. Инструментальные средства оценки качества научно-технических документов // Труды Института системного программирования РАН. — ИСП РАН, 2013. — Т. 24. — С. 359-380.
29. Tsarev D., Kurynin R., Petrovskiy M., Mashechkin I. Applying non-negative matrix factorization methods to discover user's resource access patterns for computer security tasks // In Proceedings of the 2014 International Conference on Hybrid Intelligent Systems (HIS 2014). — New York, United States: IEEE Computer Society, 2014. — С. 43-48.
30. Машечкин И.В., Петровский М.И., Царёв Д.В. Применение методов интеллектуального анализа текстовой информации для предотвращения утечек данных // Программирование. — Наука, 2015. — № 1. — С. 32-43.
31. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Applying text mining methods for data loss prevention // Programming and Computer Software. — Springer, 2015. — Т. 41. — № 1. — С. 23-30.
32. Королев В.Ю., Корчагин А.Ю., Машечкин И.В., Петровский М.И., Царёв Д.В. Применение временных рядов в задаче фоновой идентификации пользователей на основе анализа их работы с текстовыми данными // Труды Института системного программирования РАН. — ИСП РАН, 2015. — Т. 27. — № 1. — С. 151-172.
33. Машечкин И.В., Петровский М.И., Царёв Д.В. Методы машинного обучения для анализа поведения пользователей при работе с текстовыми данными в задачах информационной безопасности // Вестник Московского университета. Серия 15: Вычислительная математика и кибернетика. — МГУ, 2016. — № 4. — С. 33-39.
34. Tsarev D.V., Petrovskii M.I., Mashechkin I.V. Machine Learning Methods for Analyzing User Behavior when Accessing Text Data in Information Security Problems // Moscow University Computational Mathematics and Cybernetics. — Springer, 2016. — Т. 40. — № 4. — С. 179-184.
35. Машечкин И. В., Петровский М. И., Поспелова И.И., Царёв Д. В. Методы автоматического аннотирования и выделения ключевых слов в задаче обнаружения экстремистской информации в сети Интернет // Современные информационные технологии и ИТ-образование. — 2016. — Т. 12. — № 1. — С. 188-200.
36. Mashechkin I., Petrovskiy M., Pospelova I., Tsarev D. Automatic summarization and keywords extraction methods for discovering extremist information on the internet // CEUR Workshop Proceedings (CEUR-WS.org): Selected Papers of the First International Scientific Conference Convergent Cognitive Information Technologies (Convergent 2016). — Т. 1763. — Moscow, Russia, 2016. — С. 188-198.
37. Интеллектуальная система оценки качества научно-технических документов [Текст] : пат. 132587 Рос. Федерация; дата рег. 20.09.2013.
38. Система мониторинга работы пользователей с информационными ресурсами корпоративной компьютерной сети на основе поведения пользователей [Текст] : свидетельство о гос. рег. ПО 2014616126 Рос. Федерация; дата рег. 11.06.2014.
39. Система мониторинга, теневого копирования и автоматического аннотирования текстовых данных при работе пользователя с электронными документами [Текст] : свидетельство о гос. рег. ПО 2016618914 Рос. Федерация; дата рег. 09.08.2016.
40. Feldman S., Reynolds H., Schubmehl D. Content analytics and the high-performing enterprise [Электронный ресурс]. — Электрон. дан. — Framingham, MA: IDC, 2012. — Режим доступа: ftp://ftp.software.ibm.com/software/in/events/softwareuniverse/resources/Content Analytics and t he_High_Performing_Enterprise.pdf. — 05.03.2017.
41. ECM - Enterprise Content Management [Электронный ресурс]. — Электрон. дан. — [Б. м.] : TAdviser, 2014. — Режим доступа: http://www.tadviser.ru/index.php/Статья:ECM -
Enterprise Content Management. — 05.03.2017.
42. ECM (Enterprise Content Management) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/analytics/us/en/technology/enterprise-content-management/. — 05.03.2017.
43. Mark R. Gilbert, Karen M. Shegda, Kenneth Chin, Gavin Tay, Hanns Koehler-Kruener. Magic Quadrant for Enterprise Content Management [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2014. — Режим доступа: http://www.gartner.com/technology/reprints.do?id=1-22RDH82&ct=141003&st=sb. — 28.11.2014.
44. Karen A. Hobert, Gavin Tay, Joe Mariano. Magic Quadrant for Enterprise Content Management [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2016. — Режим доступа: https://www.gartner.com/doc/reprints?id=1 -3L09I3B&ct= 161031&st=sg. — 05.03.2017.
45. Управление корпоративным контентом [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: http://www-03.ibm. com/software/products/ru/category/enterprise-content-management. — 05.03.2017.
46. Content analytics and enterprise search (IBM Watson Content Analytics 3.5.0) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа:. https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.nav.doc/ iiysaovca.htm. — 05.03.2017.
47. Планирование eDiscovery (SharePoint Server 2010) [Электронный ресурс]. — Электрон. дан.
— [Б. м.] : Microsoft, 2016. — Режим доступа: http://technet.microsoft.com/ru-ru/library/ff453933(v=office.14). aspx. — 05.03.2017.
48. EMC Kazeon File Intelligence [Электронный ресурс]. — Электрон. дан. — [Б. м.] : EMC, 2017.
— Режим доступа: https://www.emc.com/content-management/emc-kazeon-file-intelligence.htm.
— 05.03.2017.
49. OpenText eDiscovery Early Case Assessment by Recommind [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : OpenText, 2017. — Режим доступа: http://www.opentext.com/what-we-do/products/discovery/ediscovery/opentext-ediscovery-early-case-assessment-by-recommind. — 05.03.2017.
50. eDiscovery Analyzer [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: http://www-03.ibm.com/software/products/ru/edisanal. — 05.03.2017.
51. Desktop Data Collector [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : IBM, 2017.
— Режим доступа: http://www-03.ibm.com/software/products/ru/desktop-data-collector. — 05.03.2017.
52. Auto-Classification [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : OpenText, 2017. — Режим доступа: http://www.opentext.com/what-we-do/products/discovery/auto-classification. — 05.03.2017.
53. EMC File Intelligence: How to understand and secure your content [Электронный ресурс]. — Электрон. дан. — [Б. м.] : EMC, 2012. — Режим доступа:
https://www.emc.com/collateral/software/15-min-guide/h9774-15min-guide-understand-secure-
content-gde.pdf. — 05.03.2017.
54. Content Classification [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : IBM, 2017.
— Режим доступа: http://www-03.ibm.com/software/products/en/content-classification. — 05.03.2017.
55. Component overview (Content Classification 8.8.0) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/SSBRAM_8.8.0/com.ibm.classify.admin.doc/c_A G about rme.htm. — 05.03.2017.
56. Using the Taxonomy Proposer to discover new categories (Content Classification 8.8.0) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SSBRAM_8.8.0/com.ibm.classify.workbench.d oc/c_WBG_Taxonomy_Proposer.htm. — 05.03.2017.
57. Component overview (IBM Watson Content Analytics 3.5.0) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.nav.doc/ iiysaovcomp.htm. — 05.03.2017.
58. Open, scalable analytics pipeline (IBM Watson Content Analytics 3.5.0) [Электронный ресурс].
— Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: http://www.ibm.com/support/knowledgecenter/SS5RWK_3.5.0/com.ibm.discovery.es.nav.doc/iiys aovcapipe.htm. — 05.03.2017.
59. Configuring sentiment analysis for content analytics collections (IBM Watson Content Analytics 3.5.0) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.ad.doc/ii ysatasentiment.htm. — 05.03.2017.
60. Выявление и использование практической терминологии с помощью IBM Watson Content Analytics [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2015. — Режим доступа: https://www.ibm.com/developerworks/ru/library/ba-watson-dictionary/ba-watson-dictionary-pdf.pdf. — 05.03.2017.
61. Analyzing content with the content analytics miner [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.tm.doc/i iysctaskscont.htm. — 05.03.2017.
62. Zhu W. D. J. et al. IBM Watson Content Analytics: Discovering Actionable Insight from Your Content [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM Redbooks, 2014. — Режим доступа: https://www.redbooks.ibm.com/redbooks/pdfs/sg247877.pdf. — 05.03.2017.
63. Take tours of the content analytics miner [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SS8NLW 11.0.1/com.ibm.discovery.es.tm.doc/ iiyscviewlet.htm. — 05.03.2017.
64. Integration with IBM Content Analytics with Enterprise Search [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017. — Режим доступа: https://www.ibm.com/support/knowledgecenter/SSBRAM 8.8.0/com.ibm.classify.admin.doc/c A G ICA.htm. — 05.03.2017.
65. eDiscovery Analyzer overview [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2017.
— Режим доступа: https://www.ibm.com/support/knowledgecenter/en/SSJKLP 2.2.2/com.ibm.eda.doc/edaao000.htm.
— 05.03.2017.
66. Ouellet E. Magic Quadrant for Content-Aware Data Loss Prevention // Gartner report. — [Б. м.] : Gartner, 12 December 2013. — № G00253215.
67. Reed B., Wynne N. Magic Quadrant for Enterprise Data Loss Prevention // Gartner report. — [Б. м.] : Gartner, 28 January 2016. — № G00277564.
68. Machine Learning Sets New Standard for Data Loss Prevention: Describe, Fingerprint, Learn. White Paper: Data Loss Prevention [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Symantec, 2010. — Режим доступа: http://eval.symantec.com/mktginfo/enterprise/white papers/b-dlp machine learning.WP en-us.pdf. — 05.03.2017.
69. Запатентованные технологии лингвистического анализа информационных потоков [Электронный ресурс]. — Электрон. дан. — [Б. м.] : InfoWatch, 2017. — Режим доступа: http://www.infowatch.ru/technologies/linguistic analysis. — 05.03.2017.
70. InfoWatch Endpoint Security Insight Edition [Электронный ресурс]. — Электрон. дан. — [Б. м.] : InfoWatch, 2017. — Режим доступа: http://www.infowatch.ru/products/endpoint_security/features. — 05.03.2017.
71. Forcepoint DLP and Forcepoint DLP Endpoint [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Forcepoint, 2017. — Режим доступа: https://www.forcepoint.com/sites/default/files/resources/files/brochure_forcepoint_dlp_en.pdf. — 05.03.2017.
72. Как управлять рисками утечки критичных данных [Электронный ресурс]. — Электрон. дан.
— [Б. м.] : CNews, 2016. — Режим доступа: http://www.cnews.ru/articles/2016-01 -27 kak upravlyat riskami utechki kritichnyh dannyh. — 05.03.2017.
73. Manning C. D. et al. Introduction to information retrieval. — Cambridge: Cambridge university press, 2008. — Т. 1. — С. 496.
74. The 20 Newsgroups data set [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2008. — Режим доступа: http://people.csail.mit.edu/jrennie/20Newsgroups/.— 05.03.2017.
75. Cavnar W. B. Using an n-gram-based document representation with a vector processing retrieval model // NIST Special Publication 500-225: Overview of the Third Text REtrieval Conference (TREC-3). — DIANE Publishing Company, 1995. — С. 269-278.
76. Chisholm E., Kolda T. G. New term weighting formulas for the vector space method in information retrieval // Computer Science and Mathematics Division, Oak Ridge National Laboratory. — 1999.
77. Landauer T. K., Dumais S. T. A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge // Psychological review. — 1997. — Т. 104.
— № 2. — С. 211.
78. Kuang D., Choo J., Park H. Nonnegative Matrix Factorization for Interactive Topic Modeling and Document Clustering // Partitional Clustering Algorithms. — Springer International Publishing, 2015. — С. 215-243.
79. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research.
— 2003. — Т. 3. — С. 993-1022.
80. Mirzal A. Converged algorithms for orthogonal nonnegative matrix factorizations [Электронный ресурс]. — Электрон. дан. — [Б. м.] : arXiv Computing Research Repository, 2011. — № 1010.5290v2. — С. 1-55. — Режим доступа: https://arxiv.org/pdf/1010.5290.pdf.— 05.03.2017.
81. Choo J. et al. Utopian: User-driven topic modeling based on interactive nonnegative matrix factorization // IEEE transactions on visualization and computer graphics. — 2013. — Т. 19. — № 12. - С. 1992-2001.
82. Lee D. D., Seung H. S. Learning the parts of objects by non-negative matrix factorization // Nature.
— 1999. — Т. 401. — № 6755. — С. 788-791.
83. Xu W., Liu X., Gong Y. Document clustering based on non-negative matrix factorization // Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. — ACM, 2003. — С. 267-273.
84. Gong Y., Liu X. Generic text summarization using relevance measure and latent semantic analysis // Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval. — ACM, 2001. — С. 19-25.
85. Steinberger J., Jezek K. Text summarization and singular value decomposition // Advances in Information Systems. — Springer Berlin Heidelberg, 2005. — С. 245-254.
86. Lee J. H. et al. Automatic generic document summarization based on non-negative matrix factorization // Information Processing & Management. — 2009. — Т. 45. — № 1. — С. 20-34.
87. Park S. Personalized summarization agent using non-negative matrix factorization //PRICAI 2008: Trends in Artificial Intelligence. — Springer Berlin Heidelberg, 2008. — С. 1034-1038.
88. Park S. et al. Multi-document summarization using weighted similarity between topic and clustering-based non-negative semantic feature // Advances in Data and Web Management. — Springer Berlin Heidelberg, 2007. — С. 108-115.
89. Ding C. et al. Orthogonal nonnegative matrix t-factorizations for clustering // Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM, 2006. — С. 126-135.
90. Yoo J., Choi S. Orthogonal nonnegative matrix factorization: Multiplicative updates on Stiefel manifolds // International Conference on Intelligent Data Engineering and Automated Learning. — Springer Berlin Heidelberg, 2008. — С. 140-147.
91. Jezek K., Steinberger J. Automatic text summarization (the state of the art 2007 and new challenges) // Proceedings of Znalosti. — 2008. — С. 1-12.
92. Lin C. Y. Looking for a few good metrics: Automatic summarization evaluation—how many samples are enough // Proceedings of the NTCIR Workshop. — 2004. — Т. 4.
93. ROUGE: Recall-Oriented Understudy of Gisting Evaluation [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2007. — Режим доступа: http://www.berouge.com/. — 22.10.2016.
94. Кривая ошибок (Receiver Operating Characteristic, ROC curve) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2013. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=ROC-кривая. — 05.03.2017.
95. R: Анализ и визуализация данных. Базовые графические возможности R: диаграммы размахов [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2011. — Режим доступа: http://r-analytics.blogspot.ru/2011/11/r 08.html. — 05.03.2017.
96. Schclar A., Rokach L., Abramson A., et al. User authentication based on representative users // IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews. — IEEE, 2012. — Т. 42. — № 6. — С. 1669-1678.
97. Gascon H., Uellenbeck S., Wolf C., et al. Continuous authentication on mobile devices by analysis of typing motion behavior // Proc. of GI Conference "Sicherheit". — Bonn: Kollen Druck+Verlag GmbH, 2014. — С. 1-12.
98. Song Y., Ben Salem M., Hershkop S., et al. System level user behavior biometrics using Fisher features and Gaussian mixture models // Security and Privacy Workshops (SPW). — Washington: IEEE, 2013. — C. 52-59.
99. Enron Email Dataset [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2015. — Режим доступа: http://www.cs.cmu.edu/~./enron/. — 05.03.2017.
100. Berry M. W. et al. Algorithms and applications for approximate nonnegative matrix factorization // Computational statistics & data analysis. — 2007. — Т. 52. — № 1. — С. 155-173.
101. Workshop on Link Analysis, Counterterrorism and Security [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2005. — Режим доступа: http://research.cs.queensu.ca/home/skill/proceedings/. — 05.03.2017.
102. Natural Language Toolkit (NLTK) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://www.nltk.org. — 05.03.2017.
103. Временной ряд (Time Series) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Временной ряд. — 05.03.2017.
104. Технический справочник по алгоритму временных рядов (Майкрософт) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Microsoft, 2017. — Режим доступа: http://msdn.microsoft.com/ru-ru/library/bb677216.aspx. — 05.03.2017.
105. Интегрированная модель авторегрессии — скользящего среднего (ARIMA) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://university.prognoz.ru/biu/ru/Интегрированная_модель_авторегрессии_-
скользящего среднего %28ARIMA%29. — 05.03.2017.
106. Meek C., Chickering D. M., Heckerman D. Autoregressive tree models for time-series analysis // Proceedings of the 2002 SIAM International Conference on Data Mining. — Society for Industrial and Applied Mathematics, 2002. — С. 229-244.
107. Авторегрессия [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://university.prognoz.ru/biu/ru/Авторегрессия. — 05.03.2017.
108. Простое скользящее среднее [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://university.prognoz.ru/biu/ru/Простое_скользящее_среднее. — 05.03.2017.
109. Авторегрессионная модель скользящего среднего (ARMA) [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://university.prognoz.ru/biu/ru/Авторегрессионная_модель_скользящего_среднего_%28AR MA%29. — 05.03.2017.
110. Авторегрессионное скользящее среднее [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Авторегрессионное скользящее среднее.
— 05.03.2017.
111. Авторегрессионное интегрированное скользящее среднее [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Autoregressive Integrated Moving Average.
— 05.03.2017.
112. Hastie T., Tibshirani R., Sherlock G., Eisen M., Brown P., Botstein D. Imputing Missing Data for Gene Expression Arrays // Technical report. — Stanford Statistics Department, 1999.
113. Troyanskaya O. et al. Missing value estimation methods for DNA microarrays // Bioinformatics.
— 2001. — Т. 17. — №. 6. — С. 520-525.
114. Метод наименьших квадратов [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2012. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Метод наименьших квадратов. — 05.03.2017.
115. New EDRM Enron Email Data Set [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2017.
— Режим доступа: http://www.edrm.net/resources/data-sets/edrm-enron-email-data-set. — 05.03.2017.
116. readpst - convert PST (MS Outlook Personal Folders) files to mbox and other formats [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2010. — Режим доступа: http://manpages.ubuntu.com/manpages/trusty/man1/readpst.1.html. — 05.03.2017.
117. pdftotext - Portable Document Format (PDF) to text converter [Электронный ресурс].
— Электрон. дан. — [Б. м.] : 2010. — Режим доступа: http://manpages.ubuntu.com/manpages/xenial/man1/pdftotext.1.html. — 05.03.2017.
118. catdoc - reads MS-Word file and puts its content as plain text on standard output [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2010. — Режим доступа: http://manpages.ubuntu.com/manpages/zesty/man1/catdoc.1.html. — 05.03.2017.
119. Li Y., Zhang B., Cao Y., et al. Study on the BeiHang keystroke dynamics database // Intern. Joint Conf. Biometrics (IJCB). — Washington: IEEE, 2011. — С. 1-5.
120. Bailey K. Computer based behavioral biometric authentication via multi-modal fusion. — Ohio: Air Force Institute of Technology, 2013.
121. Mikolov T. et al. Efficient estimation of word representations in vector space // arXiv preprint arXiv:1301.3781. — 2013.
122. Mikolov T. et al. Distributed representations of words and phrases and their compositionality // Advances in neural information processing systems. — 2013. — С. 3111-3119.
123. Таненбаум Э. и др. Распределенные системы. Принципы и парадигмы. — СПб.: Питер, 2003.
124. Distributed Component Object Model [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://technet.microsoft.com/en-us/library/cc958799.aspx. — 05.03.2017.
125. Python for Windows Extensions [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: http://starship.python.net/~skippy/win32/. — 05.03.2017.
126. Построение IFilter для поиска SharePoint 2010 и Windows Search с помощью C++, ATL и MFC [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://msdn.microsoft.com/ru-
ru/library/office/hh694268(v=office.14).aspx#odc_sp14_ta_HowToBuildAnIFilter_Introduction.
— 05.03.2017.
127. Eigen is a C++ template library for linear algebra [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: http://eigen.tuxf amily.org/index.php?title=Main_Page.
— 05.03.2017.
128. Filtering IRPs and Fast I/O [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Microsoft, 2016. — Режим доступа: https://msdn.microsoft.com/windows/hardware/drivers/ifs/filtering-irps-and-fast-i-o. — 05.03.2017.
129. IRPs Are Different From Fast I/O [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Microsoft, 2016. — Режим доступа: https://msdn.microsoft.com/windows/hardware/drivers/ifs/irps-are-different-from-fast-i-o. — 05.03.2017.
130. Filter Manager Concepts [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Microsoft,
2016. — Режим доступа: https://msdn.microsoft.com/windows/hardware/drivers/ifs/filter-manager-concepts. — 05.03.2017.
131. Communication Between User Mode and Kernel Mode [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Microsoft, 2016. — Режим доступа: https://msdn.microsoft.com/windows/hardware/drivers/ifs/communication-between-user-mode-and-kernel-mode. — 05.03.2017.
132. GNU zip compression utility [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] :
2017. — Режим доступа: http://www.gzip.org/. — 05.03.2017.
133. OpenSSL [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: http://www.openssl.org/. — 05.03.2017.
134. FILE_OBJECT structure [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://msdn.microsoft.com/en-us/library/windows/hardware/ff545834(v=vs.85).aspx. — 05.03.2017.
135. Outlook Solutions [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://msdn.microsoft.com/en-us/library/bb386094.aspx. — 05.03.2017.
136. Browser Helper Objects: The Browser the Way You Want It [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://msdn.microsoft.com/en-us/library/bb250436(v=vs.85).aspx. — 05.03.2017.
137. Оснастки MMC [Электронный ресурс]. — Электрон. дан. и прогр. — [Б. м.] : 2017. — Режим доступа: https://technet.microsoft.com/ru-ru/library/cc749356.aspx. — 05.03.2017.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.