Методика идентификации пользователей порталов сети интернет на основе методов математической лингвистики тема диссертации и автореферата по ВАК РФ 05.13.19, кандидат наук Сухопаров Михаил Евгеньевич
- Специальность ВАК РФ05.13.19
- Количество страниц 108
Оглавление диссертации кандидат наук Сухопаров Михаил Евгеньевич
1.4. Применение методов обработки текстовых сообщений для защиты информации
1.5. Выводы
ГЛАВА 2. ИДЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЕЙ НА ОСНОВЕ КОРТЕЖА ЛИНГВИСТИЧЕСКИХ ПРИЗНАКОВ
2.1. Модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения
2.1.1 Графематический уровень лингвистических признаков идентификатора
2.1.2 Лексикографический уровень лингвистических признаков идентификатора
2.1.3 Морфологический уровень лингвистических признаков идентификатора
2.1.4 Синтаксический уровень лингвистических признаков идентификатора
2.1.5 Символьный и графический анализ лингвистических признаков идентификатора. Уровень специальных выражений
2.2. Метод создания компонентного профиля пользователя портала сети
Интернет
2.3. Оценка сложности подмены идентификатора на основе компонентного профиля пользователя
2.4. Построение тематических моделей разграничения доступа на основе лингвистического профиля пользователя портала
2.5. Выводы
ГЛАВА 3. ОЦЕНКА ПРИМЕНИМОСТИ МЕТОДИКИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ ПОРТАЛА
3.1. Методика идентификации пользователя портала на основе компонентного профиля
3.2. Особенности функционирования разработанных методов и моделей
3.3. Особенности проведения экспериментов
3.4. Сравнительные характеристики моделей и методов
3.5. Выводы
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ
ИТКС Информационно-телекоммуникационные системы
ИБ Информационная безопасность
БД База данных
СЗИ Средства защиты информации
DLP Data Leak Prevention
НИР Научно-исследовательская работа
ОКР Опытно-конструкторская работа
ОС Операционная система
ПК Персональный компьютер
ПО Программное обеспечение
Рекомендованный список диссертаций по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК
Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений2017 год, кандидат наук Воробьева, Алиса Андреевна
Метод идентификации пользователей в сети Интернет с использованием компонентного профиля2014 год, кандидат наук Бессонова, Екатерина Евгеньевна
Методология обнаружения угроз нарушения информационной безопасности в открытых компьютерных сетях на основе функциональной модели естественного языка2011 год, доктор технических наук Лебедев, Илья Сергеевич
Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет2013 год, кандидат технических наук Гвоздев, Алексей Вячеславович
Идентификация логических соединений в информационно-телекоммуникационных сетях, содержащих средства анонимизации пользователей2018 год, кандидат наук Горелик Константин Сергеевич
Введение диссертации (часть автореферата) на тему «Методика идентификации пользователей порталов сети интернет на основе методов математической лингвистики»
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Современному этапу развития информационно-телекоммуникационных систем (ИТКС) характерны массовое использование локальных, корпоративных, глобальных вычислительных сетей и применение новых технологий. Это, в свою очередь, обуславливает необходимость контроля субъектов информационных процессов для идентификации возможных направлений информационного воздействия на пользователей сети интернет. В связи с тем, что порядка 80% информации в сети Интернет представлено в текстовом виде, возникает необходимость в разработке средств идентификации пользователей на основе методов математической лингвистики, предназначенных для обеспечения информационной безопасности объектов политической, социально-экономической, оборонной, культурной и других сфер деятельности от внешних и внутренних угроз хищения, разрушения и/или модификации информации. В рамках этой задачи крайне важна идентификация субъектов информационных процессов, имеющих возможность легально распространять "недобросовестные" текстовые сообщения. Это может быть связано с различными способами "серой" накрутки рейтингов ссылок на сообщения, подмены авторства текстов, внедрения "дополнительных" пользователей порталов для ведения и поддержки узко направленной дискуссии.
Весомый вклад в обеспечение информационной безопасности в рамках данного вопроса внесли такие известные ученые как: Н.Н. Безруков, К. Лендвер, П.Д. Зегжда, Дж. М. Кэррол, А.М. Ивашко, Е.А.Дербин, Р. Сандху, А.И. Костогрызов, В.И. Курбатов, К. Лендвер, А.А. Молдовян, Н.А. Молдовян, А.А.Малюк, Е.А.Дербин, развивая теорию методов информационного воздействия и обосновывая значимость
различных средств информационного противоборства в современных реалиях методов ведения бизнеса.
Большое количество интернет ресурсов и сервисов, таких как форумы, порталы, интернет-магазины, сталкиваются с различными проявлениями проблемы манипуляции и искусственного формирования общественного мнения, путем «организации» целенаправленных тематических диалогов, в которых ряд пользователей имеют несколько учетных записей. Возможность использования порталов и сайтов для распространения информации и недостаточная функциональность механизмов идентификации и аутентификации пользователей, оставляющих сообщения, определяет ряд направлений совершенствования систем защиты и систем мониторинга информационной безопасности ИТКС.
В связи с этим возникает задача повышения вероятностных показателей качества методов идентификации пользователей различных порталов сети Интернет.
Целью работы является повышение вероятности идентификации субъектов информационных процессов открытых ресурсов сети Интернет на основе методов математической лингвистики. Работа соответствует пункту 11 паспорта специальности.
Для достижения указанной цели в диссертации решаются следующие основные научные и технические задачи:
1. Анализ и выявление достоинств и недостатков методов идентификации пользователей порталов сети Интернет, применяемых для противодействия угрозам нарушения ИБ (информационной безопасности) в открытых информационных системах.
2. Исследование свойств и особенностей текстов коротких сообщений различных Интернет ресурсов для реализации моделей, методов и методик идентификации пользователей.
3. Обоснование использования моделей идентификации пользователей открытых ресурсов для обработки системами мониторинга ИБ коротких сообщений различных порталов сети Интернет.
4. Совершенствование методов и средств идентификации субъектов информационных процессов с целью информационного противодействия угрозам ИБ.
5. Выявление ограничений использования моделей, методов и алгоритмов идентификации пользователей порталов сети Интернет.
В соответствии с заявленными целями и задачами работы объектом исследования являются системы идентификации субъектов информационных процессов порталов сети Интернет, а предметом исследования - методы и средства идентификации пользователей на основе лингвистических характеристик текстовой информации.
На защиту выносятся следующие основные результаты:
1. Модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения.
2. Метод создания компонентного профиля пользователя портала сети Интернет базирующегося на модели идентификатора, содержащего кортеж лингвистических признаков.
3. Методика идентификации пользователя портала сети Интернет на основе компонентного профиля.
Научную новизну диссертационной работы составляют:
отличается от известных использованием признакового пространства, содержащего синтаксические паттерны и нераспознанные "шумовые" словоформы, что позволяет увеличить количество информативных характеристик, используемых в процессе идентификации.
2. Метод создания компонентного профиля пользователя портала сети Интернет, отличается от известных использованием характеристик лингвистических конструкций, полученных после морфосинтаксической обработки, что позволяет увеличить сложность подмены идентификатора.
3. Методика идентификации пользователя портала сети Интернет на основе компонентного профиля отличается от известного применения к ней лингвистического признакового пространства, характерного для коротких сообщений порталов сети Интернет, что позволяет увеличить показатели качества (вероятность идентификации) для систем мониторинга состояния ИБ и СЗИ ресурсов.
Достоверность результатов работы подтверждается:
- научной обоснованностью приводимых выкладок и математических преобразований;
- использованием методик и математического аппарата теории вероятности, теории БД (баз данных), проверенных экспериментами;
- системным анализом описания объекта исследования, учетом сложившихся практик и опыта в ИБ;
- непротиворечивостью полученных результатов известным решениям;
- практической апробацией и одобрением на научно-технических конференциях.
Практическую значимость результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств идентификации пользователей портала сети Интернет, которые позволяют повысить вероятность обнаружения подмены авторства информации в системах мониторинга ИБ ИТКС.
Реализация результатов. Полученные модели и методы реализованы в рамках научно-исследовательских работ и опытно-конструкторских работ, выполняемых в НИУ ИТМО.
Апробация работы.
Основные результаты работы представлялись на следующих конференциях:
- 22-я научно-техническая конференция "Методы и технические средства обеспечения безопасности информации", СПбГПУ, г. Санкт-Петербург, 2013;
- Конгресс молодых ученых (КМУ 2013), НИУ ИТМО, г. Санкт-Петербург, 2013;
- Всероссийская научная конференция по проблемам информатики СПИСОК-2013, СПбГУ, г. Санкт-Петербург, 2013;
- Advances in Methods of Information and Communication Technology (AMICT'2013), ПетрГУ, г. Петрозаводск, 2013;
- Application of Information and Communication technologies
- 23-я научно-техническая конференция "Методы и технические средства обеспечения безопасности информации", СПбГПУ, г. Санкт-Петербург, 2014;
- Конгресс молодых ученых (КМУ 2014), Университет ИТМО, г. Санкт-Петербург, 2014;
- 24-я научно-техническая конференция "Методы и технические средства обеспечения безопасности информации", СПбПУ, г. Санкт-Петербург, 2015.
Публикации. По результатам диссертационного исследования опубликовано 9 работ, из них статей, рекомендованных ВАК РФ - 3, статей, индексируемых в международных цитатно-аналитических базах данных - 1.
Структура и объем работы. Диссертационная работа содержит общую характеристику работы, 3 раздела, заключение, список литературы. Объем работы составляет 99 страниц. Работа содержит 38 рисунков, 8 таблиц.
ГЛАВА 1. МЕТОДЫ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ РЕСУРСОВ СЕТИ ИНТЕРНЕТ
1.1Введение
Современный этап развития сети Интернет характеризуется массовым доступом пользователей, обладающих возможностями по распространению различной информации.
В большинстве случаев для ознакомления Интернет-сообществ с собственными взглядами пользователи и группы пользователей могут использовать такие общедоступные сервисы как блоги, сайты, форумы и т.д., обеспечивающие видимую анонимность, где более 80% информации представлено в текстовом виде. [1]
В связи с этим особую актуальность приобретают задачи идентификации пользователей порталов на основе методов обработки текстовой информации.
На рисунке 1 представлены потоки текстовой информации в сети Интернет [35].
Под контролем и мониторингом информационных потоков, в нашем случае, понимается комплекс организационных, программных, технических и физических мер, обеспечивающих достижение следующих свойств информационных ресурсов [2]:
- целостности - обеспечение актуальности и непротиворечивости текстовой информации, ее защищенности от разрушения и несанкционированного изменения;
- конфиденциальности - обеспечение защищенности текстовой информации от несанкционированного доступа и ознакомления;
- доступности - обеспечение возможности за приемлемое время получить доступ к хранимой и обрабатываемой в системе информации;
- аутентичности - обеспечение подлинности субъектов, распространяющих текстовую информацию.
\
Системы фильтраций и
анонимных запросов
В приводимой работе особое внимание уделяется аутентичности, обеспечение которой предлагается осуществлять с помощью решения задачи идентификации пользователей порталов сети Интернет на основе методов математической лингвистики.
При передаче текстовой информации в компьютерной сети возникает ряд проблем безопасности, которые можно разделить на 4 основных типа:
- перехват - при сохранении целостности текстовой информации нарушается ее конфиденциальность;
- модификация - происходит частичная или полная подмена содержимого исходного текстового сообщения с последующей передачей адресату;
- перехват сообщения с последующим его изъятием;
- подмена авторства информации.
В последнем случае возникает целый комплекс проблем, связанных с обеспечением информационной безопасности в процессе сбора, хранения, обработки, передачи и распространения информации, а также расследованием инцидентов ИБ.
Основными средствами обеспечения противодействия обозначенным проблемным вопросам информационной безопасности являются ЭЬР-системы, которые могут иметь следующий набор компонент [2, 18, 40]:
- подсистема защиты удалённых и мобильных пользователей (осуществляет безопасный и защищенный доступ к данным (возможно конфиденциальным) сотрудников, работающим удаленно, а также обеспечивает безопасную работу мобильных пользователей);
- подсистема межсетевого экранирования (комплекс программно-аппаратных средств, работающий по определённому набору правил и осуществляющий контроль и фильтрацию текстовых данных, проходящих через него. Осуществляет проверку текстовой информации на предмет утечки конфиденциальных данных, предоставления информации неуполномоченным лицам и т.д.);
- подсистема обнаружения и предотвращения вторжений (программно-аппаратное средство, осуществляющее контроль и анализ за вверенным ему ресурсом и выявляющее факты несанкционированного доступа в компьютерную систему или сеть, либо управления ими и предпринятия некоторых самостоятельных действий по обнаружению, идентификации и устранению проблем);
- подсистема безопасного доступа к сети Интернет (обеспечивает безопасный доступ пользователя к текстовым данным и ресурсам в глобальной сети, обеспечивая конфиденциальность, целостность и доступность информации);
- подсистема фильтрации электронной почты (система, обеспечивающая анализ текстовой информации на предмет спама и вредоносного программного обеспечения, а также контроль за передаваемой текстовой информацией и ее содержимым);
- подсистема мониторинга и управления средствами защиты (система, отслеживающая работу компонент информационной безопасности и состояние как системы в целом, так и составляющих по отдельности);
- система шифрования (система, осуществляющая шифрование текстовых данных для последующей безопасной передачи данных по доверенным и не доверенным каналам связи);
- электронная цифровая подпись (осуществляет контроль авторства передаваемой текстовой информации).
Приводимые решения в случае использования сети Интернет имеют ограниченное применение, направленное, в основном, на обнаружение случившихся инцидентов. Эффективность противодействия напрямую зависит от точности идентификации источника угрозы [40].
На сегодняшний день особо актуальны задачи идентификации источников, имеющих возможность легально распространять "недобросовестные" текстовые сообщения [6, 7].
Это может быть связано с различными способами "серой" накрутки рейтингов ссылок на сообщения, подмены авторства текстов, внедрения "дополнительных" пользователей порталов для ведения и поддержки узко направленной дискуссии.
Большое количество интернет ресурсов и сервисов, таких как форумы, порталы, интернет-магазины, сталкиваются с различными проявлениями проблемы манипуляции и искусственного формирования общественного мнения, путем «организации» целенаправленных тематических диалогов, в которых ряд пользователей имеют несколько учетных записей [13].
Возможность использования порталов и сайтов для распространения информации и недостаточная функциональность механизмов идентификации и аутентификации пользователей, оставляющих сообщения, определяет ряд направлений совершенствования систем защиты и систем мониторинга информационной безопасности ИТКС.
В связи с этим возникает задача совершенствования методического аппарата методики идентификации пользователей порталов сети Интернет на основе методов математической лингвистики.
1.2 Классификация угроз безопасности. Модель угроз
Вычислительная сеть Интернет - глобальная информационно-телекоммуникационная система, состоящая из множества информационных объектов: различные порталы, сайты, страницы и другие сервисы и ресурсы глобальной вычислительной сети. Огромное количество информационных объектов предоставляют возможности для распространения текстовых сообщений.
Однако, применяемые в них технологии идентификации позволяют однозначно определить пользователя в случае добросовестного выполнения им процедуры регистрации на Интернет-ресурсе [13, 18].
На рисунке 2 представлена схема функционирования информационного объекта при работе с пользователями.
Отсутствие должных механизмов идентификации порождает ряд угроз информационной безопасности, связанных с обработкой, распространением и ознакомлением других пользователей с текстовыми сообщениями.
Анонимно используя текстовые сообщения, пользователь, группы пользователей могут распространять информацию заведомо определенной направленности, нанося информационный урон экономическим, культурным, социальным, политическим объектам, представленным в сети Интернет.
Система мониторинга состояния ИБ ИТКС
Пользователи
\
Информационный объект
Внутренний периметр защиты
Внешний периметр защиты
Рис. 2. Схема функционирования информационного объекта при работе с пользователями
В таблице 1 представлены классификационные признаки и виды угроз, соответствующие рассматриваемой задаче.
Таблица 1. Классификация угроз ИБ
Классификационный признак Виды угроз
Направленность угрозы Угроза целостности текстовой информации
Преднамеренность действий Умышленные действия
Неумышленные действия
Принадлежность источника угрозы Внутренние угрозы
Внешние угрозы
Источник угрозы Текстовая информация
Размеры наносимого ущерба Причинение вреда всем частям объекта информационной безопасности
Причинение вреда отдельным частям объекта информационной безопасности
Тип объекта угрозы Угрозы технологической информации
Угрозы пользовательской информации
Длительность воздействия Постоянные угрозы
Кратковременные угрозы
Степень воздействия на операционную систему Активные (содержание системы подвергается изменению)
Среда: средства обмена короткими сообщениями в сети Интернет
£ I £
Реализация
- Использование чужих идентификационных данных для осуществления ущерба
- Анонимный нарушитель
^ Л ^
Последствия
- Нарушение бизнес-процессов
- Ущерб собственнику информации
- Ущерб репутации субъекта
Текстовая информация может быть использована в качестве инструмента для манипуляции общественным мнением [34].
Таким образом, навязывание заведомо ложных данных может привести к искажению действительной картины событий.
На рисунке 4 представлена модель угроз информационной безопасности.
Рис. 4. Модель угроз информационной безопасности
1.3. Особенности идентификации пользователей на основе текстовой информации
представлению сообщений. Это связано с объемом оставляемого текста, принятых на сервисе сокращений, обозначений и т.д.
В приводимом исследовании особое внимание уделено коротким сообщениям комментариев, в связи с тем, что на сайтах, блогах, веб -страницах текст относительно длинный и к нему достаточно хорошо применимы известные и апробированные многими исследователями методы определения авторства.
Текстовые сообщения открытых порталов сети Интернет имеют ряд особенностей:
- умышленные искажения словоформ русского языка, затрудняющие автоматическую обработку сообщений;
- грамматически неправильно построенные фразы;
- использование специфической лексики, аббревиатур и конструкций, характерных для целевой аудитории ресурса ИТКС;
- небольшое количество слов в сообщениях;
- повсеместное отсутствие орфографической, пунктуационной, грамматической и стилистической коррекции.
Согласно ряду исследований лингвистов, для повышения качественных показателей идентификации автора текста применимы синтаксические структуры. На рисунке 5 приведены процентные соотношения использования различных конструкций в сообщениях наиболее популярных порталов сети Интернет.
Приведенные на рисунке 5 особенности обрабатываемой в рамках ряда НИР и ОКР текстовой информации показывают, что в системах защиты и мониторинга ИБ реализация алгоритмов идентификации позволяет использовать дополнительные методы идентификации, позволяющие повысить качество вычисляемых структур.
Р,%
25
20
15
10
Глагол Р, %
35
X
Существ. Прилаг. Наречие Местоим.
Др. части речи
30
25
20
15
10
Глаг.+ Сущ+ Сущ+ Числ+ Нар+ Сущ.+ Мест + Др. части Сущ. прил. сущ. Сущ. Сущ. Глаг. Сущ. речи
5
0
5
0
Рис. 5. Усредненная гистограмма процентного соотношения использования различных частей речи и конструкций в сообщениях наиболее популярных порталов сети Интернет.
1.4. Применение методов обработки текстовых сообщений для защиты информации
Применение методов обработки текстовых сообщений для защиты информации крайне важно в случаях, когда однозначная идентификация при помощи вычисления сетевых данных и данных, таких как cookie, ip-адрес, данные об ОС, браузере, разрешении экрана и т.д., о компьютере пользователя невозможна. Компьютером могут пользоваться несколько человек, или же, компьютер может находиться в некоторой локальной подсети, вследствие чего становится невозможным собрать статистические данные о нем.
В таких случаях для идентификации пользователя возможно применять методы математической лингвистики. При этом возникает необходимость в разработке:
- модели идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения;
- метода создания компонентного профиля пользователя портала сети Интернет, базирующегося на модели идентификатора, содержащего кортеж лингвистических признаков;
- методики идентификации пользователя портала сети Интернет на основе компонентного профиля.
Данные модели, методы, методики могут быть применены в существующих и перспективных средствах защиты, находящихся как внутри открытого Интернет-ресурса, так и снаружи.
ресурса обрабатывать пользовательские сообщения и выявлять недобросовестных пользователей с целью контроля за информационными потоками и возможными направлениями информационного воздействия и различными проявлениями астротерфинга [17, 19].
На рисунке 6 представлена область применения методов обработки текстовых сообщений для защиты информации.
Рис. 6. Область применения методов обработки текстовых сообщений для защиты информации
Возможность использования порталов и сайтов для распространения информации и недостаточная функциональность механизмов идентификации и аутентификации пользователей, оставляющих сообщения, определяет ряд направлений совершенствования систем защиты и систем мониторинга информационной безопасности ИТКС.
контроля над формированием и манипуляцией общественным мнением, и другими проявлениями астротерфинга.
Такой подход дает возможность противодействовать угрозам нарушения информационной безопасности в открытых компьютерных сетях, конфиденциальности и целостности информации.
1.5. Выводы
В результате анализа состояния предметной области идентификации пользователей порталов сети Интернет необходимо выделить следующее:
- в связи с широкими возможностями по обеспечению анонимности пользователей порталов сети Интернет, особую важность приобретают методы идентификации. Однако, применение многих из них затруднено в связи с возможностью изменения технических характеристик устройства;
- методы определения авторства текста, применяемые классическими лингвистами, показывают хорошие результаты для больших объемов текста, подвергшихся коррекции, но требуют существенной адаптации для обработки коротких сообщений;
- в целях повышения качественных показателей методов идентификации пользователей порталов сети Интернет необходимо разработать кортеж лингвистических признаков короткого сообщения, позволяющего учитывать особенности построения идентификаторов.
В соответствии с перечисленными в главе отличительными особенностями текстов комментариев в сети Интернет, а также показанными недостатками современного научно-методического аппарата идентификации пользователей порталов сети Интернет, возникает
необходимость в совершенствовании существующих средств и методов определения авторства, обладающих лучшими вероятностными показателями.
ГЛАВА 2. ИДЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЕЙ НА ОСНОВЕ КОРТЕЖА ЛИНГВИСТИЧЕСКИХ ПРИЗНАКОВ
2.1. Модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения
Для идентификатора пользователя на основе лингвистических характеристик необходимо использовать признаки текстовой информации. Существуют два подхода к формированию модели текста [10, 47, 51].
Простейший из них предоставляет статистику использования различных слов, сочетаний, №грамм и т.д.
Второй подход связан с построением структур предложений и текстов и предполагает использование морфологических, синтаксических и семантических признаков. Первый подход легко формализуем и не требует больших вычислительных ресурсов, второй - предполагает наличие словарных баз данных и алгоритмов обработки текстовой информации.
Для повышения качественных показателей, достигаемых в результате процессов идентификации пользователей порталов сети Интернет, для формирования кортежа лингвистических признаков предлагается использование совокупности первого и второго подходов.
Статистический и аналитический анализы текстов комментариев, оставляемых пользователями, позволяет получить частотные характеристики частей речи, используемых авторами сообщений, и образовываемых между ними связей.
Особенностью предлагаемого подхода является анализ не только частотных словарей, формируемых на основе выборки сообщений для идентификации пользователей, но и использование ими правил и связей на основе БД синтаксической информации языка.
Текст обрабатывается по технологии, представленной на рисунке 7. Каждому уровню соответствует свой язык представления, состоящий из определенных правил. Каждый следующий уровень основывается на результатах работы предыдущего.
Рис. 7. Схема обработки текстовых сообщений
Предлагаемая модель М идентификатора пользователя портала сети Интернет включает в себя совокупность признаков сообщения:
М = <Ь, БЬР, ББ, БР, БЕ, Н>, (1)
где:
Ь - признаки лексического уровня. Рассматриваются слова и их частоты, употребляемые комментатором портала. На этом уровне происходит анализ текстовых сообщений пользователя и выделение лексических конструкций на основе слов и словоформ русского языка.
БЬР - признаки лексикографического уровня. Идентифицируются шаблоны буквенных сокращений и символьно-буквенных сочетаний. На этом уровне осуществляется лексикографический анализ сообщения и выделение конструкций в соответствии с описанными шаблонами.
ББ - признаки графематического уровня обработки текстовых сообщений. В рамках данного признака производится анализ и сбор статистики об использовании знаков препинания и специальных символов.
БР - признаки синтаксического уровня обработки текстовой информации, включающие информацию о шаблонах (синтаксических паттернах). На данном этапе происходит разбор сообщений по частям речи с последующим применением шаблонов (синтаксических паттернов) для выделения наиболее распространенных конструкций.
Похожие диссертационные работы по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Автоматизация разграничения перекрёстного доступа к информационным ресурсам корпоративных порталов: на примере газотранспортных предприятий2013 год, кандидат наук Демидов, Александр Владимирович
Информационно-аналитическая система прогнозирования угроз и уязвимостей информационной безопасности на основе анализа данных тематических интернет-ресурсов2020 год, кандидат наук Полетаев Владислав Сергеевич
Метод и алгоритмы детектирования атак и защиты сетей класса «издатель-подписчик» в информационно-телекоммуникационных системах2021 год, кандидат наук Дикий Дмитрий Игоревич
Методика идентификации исполняемых файлов на основе статического анализа характеристик дизассемблированного кода программ2020 год, кандидат наук Салахутдинова Ксения Иркиновна
Список литературы диссертационного исследования кандидат наук Сухопаров Михаил Евгеньевич, 2015 год
СПИСОК ЛИТЕРАТУРЫ
1. Андреев A.M., Березкин Д.В., Симаков К.В. Архитектура системы машинного понимания текстов // Информатика и системы управления в XXI веке: Сборник трудов - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. -№1.-С.419-423.
2. Артамонов В.А. Модели безопасности информационных технологий критичных информационно-измерительных систем [Электронный ресурс]. - Режим доступа: http://itzashita.ru/publications/modeli-bezopasnosti-informacionnyx-texnologij-kritichnyx-informacionno-izmeritelnyx-sistem-chast- 1.html, свободный. Яз. рус. (дата обращения 26.02.2014).
3. Баженов Д.Ю. Наивный байесовский классификатор [Электронный ресурс] // http://bazhenov.me/blog/2012/06/11/naive-bayes.html, (дата обращения 14.09.2013).
4. Батура Т.В. Формальные методы определения авторства текстов // Вестник НГУ. Серия: Информационные технологии. Т.10, № 4, 2012 С.81-94.
5. Бирюков Д.Н., Ломако А.Г. Построение система информационной безопасности: от живых организмов к киберсистемам // Защита информации. INSIDE. №2, 2013, с. 2-6.
6. Бирюков Д.Н., Ломако А.Г. Подход к построению системы предотвращения киберугроз // Проблемы информационной безопасности. Компьютерные системы, №2, 2013. С. 13-19.
7. Бородакий Ю.В., Миронов А.Г., Добродеев А.Ю., Болдина М.Н., Бутусов И.В. Перспективные системы защиты информации должны быть интеллектуальными // Защита информации. INSIDE. №2, 2013. С. 48-51.
8. Боярский К.К., Каневский Е.А. Разработка инструментария для полуавтоматической морфологической разметки текста // Труды
международной конференции «Корпусная лингвистика - 2008». -СПб.: С-Петербургский гос. Университет, Факультет филологии и искусств, 2008. С. 83 - 88.
9. Боярский К.К., Каневский Е.А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5(99). С. 869-876.
10. Боярский К.К. Введение в компьютерную лингвистику // СПб: НИУ ИТМО, 2013.
11.Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний // Препринты ИПМ им. М.В. Келдыша. 2013. № 27. 26 с.
12. Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации [Электронный ресурс] // http://www.ccas.ru/voron/download/Bayes.pdf, (дата обращения
11.12.2013).
13.Гатчин Ю.А., Климова Е.В. Основы информационной безопасности // СПб: НИУ ИТМО, 2009.
14.Гвоздев А.В., Зикратов И.А., Лебедев И.С., Лапшин С.В., Соловьев И.Н. Прогнозная оценка защищенности архитектур программного обеспечения. //Научно-технический вестник информационных технологий, механики и оптики. 2012. № 4 (80). С. 126-130.
15.Гвоздев А.В., Лебедев И.С., Зикратов И.А. Вероятностная модель оценки информационного воздействия // Научно-технический вестник информационных технологий, механики и оптики. 2012. № 2 (78). С. 99-103.
16.Гомзин А.Г. Коллаборативная фильтрация с учетом временного фактора [Электронный ресурс] // http: //seminar.at.ispras .ru/wp-content/uploads/2012/07/Gomzin-thesis.pdf, (дата обращения
16.01.2014).
17.Горемыкин Д.В., Гнидко К.О., Пилькевич С.В. Многоуровневая система защиты пользователей от негативного Интернет-контента // Труды Института системного анализа Российской академии наук / под редакцией Черешкина Д.С. - М.: ЛЕНАД, 2012. С. 112-121.
18.Грушо А.А. Теоретические основы компьютерной безопасности // Академия, 2009.
19.Девянин П.Н. Модели безопасности компьютерных систем. Управление доступом и информационными потоками // М.: Горячая линия - Телеком, 2013. 338 с.
20.Зикратов И. А., Одегов С. В. Оценка информационной безопасности в облачных вычислениях на основе байесовского подхода. //Научно-технический вестник информационных технологий, механики и оптики. 2012. № 4 (80). С. 121-126.
21.Кан Д.А., Лебедев И.С., Сухопаров Е.А. Идентификация объектов текста в информационных системах // Программные продукты и системы, 2009, №2(86) C. 163-168
22. Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. - М.: РосНИИ Искусственного Интеллекта, 2001. Т. 2. С. 156-160.
23.Каневский Е.А., Боярский К.К. Разбиение текста на предложения. Дискуссия теоретиков и практиков. Научно-практический журнал. 2010. Т. 1. № 3. С. 135-137.
24.Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. М.: РГГУ, 2004. Т.8, №1, с. 31-80.
25.Кобзарева Т.Ю. Омонимия и синонимия знаков препинания в русском тексте // Компьютерная лингвистика и интеллектуальные
технологии. Труды Международной конференции Диалог'2005. — М.: Наука,2005 — С. 233-237.
26.Кобзарева Т.Ю. Синтаксическая структура предложения в кодах знаков препинания // Вестник РГГУ Сер. Филолог. науки, сер. « Московский лингвистический журнал Языкознание» М.2013, № 13 (75). С. 71-87
27. Лапшин С.В., Лебедев И.С. Метод полуавтоматического формирования словаря морфологических описаний слов. //Научно-технический вестник информационных технологий, механики и оптики. 2012. № 5 (81). С. 106-110.
28.Лапшин С.В. Метод повышения точности частеречной классификации слов в морфологических анализаторах DLP-систем // Материалы научной конференции по проблемам информатики СПИС0К-2013 - 2013. - С. 674-678.
29. Лебедев И.С., Сухопаров М.Е. Методика идентификации авторства текстов на основе методов математической лингвистики. //В мире научных открытий. 2014. № 6.1 (54). С. 599-622.
30.Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности. // Информационно-управляющие системы 2011, №2. С. 37-43
31.Лебедев И.С. Формализация конструкций естественного языка.// Вопросы современной науки и практики. Университет им. В.И.Вернадского, 2009, №1(15) С. 171 - 175
32.Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М. : Азбуковник, 2009.
ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 318-326.
34. Мельников Д.А. Организация и обеспечение безопасности информационно-технологических сетей и систем // КДУ -издательство в МГУ им. М.В. Ломоносова, 2015.
35.Медведовский И. Д., Семьянов П. В., Леонов Д. Г., Лукацкий А. В. Атака из Internet. - М.: Солон-Р, 2002. С. 140-144.
36.Мещеряков Р.В., Романов А.С. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). - М. : РГГУ, 2009. - Вып. 8 (15). - С. 432-437.
37.Напреенко Г.В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестник Томского государственного университета. 2014. № 379. С. 17-23.
38. Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6 (26). С. 38-52.
39.Романов А.С., Шелупанов А.А., Бондарчук С.С. Обобщенная методика идентификации автора неизвестного текста // Доклады ТУСУРа, №1(21), часть 1, 2010. С. 108-112.
40. Сабанов А.Г. Принципы классификации систем идентификации и аутентификации по признакам соответствия требованиям информационной безопасности // электросвязь №2 (113), 2014. С. 69.
41. Орлов Ю.Н., Осминин К.П. Методы статистического анализа литературных текстов // Эдиториал УРСС/Книжный дом «ЛИБРОКОМ», 2012. - 326 с.
42. Орлов А. И. Нечисловая статистика // М.: МЗ-Пресс, 2004.
43. Осминин К.П., Орлов Ю.Н., Определение жанра и автора литературного произведения статистическими методами // Прикладная информатика, 2010. Т. 26. № 2. С. 95-108.
44.Павлов Ю. Н., Тихомирова Е. А. Оценка устойчивости во времени частотных словарей в задачах идентификации текстов // Электронное издание «Наука и Образование», Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана", 2011.
45.Тузов В.А. Компьютерная семантика русского языка. - СПб.: Изд-во СПбГУ,2004. - 400 с.
46.Тузов В.А. Семантический анализ текста на русском языке: функциональная модель предложения // Экономико-математические исследования: математические модели и информационные технологии. СПб: ЭМИ РАН. Вып. 3, 2003.
47.Тухов В.А. Компьютерная грамматика русского языка // Вестник СПбГУ, серия прикладная математика, информатика, процессы управления. Вып.1-2., 2004.
48.Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова//Вестник МГУ. Сер. 9, Филология. 2000. N02. С.115-126.
49.Хоменко А.Ю. Алгоритм автоматизации идентификации автора письменного речевого произведения для судебного автороведения // Юрислингвистика, 2013. № 13.
50.Шевелев О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие // Томск:ТМЛ-Пресс, 2007. 144 с.
51.Шумская А.О. Идентифицирующие признаки текстовых сообщений при установлении автора // Ползуновский вестник № 2, 2013. С. 265266.
52.Bennett P.N., Nguyen N. Refined experts: Improving classification in large taxonomies// Proceedings - 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, pp. 11-18
53.Broder A., Ciccolo P., Gabrilovich E., Josifovski V., Metzler D., Riedel L. Online Expansion of Rare Queries for Sponsored Search// Proceedings of the 18th International Conference on World Wide Web,2009, pp. 511-520.
54.Cai L., Hofmann T. Hierarchical document categorization with Support Vector Machines// International Conference on Information and Knowledge Management,2004, Proceedings, pp. 78-87
55.Gómez-Rodríguez C., Kuhlmann M., Satta G., Weir D.J. Optimal reduction of rule length in linear context-free rewriting systems.// Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 539-547
56.Gildea D. Grammar factorization by tree decomposition Computational Linguistics, 2011, 37 (1), pp. 231-248
57.He, Q., Glas, C.A.W., Kosinski, M., Stillwell, D.J., Veldkamp, B.P. Predicting self-monitoring skills using textual posts on Facebook Source of the Document Computers in Human Behavior (33) 2014, pp 69-78.
58.Hsu C.-W., Lin C.-J. A comparison of methods for multi-class support vector machines // IEEE Transactions on Neural Networks, 2003. № 13(2). P. 415-425.
59.Khmelev, D.V., Teahan,W.J. (2003a).A repetition based measure for verification of text collections and for text categorization. In Proceedings of the 26th ACM SIGIR (pp. 104-110). NewYork: ACM Press.
60.Karlgren, J., & Eriksson, G. (2007). Authors, genre, and linguistic convention. In Proceedings of the SIGIRWorkshop on Plagiarism Analysis, Authorship Attribution, and Near-Duplicate Detection (pp. 2328).
61.Manning C.,D., Raghavan P., Schutze H. Introduction to Information Retrieval. -Cambrige University Press, Cambrige, England. - 2009. -504 p.
62.Melville P., V. Sindhwani Recommender systems // Encyclopedia of Machine Learning. 2010.
63.Ricci F., L. Rokach, B. Shapira, P.B. Kantor Recommender Systems Handbook // Springer, 2011. 842 P.
64.Rytter W. Application of Lempel-Ziv factorization to the approximation of grammar-based compression // Theoretical Computer Science,2003, 302 (1-3), pp. 211-222.
65.Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys 2002, 34 (1), pp. 1-47
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.