Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений тема диссертации и автореферата по ВАК РФ 05.13.19, кандидат наук Воробьева, Алиса Андреевна

  • Воробьева, Алиса Андреевна
  • кандидат науккандидат наук
  • 2017, Санкт-Петербург
  • Специальность ВАК РФ05.13.19
  • Количество страниц 154
Воробьева, Алиса Андреевна. Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений: дис. кандидат наук: 05.13.19 - Методы и системы защиты информации, информационная безопасность. Санкт-Петербург. 2017. 154 с.

Оглавление диссертации кандидат наук Воробьева, Алиса Андреевна

Оглавление

Оглавление

Введение

Глава 1. Анализ состояния проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

1.1. Современное состояние проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

1.2. Модель угроз безопасности информационных процессов при информационном обмене электронными сообщениями с использованием Интернет-ресурсов

1.2.1. Модель вероятного нарушителя информационной безопасности

1.3. Существующие методы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

1.3.1. Методы идентификации, основанные на данных о технических средствах рабочей станции пользователя - программном и аппаратном окружении

1.3.2. Методы идентификации, основанные на данных о поведении пользователя на веб-портале, поиск шаблонов поведения пользователя

1.3.3. Методы лингвистической идентификации на основе стилистических характеристик текстов электронных сообщений

1.4. Основные особенности задачи по идентификации на основе стилистических характеристик текстов электронных сообщений

1.5. Постановка задачи по идентификации Интернет-пользователей по лингвистическим и стилистическим характеристикам электронных сообщений

46

Выводы по главе 1

Глава 2. Разработка методики идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений

2.1. Анализ структуры и характеристик электронных сообщений Интернет порталов

2.1.1. Корпус электронных сообщений

2.1.2. Анализ особенностей текстов электронной коммуникации и характеристик электронных сообщений на русском языке

2.2. Комплексная многоуровневая модель представления Интернет-пользователя (КММПП)

2.2.1. Модель представления электронных сообщений

2.2.2. Идентификационные признаки

2.2.3. Модель представления Интернет-пользователя

2.3. Метод формирования динамического стилистического профиля пользователя (ДСПП), обладающий наибольшей различающей способностью и позволяющий повысить точность идентификации

2.3.1. Формирование динамического стилистического профиля пользователя

2.3.2. Критерии отбора идентификационных признаков

2.3.3. Алгоритм отбора идентификационных признаков на основании расчета расстояния по значению признака до k-ближайших соседей

2.3.4. Обоснование использования метода отбора на основании расчета расстояния по значению признака до k-ближайших соседей для формирования ДСПП

2.4. Метод сравнения ДСПП с эталонными ДСПП потенциальных пользователей на основе метода Случайного Леса (Random Forest, RF),

отличающийся от известных предварительной дискретизацией идентификационных признаков из ДСПП

2.4.1. Оценка эффективности различных методов сравнения ДСПП

2.4.2. Использование метода случайный лес для идентификации пользователя на основе стилистических характеристик электронных текстов

2.4.3. Дискретизация непрерывных признаков

2.5. Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений

2.5.1. Подготовительный этап методики идентификации Интернет-пользователя: Сбор и формирование базы характеристик потенциальных пользователей, содержащей эталонные шаблоны пользователей

2.5.2. Основные этапы методики идентификации Интернет-пользователя

2.5.3. Оценка точности идентификации пользователя

2.5.4. Ограничения методики

Выводы по главе 2

Глава 3. Проведение экспериментов и оценка результатов

3.1. Входные данные экспериментов

3.2. Точность идентификации при использовании разработанной комплексной многоуровневой модели представления пользователя (КММПП)

3.3. Точность идентификации при использовании метода формирования динамических стилистических профилей пользователей (ДСПП)

3.4. Точность идентификации с использованием различных методов сравнения ДСПП при различном количестве текстов и различном уровне несбалансированности обучающей выборки

3.5. Повышение точности идентификации путем предварительной дискретизацией идентификационных признаков из ДСПП

3.6. Определение итоговой точности идентификации на основе предложенной

методики

3.7. Использование результатов исследования для повышения безопасности

информационных процессов в сети Интернет

Выводы по главе 3

Заключение

Список сокращений и условных обозначений

Список использованной литературы

Приложение 1. Перечень служебных слов, используемых в КММ1111

Приложение 2. Перечень наиболее информативных признаков для всех пользователей

Рекомендованный список диссертаций по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений»

Введение

Все современные исследователи подтверждают факт роста числа компьютерных преступлений или совершаемых с использованием компьютеров и Интернет, таких как преследование, домогательства, вымогательство, анонимные угрозы, корпоративный шпионаж, терроризм и экстремизм. Такие преступления совершаются легальными способами (через форумы, электронную почту, социальные сети, мессенджеры) и часто с использованием методов социальной инженерии. Рост их числа во многом обусловлен анонимной природой Интернета. Преступник может действовать скрытно, никаким образом, не обнаруживая свою реальную личность. Гибкость идентичности и диссоциативная анонимность могут стимулировать преступное поведение в киберпространстве.

Повсеместное распространение Интернета и средств массовой коммуникации(СМК): форумов, социальных сетей, сервисов обмена мгновенными сообщениями приводит к тому, что объем электронной текстовой информации растет в геометрической прогрессии [1], вместе с этим растет и зависимость общества от этой информации.

Интернет является уникальной системой с точки зрения возможности анонимизации источника информации - пользователя, размещающего электронное сообщение в открытый доступ. Под Интернет-пользователем понимается конкретное физическое лицо, которое своими действиями с ресурсами портала обнаруживает некоторые признаки (характеристики пользователя). Электронное сообщение - информация, переданная или полученная пользователем информационно-телекоммуникационной сети [2].

Одной из базовых задач обеспечения информационной безопасности является идентификация и аутентификация субъектов информационных процессов, протекающих в такой среде как Интернет и реализуемых с помощью коммуникационных средств веб-ресурсов (веб-сайтов, социальных сетей,

форумов). Идентификация является основой систем разграничения доступа, и в том числе к Интернет-ресурсам или сервисам публикации электронных сообщений.

Злоумышленник может получить доступ к созданию и распространению информации (в форме электронных текстовых сообщений)

- анонимно, без прохождения процедуры идентификации и аутентификации;

- под вымышленными именами, путем создания неограниченного числа идентификаторов для распространения информации;

- от имени легального пользователя путем реализации НСД к данным учетной записи.

Данные действия могут производиться с различными целями, например, для реализации информационных «вбросов» (сознательная дезинформация), манипулирования мнением, распространения информации террористического и экстремистского характера.

Система разграничения доступа к сервисам публикации электронных сообщений, включающая дополнительную скрытую идентификацию, в общем случае может быть представлена следующим образом: пользователь проходит основную процедуру идентификации/аутентификации, предусмотренную на Интернет-ресурсе, далее до размещения сообщения в открытых источниках производится процедура скрытой идентификации и аутентификации, в случае если данные процедуры успешно пройдены, и пользователь раннее не был замечен в совершении противоправных действий, ему предоставляется доступ к размещению сообщения, иначе может быть сделана отметка о попытке нарушения прав доступа. Таким образом, скрытая идентификация является дополнительным средством защиты для обеспечения информационной безопасности информационных процессов, протекающих в Интернет.

На сегодняшний день существуют три основные группы методов идентификации пользователя в Интернет: по техническим характеристикам

рабочей станции пользователя, по «поведенческим характеристикам» пользователя на веб-портале, по лингвистическим или стилистическим характеристикам электронных сообщений, размещаемых пользователем.

Первая группа методов является хорошо проработанной и наиболее распространенной. Идентификация производится по характеристикам аппаратного и программного окружения рабочей станции пользователя, с которой осуществляется доступ к Интернет порталу. К достоинствам первой группы методов можно отнести достаточно высокую точность идентификации, однако она обладает одним существенным недостатком или ограничением: производится идентификация рабочей станции, с которой осуществляется доступ, а не конкретного пользователя этот доступ осуществляющего.

Одним из наиболее перспективных направлений развития технологий идентификации является биометрическая идентификация. К нему относятся методы идентификации по «поведенческим характеристикам» пользователя на веб-портале, достаточно распространённые на сегодняшний день. Данные методы основываются на анализе «клавиатурного подчерка» или поведения пользователя на веб-портале. Эта группа включает в себя динамические методы идентификации, где в качестве идентификатора используются действия, производимые пользователем на веб-странице, либо динамика набора сообщений на клавиатуре. Применение данного подхода позволяет произвести идентификации пользователя, а не его рабочей станции. Однако эти методы обладают несколькими недостатками и ограничениями: поведенческие характеристики пользователя на веб-портале обладает достаточно низкой различающей способностью, при идентификации по клавиатурному подчерку сбор характеристик может производиться на стороне пользователя, что определяет трудности реализации.

В настоящей работе речь идет о одной из разновидностей биометрической идентифкации - лингвистической идентификации Интернет-пользователей

(идентификация по характерным свойствам и особенностям стиля письменной речи, т.е. по лингвистическим и стилистическим характеристикам электронных сообщений). Каждый человек имеет свой стиль письма, который составляет своеобразный уникальный «отпечаток» - набор характеристик, позволяющих его идентифицировать.

Предыдущие исследования по лингвистической идентификации относятся к двум группам: это методы идентификации автора литературных произведений и методы идентификации пользователей по коротким электронным сообщениям на иностранных языках (работы Mendenhall Т.С., Stamatatos Е., Diederich J.J., V. Keselj, P. Juola, F. Peng, O. de Vel, J. Diederich, M. Koppel, J. Schier, S. Argamon).

Существует ряд ограничений, которые не позволяют применить данные методы для идентификации по коротким электронным сообщениям на русском языке. При информационном обмене в Интернет в основном используются короткие сообщения. Слишком короткая длина делает невозможным применение к ним методик идентификации автора, разработанных для литературных текстов и дающих на них стабильные положительные результаты. Большинство работ зарубежных авторов исследуют проблему идентификации пользователя по сообщениям на иностранных языках, в них не учитываются особенности кириллических текстов. Что делает затруднительным их применение для идентификации пользователя русскоязычного Интернета.

Существенный вклад в проблематику данной области внесли работы Морозова H.A., Маркова A.A., Фоменко В.П. и Фоменко Т.Г., Хетсо Г., Хмелева Д.В., Романова A.C., Лебедева И.С. Однако представленные в них методы разработаны для сообщений более 20000 символов, что существенно превышает среднюю длину сообщений в Интернете. Также в них не учитывается неравномерное распределение количества сообщений по пользователям. Однако, недостаточное количество текстов обучающей выборки одного пользователя по

сравнению с другими, не должно снижать вероятность того, что данный пользователь будет верно идентифицирован.

Таким образом, существующие методы идентификации Интернет-пользователей при информационном обмене обладают рядом ограничений и достаточно низкой точностью. Учитывая широкое распространение средств массовой коммуникации и увеличение количества площадок информационного обмена, необходимо существенное повышение качества идентификации. Современное состояние науки и техники позволяет повысить точность идентификации за счет использования лингвистических и стилистических характеристик электронных сообщений. Указанные противоречия обуславливает актуальность данного исследования.

Целью работы является повышение точности идентификации Интернет-пользователей, субъектов информационных процессов, размещающих короткие электронные сообщения на русском языке, за счет использования лингвистических и стилистических характеристик электронных сообщений.

Научная задача состоит в разработке и обосновании научно-методического аппарата по идентификации Интернет-пользователя, размещающего короткие электронные сообщения на русском языке, обеспечивающего заданную точность идентификации при условии ограниченной длины сообщений, их малого количества и несбалансированности обучающей выборки.

Для достижения указанной цели работы были решены следующие частные задачи:

1. Исследование и анализ существующих методов идентификации Интернет-пользователей при информационном обмене, используемых отечественными и зарубежными исследователями.

2. Разработка модели представления пользователя, включающей лингвистические и стилистические характеристики электронных сообщений.

3. Разработка метода сравнения модели представления пользователя с эталонами, обеспечивающего более высокую точность идентификации.

4. Разработка методики идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений, позволяющая обеспечить более высокую точность идентификации для сообщений на русском языке длиной до 5000 символов.

5. Проведение вычислительного эксперимента и обоснование применимости разработанной модели представления пользователя, методов и методики.

В соответствии с заявленными целями и задачами работы объектом исследования являются технологии идентификации и аутентификации пользователей и субъектов информационных процессов, а предметом исследования - методы идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик электронных сообщений.

На защиту выносятся следующие основные результаты:

1. Комплексная многоуровневая модель представления пользователя (КММПП) и метод формирования динамического стилистического профиля пользователя(ДСПП), отличающиеся от известных использованием ряда уникальных характеристик электронных текстовых сообщений и динамическим вычислением и отбором наиболее информативных признаков из КММПП для каждого набора потенциальных пользователей.

2. Метод сравнения ДСПП с эталонными ДСПП потенциальных пользователей на основе метода Случайного Леса (Random Forest, RF), отличающийся от известных предварительной дискретизацией идентификационных признаков из ДСПП и позволяющий обеспечить более высокую точность

идентификации при меньшей длине текстов, в условиях их малого количества и несбалансированности обучающей выборки.

3. Методика идентификации Интернет-пользователя по разработанной КММПП, включающая разработанные методы формирования и сравнения ДСПП, позволяющая обеспечить более высокую точность идентификации пользователей по характеристикам электронных текстовых сообщений на русском языке длиной менее 5000 символов.

Научную новизну диссертации составляют:

1. Комплексная многоуровневая модель представления пользователя в виде набора числовых признаков, отличающаяся от известных использованием уникальной комбинации стилистических, структурных, лексических характеристик и мета-характеристик сообщений, ряд из которых для задачи идентификации Интернет-пользователя не применялся

2. Метод формирования динамического стилистического профиля пользователя, обладающего наибольшей различающей способностью на данной группе пользователей, отличающиеся от известных динамическим вычислением и отбором наиболее информативных признаков из КММПП для каждого набора потенциальных пользователей на основе вычисления расстояния по значению признака до ^-ближайших соседей. Подобный подход ранее не применялся при решении задачи идентификации пользователей.

3. Метод идентификации пользователя, в отличие от известных основанный на применении метода ЯР и включающий предварительную дискретизацию идентификационных признаков из динамического профиля пользователя, обладающий более высокими показателями точности идентификации.

4. Разработанная новая методика идентификации пользователя, основанная на стилистических или лингвистических характеристиках коротких электронных сообщений на русском языке, в которой впервые для целей

идентификации пользователя применяется ансамбль случайных деревьев решений, а также используется оригинальный метод формирования динамического идентификационного набора признаков пользователя. Обоснованность и достоверность полученных результатов достигается использованием апробированного математического аппарата и подтверждается проведением сравнительного анализа с существующими методами; серией практических экспериментов по идентификации Интернет-пользователя, размещающего электронные сообщения; согласованностью результатов, полученных при теоретическом исследовании с результатами проведенных экспериментов, а также непротиворечивостью достигнутых результатов и результатов работ других авторов; практической апробацией в деятельности научно-производственных организаций и одобрением на научно-технических конференциях.

Практическая значимость работы состоит в следующих аспектах: 1. Методика идентификации пользователя позволяет осуществлять идентификацию и аутентификацию Интернет-пользователей, может применяться как часть системы разграничения доступа к сервисам публикации электронных сообщений. Также разработанные методы и модель могут применяться в различных прикладных областях, в том числе для выявления факта нарушения целостности электронного сообщения (подмены авторства) путем подтверждения или опровержения подлинности авторства, в целях противодействия терроризму (установление того, что некоторое сообщение или заявление принадлежит некоторому террористу или экстремисту), в уголовном праве (для определения автора анонимного сообщения, содержащего угрозу), в гражданском праве (для разрешения споров об авторских правах), в компьютерной криминалистике (для определения автора вредоносного кода), либо в общем для идентификации злоумышленника, оправляющего электронные сообщения.

2. На основе предложенной методики разработан программный комплекс «Система идентификации пользователя-автора анонимных сообщений» позволяющий производить идентификацию пользователя, являющегося автором электронного сообщения. Программный комплекс предназначен для решения следующих задач: сбор и сохранение сообщений пользователей в базе данных (БД), анализ сообщений пользователей с целью формирования КММ1111 и сохранение их в БД эталонных КММПП, идентификация пользователя по поступившему сообщению.

3. Предложенная методика позволяет производить идентификацию Интернет-пользователя с средней точностью 79,7% по электронным текстовым сообщениям длиной до 5000 символов, что примерно на 32,7% выше, чем существующие статистические методы.

4. Предложенная методика, программный комплекс и база данных могут применяться для решения задачи идентификации пользователей в сети Интернет в таких областях как: обеспечение ИБ, аутентичности и целостности информации, противодействие терроризму в Интернете, компьютерная криминалистика.

Методы исследования. Для решения задач, сформулированных в работе, использовалась теория информационной безопасности и теория информации, методы математической статистики, искусственного интеллекта, вычислительного эксперимента.

При решении частных задач использовались теоретические положения теории вероятности, математической статистики, теории ИБ и методов защиты информации.

Реализация результатов. Результаты диссертационной работы частично реализованы в рамках НИР научно-исследовательской работы «Идентификация автора анонимных сообщений Интернет порталов на русском языке», реализуемой в рамках программы «Инфотекс Академия 2014» (договор № 2-НИ от «01» мая 2014

г.). Полученные методы также частично реализованы в рамках НИР, выполняемых НИУ ИТМО по заказу Министерства образования и науки. Апробация работы.

Основные результаты работы представлялись на следующих конференциях:

1. 18thFRUCT Conference. Санкт-Петербург.

2. First Information Security and Protection of Information Technologies (ISPIT) conference. Санкт-Петербург.

3. VIII Всероссийская межвузовская конференция молодых ученых. Санкт-Петербург.

4. Межвузовская научно-практическая конференция "Актуальные проблемы организации и технологии защиты информации".

5. Межвузовская научно-практическая конференция "Актуальные проблемы инфосферы. Инфокоммуникации. Геоинформационные технологии. Информационная безопасность".

6. III Всероссийский конгресс молодых ученых. II межвузовская конференция "Актуальные проблемы инфосферы. Интеллектуальная собственность. "

7. IV Всероссийский конгресс молодых ученых.

8. XLII научная и учебно-методическая конференция НИУ ИТМО. Публикации.

По результатам диссертационного исследования автором опубликовано 9 работ, из них статей в журналах, рекомендованных ВАК РФ - 5, Scopus - 1.

Получены свидетельства о регистрации программ для ЭВМ (средства лингвистического анализа) - 4. Личный вклад автора.

Результаты диссертационной работы получены автором самостоятельно. Автором проведен анализ существующих методов идентификации Интернет-пользователей, размещающих электронные сообщения. Проанализированы условия и ограничения применения каждого из методов. Проведен анализ

структуры и характеристик электронных сообщений, рассмотрена возможность их применения для решения задачи идентификации пользователей.

Структура и объем работы. Диссертационная работа содержит введение, 3 раздела, заключение, список литературы, приложения. Объем работы составляет 153 страницы. Работа включает 35 рисунков, 17 таблиц.

СОДЕРЖАНИЕ

Во введении обоснована актуальность темы диссертационной работы; определены цель, задача и вопросы исследования; раскрыты принципы используемых подходов и методики; показана научная новизна и практическая ценность полученных результатов, сформулированы положения, выносимые на защиту; приведены сведения об апробации результатов исследования.

В первой главе рассмотрены современные методы идентификация Интернет-пользователей, размещающих электронные сообщения, применяющиеся отечественными и зарубежными исследователями, проведен их анализ, выявлены достоинства и недостатки данных методов.

Описана модель угроз безопасности информационных процессов при информационном обмене электронными сообщениями с использованием Интернет-ресурсов.

Во второй главе приведено описание разработанной комплексной модели представления пользователя(КММПП) и методов формирования динамических стилистических профилей пользователей(ДСПП), сравнения указанных профилей с эталонами, а также разработанной методики идентификации Интернет-пользователя по лингвистическим и стилистическим характеристикам электронных сообщений.

Сделаны вывод о необходимости проведения экспериментов для определения точности идентификации с помощью предложенной методики, КММПП и разработанных методов.

В третьей главе для проверки точности разработанной методики была проведена серия экспериментов, целью которых является определение точности идентификации Интернет-пользователя по характеристикам электронных сообщений с использованием разработанной методики в условиях ограниченной длины текстов и несбалансированности обучающей выборки, а также проведение сравнения с результатами, полученными другими исследователями. Сделаны выводы, что в условиях ограниченной длины текстов, их малого количества и неравномерного распределения по пользователям разработанная методика обеспечивает боле высокую точность идентификации.

В качестве практической реализации приведена возможность использования результатов исследования для повышения безопасности информационных процессов в сети Интернет. В основном, разрабатываемые методы идентификации по стилистическим или лингвистическим признакам могут быть применимы в качестве части системы разграничения доступа(СРД), где объектом доступа является сервис размещения электронного сообщения на некотором веб-портале, находящийся в открытом доступе в Интернет.

В заключении диссертации изложены основные выводы, обобщения и предложения, вытекающие из логики и результатов исследования.

Глава 1. Анализ состояния проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

1.1. Современное состояние проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

Идентификация представляет собой действия по присвоению субъекту и объекту доступа идентификатора и (или) действия по сравнению предъявляемого идентификатора с перечнем присвоенных идентификаторов [3]. Далее под идентификацией Интернет-пользователя понимается процесс распознавания пользователя при информационном обмене в сети Интернет, реализуемом через короткие электронные сообщения. Распознавание пользователя производится на основании некоторых признаков (характеристик), формирующих уникальный идентификатор, путем сравнительного их исследования с целью решения вопроса о том, является ли данный объект искомым.

Аутентификация пользователя - проверка принадлежности субъекту доступа предъявленного им идентификатора; подтверждение подлинности [3].

Интенсивное развитие и распространение средств инфокоммуникации привело к глобализации всех процессов развития общества, информационных процессов, а также полностью ликвидировало границы для информационного обмена. Повсеместное распространение Интернета и средств массовой коммуникации (СМК): блогов, форумов, социальных сетей, сервисов обмена мгновенными сообщениями, приводит к тому, что объем текстовой информации растет в геометрической прогрессии, вместе с этим возрастает и зависимость общества от этой информации.

Информация существует в двух формах - в форме сообщения и в форме сведений. Сведения - это такой вид информации, в которой действия объектов реального мира посредством психической деятельности человека отражается на конкретном человеке. Сообщения же представляют собой такую форму существования информации, в которой сведения передаются от одного человека к

другому и представляют собой упорядоченную совокупность знаков различной природы. Распространение СМК приводит к тому, что электронное сообщение может быть отправлено без подтверждения подлинности отправители и без проверки сведений или фактов, содержащихся в сообщении, такое сообщение достигает гораздо большего числа адресатов, и как следствие, оказывает влияние на гораздо более широкую аудиторию.

Информация может быть произведена пользователем и может быть распространена третьими лицами. Далее под распространением понимается опубликование электронного сообщения в открытом доступе на Интернет-ресурсах, а также изложение сведений в форме электронных сообщений нескольким или хотя бы одному лицу.

Существуют две интересные для данного исследования особенности распространения информации в сети Интернет:

1. Крайне высокая скорость распространения;

2. Возможность анонимизации источника информации [4].

Задача идентификации Интернет-пользователя при информационном обмене через электронные текстовые сообщения становится все более актуальной научной задачей, это обусловлено следующими факторами. Интернет является уникальной системой с точки зрения возможности анонимизации источника информации -пользователя. Возможность сохранить анонимность во многом определяет психологические особенности размещаемых пользователями сообщений. Именно эта черта Интернета позволяет производить публикации сообщений под вымышленным именем, от чужого имени (например, от имени какой-либо авторитетной личности) или просто анонимно.

Некоторый субъект может получать доступ к созданию и распространению информации (в форме электронных текстовых сообщений) анонимно, т.е. вовсе без прохождения процедуры идентификации и аутентификации. Также пользователь имеет возможность создания неограниченного числа идентификаторов для

распространения информации под вымышленными именами, например, для реализации информационных «вбросов» (сознательная дезинформация), манипулирования мнением и управления репутацией. Достаточно типичной и опасной является ситуация, когда злоумышленник получает доступ к данным учетной записи легального пользователя и имеет возможность создания или распространения какой-либо «нежелательной» информации от его имени. Необходимость идентификации пользователей также возникает в случае, когда преступник с помощью Интернет переписки готовит почву для совершения преступления в реальном мире.

Похожие диссертационные работы по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Список литературы диссертационного исследования кандидат наук Воробьева, Алиса Андреевна, 2017 год

Список использованной литературы

1. Gantz J., Reinsei D. Extracting value from chaos //IDC iview. - 2011. - T. 1142.

-№. 2011.-C. 1-12.

2. Федеральный закон от 27 июля 2006 г. N 149-ФЗ "Об информации, информационных технологиях и о защите информации" // Собрание законодательства Российской Федерации. - 31 июля 2006г. - №31.

3. ГОСТ Р 50922-2006 Защита информации. Основные термины и определения. -М.: Стандартинформ,- 2006,- 12 с.

4. Гладышев-Лядов В. Социальные сети как инструмент для пропаганды экстремизма// Обзор.НЦПТИ,- 2013,- № 2,- С. 28-31.

5. Воробьева A.A., Гвоздев A.B. Идентификация анонимных пользователей Интернет порталов на основании технических и лингвистических характеристик пользователя // Научно-технический вестник механики и оптики,- 2014,- № 1(89).- С. 139-144.

6. Романов A.C. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дисс. ... канд. тех. наук : 05.13.18 / A.C. Романов. - Томск, 2010,- 26 с.

7. Бессонова Е.Е., Зикратов И.А., Росков В.Ю. Анализ способов идентификации пользователей в сети Интернет // Научно-технический вестник информационных технологий, механики и оптики,- 2012,- Т. 6. № 82,- С. 128-130.

8. Федеральный закон от 04.07.1996 N 85-ФЗ (ред. от 29.06.2004) "Об участии в международном информационном обмене" URL: www.consultant.ru/ document/cons_doc_LAW_10929/ (дата обращения: 22.07.2017).

9. Фионова JI.P. Терминологический анализ понятий «электронный документ» и «электронное сообщение» // Делопроизводство,- 2012,- № 3,- С. 18-22.

10. Доктрина информационной безопасности Российской Федерации" (утв. Президентом РФ 09.09.2000 N Пр-1895) URL: http://www.consultant.ru/ document/cons_doc_LAW_28679/ (дата обращения: 22.07.2017).

11. Бочарников И.В. Информационное противодействие терроризму в современных условиях // Проблемы безопасности,- 2011,- № 2,- С. 101-112.

12. Бессонова Е.Е. Метод идентификации пользователей в сети интернет с использованием компонентного профиля: автореф. дисс. ...канд. тех. наук : 05.13.19/Е.Е. Бессонова. - СПб., 2013,-25 с.

13. Eckersley P. How unique is your web browser? //International Symposium on Privacy Enhancing Technologies Symposium. - Springer Berlin Heidelberg, 2010. -C. 1-18.

14. Grcar M. User profiling: Web usage mining //Proc. 7th International Multiconference Information Society IS. - 2004. - C. 79-82.

15. Ivancsy R. J.S. Analysis of Web User Identification Methods // International Journal of Computer Science.- 2007,- Vol. 2, №. 3,- P. 212.

16. Juola P. Authorship attribution // Foundations and Trends in Information Retrieval." 2006,- Vol. 1(3).- P. 233-334.

17. Yule G.U. On Sentence-length as a Statistical Characteristic of Style in Prose, with APlication to Two Cases of Disputed Authorship // Biometrika.- 1939,- Vol. 30 (3-4).- P. 363-390.

18. Williams C.B. A №te on the Statistical Analysis of Sentence-length as a Criterion of Literary Style // Biometrika.- 1940,- Vol. 31 (3-4).- 356-361.

19. Ellegard A. A statistical method for determining authorship: the Junius letters, 1769-1772,- Goteborg. 1962,- 115 p.

20. Mendenhall T.C. The Characteristic Curves of Composition // "Science" IX .-1887,- №. March.- P. 237-249.

21. Mendenhall Т.С. A mechanical solution of a literary problem // Popular Science Monthly.- 1901,-Vol. 60.

22. Yule G.U. The Statistical Study of Literary Vocabulary // The Modern Language Review.- 1944,- Vol. 39, №. 3.

23. Baayen H., van Halterena H., Tweedie F. Outside the cave of shadows: using syntactic annotation to enhance authorship attribution // Literary and Linguistic Computing.- 1996,- Vol. 11. №. 3,- P. 121-132.

24. Хьетсо Г., Густавссон С., Бекман Б., Гил С. Кто написал "Тихий Дон",- М.: Книга, 1989.

25. Морозов Н.А. Лингвистические спектры : Средство для отличения плагиатов от истинных произведений того или другого известного автора: Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук,- 1915,- Т.- 20(7).- С. 93-127.

26. Mosteller F., Wallace D. Inference and disputed authorship: The Federalist.- MA: Addison-Westley, 1964,- 287 p.

27. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика,- Киев: Наукова думка, 1981,- 192 с.

28. Мартыненко Г.Я. Основы стилеметрии,- Ленинград: Изд-во Ленингр. ун-та, 1988,- 176 с.

29. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Т. 2. // Новая хронология Греции: Античность в средневековье,- М.: Изд-во МГУ, 1996,- С. 768-820.

30. Abbassi A., Chen A. APlying Authorship Analysis to Extremist-Group Web Forum Messages // IEEE Intelligent Systems.- 2005,- Vol.- 20, №. 5,- P. 67-75.

31. Rosenblum N., Zhu X., Miller B.P. Who Wrote This Code? Identifying the Authors of Program Binaries // Computer Security - ESORICS 2011: Lecture №tes in Computer Science.- 2011,- Vol. 6879,- P. 172-189.

32. Iqbal F., Binsalleeh H., Fung B.C.M., Debbabi M. A unified data mining solution for authorship analysis in anonymous textual communications // Information Sciences.- 2013,- Vol. 231,- P. 98-112.

33. van der Knaap L., Grootjen F.A. Author identification in chatlogs using formal concept analysis // 19th Belgian-Dutch Conference on Artificial Intelligence (BNAIC2007).- 2007,- P. 181-188.

34. Stamatatos E. et al. Overview of the Author Identification Task at PAN 2014 //CLEF (Working Notes). - 2014. - C. 877-897.

35. Frommholz I.E.A. On Textual Analysis and Machine Learning for Cyberstalking Detection // Datenbank-Spektrum.- 2016,- Vol. 16, №. 2,- P. 127-135.

36. Potthast M., Braun S., Buz T., Duffhauss F., Friedrich F., Gülzow J.M., Köhler J., Lötzsch W., Müller F., Müller M.E., et al. Who Wrote the Web? Revisiting Influential Author Identification Research APlicable to Information Retrieval // Advances in Information Retrieval. 38th European Conference on IR Resarch (ECIR 16). Lecture №tes in Computer Science.- 2016,- Vol. 9626,- P. 393-407.

37. Eder M., Kestemont M., J. R. Stylometry with R: a suite of tools // Digital Humanities 2013: Conference Abstracts.- 2013,- P. 487-489.

38. Luyckx K. Scalability issues in authorship attribution. - ASP/VUBPRESS/UPA, 2011.

39. Stamatatos E. A survey of modern authorship attribution methods // Journal of the American Society for Information Science and Technology.- 2009,- Vol. 60, №. 3,-P. 538-556.

40. Yang M., Chow K.P. Authorship attribution for forensic investigation with thousands of authors // The 29th IFIP TC 11 International Information Security and Privacy Conference (SEC 2014).- 2014,- Vol. 428,- P. 339-350.

41. Mikros G.K., Perifanos K. Authorship attribution in Greek tweets using authors multilevel n-gram profiles // AAAI Spring Symposium Series.- 2013.

42. Albadarneh J. et al.. Using big data analytics for authorship authentication of arabic tweets // 2015 IEEE/ACM 8th International Conference on Utility and Cloud Computing (UCC).- 2015,- P. 448-452.

43. Diederich J., Kindermann J., Leopold E., Paass G. Authorship Attribution with SuPort Vector Machines//APlied Intelligence.-2003,-Vol. 19, №. l.-P. 109-123.

44. de Vel O., Anderson A., Corney M., Mohay G. Mining e-mail content for author identification forensics // Newsletter ACM SIGMOD Record.- 2001. Vol. 30. №. 4,- P. 55-64.

45. Zheng R., Li J., Huang Z., Chen H. A Framework for Authorship Identification of Online Messages: Writing Style Features and Classification Techniques // Journal of the American Society for Information Science and Technology (JASIST).-2006,- Vol. 57, №. 3,- P. 378-393.

46. Houvardas J., Stamatatos E. N-gram feature selection for authorship identification // Lecture №tes in Computer Science. Artificial Intelligence: Methodology, Systems, and APlications.- 2006,- Vol. 4183,- P. 77-86.

47. Afroz S. Deception in Authorship Attribution: PhD thesis.- Drexel University, 2013.

48. Arun R., Suresh V., Veni Madhavan C.E. Stopword graphs and authorship attribution in text corpora // IEEE International Conference on Semantic Computing.-2009,-P. 192-196.

49. Lopez-Monroy A.P., Montes-y-Gomez M., Villasenor-Pineda L., Carrasco-Ochoa J.A., Martinez-Trinidad J.F. A new document author representation for authorship attribution // Lecture №tes in Computer Science. Pattern Recognition. - 2012,- Vol. 7329,- P. 283-292.

50. Khmelev D.V., Tweedie F.J. Using Markov chains for identification of writers.-2001,- Vol. 16, №. 4,- P. 299-307.

51. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ,- 2000,- Т. 9: Филология, № 02,- С. 115-126.

52. Sanderson С., Guenter S. Short text authorship attribution via sequence kernels, Markov chains and author unmasking: An investigation // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. - 2006,- P. 482-491.

53. Maitra P., Ghosh S., Das D. Authorship Verification - An Approach based on Random Forest // Notebook for PAN at CLEF 2015.-2015.

54. Pacheco M.L., Fernandes K., Porco A. Random Forest with Increased Generalization: A Universal Background Approach for Authorship Verification // Notebook for PAN at CLEF 2015,- 2015.

55. Maitra P., Ghosh S., Das D. Authorship verification: An approach based on random forest // CLEF 2015 Evaluation Labs.- 2015.

56. Koppel M., Schler J., Bonchek-Dokow E. Measuring differentiability: Unmasking pseudonymous authors // Journal of Machine Learning Research.-2007,- Vol. 8:1261-1276.

57. Koppel M., Schler J. Exploiting stylistic idiosyncrasies for authorship attribution // Proceedings of IJCAI'03 Workshop on Computational Approaches to Style Analysis and Synthesis.- 2003,- Vol. 69,- P. 72.

58. Peng F., Schuurmans D., Ke^selj V., Wang S. Language independent authorship attribution using character level language models // Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics.-2003,-Vol. l.-P. 267-274.

59. Almishari M., Kaafar D., Oguz E., Tsudik G. Stylometric linkability of tweets // Proceedings of the 13th Workshop on Privacy in the Electronic Society. - 2014,- P.-205-208.

60. Koppel M., Winter Y. Determining if two documents are written by the same author // Journal of the Association for Information Science and Technology. - 2014,- Vol. 65, №. l.-P. 178-187.

61. Haj Hassan F.I., Chaurasia M.A. N-Gram Based Text Author Verification // International Conference on Innovation and Information Management. Singapore.-2012,-Vol. 36,-P. 67-71.

62. Qian T., Liu B., Chen L., Peng Z. Tri-Training for Authorship Attribution with Limited Training Data // ACL.- 2014,- Vol. 2,- P. 345-351.

63. Sapkota U., Bethard S., Montes-y-Gómez M., Solorio T. №t All Character N-grams Are Created Equal: A Study in Authorship Attribution // HLT-NAACL.- 2015,- P. 93-102.

64. Abbasi A., Chen H. Writeprints: A stylometric aProach to identity-level identification and similarity detection in cyberspace // ACM Transactions on Information Systems.- 2008,- Vol. 26(2), №. 7.

65. Bartoli A., Dagri A., Lorenzo A.D., Medvet E., Tarlao F. An author verification aProach based on differential features // CLEF 2015 Evaluation Labs. - 2015.

66. McCombe N. Methods of author identification //BA (Mod) CSLL Final Year Project, TCD. - 2002.

67. Corney M., Anderson A., Mohay G., de Vel. O. Identifying the authors of suspect email [Электронный ресурс].- 2001-.- Режим доступа: http://eprints.qut.edu.au/ 8021/1/CompSecurityPaper.pdf, свободный.

68. Stamatatos Е., Fakotakis N., Kokkinakis G. Computer-based authorship attribution without lexical measures.- 2001-.- Режим доступа: http://www.icsd.aegean.gr/ lecturers/stamatatos/papers/CHUM2001 .pdf, свободный.

69. Stamatatos E. Authorship attribution based on feature set subspacing ensembles // International Journal on Artificial Intelligence Tools.- 2006,- Vol. 15, №. 5,- P. 823-838.

70. Stamatatos E. Author identification using imbalanced and limited training texts // 18th International Workshop on Database and Expert Systems APlications.- 2007,-P. 237-241.

71. Zheng R., Qin Y., Huang Z., Chen H. Authorship analysis in cybercrime investigation // Proceedings of the 1st NSF/NIJ conference on Intelligence and security informatics.- 2003,- P. 59-73.

72. Keselj V., Thomas C., Peng F., Cercone N. N-gram-based author profiles for authorship attribution // Pacific Association for Computational Linguistics, PACLING'03.- 2003,- P. 255-264.

73. Frantzeskou G., Stamatatos E., Gritzalis S. Identifying Authorship by Byte-Level N-Grams:The Source Code Author Profile (SCAP) Method // International Journal of Digital Evidence.- 2007,- Vol. 6, №. 1,- P. 1-18.

74. Stamatatos E., Kourtis I. Author Identification Using Semi-supervised Learning // Notebook for PAN at CLEF2011.-2011.

75. Luyckx K., Daelemans W. Personae: a Corpus for Author and Personality Prediction from Text //LREC. - 2008.

76. Layton R., Waiters P., Dazeley R. Authorship attribution for twitter in 140 characters or less // Second Cybercrime and Trustworthy Computing Workshop(IEEE).- 2010,- P. 1-8.

77. Forsyth R., Holmes D. Feature-finding for text classification.- 1996,- Vol. 11, №. 4,-P. 163-174.

78. Лебедев И.С., Сухопаров М.Е. Методика идентификации авторства текстов коротких сообщений пользователей порталов сети интернет на основе методов математической лингвистики //В мире научных открытий,- 2004,- Т. 6.1, №54,- С. 599-622.

79. Сухопаров М.Е. Методика идентификации пользователей порталов сети интернет на основе методов математической лингвистики: автореф. ... дисс. канд. тех. наук : 05.13.19 / М.Е. Сухопаров. - СПб., 2015. - 18 с.

80. Afroz, S. et al. DoPelganger finder: Taking stylometry to the underground // 2014 IEEE Symposium on Security and Privacy (SP).- 2014,- P. 212-226.

81. Koppel M., Schler J., Argamon S. Authorship attribution in the wild // Language Resources and Evaluation (special issue on Plagiarism and Authorship Analysis.-2011. Vol. 45(1).-P. 83-94.

82. Sidorov G., Velasquez F., Stamatatos E., Gelbukh A., Chanona-Hernandez L. Syntactic n-grams as machine learning features for natural language processing // Expert Systems with APlications. Methods and APlications of Artificial and Computational Intelligence.- 2014. Vol. 41(3).- P. 853-860.

83. Marton Y., Wu N., Hellerstein L. On Compression-based Text Classification // Lecture №tes in Computer Science. Advances in Information Retrieval.- 2005,-Vol. 3408,-P. 300-314.

84. Juola P. An Overview of the Traditional Authorship Attribution Subtask [Электронный ресурс] //CLEF (Online Working Notes/Labs/Workshop). - 2012.

.- Режим доступа: http://ims-sites.dei.unipd.it/documents/71612/155385/ CLEF2012wn-PAN-Juola2012.pdf, свободный.

85. Stamatatos E. Text Sampling and Re-sampling for Imbalanced Author Identification Cases // Proc. of the 17th European Conference on Artificial Intelligence (ECAI'06).- 2006.

86. Vorobeva A.A. Examining the Performance of Classification Algorithms for Imbalanced Data Sets in Web Author Identification // Proceedings of the 18th Conference of Open Innovations Association FRUCT.- 2016,- P. 385-390.

87. Галатенко В.А. Основы информационной безопасности: курс лекций: учебное пособие,- ИНТУИТ. РУ "Интернет-университет Информационных Технологий", 2006,- 208 с.

88. Bhargava М., Mehndiratta P., Asawa К. Stylometric analysis for authorship attribution on twitter // International Conference on Big Data Analytics.- 2013,- P. 37-47.

89. Silva R.S.E.A. 'Twazn me!;('automatic authorship analysis of micro-blogging messages // International Conference on APlication of Natural Language to Information Systems.- 2011,- P. 161-168.

90. Энциклопедия русского языка: Письменная речь [Электронный ресурс].-Режим доступа: http://russkiyyazik.ru/655/, свободный.

91. Кузнецов А.В. Письменная разговорная речь в онлайн-коммуникации // Молодой ученый,- 2011,- Т. 2. № 3,- С. 24-26.

92. Tweedie F.J., Baayen R.H. How variable may a constant be? Measures of lexical richness in perspective. // Computers and the Humanities.- 1998,- №. 32,- P. 323-352.

93. Сигачёв А. С. Модель текста в виде набора числовых признаков //Интеллектуальные технологии и системы: сборник статей аспирантов и студентов/Под ред. ЮН Филипповича. - 2006. - №. 7.

94. Википедия — свободная энциклопедия: Абзац [Электронный ресурс].-Режим доступа: https://ru.wikipedia.org/wiki/Абзац, свободный.

95. Kira К., Rendell L. The feature selection problem: Traditional methods and a new algorithm // Tenth National Conference on Artificial Intelligence.- 1992,- P. 129-134.

96. Шеннон К. Работы по теории информации и кибернетике,- М.: Иностранная литература, 1963. — 832 с.

97. Boser В.Е., Guyon I.M., Vapnik V.N. A training algorithm for optimal margin classifiers // Proceedings of the fifth annual workshop on Computational learning theory - COLT '92,- 1992,- P. 144-153.

98. Piatt J.C. Fast Training of SuPort Vector Machines using Sequential Minimal Optimization // Advances in Kernel Methods.- 1999,- P. 185-208.

99. Quinlan J.R. C4.5: programs for machine learning.- Elsevier, 2014.

100. Breiman L. Random Forests // Machine Learning.- 2001,- Vol. 45, №. 1,- P. 5-32.

101. Воробьева А.А. Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет // Информация и космос.-2013,-№ 1.-С. 42-46.

102. Robnik-Sikonja М. Improving random forests // ECML.- 2004,- Vol. 3201.- P. 359-370.

103. Xu B.E.A. Hybrid weighted random forests for classifying very high-dimensional data // International Journal of Data Warehousing and Mining.- 2012,- Vol. 8, №. 2,-p. 44-63.

104. Lustgarten J.L.E.A. Improving classification performance with discretization on biomedical datasets // AMIA.- 2008.

105. Fayyad U.M., Irani K.B. Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning // Proceedings of the International Joint Conference on Uncertainty in AI.- 1993,- P. 1022-1027.

106. Vorobeva A. A. Forensic linguistics: automatic web author identification // Научно-технический вестник информационных технологий, механики и оптики.-2016,- Т. 16, № 2(102).- С. 295-302.

107. Гвоздев А.В., Лебедев И.С. Модель анализа инфорационных воздействий в открытых информационных системах // Сборник докладов VII международной конференции "Современные проблемы прикладной информатики",- 2011,- С. 45-47.

108. Гвоздев А.В., Лебедев И.С., Зикратов И.А. Вероятностная модель оценки информационного воздействия // Научно-технический вестник информационных технологий, механики и оптики,- 2012,- № 2,- С. 99-103.

Приложение 1. Перечень служебных слов, используемых в КММ1111

а оба никуда восьмой говорил

е нам нас вверх говорит

и нем наш вам года

ж нами нет вами году

м ними нею важное где

О мимо неё важная да

на немного них важные ее

не одной мира важный за

ни одного наша вдали из

об менее наше везде ли

но однажды наши ведь же

он однако ничего вас им

мне меня начала ваш ДО

мои нему нередко ваша по

мож меньше несколько ваше ими

она ней обычно ваши под

они наверху опять впрочем иногда

оно него около весь довольно

мной ниже мы вдруг именно

много мало ну вы долго

многочисленное надо нх все позже

многочисленная один от второй более

многочисленные одиннадцать отовсюду всем должно

многочисленный одиннадцатый особенно всеми пожалуйста

мною назад нужно времени значит

мой наиболее очень время иметь

мог недавно отсюда всему больше

могут миллионов в всего пока

можно недалеко во всегда ему

может между вон всех имя

можхо низко вниз всею пор

мор меля внизу всю пора

моя нельзя вокруг вся потом

моё нибудь вот всё потому

мочь непрерывно восемнадцать всюду после

над наконец восемнадцатый г почему

нее никогда восемь год почти

затем другое т твоя тебя

зачем другой У твоё седьмой

лишь другие я раз спасибо

десять другая та уже слишком

десятый других те сам так

ею есть уж там такое

её пять со тем такой

их быть то чем такие

бы лучше том сама также

еще пятый снова сами такая

при к тому теми сих

был ком совсем само тех

про конечно того рано чаще

процентов кому тогда самом четвертый

против кого тоже самому через

просто когда собой самой часто

бывает которой тобой самого шестой

бывь которого собою семнадцать

если которая тобою семнадцатый

люди которые сначала самим

была который только самими

были которых уметь самих

было кем тот саму

будем каждое тою семь

будет каждая хорошо чему

будете каждые хотеть раньше

будешь каждый хочешь сейчас

прекрасно кажется хоть чего

буду как хотя сегодня

будь какой свое себе

будто какая свои тебе

будут кто твой сеаой

ещё кроме своей человек

пятнадцать куда своего разве

пятнадцатый кругом своих теперь

друго с свою себя

посреди давно этой двадцать

ей девятнадцать этого двадцатый

два девятнадцатый чтобы двух

две девять этот его

двенадцать девятый стал дел

двенадцатый даже туда или

действительно этому жизнь этими

алло этим далеко рядом

здесь тринадцатый

шестнадцать

шестнадцатый

шесть

четыре

четырнадцать

четырнадцатый

сколько

сказал

сказала

сказать

ту

ты

три

эта

эти

что

это

чтоб

этом

без

день

занят

занята

занято

заняты

близко

тринадцать

дальше этих

для третий

лет тут

зато эту

даром суть

первый чуть

перед тысяч

Приложение 2. Перечень наиболее информативных признаков для всех

пользователей

Номер Вес Наименование признака

1 0,08221 АгедиепсуОШесГУУогс^

3 0,05912 йэдиепсуОЙе^епсезЬо^

2 0,0585 риЬНоиг

4 0,04482 АгедиепсуОЙЬог^огс^

5 0,03122 АгедиепсуОЙе^епсезБЬо!!

6 0,02938 йэдиепсуОГ^ оТа§8

7 0,02663 АгедиепсуОЙе^епсезМеё

8 0,02226 Ргед01РипсШа^оп844

9 0,01897 йедиепсуОФипсШайош

10 0,01787 1ех1Ъеп

13 0,0156 не

12 0,01543 луогс^Соип!

11 0,01445 РгедОФипсШайопБ 59

15 0,0138 И

16 0,01307 РгедО!$рес838

17 0,01267 йэдиепсуОШррегз

20 0,01248 \уогс1АуЬеп

19 0,01237 ёауО^еек

14 0,01219 БейепсезСоип!

21 0,0121 Ргед01РипсШа^оп846

24 0,01208 я

22 0,01203 БгедО^ огёЬе^Ий

23 0,01164 &едиепсу011.ейег8

25 0,01094 Ргед01$рес841

26 0,0107 FreqOfPunctuationS34

29 0,01041 FreqOfW ordLength9

28 0,01041 в

31 0,01005 FreqOfW ordLength2

27 0,00976 frequencyOfSpecSymbolsAv

33 0,00947 все

30 0,00937 frequencyOfDigits

18 0,00937 FreqOfPunctuationS58

32 0,00932 TO

34 0,00929 FreqOfW ordLength8

35 0,00855 FreqOfW ordLength3

36 0,00782 всё

37 0,00778 что

38 0,00734 FreqOfWordLengthl2

40 0,00661 FreqOfSpecS47

39 0,00651 frequencyOfBrTags

41 0,00627 меня

46 0,00609 no

43 0,006 frequencyOfltalicTags

45 0,00574 a

44 0,0055 frequencyOfTextDecor

42 0,00536 FreqOfPunctuationS63

49 0,00529 FreqOfSpecSóO

47 0,00524 FreqOfSpecS62

48 0,00524 frequencyOfLonhWords

50 0,00504 для

53 0,00497 чтобы

54 0,00493 на

51 0,0049 frequencyOfWSpaces

52 0,00455 FreqOfW ordLengthl 0

55 0,00444 мне

56 0,00435 sentenceAvLengthSymbols

57 0,00415 день

59 0,00407 за

62 0,00387 так

60 0,00381 есть

77 0,00379 несколько

64 0,00377 FreqOfSpecS126

58 0,00374 sentenceAvLength Words

63 0,00365 FreqOfSpecS61

70 0,00363 как

68 0,00359 было

74 0,00351 до

72 0,00349 У

65 0,00346 FreqOfW ordLengthl 3

69 0,00346 они

71 0,00344 frequencyOfLinks

67 0,00342 уже

61 0,00329 года

78 0,00321 но

82 0,00317 ниже

66 0,00313 о

83 0,00303 frequencyOfAbbreviations

96 0,00303 можно

75 0,00302 вам

85 0,00298 мы

91 0,00298 это

81 0,00297 frequencyOfControls

94 0,00287 был

76 0,0028 к

80 0,00279 FreqOfSpecS39

79 0,00276 этом

73 0,00272 от

97 0,00269 или

90 0,00264 очень

95 0,00261 еще

84 0,0026 он

89 0,00257 там

86 0,00255 этой

93 0,00253 себя

88 0,00247 ещё

99 0,00238 его

87 0,00234 если

100 0,00228 этого

92 0,00211 мои

98 0,00194 frequencyOfV eryLong Words

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.