Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Суркова, Анна Сергеевна
- Специальность ВАК РФ05.13.01
- Количество страниц 343
Оглавление диссертации кандидат наук Суркова, Анна Сергеевна
Оглавление
ВВЕДЕНИЕ
1. ПРОБЛЕМА СТРУКТУРНОГО АНАЛИЗА, МОДЕЛИРОВАНИЯ И ОПТИМИЗАЦИИ АЛГОРИТМОВ СИНТЕЗА ТЕКСТОВЫХ СТРУКТУР
1.1. Роль и место рассматриваемой проблемы и ее значение в сфере информационно-телекоммуникационных систем
1.1.1. Задачи анализа и обработки текстовых данных
1.1.2 Системы анализа и обработки текстовых данных
1.2. Сравнительный анализ известных работ в области анализа, моделирования и синтеза текстовых структур
1.2.1. Интеллектуальный анализ текстов (Text Mining)
1.2.2. Компьютерная лингвистика. Статистические методы обработки текстов
1.2.3. Компьютерная лингвистика. Семантический анализ текстов. Онтологии
1.2.4. Информационный поиск
1.2.5. Анализ и обработка текстовых данных в интеллектуальных системах
1.2.6. Специальные прикладные аспекты анализа и обработки текстов
1.3. Обоснование нового обобщенного подхода к решению проблемы структурного анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур
1.3.1. Задачи классификации
1.3.2. Задачи кластеризации
1.3.3. Задачи идентификации
1.4. Выводы к главе 1
2. ТЕКСТОВЫЕ СТРУКТУРЫ И ИХ АНАЛИЗ
2.1. Текст как система
2.1.1. Основные понятия и определения
2.1.2. Структурно-иерархические модели текста
2.1.3. Вероятностные модели текстов
2.1.4. Модели текстов на основе статистической лексикографии
2.2.1. Потоковое представление текста
2.2.2. Информационные модели текста
2.3. Текст как многомерный объект
2.3.1. Многомерная модель текстов
2.3.2. Структурные инварианты текстов
2.4. Выводы к главе 2
3. ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ МОДЕЛИРОВАНИЯ ТЕКСТОВЫХ СТРУКТУР
3.1. Концепция скрытых параметров
3.1.1. Предпосылки к концепции скрытых параметров
3.1.2. Формирование концепции скрытых параметров
3.2. Принципы моделирования и анализа текстовых структур
3.2.1. Принцип снижения размерности
3.2.2. Принцип нечеткости
3.2.3. Принцип обучающихся систем
3.2.4. Обобщающий принцип, основанный на концепции скрытых параметров
3.3. Выводы к главе 3
4. ОПТИМИЗАЦИЯ АЛГОРИТМОВ СИНТЕЗА ТЕКСТОВЫХ СТРУКТУР
4.1. Параметрический синтез текстовых структур
4.1.1. Классификация текстовых структур как аспект параметрического синтеза
4.1.2. Алгоритмы классификации текстовых данных
4.2. Непараметрический синтез текстовых структур
4.2.1. Кластеризация текстовых структур как аспект непараметрического синтеза
4.2.2. Колмогоровская сложность. Количественная мера подобия текстов
4.2.3. Алгоритмы кластеризации текстовых данных
4.3. Информационный синтез текстовых структур
4.3.1. Количественная мера взаимной информации
4.3.2. Алгоритмы идентификации текстовых данных
4.4.1. Особенности анализа и обработки текстов разной природы
4.4.2. Процедура выбора моделей и алгоритмов синтеза текстовых структур
5. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ РАБОТЫ
5.1. Практическая реализация общетеоретических положений
5.1.1. «Кластеризация слабоструктурированных данных»
5.1.2. Методика «Кластеризация потоковых данных»
5.1.3. Методика «Анализ текстов исходных кодов программ»
5.1.4. Описание структуры библиотеки программ «Моделирование текстовых структур» и принципов работы с ней
5.2 Практическая реализация результатов работы
5.2.1. Идентификация текстов исходных кодов программ
5.2.2. Иерархическая кластеризация текстовых данных
5.2.3. Классификация текстовых данных
5.3. Перспективы развития теоретических и практических результатов работы
5.4. Выводы к главе 5
6. ЗАКЛЮЧЕНИЕ
7. СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
8. СПИСОК ЛИТЕРАТУРЫ
9. ПРИЛОЖЕНИЯ
Приложение 1. Необходимые теоретические сведения
П.1.1. Представление объектов в многомерном пространстве признаков
П.1.2. Оценка качества классификации и кластеризации
П.1.3. Элементы нечеткой логики
П.1.4. Основные модели и методы обучающихся систем
П.1.5. Основные понятия и определения нейросетевых технологий
П.1.6. Описание алгоритмов сжатия
П.1.7. Определение количества информации
Приложение 2. Копии свидетельств об официальной регистрации программ для
ЭВМ
Приложение 3. Копии документов о внедрении результатов диссертационной работы
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование паттернов в текстах на основе динамических моделей2018 год, кандидат наук Кижаева Наталья Александровна
Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора2013 год, кандидат наук Крайнов, Александр Юрьевич
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Частотный анализ текстовой информации на параллельных вычислителях2019 год, кандидат наук Ба Хла Тхан
Исследование и разработка моделей и методов нечеткой кластеризации коротких текстов2021 год, кандидат наук Дударин Павел Владимирович
Введение диссертации (часть автореферата) на тему «Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур»
ВВЕДЕНИЕ
Актуальность.
Важность, значимость и необходимость анализа текстов возрастает с увеличением количества информации, представленной в текстовом виде, причем, кроме традиционных текстов (научных, литературных, публицистических), растет число специальных текстов, обладающих своей спецификой, например, тексты исходных кодов программ, текстовые сообщения в Интернете и т.п.
Существующие системы анализа и моделирования текстов, к которым относятся информационно-поисковые и информационно-аналитические системы различной направленности, включают рассмотрение и решение таких задач как классификация документов по тематическим категориям, идентификация авторства, выявление некорректных заимствований, плагиата, моделирование представлений знаний о предметной области и содержания текстов, классификация и фильтрация документов по заданным запросам и многие другие. В системах обеспечения информационной безопасности (кибербезопасности) существуют разделы, связанные с обработкой текстов, занимающиеся задачами выявления потенциально опасных или нежелательных сообщений в интернет-текстах, идентификации авторства вредоносного программного обеспечения и т.п. Разработанные для текстов модели и методы могут найти применение в других областях, таких как системы автоматизированного проектирования (САПР), при анализе данных, обладающих свойствами последовательной информации.
Необходимо отметить, что большинство известных методов предназначено для решения задач в узкоспециализированных областях и не могут быть использовано для решения аналогичных задач для других типов текстов. При этом большинство существующих систем обработки текстов на естественных языках предназначено для работы с англоязычными текстами (и иногда арабскими) и не учитывают специфику русского языка.
Одним из перспективных подходов совершенствования методов решения основных задач анализа текстовых данных требует рассмотрения общих
вопросов, связанных с подходами к моделированию и обработке текстов, с единых позиций. Любой текст является сложным системным образованием, однако при решении конкретных задач требуется выявлять только значимые для решения данной задачи признаки: рассматривать текстовые структуры как совокупность устойчивых связей признаков описания текстов различных типов. Это определяет постановку и решение актуальной научной проблемы, связанной с развитием и совершенствованием одного из приоритетных направлений развития науки, технологий и техники в Российской Федерации -информационно-телекоммуникационных систем, в рамках которого - создание с единых позиций моделей, методов и алгоритмов синтеза текстовых структур, повышающих эффективность решения конкретных прикладных задач.
Таким образом, актуальность темы определяется необходимостью комплексного исследования, связанного с недостаточной разработанностью моделей текстовых структур и методов их синтеза для обработки текстов различной природы, в частности для русскоязычных текстов.
Степень теоретической разработанности темы. Актуальность обозначенной научной проблемы подтверждается теоретическими и практическими работами российских и зарубежных исследователей. Общее направление, изучающее проблемы компьютерного анализа и синтеза естественных языков, получило название Обработка естественного языка (Natural Language Processing, NLP). Работы Ch.Manning, H.Schutze и других посвящены общим проблемам NLP. Проблемам информационного поиска (information retrieval) посвящены работы Р.С. Гиляревского, Г.Г. Белоногова, Д.Г. Лахути, C.J. Rijsbergen, Ch.Manning. Проблемам формализации и управления знаниями, создания онтологий посвящены работы В.Ф. Хорошевского, Д.Г.Лахути, Б. Магнини, А.С.Нариньяни, В.Н. Кучуганова и др. Специальными вопросами в области анализа и обработки текстов занимались E. Stamatatos (определение авторства), S. Burrows, I.Krsul (анализ текстов исходных кодов), K.Kontostathis, A.Abbasi (анализ интерент-текстов, кибербезопасность) и многие другие. Развитие моделей и методов анализа и обработки текстовых данных тесным образом
связано с развитием информационных технологий, а также может внести вклад в создание интеллектуальных информационных систем, экспертных систем и баз знаний. Значительный вклад в решение проблем интеллектуальных систем внесли работы В.К.Финна, В.М.Курейчика, А.П.Еремеева и многих других.
Объект исследования - слабоструктурированные тексты, в том числе тексты Интернет-сообщений, исходные коды программ, традиционные (научные, художественные, публицистические) тексты.
Предмет исследования - методы анализа, моделирования и синтеза текстовых структур.
Целью работы является создание новых общих для текстов различного типа моделей, методов и алгоритмов синтеза текстовых структур для решения прикладных задач в сфере информационно-телекоммуникационных систем.
Поставленная цель достигается решением следующих основных задач:
• Разработка обобщающей модели текста как многомерного объекта, учитывающей особенности ее функционирования в основных задачах кластеризации, классификации и идентификации текстов.
• Использование концепции скрытых параметров как системоорганизующих текстовых характеристик, отражающих структурные инварианты текста.
• Формализация и теоретическое обоснование принципов моделирования текстовых структур с использованием теории сжатия, теории нечеткой логики, теории обучающихся систем и концепции скрытых параметров.
• Разработка методологии анализа и моделирования текстовых структур, включающих совокупность моделей, методов и алгоритмов, а также правила их выбора в зависимости от решаемой задачи.
• Исследование возможностей использования моделей на основе Колмогоровской сложности, подстрок и энтропийных характеристик для анализа и обработки текстов различных типов, в том числе Интернет-текстов, текстов патентов и исходных кодов программ.
• Применение разработанной методологии для решения задач классификации, кластеризации и идентификации авторства текстов исходных кодов программного обеспечения.
• Модификация нейросетевых методов и алгоритмов для анализа потоковых текстовых данных в режиме реального времени.
• Реализация и исследование предложенных моделей, методов и алгоритмов для сравнения предложенных подходов с существующими.
Область исследования соответствует пунктам 2-4 паспорта специальности 05.13.01. - «Системный анализ, управление и обработка информации (в науке и промышленности)».
Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной.
1. Предложена концепция скрытых параметров как системоорганизующих текстовых характеристик, позволяющая провести структурный анализ текстов различной природы в основных задачах кластеризации, классификации и идентификации текстов, основанная на представлении закономерностей текстовых структур в форме инвариантов (универсальных, тематических, авторских) и формировании обобщающей модели текста как многомерного объекта.
2. Предложен обобщающий принцип моделирования текстовых структур на основе концепции скрытых параметров, позволивший объединить предложенные автором принципы моделирования, основанные на снижении размерности, теории нечеткой логики, теории обучающихся систем.
3. Проведена оптимизация алгоритмов синтеза текстовых структур, основанная на концепции скрытых параметров, отличающаяся проблемной ориентированностью критериев и формализацией постановок решаемых задач:
■ параметрического синтеза текстовых структур;
■ непараметрического синтеза текстовых структур.
■ информационного синтеза текстовых структур;
4. Предложена методология анализа и моделирования текстовых данных, включающая процедуру рационального выбора наилучших моделей и методов при решении конкретных задач, позволяющая с единых позиций развивать и совершенствовать методы решения основных задач в информационно-поисковых и информационно-аналитических системах, а также системах обеспечения информационной безопасности.
5. Предложена структура, позволившая разработать комплекс программных средств, реализующий общие для текстов различного типа модели и методы анализа и обработки текстов, в том числе:
■ модели и методы эффективного разбиения текстовых данных с учетом размера рассматриваемых документов;
■ модели и методы иерархической кластеризации потоковых текстовых данных, предполагающие возможность добавления условия нечеткости и постоянно продолжающегося обучения;
■ модели и методы анализа характеристик пользователей в социальных сетях на основе их сообщений и отзывов;
■ модели и методы идентификации различных параметров текстов исходных кодов программ, в том числе и атрибуции авторов.
Теоретическая и практическая значимость работы, внедрение результатов работы
Работа выполнена в рамках научного направления (темы) «Диагностические и информационно-поисковые системы» (Номер государственной регистрации 01201252337, Интернет-номер И111112195013, руководитель работы д.т.н., профессор Ломакина Л.С.). Результаты работы использованы при выполнении СЧ НИР по хоздоговору № 16/2371 от 26.09.2016 с ФГУП «ФНПЦ НИИИС им.Ю.Е. Седакова».
Теоретическая значимость результатов работы состоит в систематизации подходов к моделированию текстов разных типов, в выявлении закономерностей организации текстовых структур, расширении возможности функционирования различных систем анализа и обработки текстов за счет предложенной
методологии анализа и моделирования текстовых структур, включающей формализацию выбора наилучших моделей и методов для решения конкретных задач.
Основные теоретические и практические результаты внедрены в практическую деятельность Российского государственного архива научно-технической документации (г. Москва) при анализе категорий текстовых архивных документальных объектов; Федерального научно-производственного центра АО «НПП «Полет» (г. Нижний Новгород) при анализе попыток несанкционированного доступа в базу данных сервера; ФНПЦ НИИИС им. Ю.Е. Седакова» (г. Нижний Новгород) в виде методики кластеризации данных; ЗАО «Нижегородское агентство наукоемких технологий» (г. Нижний Новгород) для выявления патентов-аналогов с целью обеспечения высокого технического уровня проводимых исследований и исключения дублирования разработок; НПО «Специальная техника и связь» МВД РФ (г. Нижний Новгород) для повышения информационной безопасности при анализе и обработке текстов в Интернете, а также в ФГБОУ ВПО «Нижегородский государственный технический университет им. Р.Е. Алексеева» при разработке и создании новой образовательной программы «Диагностические и информационно-поисковые системы» по подготовке магистров направления 09.04.01. «Информатика и вычислительная техника», программа открыта в 2011 году, научный руководитель - д.т.н., профессор Л.С.Ломакина.
Методологию и методы диссертационного исследования составляют теория системного анализа, теория множеств, теория информации, теория вероятностей и математическая статистика, теория нечетких множеств.
Положения, выносимые на защиту, обладающие научной новизной
■ Концепция скрытых параметров как системоорганизующих текстовых характеристик в форме инвариантов.
■ Принципы моделирования текстовых структур.
о принцип снижения размерности;
о принцип нечеткой логики;
о принцип обучающихся систем;
о принцип (обобщающий) на основе концепции скрытых параметров.
■ Методология анализа и моделирования текстовых данных различного типа, включающая:
о обобщающую модель текстовых структур, основанную на концепции
скрытых параметров текстов; о совокупность методов информационного, параметрического и
непараметрического синтеза текстовых структур; о процедуру рационального выбора наилучших моделей и методов при решении конкретных задач.
■ Комплекс программных средств анализа, моделирования и синтеза текстовых структур, позволивший:
о провести эффективное разбиение текстовых данных с учетом размера
рассматриваемых документов; о получить многоуровневую кластеризацию потоковых текстовых данных, предполагающую возможность добавления условия нечеткости и постоянно продолжающегося обучения; о решить задачу анализа характеристик пользователей в социальных сетях
на основе их сообщений и отзывов; о провести процедуру идентификации различных параметров текстов
исходных кодов программ, в том числе и атрибуции авторов. Определяющее отличие полученных результатов заключается в формировании обобщающей модели текста как многомерного объекта и рассмотрении текстовых структур как совокупности устойчивых связей признаков описания текстов, выявлении скрытых параметров, характеризующих структуру текста, и в сжатом виде предоставляющих достаточно информации для решения поставленных задач. Предложенная концепция скрытых параметров предполагает раскрывать закономерности текстовых структур в форме инвариантов (универсальных, тематических, авторских) как общих признаков, присущих всем объектам в некотором классе. Это позволило с единых позиций
рассмотреть тексты различной природы (тексты исходных кодов программ, Интернет-тексты, художественные и научные тексты) и учесть их особенности при реализации конкретных методов.
Достоверность и обоснованность обеспечивается сравнением разработанных аналитических моделей и алгоритмов с результатами экспериментальных исследований и опубликованными материалами других исследователей, а также внедрением полученных результатов.
Апробация результатов исследования. Результаты исследования докладывались на 24 всероссийских и международных научных конференциях:
• Международная конференция «Идентификация систем и задачи управления» SICPRO'15 (Москва, 2015);
• Международный конгресс по интеллектуальным системам и информационным технологиям «IS&IT'14» (Новороссийск, 2014);
• Международная конференция «Современные методы прикладной математики, теории управления и компьютерных технологий» («ПМТУКТ-2015») (Воронеж, 2015);
• Международный симпозиум «Интеллектуальные системы INTELS» (Москва, МГТУ им. Н.Э. Баумана, 2008, 2012, 2014);
• Международная научно-практическая конференция «Системный анализ в проектировании и управлении» (Санкт-Петербург, 2014, 2015);
• Международная конференция «НТИ-2012. Актуальные проблемы информационного обеспечения науки, аналитической и инновационной деятельности» (Москва, ВИНИТИ, 2012);
• International Open Science Conference «Modern informatization problems» (2014, 2015);
• Международная научная школа "ПАРАДИГМА". ЛЯТО-2015 (Варна, 2015);
• Международная конференция «НТИ-2002. Информационное общество. Интеллектуальная обработка информации. Информационные технологии» (Москва, ВИНИТИ, 2002);
• Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2003, 2004, 2005, 2007, 2011, 2012, 2014, 2015, 2016 (Нижний Новгород);
• Международная молодежная научно-техническая конференция «Будущее технической науки» (Нижний Новгород, 2012, 2014, 2015); Публикация результатов исследования. По теме диссертации
опубликовано 45 работ, из них 16 статей в журналах из перечня ВАК, 23 доклада в сборниках трудов всероссийских и международных конференций, одна монография и одно учебное пособие, а также пять программ для ЭВМ, зарегистрированных в качестве объектов интеллектуальной собственности.
Личный вклад. Все выносимые на защиту результаты и положения, составляющие основное содержание диссертационной работы, разработаны и получены лично автором или при его непосредственном участии. В большинстве работ, опубликованных в соавторстве, соискателю принадлежит определяющая роль при постановке задачи, ее исследовании и получении результатов.
Объем и структура работы. Диссертационная работа изложена на 343 страницах, состоит из введения, пяти глав, содержащих 65 рисунков и 22 таблицы, заключения и приложений. Библиографический список включает 243 наименования.
Краткая характеристика работы
В первой главе рассмотрены роль и место сформулированной проблемы и ее значение в сфере информационных технологий, связи и телекоммуникаций. Рассмотрены проблемы, связанные с обработкой, анализом и синтезом текстовых структур, возникающие в различных информационно-аналитических, информационно-поисковых системах, также рассмотрены проблемы обработки текстовых данных, возникающие в рамках построения систем обеспечения кибербезопасности.
В первой главе также проведен сравнительный анализ известных работ в области анализа, моделирования и синтеза текстовых структур. Задачи, решаемые
в работе, исследованы c точки зрения интеллектуального анализа данных (Data Minig), построения интеллектуальных ситстем, современных подходов компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP).
В заключении главы дано обоснование нового обобщенного подхода к решению проблемы структурного анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур.
Во второй главе предложен подход к моделированию текстовых структур, который основан на системном представлении текстов, потоковом представлении и представлении текста как многомерного объекта. Подход позволяет при решении конкретных задач обосновать выбор наилучшей модели, или ее модификации, или частичного объединения моделей. Предложено рассматривать текстовые структуры как совокупность устойчивых связей текста, обеспечивающих его целостность и системность. В разделе «Текст как система» проанализированы основные определения понятия системы для построения моделей текста. Раздел «Текст как информационный поток» посвящен анализу особенностей текстовых данных, рассматриваемых в виде потока элементов или информационного потока. В разделе «Текст как многомерный объект» рассмотрены особенности представления текста в многомерном пространстве признаков и выбора инвариантов текстовых структур как отражения скрытых параметров.
В третьей главе определены закономерности организации текстовых структур и дано описание предложенной концепции скрытого параметра, как универсальной общесистемной характеристики, рассматривается применение концепции при анализе текстовых структур. Также в главе сформулированы основные принципы моделирования текстовых структур. Рассмотрена методология моделирования текстовых структур и оптимизация алгоритмов синтез текстов на основе предложенной методологии.
В четвертой главе рассмотрен информационный, параметрический (классический) и непараметрический синтез текстовых структур с позиций
концепции скрытого параметра, приведены характеристики основных алгоритмов классификации, кластеризации и идентификации. Также выполнено описание методологии анализа и моделирования текстовых структур, включающую процедуру рационального выбора наилучших моделей и методов при решении конкретных задач.
В пятой главе рассмотрены примеры практической реализации предложенных методов и алгоритмов и их модификаций, реализующие рассмотренную методологию выбора наилучшего набора моделей и методов с учетом особенностей рассматриваемых текстовых данных и условий поставленной задачи. Также описаны основные возможности дальнейшего применения предложенных в работе моделей, методов и алгоритмов.
В заключении диссертации приведены основные результаты и выводы.
Приложения содержат необходимые сведения из теории информации, теории сжатия, нечеткой логики, теории обучающихся систем, копии актов о внедрении результатов работы и копии свидетельств об официальной регистрации программы для ЭВМ.
1. ПРОБЛЕМА СТРУКТУРНОГО АНАЛИЗА, МОДЕЛИРОВАНИЯ И ОПТИМИЗАЦИИ АЛГОРИТМОВ СИНТЕЗА ТЕКСТОВЫХ СТРУКТУР
В главе рассмотрены роль и место сформулированной проблемы и ее значение в области информационных технологий, связи и телекоммуникаций. Рассмотрены задачи, связанные с обработкой, анализом и синтезом текстов, возникающие в сфере информационно-телекоммуникационных систем.
В главе проведен сравнительный анализ известных работ в области обработки, моделирования и синтеза текстов. Задачи, решаемые в работе, рассмотрены c точки зрения интеллектуального анализа данных (Data Minig), построения интеллектуальных систем, современных подходов компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP).
В заключении главы дано обоснование нового обобщенного подхода к решению проблемы структурного анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур.
1.1. Роль и место рассматриваемой проблемы и ее значение в сфере информационно-телекоммуникационных систем
Важность, значимость и необходимость анализа и обработки текстовых и других слабоструктурированных данных постоянно возрастают. В связи с широким распространением систем электронного документооборота, социальных сетей, блогов, сетевых информационных порталов, персональных сайтов это становится особенно важным и как техническая задача, и как значимая часть взаимодействия людей в современном информационном мире.
Одной из основных форм представления информации является текстовая форма, наряду с графической, звуковой, а также видеоинформацией. Если первоначально первостепенными проблемами считались задачи, связанные с обеспечением сбора, хранения, поиска и предоставления данных, то в последнее время, при упрощении доступа к разнообразным коллекциям текстовых
документов, появляются новые задачи анализа и обработки текстовых данных. К традиционным проблемам добавляются новые, связанные, например, с большими объемами текстовых данных в различных социальных сетях и других информационных, поисковых и аналитических приложениях Интернета.
1.1.1. Задачи анализа и обработки текстовых данных
Задача определения тематики текстов в информационно-аналитических и информационно-поисковых системах
Классификация текстов по тематическим категориям (категоризация) является характерной и одной из самых распространенных задач автоматической обработки текстов. Задача определения тематики текстов встречается, в том числе в информационно-поисковых системах, в системах электронного документооборота, анализа заявок на гранты и т.п. Задача установления автора текста
Практическое применение методы атрибуции текста находят прежде всего в области судебной лингвистики (например, судебные дела о плагиате), при исследовании литературы и истории (например, установление авторства анонимных произведений), в образовании и психологии. Плагиат можно встретить практически в любой сфере общественной жизни: литература, искусство, образование, журналистика, реклама, политика и т.д.
В широком смысле идентификация - это установление тождественности неизвестного объекта известному на основании совпадения признаков, опознание объекта. Следовательно, задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.
Анонимная или псевдонимная информация всё чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов. Традиционной для криминалистики остается задача определения авторства анонимных писем, содержащих угрозы террористического акта, шантаж и т.п.
Защита авторских прав. Выявление плагиата и некорректного заимствования
Задачи выявления некорректных заимствований и плагиата традиционно появились в сфере художественной литературы, однако в последнее время все острее встает данный вопрос для научных текстов. Кроме того важной проблемой является проблема «переводного» плагиата и заимствования. Известны примеры плагиата и заимствований при подготовке и защите научно-квалификационных работ, включая кандидатские и докторские диссертации.
В последние годы задача установления автора текста приобретает всё большее значение в связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью; обостряется проблема соблюдения авторских прав. Литературные или научные произведения полностью или частично копируются, иногда слегка перерабатываются и переиздаются под другим именем. Широкое распространение получили программы, которые автоматически изменяют текст по форме - заменяют незначащие слова синонимами, переставляют слова и фразы в выражении и т.п. В таком случае доказать плагиат бывает очень сложно.
При широком распространении текстов различных научных статей, докладов и т.п. на разных языках и постоянном развитии многоязыковых систем перевода возникают возможности для незаконного заимствования и копирования. В связи с этим важной задачей является также определение характеристик искусственно созданных текстов. Искусственными (искусственно созданными) текстами называются текстовые произведения, сгенерированные с использованием специальных программ. К таким текстам можно отнести переработку авторских произведений с автоматической заменой некоторых слов и терминов на синонимы, добавление различных вводных слов и т.п.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Методика и программный комплекс для идентификации автора неизвестного текста2010 год, кандидат технических наук Романов, Александр Сергеевич
Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям2013 год, кандидат технических наук Поляков, Дмитрий Вадимович
Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды2010 год, кандидат технических наук Кокорин, Павел Петрович
Список литературы диссертационного исследования кандидат наук Суркова, Анна Сергеевна, 2016 год
8. СПИСОК ЛИТЕРАТУРЫ
1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ. - 2011. — 272 с.
2. Александров В.В., Горский Н.Д. Алгоритмы и программы структурного метода обработки данных. - Л., «Наука» . - 1983. - 208 с.
3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. - М.: Наука. - 1989
4. Арапов М.В. Квантитативная лингвистика. - М.: Наука. - 1988. - 184 с.
5. Арский Ю.М., Финн В.К. Принципы конструирования интеллектуальных систем //Информационные технологии и вычислительные системы. - №4. -2008. - С. 4-37
6. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург. -2004. - 336 с.
7. Батура Т.В. Формальные методы установления авторства текстов и их реализация в программных продуктах // Программные продукты и системы. - 2013. - №4. - С. 286-295.
8. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пос. - М.: Изд-во МГТУ им. Н.Э. Баумана. - 2005. - 304 с.
9. Белов В.С. Информационно-аналитические системы. Основы проектирования и применения. М. - 2005. - 111 с.
10. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. - М.: Русский мир. - 2004. - 248 с. -Электронная книга.
11. Белоногов Г.Г., Гиляревский Р.С., Хорошилов А.А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. - Сер. 2. - 2012. - № 11. - С. 24-28.
12. Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Метод аналогии в компьютерной лингвистике. //
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Научно-техническая информация. - Сер. 2. - 2000. - № 1. - с. 21-30. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. - М. - 1983.
Болдин М. Б., Симонова Г. И., Тюрин Ю. Н. Знаковый статистический анализ линейных моделей. - М.: Наука. Физматлит. - 1997. - 288 с. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов: Учебное пособие для вузов. М. - 2007. - 522 с. Боровков А.А. Математическая статистика: оценка параметров, проверка гипотез. - 2007. - 472 c.
Бурбаки Н. Архитектура математики //Математическое просвещение. - Вып. 5. - 1960. - с. 99-112
Быстров И. И., Тарасов Б. В., Хорошилов А. А., Радоманов С. И. Основы применения онтологии и компьютерной лингвистики при проектировании перспективных автоматизированных информационных систем // Системы и средства информатики. - 2015. - том 25. - выпуск 4. - С. 128-149 Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения) . - М.: Наука. - 1974. - 416 стр. Верещагин Н.К., Успенский В.А., Шень А. Колмогоровская сложность и алгоритмическая случайность. - М.: МЦНМО. - 2013. Волкова В.Н., Денисов А.А. Теория систем: Учеб. пос. - М. - 2006. - 511 с. Воронцов К.В. Машинное обучение (курс лекций) . - Режим доступа: http: //www.machmeleammg.ru/wiki/mdex.php?tiÜe=Mo
Гаврилова Т. А., Хорошевский В. Ф.. Базы знаний интеллектуальных систем: Учеб. пособие. - СПб.: Питер. - 2000.
Гальперин И.Р. Текст как объект лингвистического исследования. - М.: Наука. - 1981. - 140 с.
Гладких А.В. Синтаксические структуры естественного языка в автоматизированных системах сообщений. - М.: Наука. - 1985. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения //Новое в зарубежной лингвистике. - Вып. 24. - М., 1989. ГОСТ Р 15.011-96 Государственный стандарт российской федерации. Система разработки и постановки продукции на производство. Патентные
28
29
30
31
32
33
34
35
36
37
38
39
40
41
исследования. Содержание и порядок проведения (принят и введен в действие Постановлением Госстандарта России от 30.01 1996 г. - № 40). Дмитриев А.С. Хаос, фракталы и информация //Наука и жизнь. - 2001. - №5 Дыков М.А., Кравец А.Г., Коробкин Д.М., Укустов С.С., Стрелков О.И. Представление документа в виде вектора ключевых фраз для решения задачи поиска по уровню техники в описаниях патентов «Прикаспийский журнал: управление и высокие технологии». - 2014. - №1. - С. 148-155 Дюран Б., Одел П. Кластерный анализ. - М., Статистика. - 1977. - 128 с. Егорушкин А. У каждого свой язык. //Компьютера. - 2002. - №21. Еремеев А.П. Построение решающих функций на базе тернарной логики в системах принятия решений в условиях неопределенности // Изв. РАН. Теория и системы управления. - 1997. - N 5. - с. 138-143 Загоруйко Н.Г. Методы распознавания и их применение. - М., 2012. - 211 с. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М.: Мир. - 1976. - 164 с.
Заде Л.А. Размытые множества и их применение в распознавании образов и кластер-анализе // Классификация и кластер. - М.: Мир. - 1980. - с. 208-247 Иомдин Л.Л. Автоматическая обработка текста на естественном языке: модель согласования. - М.: Наука. - 1990.
Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М., Наука. - 1976. - 736 с.
Киберугрозы и информационная безопасность в корпоративном секторе: тенденции в мире и в России Режим доступа: http://www.kaspersky.ru/images/ kaspersky global it security risks survey2.pdf
Кирдин А.Н., Новоходько А.Ю., Царегородцев В.Г. Скрытые параметры и транспонированная регрессия // Нейроинформатика - Новосибирск: Наука. -Сибирское предприятие РАН. - 1998. - 296с.
Клименко С.В., Крохин И.В., Кущ В.М., Лагутин Ю.Л. Электронные документы в корпоративных сетях: второе пришествие Гутенберга. - М.: Анкей. - 1999. — 273 c.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
42. Колмогоров А.Н. Три подхода к определению понятия «Количество информации» // Новое в жизни, науке, технике. Сер. "Математика, кибернетика". - 1991. - №1. - С. 24-29
43. Костышин А.С. О применимости некоторых формальных методов для исследования полных строений текстов. //Материалы конференции КВАЛИСЕМ-2000. - Новосибирск. - изд-во Новосибир. гос. пед. ун-та. - 2000.
44. Кофман А. Введение в теорию нечетких множеств. - М., Радо и связь. -1982. - 432 с.
45. Курейчик В.М. Обработка информации на основе онтологий // Труды конгресса "IS&IT15" по интеллектуальным системам и информационным технологиям. - Изд-во ЮФУ. - 2015 г. - т.2. - с. 63-75
46. Кучуганов В.Н. Анализ многозначностей в естественно-языковых текстах. //Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006. - Труды конференции. - В 3-т. - М: Физматлит. - 2006 Режим доступа: http://www.raai.org/resurs/papers/kii-2006/
47. Кучуганов В.Н. Вербализация реальности и виртуальности. Ассоциативная семантика // Искусственный интеллект и принятие решений. - 2011. - № 1. -с. 55-66
48. Кучуганов В.Н., Элементы теории ассоциативной семантики // Управление большими системами. - 2012. - выпуск 40. - С. 30-48.
49. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы. - M.: Либроком. - 2009. - 264 с.
50. Леман Э. Проверка статистических гипотез. — М.: Наука. - Главная редакция физико-математической литературы. - 1979. - 408 с.
51. Леоненков А.В. Нечеткое моделирование в среде Matlab и fuzzyTECH. -С.Пб.: BHV-Санкт-Петербург. - 2003. - 736 с.
52. Леонтьева Н.Н. Автоматическое понимание текста: системы, модели, ресурсы: учебное пособие. - М.: Издательский центр «Академия». - 2006.
53. Леонтьева Н.Н. Динамика единиц в семантических структурах. //Труды Международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. - Том 1. - Теоретические проблемы. - М. - 2002.
54. Лингвистический энциклопедический словарь. - М.: 1990.
55. Ломакин Д.В., Ломакина М.Д., Суркова А.С. Методология формирования системоорганизующих характеристик текстовых данных // Фундаментальные исследования. - 2015. - № 11 (часть 3) . - с. 480-483.
56. Ломакин Д.В., Панкратова А.З., Суркова А.С. Золотая пропорция как инвариант структуры текста. // Журнал «Вестник Нижегородского университета им. Н.И. Лобачевского» . - 2011. - №4. - с. 196-199.
57. Ломакина Л.С., Мордвинов А.В., Суркова А.С. Построение и исследование модели текста для его классификации по предметным категориям. // Системы управления и информационные технологии. - 2011. - №1(43) . - с. 16-20.
58. Ломакина Л.С., Родионов В.Б., Суркова А.С. Иерархическая кластеризация текстовых документов. // Системы управления и информационные технологии. - 2012. - № 2(48) . - с. 39-44.
59. Ломакина Л.С., Суркова А.С. Автоматизированные информационно -поисковые системы. Задачи. Принципы. Методология: учеб. пособие. - Н. Новгород: НГТУ им. Р.Е. Алексеева. - 2011. - 109 с.
60. Ломакина Л.С., Суркова А.С. Информационные технологии анализа и моделирования текстовых данных: Монография. - Воронеж: Издательство «Научная книга» . - 2015. - 208 а
61. Ломакина Л.С., Суркова А.С. Методологические аспекты концептуального анализа и моделирования текстовых структур // Фундаментальные исследования. - 2015. - № 6 (часть 3) . - с. 497-501.
62. Ломакина Л.С., Суркова А.С. Прикладные аспекты концептуального анализа и моделирования текстовых структур // Фундаментальные исследования. -2015. - № 7 (часть 3) . - с. 540-544.
63. Ломакина Л.С., Суркова А.С. Теоретические аспекты концептуального анализа и моделирования текстовых структур // Фундаментальные исследования. - 2015. - № 2 (часть 17) . - с. 3713-3717.
64. Ломакина Л.С., Суркова А.С., Буденков С.С. Кластеризация текстовых данных на основе нечеткой логики // Системы управления и информационные технологии. - №1(55) . - 2014. - С. 73-77.
65. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. - М.: Изд-во Московского университета. - 2011.
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
Маевский Д.А., Чербаджи Ю.П. Определение авторства программного обеспечения по исходному коду программ // Радиоэлектронные и компьютерные системы. - 2014. - № 6. - С. 64-68. Мартыненко Г.Я. Основы стилеметрии. - Л.: Изд-во ЛГУ. - 1988. - 176 с. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. - Л.: Изд-во ЛГУ. - 1990. -Мельников Г.П. Системный подход в лингвистике. // Системные исследования. Ежегодник. - М.: Наука. - 1972.
Мельничук А. С. Понятие системы и структуры языка. // Вопросы языкознания. - 1970. - №1. - С. 27
Мельчук И.А. Русский язык в модели «Смысл О Текст» . - Москва-Вена. -1995. - 714 с.
Месарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем. - М.: Мир. - 1973. - 344 с.
Месарович М., Такахара И.. Общая теория систем: математические основы.
- М.: Мир. - 1978. - 311 с.
Минский М. Фреймы для представления знаний. - М.Энергия. - 1979. - 151 с. Москальская О.И. Грамматика текста. - М.: Высшая школа - 1981. - 184 с. Москальчук Г.Г. Структура текста как синергетический процесс. М.: УРСС.
- 2003. - 296 а
Мурзин Л.Н., Штерн А.С. Текст и его восприятие. - Свердловск. - 1991. - 172 а Напреенко Г.В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестник Томского гос. университета. - 2014. - №379. - С.17-23.
Нариньяни А.С. Автоматическое понимание текста - новая перспектива // Труды международного семинара Диалог-97 по компьютерной лингвистике и ее приложениям. - Москва. - 1997. - с. 203-208.
Негуляев В.А. Исследование коммуникативных микроструктур патентного текста и их роли для автоматической обработки информации. //Вычислительная лингвистика. - М.: Наука. - 1976.
Нечеткие множества в моделях управления и искусственного интеллекта / Под ред. Д.А.Поспелова. - М., Наука. - 1986. - 312 с.
82
83
84
85
86
87
88
89
90
91
92
93
94
95
Нечеткие множества и теория возможностей. Последние достижения / Под ред. Р.Р.Ягера. - М.: Радио и связь. - 1986.- 408 с.
Орлов А.А., Тельных А.А., Степанов Е.А., Сорокин А.Д., Аксенова Ю.Е. Технические аспекты создания автоматизированных информационных систем многоцелевого применения. // Наукоемкие технологии в космических исследованиях Земли. 2013. Т. 5. № 4. С. 40-44.
Орлов А.И. / Анализ нечисловой информации в социологических исследованиях. - М.: Наука. - 1985. - 224 c.
Орлов А.И. Прикладная статистика. - М.: Изд-во «Экзамен» . - 2004. - 656 с. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука. - 1979. - 296 c.
Орлов Ю.К. Обобщенный закон Ципфа-Мандельброта и частотные структуры информационных единиц различных уровней. //Вычислительная лингвистика. - М.: Наука. - 1976.
От Нестора до Фонвизина. Новые методы определения авторства / под ред. Л.В. Милова. - М.: Прогресс. - 1994.
Пескова О.В. Методы автоматической классификации текстовых электронных документов // Научно-техническая информация. - Сер. 2. -2006. - №3. - С. 13-20
Пескова О.В. Методы автоматической классификации электронных текстовых документов без обучения // Научно-техническая информация. Сер. 2. - 2006. - № 12. - С. 21-32.
Поликарпов А.А. Циклические процессы в становлении лексической системы языка: моделирование и эксперимент. - М. - 2001 Пономаренко И.Н. Фрактал в структуре художественного текста //Русский язык: исторические судьбы и современность. II Международный конгресс русистов-исследователей. - М. - 2004.
Прангишвили И.В. Системный подход и общесистемные закономерности. -М.: СИНТЕГ. - 2000. - 528с.
Прикладная статистика: Классификации и снижение размерности: Справ. изд. / Под ред. С. А. Айвазяна. - М.: Финансы и статистика. - 1989. - 607 с. Пруцков А.В., Цыбулько Д.М. Теоретико-множественное представление
метода обработки количественных числительных естественных языков и особенности их перевода в различных странах // Вестник Рязанского государственного радиотехнического университета. - 2014. - № 50-2. - С. 69-75.
96. Пруцков А.В., Цыбулько Д.М. Интернет-приложение метода обработки количественных числительных естественных языков // Вестник Рязанского государственного радиотехнического университета. - № 3 (выпуск 41) . -2012. - С. 70-74.
97. Рассел С., Норвиг П. Искусственный интеллект: современный подход. - 2-е изд. - М.: Вильямс. - 2006. - 1408 с.
98. Романов А.С. Обзор программного обеспечения для идентификации авторства текста // Материалы конф. Научная сессия ТУСУР-2007. - 2008. -С. 182-184.
99. Романов А.С. Методика идентификации автора текста на основе аппарата опорных векторов // Доклады ТУСУРа. - 2009. - № 1 (19), ч. 2. - С. 36-42
100. Романов А.С., Мещеряков Р.В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009». Вып. 8 (15).- М.: РГГУ. - 2009. - С. 432-437.
101. Романов А.С., Мещеряков Р.В. Идентификация авторства коротких текстов методами машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: сб. докл. Междунар. конф. «Диалог 2010». Вып. 9. - М.: Изд-во РГГУ. - 2010. - № 16. - С. 407-412
102. Руспини Э.Г. Последние достижения в нечетком кластер-анализе // Нечеткие множества и теория возможностей: Последние достижения / Под ред. Р.Р. Ягера. - М: Радио и связь. - 1986. - с. 114-132.
103. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. - М.: Горячая линия - Телеком. - 2006. - 452 а
104. Рыжов А.П. Элементы теории нечетких множеств и измерения нечеткости. -М., Диалог-МГУ. - 1998.
105. Сайт, посвященный литературоведческой атрибуции: ЬИр://сотеШе-moliere.com/
106. Сафронова Ю.Б. Некоторые системно-количественные характеристики лексико-семантических парадигм разных видов. //Уч. зап. ТГУ. - Вып. 745. -1986. - с. 129-138
107. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. - Киев: Наук. Думка. - 1981. - 192 с.
108. Сегаран Т. Программируем коллективный разум. - М., Символ-Плюс. -2008. - 368 с.
109. Семенцов М.С., Суркова А.С. Энтропийные характеристики символьного разнообразия в текстах исходных кодов программ// Системы управления и информационные технологии. - №1.1(59) . - 2015. - С. 173-176
110. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, Наукова думка. - 1983. - 218 с
111. Сметанин Ю.Г., Ульянов М.В. Мера символьного разнообразия -характеристика временных рядов. // Materials of the III International Scientific Conference «Information-Management Systems and Technologies» . - Odessa. -2014. - 19-21.
112. Сметанин Ю.Г., Ульянов М.В. Мера символьного разнообразия: подход комбинаторики слов к определению обобщенных характеристик временных рядов // Бизнес-информатика. - №3 (29) . - 2014. - с. 40-48.
113. Сметанин Ю.Г., Ульянов М.В., Пестова А. С. Энтропийный подход к построению меры символьного разнообразия слов и его применение к кластеризации геномов растений // Математическая биология и биоинформатика. - 2016. - Т. 11. - № 1. - С. 114-126.
114. Солганик Г.Я. Стилистика текста. - Учебное пособие. - М.: Флинта: Наука - 1997. - 256 с.
115. Солнцев В.М. Язык как системно-структурное образование - М. : Наука. - 1971.
116. Суркова А.С. Анализ и моделирование текстовых данных в задачах обеспечения кибербезопасности // Системы управления и информационные технологии. - №3.1(61) . - 2015. - С. 178-182
117. Суркова А.С. Идентификация текстов на основе информационных портретов // Вестник Нижегородского университета им. Н.И. Лобачевского. - 2014. -№ 3 (1) . - с. 145-149
118. Суркова А.С., Буденков С.С. Построение модели и алгоритма кластеризации в интеллектуальном анализе данных // Журнал «Вестник Нижегородского университета им. Н.И. Лобачевского» . - 2012. - №2(1) . - с. 198-202.
119. Суркова А.С., Родионов В.Б. Алгоритм разбиения неструктурированного множества текстовых объектов // Научно-технический вестник Поволжья.-Казань. - 2013г. - №5. - с .298-300
120. Суркова А.С., Скорынин С.С. Моделирование текстов на основе энтропийных характеристик в задачах классификации // Вестник ВГАВТ. -2016. - №4. - С. 78-82
121. Суркова А.С., Царев А.А. Применение нейронных сетей для определения авторства текстов исходных кодов программ. // Системы управления и информационные технологии. - №1(63) . - 2016. - С. 78-82.
122. Турыгина Л.А. Моделирование языковых структур средствами вычислительной техники. - М., 1988
123. Федеральный закон Российской Федерации от 27 июля 2006 г. № 149-ФЗ. Об информации, информационных технологиях и о защите информации
124. Финн В.К. Об интеллектуальном анализе данных // Новости искусственного интеллекта. - 2004. - №3. - С. 3-18.
125. Харкевич А. А. О ценности информации / А. А. Харкевич // Проблемы кибернетики: сб. - Вып 4. - М.: Физматгиз. - 1960. - С. 33-41.
126. Хартли Р. Передача информации / Р. Хартли // Теория информации и ее приложения. - М. - 1959. - С. 5-35.
127. Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. [Электронный ресурс] / Д.В. Хмелев. - Режим доступа: http://compression. graphicon.ru/download/articles/ classif7mtro.html
128. Хмелев, Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер.9: филология. - М., 2000. №02. С.115-126.
129. Хорошевский В.Ф. Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений. - 2008. - № 1. -с.80-97
130. Хорошилов А.А. Системы обнаружения плагиата нового поколения, базирующиеся на методах концептуального анализа текстов и
использовании предметно ориентированных концептуальных словарей // Информатизация и связь. - 2013. - N 3. - С. 112-118.
131. Хьетсо Г. и др. Кто написал "Тихий Дон"? (Проблема авторства «Тихого Дона») . - М. - 1989
132. Цвиркун А.Д. Структура сложных систем. - М. - 1975. - 200 с.
133. Цыпкин Я.З. Основы теории обучающихся систем. - М. Наука. - 1970. - 252 с.
134. Чекунов И. Г. Киберпреступность: понятие и классификация // Российский следователь. - 2012. - N 2. - С. 37 - 43
135. Чекунов И.Г. Современные киберугрозы. Уголовно-правовая и криминологическая квалификация киберпреступлений // Право и кибербезопасность. - 2012. - N 1. - С. 9 - 23.
136. Шевелёв О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие. - Томск: ТМЛ-Пресс, 2007. 144 с.
137. Шрейдер Ю.А., Шаров А.А. Системы и модели. - М.: Радио и связь. - 1982. - 152 с.
138. Штовба С.Д. Введение в теорию нечетких множеств и нечеткую логику. [Электронный ресурс] / Режим доступа: http: //matlab .exponenta.ru/fuzzyl o gic/ book1/index.php
139. Шульгин В.И. Основы теории цифровой связи. - Харьков. - ХАИ. - 2008. -184 с.
140. Яхно В.Г. Основные динамические режимы осознания сенсорных сигналов в нейроноподобных моделях: проблемы на пути к «нейроморфному» интеллекту // Известия высших учебных заведений. Прикладная нелинейная динамика. - 2011. - Т. 19. - № 6. - С. 130-144.
141. Abbasi A., Chen H. Identification and comparison of extremist-group Web forum messages using authorship analysis. IEEE Intel. Syst. - 2005. - N5. - P. 67-75.
142. Advances in Fuzzy Clustering and its Applications. Editor(s): J. Valente de Oliveira, W. Pedrycz. John Wiley & Sons, Ltd. - 2007. - 434 р.
143. Alrabaee S., Saleem N., Preda S., Wang L., Debbabi M. OBA2: An Onion approach to Binary code Authorship Attribution // Digital Investigation. - 2014. -№11. - P. 94-103.
144. Baader F., Calvanese D., McGuinness D.L., Nardi D., Patel-Schneider P.F.: The
Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press. - 2003. - 555 p.
145. Bennett C.H., Gacs P., Li M., Vitanyi P.M.B., Zurek W. Information Distance // IEEE Transactions on Information Theory. - 1998. - N 44:4. - P. 1407-1423.
146. Berry M. W. Survey of Text Mining. Clustering, Classification, and Retrieval. Springer-Verlag. - 2004. - 244 p.
147. Berry M.W., Kogan J. Text Mining. Applications and Theory. - Wiley. - 2010. -207 p.
148. Bezdek J.C. [et al.]. Fuzzy models and algorithms for pattern recognition and image processing. Springer Science + Business Media. Inc. - 2005. - 776 р.
149. Blei D., Lafferty J. Topic Models. // Text Mining: Classification, Clustering, and Applications. Chapman & Hall/CRC Data Mining and Knowledge Discovery Series. - 2009. - P. 71-94.
150. Bloom C. New techniques in context modeling and arithmetic encoding // IEEE Proceedings of the Conference on Data Compression. Los Alamitos CA. - 1996. - p. 426. - Режим доступа: http://www.cbloom.com/papers/dcc cntx.zip
151. Bolshakov I.A., Gelbukh A. Computational linguistics: models, resources, applications. - Mexico. - 2004. - 186 p.
152. Bolshoy A., Volkovich Z., Kirzhner V., Barzily Z. Genome Clustering: From Linguistic Models to Classification of Genetic Texts. - Springer. - 2010. - 206 p.
153. Brocardo M.L., Traore I., Saad S., Woungang I. Authorship Verification for Short Messages using Stylometry // Proceedings of the IEEE International Conference on Computer, Information and Telecommunication Systems. - 2013. - P. 1-6.
154. Burton R.E. and Kebler R.W. The "half-life" of some scientific and technical literatures // American Documentation. - 1960. - № 1. - P. 98-109.
155. Calix K., Connors M., Levy D., Manzar H., McCabe G., Westcott S. Stylometry for E-mail Author Identification and Authentication // Proceedings of CSIS Research Day . - Pace University. - May 2008.
156. Cavnar W.B. N-Gram-Based Text Filtering For TREC-2 // Proceedings of the Second Text Retrieval Conference (TREC-2). - NIST. - Gaithersburg. -Maryland. - 1993. - P. 171-180
157. Cavnar W.B., Trenkle J.M. N-Gram-Based Text Categorization // Proceedings of
SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. - Las Vegas. - 1994. - P. 161-175.
158. Cavnar W.B., Vayda A.J. N-gram-based matching for multi-field database access in postal applications // Proceedings of the 1993 Symposium On Document Analysis and Information Retrieval. - University of Neveda. - Las Vegas. - 1993.
159. Chen Hs., Chau M. Web Mining: Machine learning for Web Applications // Annual Review of Information Science and Technology. - 2004. - N38. - P.289-329.
160. Chong, B. M., Specia, L., & Mitkov, R. Using natural language processing for automatic detection of plagiarism. // Proceedings of the 4th international plagiarism conference. - Newcastle-upon-Tyne. - 2010.
161. Cilibrasi R., Vitanyi P.M.B. Clustering by compression // IEEE Trans. Inf. Theory. - 2005. - Vol. 51. - no. 4. - P.1523-1545.
162. Clarke B., Fokoue E., Zhang H.H. Principles and Theory for Data Mining and Machine Learning. - Springer Science. - LLC. - 2009. - 781 p.
163. Cooley R., Mobasher B., Srivastava J. Web mining: information and pattern discovery on the World Wide Web // Proceedings of the 9th ZEEE International Conference on Tools with Artificial Intelligence. - 1997. - P. 558-567.
164. Corney M., Anderson A., Mohay G., De Vel O. Identifying the Authors of Suspect E-mail [Электронный ресурс] // Computers and Security. - 2001. -Режим доступа: http: //eprints .qut.edu.au/8021/1/CompSecurityPaper.pdf;
165. Croft W.B., Metzler D., Strohman T. Search Engines: Information Retrieval in Practice. - Addison Wesley. - 2010. - 520 p.
166. D'Urso P. Fuzzy Clustering of Fuzzy Data // Advances in Fuzzy Clustering and its Applications (eds. J. V. de Oliveira, W. Pedrycz) . - 2007. - P. 155-192
167. Dagan I., Karov Y., Roth D. Mistake-driven learning in text categorization // The second conference on empirical methods in natural language processing. - 1997. -P. 55-63.
168. Ding H., Samadzadeh M.H. Extraction of Java program fingerprints for software authorship identification. // Journal of Systems and Software. - 2004. - N 72(1). -P.49-57.
169. Doyle J., Keselj V. Automatic Categorization of Author Gender via N-Gram Analysis // Proceedings of The 6th Symposium on Natural Language Processing,
SNLP'2005. - Режим доступа: http://web.cs.dal.ca/~vlado/papers/SNLP05J.pdf
170. Dua S., Du X. Data Mining and Machine Learning in Cybersecurity. - New York. 2011. -224 p.
171. Elenbogen B.S., Seliya N. Detecting outsourced student programming assignments // Journal of Computing Sciences in Colleges. - 2008. - N 23(3). -P. 50-57.
172. Estival D. Author attribution with email messages // Journal of Science. -Vietnam National University. - 2008. - N1. - P. 1-9.
173. Etzioni O. The world-wide web: Quagmire or gold mine? // Communications of the ACM. - 1996. - N 39(11). - P.65-68.
174. Feldman R., Sanger J. The text mining handbook. Advanced Approaches in Analyzing Unstructured Data. - Cambridge University Press. - 2007. - 410 p.
175. Frank E., Chui C., Witten I.H. Text categorization using compression models. // Proceedings of DCC-00. - IEEE Data Compression Conference. - 2000. - P. 555.
176. Frantzeskou G., MacDonell S.G., Stamatatos E., Georgiou S., Gritzalis S. Identifying Authorship by Byte-Level N-Grams: The Source Code Author Profile (SCAP) Method [Electronic resource] // International Journal of Digital Evidence.
- Trier. - Germany. - 2007. - Vol. 6. - N 1. - P. 139-148.
177. Frantzeskou G., Gritzalis S., MacDonell S., Source Code Authorship Analysis for supporting the cybercrime investigation process // Proc. 1st International Conference on e-business and Telecommunications Networks (ICETE04). - 2004.
- Vol. 2. - P. 85-92.
178. Frantzeskou G., Stamatatos E., Gritzalis S., and Katsikas S.. Source code author identification based on n-gram author profiles. // Artificial Intelligence Applications and Innovations. - Springer. - New York. - 2006. -P. 508-515.
179. Goldberg D.E. Genetic algorithms in search, optimization, and machine learning. Reading. - MA: Addison-Wesley. - 1989.
180. Granovetter M. The Strength of Weak Ties // American Journal of Sociology. -1973. - Vol. 78. - No. 6. - P. 1360—1380.
181. Gray A., Sallis P., MacDonell S. Software Forensics: Extending Authorship Analysis Techniques to Computer Programs. // 3rd Biennial Conference of the International Association of Forensic Linguists. - 1997.
182. Gries S.Th., Newman J., Shaoul C. N-grams and the clustering of registers. //Empirical Language Research Journal. - 2011. - №5. 1.
183. Hathaway R.J., Bezdek J.C. Switching regression models and fuzzy clustering // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1993. - N 1(3). - P.195-204.
184. Hoppner F., Klawonn F., Kruse R., Runkler Th. Fuzzy Cluster Analysis: Methods for Classification. - Data Analysis, and Image Recognition. - New York. - John Wiley & Sons. - 1999.
185. Juola P. Authorship Attribution // Foundations and Trends in Information Retrieval. - 2006. - Vol. 1. - N. 3. - P. 233-334.
186. Khan S.R., Nirkhi S.M., Dharaskar R. V. E-mail Data Analysis for Application to Cyber Forensic Investigation using Data Mining // 2nd National Conference on Innovative Paradigms in Engineering & Technology (NCIPET 2013) . - 2013.
187. Kimbrell R.E. Searching for Text? Send and N-gram! // Byte. - May 1998. -1998. - P. 297-312.
188. Klein D., Manning Ch.D. A generative constituent-context model for improved grammar induction. // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. - 2002. - P. 128-135.
189. Kontostathis A., Edwards L., Leatherman A. Text mining and cybercrime // Text Mining. - Applications and Theory. - Ed. by Berry M. W., Kogan J. - Wiley. -2010. - P.149-164.
190. Kosala R., Blockeel H. Web Mining Research: A Survey. ACM SIGKDD. 2000. Vol. 2. - N 1. - P.1-15.
191. Krsul I, Spafford EH. Authorship analysis: identifying the author of a program. // Proc. 8th National Information Systems Security Conference. - 1995. - P. 514-524
192. Krsul I. Authorship analysis: Identifying the author of a program. Technical Report CSD-TR-94-030. - Department of Computer Sciences, Purdue University. - West Lafayette. - Indiana. - May 1994. - 68 p.
193. Kureychik V.M. Overview and problem state of ontology models development // Conference proceedings 2015 9th international conference on application of information and communication technologies (AICT) 14-16 October 2015. -Rostov-on-Don. - Russia. - www.aict.info/2015. - P. 558-564
194. Lance G.N., Williams W.T. A general theory of classificatory sorting strategies. // Computer J. - 1967. - V.9. - №4. - P. 373-380.
195. Langdon G.G., Rissanen J.J. Compression of black-white images with arithmetic coding. - IEEE Trans.Commun. - COM-29. - 1981. - N 6. - P. 858-867
196. Layton R. Local n-grams for Author Identification / R. Layton, P. Watters, and R. Dazeley [Электронный ресурс]. - Режим доступа: http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-LaytonEt2013.pdf
197. Lenat D., Miller G., Yokoi T. CYC, WordNet, and EDR: critiques and responses. - Communications of the ACM. - Volume 38. - Issue 11. - 1995. - P. 45 - 48.
198. Li M., Chen X., Li X., Ma B., Vitanyi P.M.B. The similarity metric // IEEE Trans. Inform. Th. - 2004. - N 50:12. - P.3250- 3264
199. Lomakina L.S., Rodionov V.B., Surkova A.S. Hierarchical Clustering of Text Documents // Automation and Remote Control. - 2014. - Vol. 75. - N. 7. - P. 1309-1315.
200. MacDonell S. G., Gray A. R., MacLennan G., and Sallis P. J. Software forensics for discriminating between program authors using case-based reasoning, feedforward neural networks and multiple discriminant analysis. // Proceedings of the Sixth International Conference on Neural Information Processing. - 1999. November. - P. 66-71.
201. Mahesh K., Nirenburg S. A Situated Ontology for Practical NLP. // Procedings Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint Conference on Artificial Intelligence (IJCAI-95) . - Montreal. - Canada. - 1995.
202. Manning Ch.D., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge University Press. - 2008. - 504 p.
203. Manning Ch.D., Schutze H. Foundations of statistical natural language processing. MIT Press. - Cambridge. - 1999. - 680 p.
204. McCallum A., Freitag D., Pereira F. Maximum Entropy Markov Models for Information Extraction and Segmentation. // Proc. ICML. 2000. - P. 591-598.
205. Miyamoto S., Ichihashi H., Honda K. Algorithms for Fuzzy Clustering. Methods in c-Means Clustering with Applications. - Springer-Verlag Berlin Heidelberg. -2008. - 247 р.
206. O'Connor B., Bamman D., Smith N.A. Computational Text Analysis for Social
Science: Model Assumptions and Complexity // Second Workshop on Computational Social Science and the Wisdom of Crowds (NIPS 2011). - Режим доступа: https: //people .cs. umass. edu/~wallach/workshops/nips2011 css/papers/OConnor.pdf
207. Osman A.H., Salim N., Binwahlan M.S., Alteeb R., Abuobieda A.. An improved plagiarism detection scheme based on semantic role labeling // Journal of Applied Soft Computing. - 2012. - Vol. 12(5) . - P. 1493-1502.
208. Parpinelli R.S., Lopes H.S., Freitas A.A. An Ant Colony Algorithm for Classification Rule Discovery // Data Mining: a Heuristic Approach, Idea Group,
- 2002. - P. 191-208.
209. Peng F., Schuurmans D., Keselj V., Wang S. Language independent authorship attribution using character level language models // School of computer science. -University of Waterloo. - Canada. - 2003.
210. Rendon E., Abundez I., Arizmendi A., Quiroz E. Internal versus External cluster validation indexes // International journal of computers and communications. -2011. - Issue 1. - Vol. 5. - P.27-34.
211. Rijsbergen C. J. Information retrieval. - 1979. - 153 p.
212. Rissanen J.J., Langdon G.G. Universal modeling and coding // IEEE Trans. Inf. Theory IT-27. - 1981. - N1. - P. 12-23.
213. Rosenblum N., Zhu X., Miller B.P. Who wrote this code? Identifying the authors of program binaries // Proceedings of the 16th European conference on Research in computer security. - 2011. - Режим доступа: http://pages.cs.wisc.edu/~ierryzhu/pub/Rosenblum11Authorship.pdf.
214. Salton G. Automatic text processing. Addison-Wesley Publishing Company. -1989. - 530 p.
215. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Communications of The ACM - CACM. - 1975. - vol. 18. - N. 11. - P. 613-620.
216. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. // Inform. Process. Man. - 1988. - N 24.5. - P. 513-523.
217. Sanderson C., Guenter S. Short text authorship attribution via sequence kernels, Markov chains and author unmasking: An investigation // Proceedings of the International Conference on Empirical Methods in Natural Language Engineering.
- 2006. - P. 482-491
218. Sato-Ilic M., Jain L.C. Innovations in Fuzzy Clustering. Theory and Applications. Springer. - 2006. - 152 р.
219. Schwartz R., Tsur O., Rappoport A., Koppel M. Authorship Attribution of MicroMessages // Conference on Empirical Methods in Natural Language Processing (EMNLP). - 2013. - P. 1880-1891.
220. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Serveys. - 2002. - Vol. 34. - №1. - P. 1-47
221. Shannon, C.E.: A mathematical theory of communication. Bell System Technical J. 27, P. 379-423 (1948), русский перевод: Шеннон К. Э. Математическая теория связи // Работы по теории информации и кибернетике / Пер. С.Карпова. — М.: ИИЛ. - 1963. — 830 с.
222. Shevertalov M., Kothari J., Stehle E., and Mancoridis S.. On the use of discretised source code metrics for author identification. // Proceedings of the First International Symposium on Search Based Software Engineering. - IEEE Computer Society Press. - May 2009. - P. 69-78.
223. Sokal R.R., James F.R. The Comparison of Dendrograms by Objective Methods. -Taxon. - 1962. - N 11.2. - P.33.
224. Stamatatos E., Fakotakis N., Kokkinakis G.. Computer-based authorship attribution without lexical measures. - Computers and the Humanities. - 2001. -35(2). - P. 193-214
225. Stamatatos E., Fakotakis N., Kokkinakis G. Automatic text categorization in terms of genre and author // Computational Linguistics. - 2000. - N 26(4). - P.471-495.
226. Stamatatos. E. A Survey of Modern Authorship Attribution Methods // Journal of the American Society for Information Science and Technology. - 2009. - N 60(3). - P.538-556.
227. Stanko S., Lu D., Hsu I. Whose Book is it Anyway? Using Machine Learning to Identify the Author of Unknown Texts // Machine Learning Final Projects. -2013. - Режим доступа: http://cs229.stanford.edu/proj2013/StankoLuHsu-AuthorIdentification.pdf
228. StatSoft, Inc. (2012). Электронный учебник по статистике. - Москва. -StatSoft. - Режим доступа: http: //www. statsoft. ru/home/textbook/default.htm.
229. Surkova A.S., Domnin A.A., Bulatov I.V., Tsarev A.A. Neural networks and
decision trees algorithms - the base of automated text classification and clustering // American Journal of Control Systems and Information Technology. - Science Book Publishing House. - LLC. - 2013. - №2. - P. 33-35.
230. Surkova A.S., Skorynin S.S. Modified classification algorithm with fuzzy interpretation of clusters // American Journal of Control Systems and Information Technology. - Vol. 4. - No. 2. - 2014. - P. 27-30.
231. Vapnik V.N. Statistical Learning Theory. - John Wiley & Sons. Ltd. - 1998. -736 p.
232. Vinh N.X., Epps J., Bailey J. Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance // The Journal of Machine Learning Research. - 2010. - Vol. 11. - P. 2837-2854
233. Xie X.L, Beni G. A validity measure for fuzzy clustering // IEEE Trans.PAMI. -1991. - vol. 13(8) . - P. 841-847.
234. Yampolskiy R.V. Turing Test as a Defining Feature of AI-Completeness. // Artificial Intelligence, Evolutionary Computation and Metaheuristics (AIECM) -In the footsteps of Alan Turing. Springer. - London. - 2013. - P. 3-17.
235. Yang Y. An evaluation of statistical approaches to text categorization. // Journal of Information Retrieval. - 1999. - N1. - P. 67-88.
236. Yang, Y. Feature selection in statistical learning of text categorization / Y. Yang, J.P. Pedersen // 14th International Conference on Machine Learning. - 1997. - P. 412-420.
237. Zadeh L.A. Similarity relations and fuzzy orderings // Information Sciences. -1971. - vol. 3. - N. 2. - P. 177-200.
238. Zecevic, A. N-gram Based Text Classification According To Authorship // Proceedings of the Student Research Workshop associated with RANLP. - 2011. - P. 145-149
239. Ziv J., Lempel A. A Universal Algorithm for Sequential Data Compression // IEEE Transactions on Information Theory. - 1977. - 23(3) . - P. 337-343
240. Ziv J., Lempel A. Compression of Individual Sequences via Variable-Rate Coding // IEEE Transactions on Information Theory. - 1978. - N 24 (5) . - P. 530-536.
9. ПРИЛОЖЕНИЯ Приложение 1. Необходимые теоретические сведения
П.1.1. Представление объектов в многомерном пространстве признаков Расстояния между объектами и меры близости
Важным моментом при рассмотрении задач классификации, кластеризации и идентификации является понятие однородности объектов и их взаимное расположение [94]. Как
Р(X, х ) й (х{, х )
уже было сказано, величина -1 характеризует либо расстояние -1 между
х х s(X X )
объектами 1 и 7, либо степень их близости (сходства) 1' 7 . Рассмотрим множество
X = (х15 х2,—хт )
объектов пространстве признаков
, каждый из которых можно представить точками в и-мерном г _/у(1) г(2) г( «К •
т
Косинусная мера близости между векторами х1 и 7 вычисляется по формуле:
БШ (X; , Х- ) =
Х- * X •
1 7
п
ъ
к=1
г(к) х „(к)
Х- л X •
1 7
Х
Х
II
Ъ Xк)) (х(к) )
к=1 V к=1
(П1)
Также была предложена «мягкая» косинусная мера [151], которая учитывает сходство между признаками (терминами) и позволяет более точно учесть значение каждого термина в данном наборе элементов, рассчитав новую матрицу по формуле:
1 =
Л= М7, 1 = 1, М, ] = 1, N
ъ Л
I=1
По этим данным может быть вычислена матрица
с=1* 1Т
с элементами
с
N
Си =Ъ ЛЛ,1 = 1М
7=1
Матрица определяет корреляцию между терминами внутри
документов. Если два термина ^ и ^ встречаются во всех документах с одинаковой частотой,
<
;
>
с ~ 1 /-ц_^ ~
то 11 ' Аналогично, вычисляемая матрица с = ^ ^ определяет корреляцию между документами по отношению к терминам.
При использовании меры расстояния должны выполняться условия (аксиомы) метрического пространства:
Л (х, х.) > 0, Ух7, х.
1)
ч d(х,,х.) = 0 ^ х = х= ,
2) 7 7 (аксиома тождества)
d(х-, х ) = d(х ■, х■)
3) 1 7 7 1 (аксиома симметрии)
.. Л(х{,х7) < d(xi,х,) + d(х,,х7)
4) г 7 п 7 (неравенство треугольника)
Аналогично можно определить основные условия, которые должны выполняться при рассмотрении меры сходства [30]:
0 < ¿(х., х ) < 1 х * х7
1)
¿(х., х7) = 1 х. = х7 .
2) . 7 i 7 (аксиома тождества)
5(х,., х.) = 5(х., х.) ,
3) . 7 7 . (аксиома симметрии)
Отметим также взаимозависимость мер сходства и расстояния [94]. При задании метрики сходства необходимо выполнение требования при заданной метрике монотонного
¿(х{, х -) d(х., х7) > d(хн, хя )
убывания 7 , т.е. из условия 7 д должно с необходимостью следовать
¿(х., х7) < ¿(х,, хд) ^
выполнение неравенства 7 д . При этом меры сходства чаще используются при
анализе данных, представленных бинарными признаками. Наиболее известными мерами расстояния в метрическом пространстве признаков являются:
d (х., х7) =
• Евклидово расстояние:
Ё (х,<г> - хГ )2
(я) _ „(я)\2
я_1 . Иногда, когда важно учесть
принадлежность к классам удаленных объектов, используют квадрат Евклидова расстояния л (х, х}) = £ (хг(я > - х (я) )2
я=1
V
й (х, х ■)
• Взвешенное Евклидово расстояние: Евклидово расстояние применяется в ситуациях, когда каждый рассматриваемый признак
(х,<я> -х?')2
я_1 . Взвешенное
возможно охарактеризовать величинои а, пропорциональном степени его важности в
процессе разделения объектов на классы. Обычно полагают а , а 1П .
• Расстояние городских кварталов (манхэттенское расстояние) и расстояние Хэмминга:
n
Xt) = 7.1 q) - x(f)
d (X, xj) = X| xi
q=1
. В отличие от обычного Евклидова расстояния, в данноИ метрике уменьшается значение выбросов (далеко отстающих от кластера объектов). Если данное расстояние используется для объектов, задаваемых дихотомическими признаками, то оно эквивалентно расстоянию Хэмминга и определяет число несовпадении значении соответствующих признаков в рассматриваемых объектах.
1
Л а) "
f n \
х x(q)- xj
й (х, х ■) =
• Расстояние Минковского: ^ а=1 ^ . Данное расстояние можно рассматривать как обобщение Евклидова расстояния и расстояния городских кварталов, причем
для р ~1 расстояние Минковского является метрикой, а для Р ^1 не выполняется неравенство треугольника.
й(хг, х.-) = л (х1 - х.- ГУ-1 (хг - х.-) у
• Расстояние Махаланобиса: - , где у - матрица
ковариации объектов х и -. Данное расстояние является обобщением перечисленных выше расстоянии.
Также для определения меры сходства и различия между объектами зачастую используются другие меры, которые не являются метриками (не удовлетворяют всем аксиомам). Однако для некоторых задач их использование показывает очень хорошие результаты. К таким мерам относятся:
• относительная энтропия или расстояние Кульбака-Лейблера (КиПЪаек-ЬеШег
n
' (q Л
d(x, xy) = Dkl (x || xy) = X x(q) log
x
=i y (q )
divergence)'. q ^ 3 ^ . Относительная энтропия не является
метрикой, поскольку не удовлетворяет аксиоме симметрии и неравенству треугольника.
• расстояние Дженсена-Шеннона (Jensen-Shannon divergence).
d(xi, xj) = Djs (xi 11 xj) = ^iDKL (xi 11 У) + ^IDKL (xj 11 У) e У = mx, +Vix3 77, > 0
, где и 1 ,
> 0. Заметим, что данное расстояние не удовлетворяет неравенству треугольника.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.