Методика и программный комплекс для идентификации автора неизвестного текста тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Романов, Александр Сергеевич

  • Романов, Александр Сергеевич
  • кандидат технических науккандидат технических наук
  • 2010, Томск
  • Специальность ВАК РФ05.13.18
  • Количество страниц 237
Романов, Александр Сергеевич. Методика и программный комплекс для идентификации автора неизвестного текста: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Томск. 2010. 237 с.

Оглавление диссертации кандидат технических наук Романов, Александр Сергеевич

ВВЕДЕНИЕ.

1 Обзор подходов к идентификации автора неизвестного текста.

1.1 Первые количественные методы.

1.2 Методы статистического анализа.

1.2.1 Статистические критерии.

1.2.2 Методы теории информации.

1.2.3 Метод накопительных сумм.

1.2.4 Метод главных компонент и линейный дискриминантный анализ

1.3 Методы машинного обучения.

1.3.1 Генетические алгоритмы.

1.3.2 Метод к ближайших соседей.

1.3.3 Деревья решений.

1.3.4 Наивный байесовский классификатор.

1.3.5 Искусственные нейронные сети.

1.3.6 Машина опорных векторов.

1.4 Сравнительный анализ методов идентификации автора.

1.5 Выводы по главе 1.

1.6 Постановка задач исследований и разработок.

2 Методика идентификации автора неизвестного текста.

2.1 Обобщенная методика идентификации автора текста и формирования модели авторского стиля.

2.2 Модели представления текста в виде наборов признаков.

2.2.1 Модель «Мешок слов».

2.2.2 yV-граммные модели.

2.2.3 Сглаживающие модели.

2.3 Анализ структуры и характеристик текста.

2.3.1 Характеристики текста, использующиеся для идентификации автора.

2.3.2 Модель иерархической структуры текста.

2.4 Параметры классификаторов.

2.5 Выводы по главе 2.

3 Моделирование параметров авторского стиля.'.

3.1 Общее описание экспериментов. Алгоритм проведения экспериментов.

3.2 Влияние количества и частотности признаков на точность идентификации автора.

3.3 Выбор типа ядрового преобразования машины опорных векторов.

3.4 Исследование характеристик текста в случае двух альтернатив.

3.5 Исследование характеристик текста в многоклассовых задачах.

3.6 Сравнение времени обучения классификаторов.

3.7 Исследование точности идентификации на основе сочетаний характеристик текста.

3.8 Исследование техник сглаживания.

3.9 Объединение полученных результатов. Использование ансамблей классификаторов.

3.10 Решение практических задач на основе разработанной методики (результаты внедрения). Идентификация автора короткого электронного сообщения.

3.10.1 Идентификация автора короткого электронного сообщения.

3.10.2 Пример решения частной задачи идентификации автора.

3.11 Рекомендации по практическому применению методики.

3.12 Выводы по главе 3.

4 Программный комплекс для идентификации автора письменной речи «Авторовед».

4.1 Структура программного комплекса.

4.1.1 Подсистема сбора статистической информации.

4.1.2 База данных для хранения текстов и их характеристик.

4.1.3 Подсистема формирования файлов для исследований.

4.1.4 Аналитическая подсистема.

4.1.5 Подсистема представления результатов.

4.2 Алгоритмическое обеспечение.

4.2.1 Общий алгоритм работы подсистемы сбора статистической информации.

4.2.2 Алгоритм автоматического определения кодировки текста.

4.2.3 Алгоритм корректировки текста.

4.2.4 Алгоритмы разбора текста.

4.2.4.1 Алгоритмы определения границ предложения.

4.2.4.2 Алгоритм разбора предложения.

4.2.5 Алгоритм морфологического анализа.

4.2.6 Алгоритмическое обеспечение Подсистемы формирования файлов.

4.2.6.1 Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД.

4.2.6.2 Алгоритм формирования подготовленных для исследований файлов.

4.3 Сравнение программного комплекса «Авторовед» с аналогами.

4.3.1 Анализ программного обеспечения в области определения авторства текстов.

4.3.2 Сравнение программного комплекса «Авторовед» с аналогами.

4.4 Выводы по главе 4.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методика и программный комплекс для идентификации автора неизвестного текста»

Современное информационное общество использует вычислительные машины различного рода практически во всех сферах жизнедеятельности и, прежде всего, в научных исследованиях.

В своем современном воплощении компьютеры и сопутствующие им информационные системы представляют собой идеальное техническое решение для задач обработки больших объемов статистических данных и решения сложных вычислительных задач, необходимых, в частности, в образовательном процессе, лингвистических и криминалистических исследованиях для идентификации авторства текста, а также для решения более общей задачи - классификации текстовой информации.

Идентификацию автора текста определим как процесс установления автора по совокупности общих и частных признаков текста, составляющих авторский стиль.

Под авторским стилем будем понимать «набор свойств (параметров), характеризующих состав, способы объединения и статистико-вероятностные закономерности употребления речевых средств, образующих данную разновидность языка» [21].

Важность задачи идентификации автора печатного текста обуславливается повсеместным переходом от рукописного письма к печатному способу набора. При возникновении ситуации спорного авторства, при криминалистическом исследовании печатного текста развитые методы идентификации по почерку могут оказаться бесполезными. Кроме того, почерковедческая экспертиза позволяет определить лишь исполнителя, но не автора текста. Различные способы идентификации авторства текста являются на сегодняшний день эффективными инструментами в криминалистике для разрешения вопросов о спорном авторстве, плагиате, установления авторства анонимных текстов, пола автора, психологического портрета и т.д. Проведение автороведческой экспертизы осуществляется с привлечением экспертов, имеющих соответствующее образование в области лингвистики и филологии. Эффективных же количественных методик и инструментов автоматического определения авторства текстов для русского языка не разработано.

В области лингвистических исследований данные методики могут использоваться для изучения феномена авторства. Интерес здесь представляет отличие в стиле того или иного писателя; черты, которые делают его речь легко узнаваемой; индивидуальность или общность каких-либо характеристик. Существует ряд неатрибутированных литературных текстов, а также произведений, авторство которых до сих пор находится под сомнением. Так многие скептики приписывают авторство как минимум нескольких глав романа «Тихий Дон» М.А. Шолохова менее знаменитому казацкому писателю Ф.Д. Крюкову. И, несмотря на то, что почерковедческая экспертиза подтвердила, что черновики романа написаны рукой Шолохова, вопрос о том, пользовался ли он при этом какими-либо источниками, остается открытым. Аналогично, зарубежные исследователи подвергают сомнению авторство ряда произведений, приписанных У. Шекспиру. Очевидно, что существование точных количественных методов идентификации автора, методик и программного обеспечения на их основе могли бы разрешить большинство спорных вопросов в области литературоведения и истории.

Ещё одной сферой применения методик является сфера образования. Школьники и студенты с появлением глобальной сети Интернет всё реже сами выполняют рефераты, курсовые и доклады, предпочитая не тратить на это время и просто скачать готовые работы из сети Интернет. Использование подходов для определения авторства в этом случае позволит более объективно оценивать учащихся.

Эффективные методики идентификации на основе устойчивых характеристик можно применять и для решения ряда смежных задач: идентификации пола и тендера, профессии, национальности, уровня образования автора и т.д.

АКТУАЛЬНОСТЬ РАБОТЫ

За более чем 120-летнюю историю развития вопроса идентификации автора неизвестного текста отечественными и зарубежными исследователями было предложено множество методов определения автора текста, начиная от простого подсчета количества определенных слов в сравниваемых текстах и заканчивая разработками в области искусственного интеллекта.

У экспертов, занимающихся проблемами идентификации автора неизвестного текста, до последнего времени популярностью пользовались методы, основывающиеся на предположении о том, что каждый автор обладает набором специфических стилистических приемов, характерными языковыми особенностями (лексическими, грамматическими, фразеологическими), прослеживающимися во всех произведениях, благодаря которым его можно опознать. Внимание экспертов также привлекала любая автобиографическая информация, содержащаяся в тексте, «любимые» слова и т.п. Трудность использования этих методов заключается в том, что характерных особенностей у текста, равно как и у автора, может и не быть. Кроме того, если текст имеет выраженные особенности то, существует вероятность подмены типичных особенностей индивидуального стиля автора. К недостаткам следует также отнести и тот факт, что выявление отличительных черт авторского стиля носит субъективный характер, так как зависит от личности исследователя.

Вопросами идентификации автора текста в России, в частности, занимались Морозов Н.А., Марков А.А., Фоменко В.П. и Фоменко Т.Г., Хмелев Д.В., Хетсо Г., Рогов А.А., Сидоров Ю.В., Комиссаров А.Ю., Шевелев О.Г., Поддуб-ный В.В, Марусенко М.А.

Наиболее цитируемыми зарубежными авторами, занимавшимися вопросами определения авторства, являются Mendenhall Т.С., Morton A.Q., Farringdon J.M., Efron В., Thisted R., Teahan W. J., Chaski C.E., Stamatatos E., Juola P., Peng R.D., Joachims Т., Diederich J.J., Apte C. Lowe D., Matthews R., Tweedie F.J., De Vel O., Argamon S., Levitan S., Zheng R.

В настоящее время наблюдается повышенный интерес к количественным методам анализа текстовой информации на основе слабо контролируемых человеком характеристик текста, общих для всех авторов.

Однако общепринятого мнения о том, какой набор характеристик дает лучший результат, не существует. Этот вопрос остается открытым, в частности, для русского языка, т.к. существует немного работ, в которых проводились исследования на представительных русскоязычных корпусах. Недостаточно внимания уделено идентификации автора на основе комплексных характеристик текста, написанного на русском языке.

Работоспособность большинства методов идентификации автора для русского языка проверена в рамках решения частных задач. Судить о точности тех или иных методов по результатам исследования для английского и др. языков не корректно в силу особенностей строения каждого языка.

Сравнительный анализ методов на представительных корпусах, приведенный в работах ряда авторов, показывает, что лучшим классификатором в настоящее время является машина опорных векторов. Однако работ, посвященных исследованию данного метода для русского языка, нет.

Сопоставимые с машиной опорных векторов результаты дают искусственные нейронные сети. Шевелевым О.Г. установлено, что данный метод дает наиболее точные результаты, однако его использование затруднено в связи с большими временными затратами на подбор архитектуры сети и её обучение, поэтому полного исследования нейросетевого подхода проведено не было. В связи с этим актуальной становится задача исследования алгоритмов автоматического построения топологии нейронной сети.

Нерешенной задачей является идентификация авторства коротких текстов. Существующие методы работают с текстами объемом более 30000-40000 символов и большим количеством обучающих примеров (5-100 и более). Поэтому актуальной задачей является поиск решений для снижения требуемого объема выборок и их количества.

Существующие в настоящее время программные комплексы для идентификации автора, в числе которых «Штампомер» (JI.JI. Делицын), «Лингвоана-лизатор» (Москва, Д.В. Хмелев), «Атрибутор» (Москва, МГУ, Поликарпов А.А. и др.), «Лингвистический анализатор» (Самара, А. Львов), «СМАЛТ» (Петрозаводск, ПетрГУ, А.А. Рогов и др.), «Стилеанализатор» (Томск, ТГУ, О.Г. Шевелев), «JGAAP» (США, P. Juola), «Автор» (Москва, ВНИИСЭ, ЭКЦ УВД России) реализованы на основе методов идентификации авторства, математический и лингвистический аппарат которых не всегда гарантирует точный результат. Большинство программ носит демонстрационный характер или не предназначено для решения реальных практических задач. Объем текста, необходимого для работы программ, в лучшем случае составляет 30 ООО символов, что также ставит под сомнение возможность их использования в случае атрибуции реальных спорных текстов. Существующие программы не ориентированы на работу с короткими текстами, имеющими свою специфику. Особенности русского языка при анализе авторства не учитываются. Современные машинные методы интеллектуального анализа данных реализованы в них лишь частично.

Таким образом, разработка методики, в которой учтены недостатки существующих подходов, и создание программного комплекса на её основе являются актуальными задачами.

ЦЕЛЬ РАБОТЫ

Целью диссертационной работы является разработка и исследование методики идентификации авторства текстов на русском языке, обеспечивающей повышение точности определения автора, уменьшение объема текстовой выборки и снижение временных затрат на принятие решения, и создание программного комплекса для идентификации авторства на её основе.

Для достижения поставленной цели были решены следующие задачи:

1) анализ существующих методов, характеристик текста, программных средств, используемых для идентификации автора отечественными и зарубежными исследователями;

2) анализ структуры текста и моделей его представления для целей идентификации автора;

3) разработка методики идентификации автора неизвестного текста и получения информативных параметров авторского стиля;

4) разработка алгоритмического и программного обеспечения для идентификации автора неизвестного текста. Моделирование параметров авторского стиля.

ОБЪЕКТ И ПРЕДМЕТ ИССЛЕДОВАНИЯ

Объектом исследования является печатный текст и его характеристики. Предметом исследования являются характеристики текста, описывающие авторский стиль и методы идентификации автора неизвестного текста.

МЕТОДЫ ИССЛЕДОВАНИЯ

Для решения задач, сформулированных в работе, использовались методы математической статистики, вычислительного эксперимента и искусственного интеллекта. При разработке программной системы использовались методы объектно-ориентированного программирования.

НАУЧНАЯ НОВИЗНА РАБОТЫ

1. Разработана новая методика идентификации автора русскоязычного текста, в которой впервые для целей идентификации автора текста на русском языке применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Особенностью методики является принятие итогового решения об авторе текста несколькими классификаторами по принципу мажоритарного голосования.

2. Предложена теоретико-множественная модель текста, учитывающая его иерархическую структуру.

3. Разработано оригинальное алгоритмическое обеспечение для обработки текста, учитывающее особенности русского языка и электронных текстов, в том числе коротких электронных сообщений. и

4. Получены экспериментальные зависимости точности идентификации автора на основе различных характеристик русскоязычного текста при 2, 5, 10, 50 предполагаемых авторах и использовании искусственных нейронных сетей и метода опорных векторов, с применением методов сглаживания вероятностей. Предложена комбинация информативных признаков текста для описания авторского стиля, включающая частоты появления отдельных букв, знаков пунктуации, наиболее частых триграмм символов и слов русского языка.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ РАБОТЫ

1. Предложенная методика и её программная реализация позволяют снизить временные затраты на 1-3 порядка, сократить требуемый для однозначной идентификации объем текста до 20000 символов, при этом повысить точность идентификации автора неизвестного текста на 0,05-0,15 по сравнению с существующими подходами.

2. Разработанное алгоритмическое и программное обеспечение системы «Авторовед» может использоваться как непосредственно для идентификации автора неизвестного текста на русском языке, так и для проведения комплексных исследований характеристик текста в задаче идентификации автора.

3. Полученная методика идентификации автора, алгоритмическое и программное обеспечение, база данных и SQL-запросы к ней могут применяться при решении смежных задач: идентификации языка текста, пола и тендера, профессии, национальности, уровня образования автора, а также других задач, связанных с анализом текста.

4. Результаты диссертационной работы использовались при выполнении проекта «Программное обеспечение для исследования характеристик текста в задачах идентификации автора» программы ФСРМПНТ «У.М.Н.И.К.» (договор № КР 04/07 от 9.06.2007 г.; № 014/08 от 9.09.2009 г).

ДОСТОВЕРНОСТЬ И ОБОСНОВАННОСТЬ

Достоверность и обоснованность полученных результатов подтверждаются серией практических экспериментов по идентификации автора на представительном корпусе текстов, а также согласованностью полученных данных с результатами других авторов.

ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Методика идентификации автора неизвестного текста позволяет определять автора с точностью 0,95-0,98, при этом снизить объем необходимого текста до 20000 символов и сократить временные затраты на принятие решения на 1 -3 порядка по сравнению с существующими подходами.

2. Авторский стиль наиболее точно описывается комбинацией характеристик текста, включающей частоты появления отдельных букв, знаков пунктуации, высокочастотных триграмм символов и слов русского языка.

3. Разработанное алгоритмическое и программное обеспечение для идентификации автора письменной речи «Авторовед» позволяет производить полный цикл обработки текстов, исследований влияния характеристик текста, вида классификатора и его параметров на точность идентификации автора неизвестного текста, идентифицировать автора из множества возможных претендентов с помощью искусственных нейронных сетей и машины опорных векторов, проводить анализ потенциально заимствованного текста, подтверждать или опровергать авторство текста.

ВНЕДРЕНИЕ

Разработанные методика идентификации автора и программный комплекс «Авторовед» внедрены в воинской части 51952 и Центре Технологий Безопасности ТУСУР. Внедрение показало положительный результат, состоящий в повышении точности идентификации автора, снижении временных затрат на эксперименты за счет автоматизации процесса и применяемых подходов.

Результаты диссертационной работы используются в учебном процессе Томского государственного университета систем управления и радиоэлектроники при изучении дисциплин «Теория информации» и «Методы программирования».

АПРОБАЦИЯ РАБОТЫ

Материалы работы докладывались и обсуждались на следующих конференциях и семинарах:

- Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР», 2006 - 2010 гг., Томск;

- Международной научно-методической конференции, посвященной 90-летию высшего математического образования на Урале «Актуальные проблемы математики, механики, информатики», 2006 г., Пермь.

- Международной конференции «Interactive Systems and Technologies: The Problems of Human-Computer Interaction», 2007 г., Ульяновск.

- Седьмом Всероссийском конкурсе студентов и аспирантов по информационной безопасности «SIBINFO-2007», 2007 г., Томск;

- Международной научно-практической конференции «Электронные средства и системы управления», 2007 г., 2009 г. Томск.

- Научно-техническом семинаре «Интеллектуальные системы моделирования, проектирования и управления», 2007 - 2010 г., Томск;

- Всероссийской научной конференции «Техническая кибернетика, радиоэлектроника и системы управления», 2008 г., Таганрог.

- Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии», 2008 г., 2009 г., Томск.

- Всероссийской паучно-практической конференции «Проблемы информационной безопасности государства, общества и личности, безопасность нанотехнологий», 2009 г., Томск.

- Международной конференции по компьютерной лингвистике «Диалог», 2009 г., 2010 г., Москва.

- Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования», 2010 г., Томск.

ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

Основные результаты по теме диссертационной работы отражены в 20 публикациях, в том числе 3 из них в журналах, входящих в перечень ведущих рецензируемых научных журналов и изданий ВАК. Получено свидетельство Государственной академии наук о регистрации программной системы «Авторо-вед» в объединенном фонде электронных ресурсов «Наука и Образование» Института научной информации и мониторинга, подтверждающее новизну и приоритетность электронного ресурса (свидетельство № 15146).

ЛИЧНЫЙ ВКЛАД АВТОРА

Постановка задачи осуществлялась совместно с научным руководителем д.т.н., профессором Шелупановым А.А.

Основные результаты диссертационной работы получены автором самостоятельно. Автором проведен анализ предметной области, разработана теоретико-множественная модель теста. Предложена методика идентификации автора русскоязычного текста, в которой применяются метод опорных векторов и нейронные сети каскадных корреляций, методы сглаживания вероятностей, принятие итогового решения об авторе текста осуществляется несколькими классификаторами. Проведено исследование методики. Предложена комбинация информативных признаков текста для описания авторского стиля, включающая частоты появления отдельных букв, знаков пунктуации, наиболее частых триграмм символов и слов русского языка. Автором предложена структура программного комплекса для идентификации автора письменной речи, разработано алгоритмическое обеспечение, проведена программная реализация.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Романов, Александр Сергеевич

4.4 Выводы по главе 4

В четвертой главе описывается разработанное алгоритмическое и программное обеспечение системы для идентификации автора печатного текста «Авторовед», в которой реализована предложенная в главе 2 методика. Были проведены следующие работы:

1. Разработано алгоритмическое и программное обеспечение, позволяющее производить полный цикл исследований влияния характеристик текста, вида классификатора и его параметров на точность идентификации автора неизвестного текста, идентифицировать автора из множества возможных претендентов с помощью искусственных нейронных сетей и машины опорных векторов, проводить анализ потенциально заимствованного текста, подтверждать или опровергать авторство текста. Кроме того, осуществлять предварительную корректировку анализируемых текстов, проводить графематический и морфологический разбор, обеспечивать хранение разобранного текста и его характеристик в базе данных.

2. Разработана база данных для хранения текста и его характеристик на основе предложенной модели текста. Реализована возможность расширения перечня доступных пользователю характеристик без изменения программного кода за счет реализации характеристик в виде пакетов запросов к СУБД.

3. Составлены запросы SQL для получения основных характеристик текста уровня символов, слов и предложений, а также реализованы техники сглаживания вероятностей Лапласа, Гуда-Тьюринга и Катца для биграмм и триграмм символов.

4. Рассмотрены и проанализированы программные разработки в области определения авторства текстов, выявлены их недостатки. Сделан вывод, что в настоящее время не представлено эффективных программных комплексов, предназначенных для определения авторства текста.

5. Проведен сравнительный анализ программного комплекса «Авторовед» с аналогами.

ЗАКЛЮЧЕНИЕ

1. Проведен анализ существующих методов, характеристик текста, программных средств, используемых для идентификации автора отечественными и зарубежными исследователями. Определены актуальные направления исследований и разработок.

2. Проведен анализ структуры текста. На его основе предложена теоретико-множественная модель и модель БД для хранения текста и его характеристик, учитывающие иерархическую структуру текста.

3. Предложена обобщенная методика идентификации автора неизвестного текста, включающая использование нейросетевого подхода и метода опорных векторов для принятия решений об авторстве, iV-граммных и сглаженных N-граммных моделей, признаков текста, позволяющих разделять авторские стили. Особенностью предложенного подхода является принятие итогового решения об авторе текста несколькими классификаторами (ансамблем классификаторов) по принципу мажоритарного голосования. Впервые для целей идентификации автора русскоязычного текста применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Для достижения точности 0,95-0,98 необходимы текстовые образцы объемом 20000 символов.

4. Проведены исследования групп характеристик текста в задаче идентификации автора. По результатам исследований наиболее точным из классификаторов показал себя метод опорных векторов. Показано, что информативными признаками авторского стиля являются наиболее частые триграммы символов и наиболее частые слова. Установлено, что использование при идентификации автора комбинации частот букв русского языка, знаков пунктуации, наиболее частых триграмм символов и наиболее частых слов увеличивает точность идентификации в среднем на 0,06-0,12 на небольших объемах текста. Показано, что применение методов сглаживания вероятностей Гуда-Тьюринга и Катца негативно отражается на качестве идентификации. Использование метода Лапласа дает небольшой прирост точности на малых объемах выборки — от 0,01 до 0,07. Установлено, что использование ансамбля классификаторов позволяет увеличить точность идентификации автора от 0,02 до 0,15 на малых объемах выборки.

5. Разработано алгоритмическое и программное обеспечение для идентификации автора неизвестного текста, позволяющее идентифицировать автора неизвестного русскоязычного текста и проводить комплексные исследования характеристик текста в задаче идентификации автора, учитывать особенности русского языка, особенности электронных текстов, в том числе и коротких сообщений.

6. Полученные результаты внедрены в практику работы специализированных учреждений.

Список литературы диссертационного исследования кандидат технических наук Романов, Александр Сергеевич, 2010 год

1. Атрибутор Электронный ресурс. 1999-2007. - Режим доступа: http://www.textology.ru/web.htm.

2. О системе «АУРа-Текст» Электронный ресурс. Режим доступа: http://aura.econ.pu.ru/antiplagiat/about.php.

3. Библиотека Максима Мошкова Электронный ресурс. Режим доступа: http://www.lib.ru.

4. Бородкин Л. Программное обеспечение FUZZYCLASS в историко-типологическом исследовании / Л. Бородкин, И. Гарскова // История и компьютер: Новые информационные технологии в исторических исследованиях и образовании. St.Katharinen, 1993. - С.89-104.

5. Бузикашвили Н.Е. N-граммы в лингвистике / Н.Е. Бузикашвили, Г.А. Крылова, Д.В. Самойлов // Методы и средства работы с документами. М. : Диториал УРРС, 2000. - С. 91-130.

6. Васюков Н.С. Модели определения авторства текста / Н.С. Васюков, Р.В. Мещеряков // Измерения, автоматизация и моделирование в промышленности и научных исследованиях: Межвузовский сборник. — Барнаул : Изд-во АлтГУ, 2005. С. 25-29.

7. Головань О.В. Частотный анализ как первый шаг в построении интеллектуальной системы исследования текста / О.В. Головань // Ползуновский альманах. 2008. - №2. - С. 153-155.

8. Ефимова О.С. Применение собственных чисел при гаммировании текстов и идентификации языков / О.С. Ефимова, Р.Т. Файзуллин // Омскийнаучный вестник. Информационные технологии. 2006. — №9 (46). — С. 146-152.

9. Зализняк А.А. Грамматический словарь русского языка: словоизменение / А.А. Зализняк. — 3-е изд. — Москва : Рус.яз., 1987. — 880 с.

10. Интернет-сервис AntiPlagiat.ru Электронный ресурс. 2005-2010. -Режим доступа: http://www.antiplagiat.ru.

11. Колмогоров А.П. Три подхода к определению понятия количества информации / А.П. Колмогоров // Проблемы передачи информации. 1965. -Т. 1. - № 1,- С. 3-11.

12. Комиссаров А.Ю. Криминалистическое исследование письменной речи с использованием ЭВМ : дис. . канд. юрид. наук : 12.00.09. -М., 2001. -225 с.

13. Кукушкина О.В. Определение авторства текста с использованием буквенной и грамматической информации / О.В. Кукушкина, А.А. Поликарпов, Д.В.Хмелев // Проблемы передачи информации. 2001. - Т.37. - Вып.2. -С. 96-109.

14. Львов А. Лингвистический анализ текста и распознавание автора Электронный ресурс. / А. Львов. 2008. - Режим доступа: http://fantlab.ru/article374.

15. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь / А.А. Марков // Известия Имп.Акад.наук. 1913. - Серия VI, Т.Х. - №3. - С. 153.

16. Марков А.А. Об одном применении статистического метода / А.А. Марков // Известия Имп.Акад.наук. 1916. - Серия VI, Т.Х. - №4. -С. 239.

17. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами теории распознавания образов / М.А. Марусенко. Л. : ЛГУ, 1990. - 164 с.

18. О проекте "Детектор плагиата" Электронный ресурс. 2007. -Режим доступа: http://www.detector-plagiata.ru.

19. Плагиат-Информ система для определения плагиата в документах Электронный ресурс. - 2010. - Режим доступа: http://www.searchinform.ru/main/full-text-search-plagiarism-search-plagiatinform.html.

20. Поддубный В.В. Сравнение стилей текстовых произведений по частному признаку на основе гипергеометрического критерия /

21. B.В. Поддубный, О.Г. Шевелев // Теоретическая и прикладная информатика / Под ред. проф. А.Ф. Терпугова. — Томск : Изд-во Том. ун-та, 2004. — Вып. 1.1. C. 101-109.

22. Поддубный В.В. Сравнение качества подходов к кластеризации текстов на основе гипергеометрического критерия / В.В. Поддубный, О.Г. Шевелев, Д.А. Бормашов // Вестник Том. гос. ун-та. 2006. — № 293. -С. 120-125.

23. Поддубный В.В. Классификация текстов по авторству с помощью метода Хмелева и его модификаций /В.В. Поддубный, О.Г. Шевелев // Научное творчество молодежи. Материалы X Всероссийской научно-практической конференции. -Ч. 1.-2006.-С. 175-177.

24. Психолингвистическая экспертная система «ВААЛ». Руководство пользователя Электронный ресурс. Москва, 2002. - Режим доступа: http://www.vaal.ru/prog/rukov.php.

25. Романов А.С. Модель базы данных для хранения текстов и их характеристик / А.С. Романов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2008. — № 1(17). — С. 70-73.

26. Сидоров Ю.В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров : автореф. дис. канд. тех. наук : 05.13.18. СПб, 2002.- 19 с.

27. Сидоров Ю.В. Компьютерная автоматизированная система для лингвистического разбора литературных текстов / Ю.В. Сидоров,

28. A.А. Леонтьев, А.А. Рогов, В.Н. Захаров // IY-ая Санкт-Петербургская Ассамблея молодых ученых и специалистов. Тезисы докладов. СПб, 1999. -С. 66.

29. Сысуев В. Проект «Пси Офис» Электронный ресурс. / В. Сысуев. -2002. Режим доступа: http://psy-two.narod.ru/embedded.html.

30. Фоменко В.П. Авторский инвариант русских литературных текстов /

31. B.П. Фоменко, Т.Г. Фоменко // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. — М. : Изд-во МГУб 1996. — Т. 2. — С. 768-820.

32. Хайкен С. Нейронные сети: полный курс / С. Хайкен. 2-е изд. - М. : Вильяме, 2006.-1104 с.

33. ХетсоГ. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах «Время» и «Эпоха» / Г. Хетсо. Oslo : Solum Forlag A.S, 1986. - 86 с.

34. Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое введение Электронный ресурс. / Д.В.Хмелев. -Дата обновления: 11.03.2003. Режим доступа: http://compression.graphicon.ru/download/ articles/classif/intro.html.

35. Хмелев Д.В. Распознавание автора текста с использованием цепей А. А. Маркова / Д.В. Хмелев // Вестник МГУ, Сер. 9. Филология. 2000. - № 2. -С. 115-126.

36. Хрулев О. Определение автора по тексту на естественном языке Электронный ресурс. / О. Хрулев. Режим доступа: www.geshtalt.ru/psycholingvistauthor.php.

37. Черепанова И.Ю. «Диатон» программа экспертизы текстов внушения Электронный ресурс. / И.Ю. Черепанова. - 1999. — Режим доступа: http://www.vedium.ru.

38. Шаров С.А. Частотный словарь Электронный ресурс. / С.А. Шаров. 2001. - Режим доступа: http://www.artint.ru/projects/frqlist.asp.

39. Шевелев О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие / О.Г. Шевелев. — Томск: TMJI-Пресс, 2007.- 144 с.

40. Шевелев О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений : дис. . канд. техн. наук : 05.13.18. Томск, 2006.- 176 с.

41. Шевелев О.Г. Классификация текстов с помощью деревьев решений и сетей прямого распространения / О.Г. Шевелев, А.В. Петраков // Вестник Том. гос. ун-та. 2006. - № 290. - С. 300-307.

42. Штампомер описание работы программы Электронный ресурс. -2001. - Режим доступа: http://www.shtampomer.narod.ru/manual.html.

43. Abbasi A. Identification and comparison of extremist-group Web forum messages using authorship analysis / A. Abbasi, H. Chen // IEEE Intelligent Systems. 2005. - Vol. 20. - № 5. - P. 67-75.

44. Abbasi A. Visualizing Authorship for Identification / A. Abbasi, H. Chen // Proceedings of the 4th IEEE Symposium on Intelligence and Security Informatics. -2006.-P. 60-71.

45. Abbasi A. Writeprints: A stylometric approach to identity-level identification and similarity detection in cyberspace / A. Abbasi, H. Chen // ACM Transactions on Information Systems. NY : ACM, 2008. - Vol. 26. - № 2, Article 7. - 29 p.

46. Abbasi A. Applying authorship analysis to extremist-group web forum messages / A. Abbasi, H. Chen // IEEE Intelligent Systems. 2005. - Vol. 20. - № 6. -P. 67-75.

47. ACNP Software. Plagiarism search tools Electronic resource., 20032010. - URL: http://www.anticutandpaste.com/antiplagiarist.

48. AmasyahM.F. Automatic Turkish Text Categorization in Terms of Author, Genre and Gender / M.F. Amasyah, B. Diri // NLDB 2006. Berlin : Springer-Verlag, 2006. - Vol. LNCS 3999. - P. 221-226.

49. Apte C. Automated Learning of Decision Rules for Text Categorization / C. Apte, F. Damerau, S. Weiss // ACM Transactions on Information Systems. NY : ACM, 1994. - Vol. 12. - Issue 3. - P. 233-240.

50. Argamon-Engleson A. Style-based text categorization: What newspaper am I reading / A. Argamon-Engleson, M. Koppel, G. Avneri // Proceedings of the AAAI Workshop of Learning for Text Categorization. 1998. - P. 1-4.

51. Argamon S. Measuring the usefulness of function words for authorship attribution Electronic resource. / S. Argamon, S. Levitan // Proceedings of ACH/ALLC Conference. 2005. - URL: http://mustard.tapor.uvic.ca/cocoon/achabstracts/xq/ xhtml.xq?id=l 62.

52. Argamon S. Stylistic text classification using functional lexical features / S. Argamon, C. Whitelaw, P. Chase et al. // Journal of the American Society of Information Science and Technology. 2007. - Vol. 58. - №6. - P. 802-822.

53. Baayen R.H. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution / R.H. Baayen, H.V. Halteren, F.J. Tweedie // Literary and Linguistic Computing. 1996.-Vol. 11.-P. 121-131.

54. Baayen R.H. An experiment in authorship attribution / R.H. Baayen, H.V. Halteren, A. Neijt et al.// Proceedings of JADT 2002. Universit'e de Rennes, St. Malo, 2002.-P. 29-37.

55. Benedetto D. Language Trees and Zipping / D. Benedetto, E. Caglioti, V. Loreto // Phys. Rev. Lett. 2002. - Vol. 88, №4. - P. 487-490.

56. Bloomfield L. WCopyfind 2.1 Electronic resource. / L. Bloomfield -2006. URL: http://www.plagiarism.phys.virginia.edU/WCopyfmd%202.l .html.

57. Brennan M. Practical Attacks Against Authorship Recognition Techniques Electronic resource. / M. Brennan, R. Greenstadt // Proceedings of HAR-2009. 2009. - URL: https://har2009.org/program/attachments/43brennangreenstadtstylo-metry.pdf.

58. Burges C.J.C. A tutorial on support vector machines for pattern recognition / C.J.C. Burges // Data Mining and Knowledge Discovery. 1998. -Vol. 2. - № 2. - P. 955-974.

59. Burrows J. "An ocean where each kind.": Statistical analysis and some major determinants of literary style / J.F. Burrows // Computers and the Humanities. 1989.-Vol. 23.- №4. -P. 309-321.

60. Burrows J. All the way through: Testing for authorship in different frequency data / J.F. Burrows // Literary and Linguistic Computing. — 2007. -Vol. 22. — №1. — P.27-47.

61. Calix K. Stylometry for E-mail Author Identification and Authentication Electronic resource. / K. Calix, M. Connors, D. Levy // Proceedings of CSIS Research Day, Pace University, May 2008. 2008. - URL: http://csis.pace.edu/~ctappert/srd2008/c2.pdf.

62. Cavnar W. N-gram-based text categorization Electronic resource. / W. Cavnar, J. Trenkle // Proceedings SDAIR-94. 1994. - URL: http://citeseerx.ist.psu.edu/iewdoc/download?doi=TO. 1.1.21.3248&rep=repl&type=p df.

63. CFL Software Limited for advanced document search and analisys Electronic resource. 2009. - URL: http://www.cflsoftware.com.

64. Chaski C.E. Empirical evaluations of language-based author identification /С.Е. Chaski//Forensic Linguistics.-2001.-Vol. 8.-№ l.-P. 1-65.

65. Chaski C.E. Who's at the keyboard: Authorship attribution in digital evidence investigations Electronic resource. / C.E. Chaski // International Journal of Digital Evidence. 2005. - Vol. 4. - № 1. - URL: http://www.ijde.org.

66. Chen S.F.J. An empirical study of smoothing techniques for language modeling / S.F.J. Chen, J. Goodman // Computer Speech & Language. 1999. -Vol. 13.-№4.-P. 359-393.

67. Cilibrasi R. Clustering by compression Electronic resource. / R. Cilibrasi, P. Vitanyi // CWI manuscript. 2003. - URL: http://homepages.cwi.nl/cilibrar.

68. Corney M. Identifying the Authors of Suspect E-mail Electronic resource. / M. Corney, A. Anderson, G. Mohay et al. // Computers and Security. -2001. URL: http://eprints.qut.edu.aU/8021/l/CompSecurityPaper.pdf.

69. Corney M. Gender-Preferential Text Mining of E-mail Discourse / M. Corney, O. de Vel, A. Anderson // Proceedings of 18th Annual Computer Security Applications Conference (ACSAC *02). 2002. - P. 282.

70. De Vel O. Mining e-mail content for author identification forensics / O. De Vel, A. Anderson, M. Corney et al. // ACM SIGMOD. NY : ACM, 2001. -Rec. 30. -№4. -P. 55-64.

71. Diederich J. Authorship attribution with support vector machines / J. Diederich, J. Kindermann, E. Leopold // Applied Intelligence. Springer Netherlands, 2003.-Vol. 19.-№1-2.-P. 109-123.

72. Dumais S.T. Inductive learning algorithms and representations for texts categorization / S.T. Dumais, J. Piatt, D. Heckerman et al. // Proceedings of ACM-CIKM98m. NY : ACM, 1998. - P. 148-155.

73. Efimovich S.G. Automatic search of indicators of text authorship / S.G. Efimovich, S.O. Gennadyevich // Proceedings of The 7th Korea-Russia International Symposium on Science and Technology (KORUS 2003). 2003. -Vol. 2.-P. 185-188.

74. Efron B. Estimating the number of unseen species: How many words did Shakespeare know? / B. Efron, R. Thisted // Biometrika. 1976. - Vol. 63. - № 3. -P. 435—447.

75. Efron В. Did Shakespeare write newly-discovered poem? / B. Efron, R. Thisted // Biometrika. 1987. - Vol. 74. - № 3. - P. 445-455.

76. Elliot W. Was the Earl of Oxford the true Shakespeare? / W. Elliot, R. Valenza//Notes and Queries. 1991.-Vol. 38.-P. 501-506.

77. EVE Plagiarism Detection System Electronic resource. URL: http://www.canexus.com.

78. Fahlman S.E. The cascade-correlation learning architecture / S.E. Fahlman, C. Lebiere // Advances in Neural Information Processing Systems. -San Fransisco : Morgan Kaufmann, 1990. №2. - 524-532.

79. Fahlman S.E. Faster-Learning Variations on Back-Propagation: An Empirical Study / S.E. Fahlman // Proceedings of Connectionist Models Summer School. Los Altos : Morgan Kaufmann, 1998. - 19 p.

80. Farringdon J.M. Analyzing for Authorship / J.M. Farringdon with contributions by Morton A.Q., Farringdon M.G., Baker M.D. Cardiff: University of Wales Press, 1996.-324 p.

81. Fast Artificial Neural Network Library (FANN) Electronic resource. -2005. URL: http://leenissen.dk/fann.

82. Fisher R.A. Combining independent tests of significance / R.A. Fisher // American Statistician. 1948. - Vol. 2. - № 5. - P. 30.

83. Foster D. Author Unknown: Adventures of a Literary Detective / D. Foster. London : Owl Books, 2000. - 320 p.

84. Frank E. Text categorization using compression models / E. Frank, C. Chui, I.H. Witten edited by J.A. Storer et al. // Proceedings IEEE Data Compression Conference, Snowbird, US. Los Alamitos : IEEE Press, 2000. - P. 200-209.

85. Grant T. Identifying reliable, valid markers of authorship: A reponse to Chaski / T. Grant, K. Baker // Forensic Linguistics. 2001. - Vol. 8. - № 1. -P. 66-79.

86. Green T.R.G. The necessity of syntax markers: Two experiments with artificial languages / T.R.G. Green // Journal of Verbal Learning and Verbal Behavior. 1979. - Vol. 18. - P. 481-96.

87. Grieve J. Quantitative Authorship Attribution: An Evaluation of Techniques / J. Grieve // Literary and Linguistic Computing. 2007. - Vol. 22. -№3. - P. 251-270.

88. Hadi W.M. A Comprehensive Comparative Study Using Vector Space Model with K-Nearest Neighbour on Text Categorization Data / W.M. Hadi, F. Thabtah, S. Mousa // Asian Journal of Information Management. 2008. - Vol. 2.- №1. P. 14-22.

89. Halteren H. New machine learning methods demonstrate the existence of a human stylome / H. Halteren, R.H. Baayen, F. Tweedie et al. // Journal of Quantitative Linguistics. 2005. - Vol. 12. - № 1. - P. 65-77.

90. Hoehfeld M. Learning with limited numerical precision using the cascade-correlation algorithm / M. Hoefeld, S.E. Fahlman // IEEE Transactions on Neural Networks. 1992. - Vol. 3. - № 4. - P. 602-611.

91. Holmes D., Forsyth R. The Federalist revisited: New directions in authorship attribution / D. Holmes, R. Forsyth // Literary and Linguistic Computing.- 1995.-Vol. 10. -№ 2. P. 111-127.

92. HoornJ. Neural network identification of poets using letter sequences / J. Hoorn, S. Frank, W. Kowalczyk et al. // Literary and Linguistic Computing. -1999.-Vol. 14. -№3. -P. 311-338.л

93. Hoover D.L. Delta prime? / D.L. Hoover // Literary and Linguistic Computing. 2004. - Vol. 19. - № 4. - P. 477-495.

94. Hsu C.-W. A practical guide to support vector classification Electronic resource. / C.-W. Hsu, C.-C. Chang, C.-J. Lin. 2003. - URL: http://www.csie.ntu.edu.tw/~cjlin/ papers/guide/guide.pdf.

95. Hsu C.-W. A comparison of methods for multi-class support vector machines / C.-W. Hsu, C.-J. Lin // IEEE Transactions on Neural Networks. 2003. -Vol. 13.-№ 2.-P. 415-425.

96. IBM DB2 Intelligent Miner Electronic resource. 2005. - URL: http://www-01. ibm.com/software/ru/data/db2bi/minerintelligent.html.

97. Jelinek F. Up from trigrams! The struggle for improved language models / F. Jelinek // Proceedings of Eurospeech 91. - Genova, 1991. - Vol. 3. -P. 1037-1040.

98. JGAAP Documentation Electronic resource. 2007. - URL: http://www.mathcs.duq.edu/~fa05ryan/wiki/index.php/Documentation.

99. Joachims T. Text Categorization With Support Vector Machines: Learning With Many Relevant Features / T. Joachims // Proceedings of ECML-98, 10th European Conference on Machine Learning. 1998. -№ 1398. - P. 137-142.

100. Juola P. Cross-Entropy and Linguistic Typology / P. Juola // Proceedings of New Methods in Language Processing 3. ACL, 1998. - P. 141-149.

101. Juola P. Measuring linguistic complexity: The morphological tier / P. Juola // Journal of Quantitative Linguistics. 1998. - Vol. 5. - № 3. - P. 206-213.

102. Juola P. A Controlled-Corpus Experiment in Authorship Identification by Cross-Entropy / P. Juola, H. Baayen // Literary and Linguistic Computing. Oxford: Oxford University Press, 2005. - Vol. 20. - P. 59-67.

103. Juola P. A Prototype for Authorship Attribution Studies / P. Juola, J. Sofko, P. Brennan // Literary and Linguistic Computing. 2006. - Vol. 21. - № 2. -P. 169-178.

104. KarrJ.R. Scientific Authorship, Collaboration, Interdisciplinarity, and Productivity Electronic resource. / J.R. Karr, J.J. Hughey, Т.К. Lee. 2008. - URL: http://covertlab.stanford.edu/projects/ScienceGenealogy.

105. KatzS.M. Estimation of probabilities from sparse data for the language model component of a speech recognizer / S.M. Katz // IEEE Transactions on Acoustics, Speech and Signal Processing. 1987. - Vol. 35. - № 3. - P. 400-401.

106. Khosmood F. Automatic Source Attribution of Text: A Neural Networks Approach / F. Khosmood, F. Kurfess // Proceedings of IEEE International Joint Conference on Neural Networks (IJCNN). 2005. - Vol. 5. - P. 2718-2723.

107. Kjell B. Authorship attribution of text samples using neural networks and Bayesian classifiers / B. Kjell // IEEE International Conference on Systems, Man and Cybernetics, San Antonio, TX. 1994.

108. Kjell B. Authorship determination using letter pair frequencies with neural network classifiers / B. Kjell // Literary and Linguistic Computing. 1994. - Vol. 9. - № 2. - P. 119-124.

109. Kjell B. Discrimination of authorship using visualization / B. Kjell, W.A. Woods, O. Frieder // Information Processing and Management. 1994. -Vol. 30.-№ 1.- P. 141-150.

110. Koppel M. Automatically categorizing written texts by author gender / M. Koppel, S. Argamon, A.R. Shimoni // Literary and Linguistic Computing. 2002. -Vol. 17. - № 4. - P. 401^412.

111. Koppel M. Authorship verifcation as a one-class classification problem / M. Koppel, J. Schler // Proceedings of the 21st International Conference on Machine Learning. Banff, Canada. NY : ACM Press, 2004. - P. 489-495.

112. Koppel M. Exploiting stylistic idiosyncrasies for authorship attribution / M. Koppel, J. Schler // Proceedings of IJCAI'03 Workshop on Computational

113. Approaches to Style Analysis and Synthesis, Acapulco, Mexico, 2003. 2003. -P. 69-72.

114. Kruh L. A basic probe of the Beale cipher as a bamboozlement: Part I / L. Kruh // Cryptologia. 1982. - Vol. 6. -№ 4. - P. 378-382.

115. Kukushkina O.V. DicTUM-1, a system for dictionary-text universal manipulations and analysis Electronic resource. / O.V. Kukushkina, A.A. Polikarpov. Last updated: 10/31/2003. - URL: http://www.philol.msu.ru/~lex/articles/dictum.htm.

116. Lowe D. Shakespeare vs. Fletcher: A stylometric analysis by Radial Basis Functions / D. Lowe, R. Matthews // Computers and the Humanities. Springer Netherlands, 1995.-Vol. 29. - P. 449-461.

117. Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information / H.P. Luhn // IBM Journal of Research and Development. -1957.-Vol. l.-№4.-P. 309-317.

118. Luyckx K. Authorship Attribution and Verification with Many Authors and Limited Data / K. Luyckx, W. Daelemans // Proceedings of the 22nd International Conference on Computational Linguistics (COLING '08). 2008. -P. 513-520.

119. Malyutov M.B. Authorship attribution of texts: a review / M.B. Malyutov // Lecture Notes in Computer Science. 2006. - Vol. 4123. - General Theory of Information Transfer and Combinatorics. - P. 362-380.

120. Malyutov M.B. Conditional Complexity of Compression for Authorship Attribution / M.B. Malyutov, C.I. Wickramasinghe, S. Li // SFB 649 Discussion Paper. 2007. - № 57. - 38 p.

121. Martindale C. On the utility of content analysis in author attribution: The federalist / C. Martindale, D. McKenzie // Computers and the Humanities. 1995. -Vol. 29.-P. 259-270.

122. Matthews R.A.J. Neural computation in stylometry I: An application to the works of Shakespeare and Fletcher / R.A.J. Matthews, T.V.N. Merriam // Literary and Linguistic Computing. 1993. - Vol. 8. - № 4. - P. 203-209.

123. Matthews R.A.J. Neural computation in stylometry II: An application to the works of Shakespeare and Marlowe / R.A.J. Matthews, T.V.N. Merriam // Literary and Linguistic Computing. 1994. - Vol. 9. - № 1. - P. 1-6.

124. Mendenhall T.A. The characteristic curves of composition / T.A. Mendenhall // Science. 1887. - № 11. - P. 237-249.

125. Mendenhall T.A. A mechanical solution to a literary problem / T.A. Mendenhall //Popular Science Monthly. 1901. -№ 60. - P. 97-105.

126. Migletz J. Automated metadata extraction Electronic resource. / J. Migletz. 2008. - URL: http://simson.net/clips/students/ 08JunMigletz.pdf.

127. Morton A.Q. Literary Detection: How to Prove Authorship and Fraud In Literature and Documents / A.Q. Morton. New York : Scribner's, 1978. - 221 p.

128. Morton A.Q. The Authorship of Greek Prose / A.Q. Morton // Journal of the Royal Statistical Society (A). 1965. - Series A. - № 128. - pp. 169-233.

129. Mosteller F. Inference and Disputed Authorship: The Federalist / F. Mosteller, D.L. Wallace. Reading, MA : Addison-Wesley, 1964 - 287 p.

130. Mozgovoy M. Desktop Tools for Offline Plagiarism Detection in Computer Programs / M. Mozgovoy // Informatics in Education. 2006. - Vol. 5. -№ l.-P. 97-112.

131. Nigam K. Using Maximum Entropy for Text Classification / K. Nigam, J. Lafferty, A. McCallum // IJCAI-99 Workshop on Machine Learning for Information Filtering. 1999. - P. 61-67.

132. Nowson S. Identifying more bloggers: Towards large scale personality classifiation of personal weblogs Electronic resource. / S. Nowson, J. Oberlander. -2007. URL: http://nowson.com/papers/NowOberICWSM07.pdf

133. Oakes M. Text categorization: Automatic discrimination between US and UK English using the chi-square text and high ratio pairs / M. Oakes // Research in Language.-2003.-Vol. l.-P. 143-156.

134. Oman W.P. Programming style authorship analysis / W.P. Oman, R.C. Cook // Proceedings of the 17th Annual ACM Computer Science Conference. -NY : ACM Press, 1989. P. 320-326.

135. Pasqualoni A. Author attribution using neural networks Electronic resource. 2006. - URL: http://home.southernct.edu/~pasqualonial/sonnet/report.html.

136. Patton J.M. A Stylometric Analysis of Yasar Kemal's 'Ince Memed' Tetralogy / J.M. Patton, F. Can // Computers and the Humanities. Spinger, 2004. -Vol. 38.-№4.-P. 457-467.

137. Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine / K. Pearson -1901.- №2. P. 559-572.

138. Peng F. Combining Naive Bayes and n-Gram Language Models for Text Classification / F. Peng, D. Schuurmans // Lecture Notes in Computer Science.2003. Vol. 2633. - P. 335-350.

139. Peng F. Augumenting Naive Bayes Text Classifier with Statistical Language Models / F. Peng, D. Schuurmans, S. Wang // Information Retrieval.2004.-Vol. 7.-№3-4.- P. 317-345.

140. Peng F. Language independent authorship attribution using character level language models / F. Peng, D. Schuurmans, S. Wang et al. // Proceedings of the 10th conference on European chapter of the ACL. 2003. - Vol. 1. - P. 267-274.

141. Peng R.D. Quantitative analysis of literary styles / R.D.Peng, N.W. Hengartner // The American Statistician. 2002. - Vol. 56. - № 3. -P. 175-185.

142. Piatt J.C. Fast training support vector machines using sequential minimal optimization / J.C. Piatt, ed. by B. Scholkopf et al. // Advances in Kernel Methods. -MIT Press, 1999.-P. 185-208.

143. Porter M.F. Russian stemming algorithm Electronic resource. / M.F. Porter. URL: http://snowball.tartarus.org/algorithms/ russian/stemmer.html.

144. Quinlan J.R. Induction of decision trees / J.R. Quinlan // Machine Learning. 1986. - Vol. 1. - № 1. - P. 81 -106.

145. Rudman J. The state of authorship attribution studies: Some problems and solutions // Computers and the Humanities. 1998. - Vol. 31. - P. 351-365.

146. Scholkopf В. Estimating the support of a high-dimensional distribution Electronic resource. / B. Scholkopf, J.C. Piatt, J. Shawe-Taylor et al. // Tech. report, MSR-TR-99-87. 1999. - URL: http://axiom.anu.edu.au/~williams/papers/P132.pdf.

147. Shannon C.E. A mathematical theory of communication / C.E. Shannon // Bell System Technical Journal. 1948. - Vol. 27. - № 4. - P. 379^123.

148. Simpson E.H. Measurement of Diversity / E.H. Simpson // Nature. -Macmillan Publishers Ltd, 1949. -№ 163. P. 688.

149. Stamatatos E. Author identification using imbalanced and limited training texts / E. Stamatatos // Porceedings of the 18th International Conference on Database and Expert Systems Applications. 2007. - P. 237-241.

150. Stamatatos E. Computer-based authorship attribution without lexical measures / E. Stamatatos, N. Fakotakis, G. Kokkinakis // Computers and the Humanities.-2001.-Vol. 35.-№2.-P. 193-214.

151. Stanczyk U. Machine learning approach to authorship attribution of literary texts / U. Stanczyk, K.A. Cyran // International journal of applied mathematics and informatics. -2007. -Issue 4. Vol. 1. - P. 151-158.

152. Stastny J. Genetic algorithm and neural network / J. Stastny, V. Skorpil // Proceedings of the 7th WSEAS International Conference on Applied Informatics and Communications. 2007. - P. 345-350.

153. Stein B. Intrinsic Plagiarism Analysis with Meta Learning / B. Stein, S.M. Eissen // SIGIR Workshop on Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN 07). 2007. - P. 45-50.

154. Teahan W.J. Using compression-based language models for text categorization / W.J. Teahan, D.J. Harper, ed. J. Callan et al. // Workshop on Language Modeling and Information Retrieval, ARDA. 2001. - P. 83-88.

155. Teahan W.J. A Compression-based Algorithm for Chinese Word Segmentation / W.J. Teahan, Y.Y. Wen, R. McNab et al. // Computational Linguistics. 2000. - Vol. 26.-№3.-P. 375-393.

156. Text mining with SAS Text Miner Electronic resource. 2009. - URL: http://www.sas.com/technologies/analytics/datamining.

157. TextAnalyst Electronic resource. 2007. - URL: http://www.megaputer.ru.

158. The risks of metadata and hidden information. Electronic resource. -2007. URL: http://www.stg.srs.com/eds/docdet/archive/bitfoimFortune 100Study.pdf.

159. Turnitin Electronic resource. 2010. - URL: http://www.turnitin.com.

160. Tweedie F.J. How Variable may a Constant be? Measures of Lexical Richness in Perspective / F.J. Tweedie, H. Baayen // Computers and the Humanities. Springer, 1998. - Vol. 32. - № 5. - P. 323-352.

161. Tweedie FJ. Neural network applications in stylometry: The Federalist Papers / F.J. Tweedie, S. Singh, D.I. Holmes // Computers and the Humanities. -1996.-Vol. 30.-№ l.-P. 1-10.

162. Vapnilc V. Statistical Learning Theory / V. Vapnik. New York: Wiley, 1998.-732 p.

163. Warren R. Vocabulary size and email authentication / R. Warren // Technical Report CS-2005-17, University of Waterloo, 2005. 9 p.

164. Waugh S. Computational stylistics using Artificial Neural Networks / S. Waugh, A. Adams, F.J. Tweedie // Literary and Linguistic Computing. 2000. -Vol. 15.-№2.-P. 187-198.

165. What is Plagiarism Detector? Electronic resource. 2005-2009. - URL: http://www.plagiarism-detector.com/what-is-plagiarism-detector.php.

166. Yule G.U. The Statistical Study of Literary Vocabulary / G.U. Yule. -Cambridge University Press, 1944. 306 p.

167. Zhao Y. Entropy-based authorship search in large document collections / Y. Zhao, J. Zobel // Proceedings of the ECIR European Conference on Information Retrieval. Springer, 2007. - P. 381-392.

168. Zheng R. A framework for authorship analysis of online messages: Writing-style features and techniques / R. Zheng, J. Li, Z. Huang et al. // Journal of the American Society for Information Science and Technology. 2006. - Vol. 57. -№3.-P. 378-393.

169. Министерство образования и науки Российской Федерации Федеральное агентство по образованию Томский государственный университет систем управления и радиоэлектроники1. ТУСУР)1. На правах рукописи

170. Романов Александр Сергеевич

171. МЕТОДИКА И ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ИДЕНТИФИКАЦИИ АВТОРА НЕИЗВЕСТНОГО ТЕКСТА1. Том 2

172. Специальность 05.13.18 Математическое моделирование, численныеметоды и комплексы программю Диссертация на соискание ученой степени кандидата технических наукю1. CD 1. О Я

173. Научный руководитель доктор технических наук,

174. СО профессор Шелупанов А.А.1. Томск-20101. ОГЛАВЛЕНИЕ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.