Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет

Крутояров, Дмитрий Владимирович

Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет тема диссертации и автореферата по ВАК РФ 05.13.06, кандидат технических наук Крутояров, Дмитрий Владимирович

Крутояров, Дмитрий Владимирович
кандидат технических наук
2006

Специальность ВАК РФ05.13.06

Количество страниц 191

Крутояров, Дмитрий Владимирович. Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет: дис. кандидат технических наук: 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям). Москва. 2006. 191 с.

Оглавление диссертации кандидат технических наук Крутояров, Дмитрий Владимирович

ВВЕДЕНИЕ.

1. Анализ предметной области и постановка задачи.

1.1. Истоки авторского права и ответственности за его нарушение.

1.2. Виды нарушения авторских прав.

1.3. Проблема нарушения авторских прав.

1.4. Обзор систем и сервисов поиска плагиата.

1.5. Способы защиты электронных изданий от плагиата в Интернете.

1.6. Автоматизация обработки текстовой информации.

1.7. Постановка задачи.

1.8. Выводы.

2. Методы и алгоритмы анализа, представления и сравнения текстовой информации.

2.1. Методы анализа текстовой информации.

2.2. Методы защиты от копирования текстовой информации в Интернете.

2.3. Обзор уровней лингвистической обработки текстовой информации.

2.4. Определение возможности использования кластерного анализа.

2.5. Оценка целесообразности использования графовой модели.

2.6. Исследование возможности использования авторского инварианта.

2.7. Возможность применения стеганографии.

2.8. Теория нечётких множеств.

2.9. Алгоритмы поиска точного совпадения.

2.10. Алгоритмы поиска общих подпоследовательностей.

2.11. Методы поиска максимальной повторяющиеся подстроки.

2.12. Алгоритмы вычисления расстояния между строками.

2.13. Алгоритмы нечёткого поиска.

2.14. Обоснование выбора метода анализа текстовой информации.

2.15. Выводы.

3. Разработка метода поиска текстовых документов с заимствованиями в глобальной сети Интернет.

3.1. Метод получения потенциально похожих документов.

3.2. Метод сравнения текстовых документов.

3.3. Метод уменьшения размерности сравниваемых текстов.

3.4. Алгоритм формирования результатов сравнения документов.

3.5. Выводы.

4. Программная реализация автоматизированной системы поиска заимствований в электронных изданиях, опубликованных в сети Интернет «WebCompare».

4.1. Обоснование выбора используемой поисковой системы.

4.2. Обоснование выбора поддерживаемых AC WebCompare форматов документов.

4.3. Обоснование выбора используемой СУБД.

4.4. Обоснование выбора инструментального средства разработки АС.

4.5. Создание базы данных.

4.6. Архитектура программного комплекса.

4.7. Краткое описание программной реализации.

4.8. Краткое описание основных модулей АС.

4.9. Функциональные возможности программного комплекса.".

4.10. Механизм взаимодействия модулей. Алгоритм работы АС.

4.11. Планирование эксперимента.

4.12. Описание тестовых наборов.

4.13. Результаты экспериментальных исследований.

4.14. Выводы.

Введение диссертации (часть автореферата) на тему «Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет»

Актуальность темы исследования. Проблемой исследования текстовых произведений занимаются многие века, но лишь в 1851 году английский логик Август де Морган впервые предложил использовать математический аппарат для решения задачи установления авторства. Тем самым Морган породил непрерывающуюся дискуссию о применимости математических методов для задач анализа текстовой информации [104].

Актуальность автоматизации поиска заимствований в электронных изданиях обусловлена проблемой нарушения авторских прав. В настоящее время нелегальное распространение произведений, являющихся объектом авторского права - явление обыденное. Однако Интернет позволил максимально упростить саму процедуру нарушения до буквально двух-трех нажатий клавиш. Одни и те же материалы многократно копируются на разных сайтах, что невозможно без нарушения норм авторского права. Кроме того, проблема незаконного заимствования текстовых материалов затрагивает и систему высшего образования. Благодаря тому, что в глобальной сети Интернет опубликованы, в некоторых случаях незаконно, многие электронные издания, а также в силу незнания действующего законодательства в области авторского права, многие считают возможным копировать фрагменты опубликованных в сети Интернет электронных изданий, с последующим присвоением авторства. По данным, опубликованным Education Week (http://www.plagiarism.org/plagiarismstats.html), основанным на национальном исследовании (USA) следует, что 54% студентов незаконно используют в своих работах материалы, опубликованные в сети Интернет. Стоит также отметить, что 47% студентов считают, что их преподаватели часто игнорируют случаи плагиата в студенческих работах. Центр Академической Честности (The Center for Academic Integrity) обнаружил, что 80% студентов признаются в плагиате, совершённом хотя бы однажды.

С каждым годом все больше изданий переводится в электронную форму [87]. Одни из них публикуются на компакт дисках, другие - в глобальной сети Интернет. При этом практически любое электронное издание, в том числе и опубликованное в сети Интернет, является объектом авторского права.

В настоящее время, многие ошибочно считают, что материалы, опубликованные в глобальной сети Интернет можно копировать, не заботясь об исключительных правах автора. Статья 9 закона об «Авторском праве и смежных правах» гласит: «Для возникновения и осуществления авторского права не требуется регистрации произведения, иного специального оформления произведения или соблюдения каких-либо формальностей».

В настоящее время в мире существует значительное количество систем, позволяющих осуществлять поиск заимствований (обзор систем представлен в четвёртом разделе первой главы диссертационной работы), однако в России разработки в данном направлении ведутся не так давно. Система анализа текстов на наличие заимствований Antiplagiat.ru весной 2005 года впервые в России предложила набор услуг, в совокупности реализующих технологию проверки документов на наличие заимствований из общедоступных сетевых источников1. Основным недостатком существующей системы является ограниченность области поиска документов с заимствованиями, которая включает в себя лишь документы, ранее загруженные из сети Интернет, прошедшие процедуру фильтрации и занесённые в системную базу данных2.

Актуальность исследования заключается в необходимости создания методов и автоматизированного инструментария, позволяющих осуществлять эффективный и адекватный поиск ЭИ, опубликованных в сети Интернет, содержащих заимствования.

Предмет и объект исследования. Объектом исследования являются системы, позволяющие производить поиск заимствований в текстовом материале, опубликованном в глобальной сети Интернет. Предметом исследования и разработки является множество методов и алгоритмов, позволяющих осуществлять поиск заимствований в текстовом материале, а также алгоритмическое обеспечение систем поиска заимствований в текстовой информации, опубликованной в глобальной сети Интернет.

Цель и задачи исследования. Целью диссертационной работы является создание автоматизированной системы, а также разработка методов и алгоритмов, позволяющих производить поиск заимствований в текстовой информации, опубликованной в глобальной сети Интернет. Для достижения цели были решены следующие задачи:

1 http://www.antiplagiat.ru/

2 http://www.antiplagiat.ru/show.php?doc=technology

• обзор программных систем, позволяющих производить поиск заимствований в сети Интернет;

• анализ методов и способов, позволяющих защищать электронные документы от несанкционированного копирования;

• разработка методов и алгоритмов, позволяющих осуществлять поиск заимствований в ЭИ, опубликованных в сети Интернет;

• разработка метода поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный документ;

• исследование частоты использования словосочетаний и устойчивых выражений в электронных документах, связанных с полиграфией и издательским делом;

• программная реализация разработанных и предложенных методов и алгоритмов поиска заимствований в ЭИ, опубликованных в сети Интернет;

• исследование скорости и эффективности разработанных методов поиска заимствований.

Методы исследования. В представленной работе были использованы: теория множеств, теория фильтров, теоретико-вероятностные методы и методы концептуального анализа [3], а также внелингвистический контент-анализ в сочетании с элементами нечёткого сравнения, лексического и синтаксического анализа.

При создании программного комплекса, а также при исследовании алгоритмов сравнения текстовой информации применялись методы объектно-ориентированного программирования (ООП), объектно-компонентного программирования (ОКП), динамического программирования, структурного и модульного программирования, теория баз данных.

Оценка теоретической значимости результатов работы. Полученные методы и алгоритмы являются теоретической основой для создания автоматизированной системы поиска заимствований в электронных изданиях, опубликованных в глобальной сети Интернет. Предложенные методы позволяют производить сравнение текстового материала, опираясь сразу на два ортогональных метода (внелингвистический и лингвистический). Комбинация внелингвистического контент-анализа в сочетании с элементами лексического и синтаксического анализа позволяет по-новому подойти к проблеме сравнения текстовых фрагментов для выявления заимствований.

Практическая значимость работы. Практическая ценность диссертационной работы заключается в разработанных методах, которые прошли, в ходе тестовых испытаний, исследование на скорость и эффективность. Разработанные методы решения задачи поиска заимствований позволяют значительно сократить время, затрачиваемое на ручной анализ документов в сети Интернет, для определения текстовых документов с заимствованиями. Программный комплекс «WebCompare», разработанный с использованием результатов представленной диссертационной работы, позволяет производить поиск электронных изданий, опубликованных в сети Интернет, содержащих заимствования. Тестирование АС показало высокую эффективность разработанного в рамках диссертационного проектирования метода поиска заимствований, о чём свидетельствуют данные, представленные в четвёртой главе и приложениях. Также определён размер документов (от 3-5 до 30 Кб), для которых использование разработанного программного комплекса является наиболее эффективным. В среднем, для документов с оговоренным ранее размером при использовании разработанного двухуровневого метода время сравнения снижается на 30-70% по сравнению с обычным одноуровневым сравнением.

Разработанный программный комплекс «WebCompare» зарегистрирован в Международном Центре сертификации результатов интеллектуальной деятельности (получен сертификат регистрации объекта интеллектуальной собственности SRI № RU02R1RU20060049 от 25.09.2006).

Достоверность полученных результатов и выводов. Достоверность полученных результатов подтверждается использованием проверенных математических методов. Реализованная в рамках диссертационной работы программная система показала на практике эффективность предложенных методов и алгоритмов для поиска заимствований в ЭИ, опубликованных в сети Интернет. Достоверность и эффективность подтверждена представленными актами о внедрении.

Научная новизна и значимость работы. В диссертационной работе решена научно-практическая задача автоматизации поиска заимствований в ЭИ, опубликованных в сети Интернет. Разработаны и программно реализованы методы и алгоритмы, позволяющие производить поиск заимствований в текстовом материале, опубликованном в глобальной сети Интернет. Получены новые научные результаты:

• разработан двухуровневый метод поиска заимствований в электронных изданиях, опубликованных в сети Интернет, позволяющий сократить время сравнения документов, содержащих от 5 до 30 Кб текстовой информации, в среднем на 50%;

• разработан метод поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный документ;

• разработан алгоритм поиска в верхней треугольной матрице последовательностей, параллельных главной диагонали, максимально покрывающих ось абсцисс, не перекрывающимися проекциями, позволяющий формировать последовательности слов для двухуровневого метода поиска заимствований;

• разработана архитектура и программно реализована автоматизированная система поиска заимствований в электронных изданиях, позволяющая осуществлять поиск плагиата в электронных документах, опубликованных в сети Интернет, а также расположенных на локальных носителях информации.

Основные положения, выносимые на защиту:

• метод поиска заимствований в ЭИ, опубликованных в сети Интернет;

• метод поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный;

• автоматизированная система поиска заимствований в ЭИ, опубликованных в сети Интернет «WebCompare»;

• оценка скорости работы и эффективности программно реализованной автоматизированной системы поиска заимствований.

Апробация результатов работы. Основные положения диссертационной работы и результаты исследований были представлены на конференциях и заседаниях:

• 58-я и 59-я научно-техническая конференция Московского государственного университета печати;

• конференция студентов и аспирантов МГУП;

• заседания кафедры «Информационные технологии» МГУП.

Внедрение автоматизированной системы. Разработанный программный комплекс был внедрён в одном из крупнейших издательств на территории РФ, специализирующемся на выпуске электронных изданий: Директме-диа Паблишинг. Автоматизированная система также прошла внедрение на кафедре «Информационные технологии», в Московском государственном университете печати.

Публикации. Основные результаты диссертационной работы были представлены в 7 работах, опубликованных в журналах, сборниках и вузовских изданиях Российской Федерации. Получен сертификат регистрации объекта интеллектуальной собственности в Международном Центре сертификации результатов интеллектуальной деятельности.

Структура и объём диссертации. Диссертационная работа состоит из введения, 4 глав, заключения, библиографического списка, 9 приложений.

Заключение диссертации по теме «Автоматизация и управление технологическими процессами и производствами (по отраслям)», Крутояров, Дмитрий Владимирович

4.14. Выводы

1. Обоснован выбор используемой поисковой системы в разработанной АС, а также выбор поддерживаемых программным комплексом WebCompare форматов документов.

2. Разработана и программно реализована автоматизированная система поиска заимствований в электронных изданиях, позволяющая осуществлять поиск плагиата в электронных документах, опубликованных в сети Интернет, а также расположенных на локальных носителях информации. При проектировании АС были использованы разработанные и представленные в диссертационной работе методы и алгоритмы, позволяющие проводить анализ и сравнение текстовой информации.

3. Разработана и описана архитектура, а также основные компоненты и модули разработанного программного комплекса WebCompare.

4. Создана база данных, содержащая наиболее часто употребляемые словосочетания и выражения в корпусе текстов Ф = х1,х2,.,х^, позволившая осуществлять фильтрацию последовательностей в разработанном методе двухуровневого сравнения текстовых документов.

5. Проведены экспериментальные исследования, показавшие увеличение скорости сравнения текстовых документов размером от 5 до 30 КБ в среднем на 50%. Результаты экспериментов представлены в данной работе, а также в приложениях.

6. Данные, полученные в ходе экспериментальных исследований, позволяют оценить эффективность и адекватность предложенных и разработанных методов, направленных на поиск и выявление заимствований в электронных изданиях, опубликованных в сети Интернет. Также определен размер текстовых документов, при котором наиболее эффективно и целесообразно использование разработанных методов.

7. Проведена апробация работы и внедрение разработанной системы, показавшие эффективность метода поиска и обнаружения заимствований, разработанной в рамках диссертационной работы, автоматизированной системой WebCompare.

ЗАКЛЮЧЕНИЕ

1. Проведено исследование истоков авторского права, а также ответственности за незаконное присвоение авторства. Представлена информация о действующем законодательстве в области авторского права, подтверждающая наличие правовой основы для разрешения вопросов, связанных с незаконным присвоением авторских прав. Также проведена классификация видов нарушения авторских прав.

2. Проведён обзор, существующих на момент написания диссертационной работы программных систем и сервисов поиска заимствований и плагиата. Представлен обзор систем, позволяющих выявлять заимствования и плагиат в исходных текстах программных продуктов.

3. Проанализированы методы представления и сравнения текстовой информации, применимые для решения задачи диссертационной работы. Рассмотрена эффективность и адекватность применения рассмотренных методов для решения поставленных задач. Исследована возможность применения кластерного анализа, графовой модели, авторского инварианта, стеганографии, теории нечётких множеств.

4. Рассмотрены методы и алгоритмы поиска максимальной повторяющейся подстроки, а также поиска общих подпоследовательностей. Проведён обзор уровней лингвистической обработки текстовой информации, в частности, морфологический, синтаксический и семантический уровни. Проведено обоснование выбора метода анализа текстовой информации.

5. Разработан двухуровневый метод поиска заимствований в электронных изданиях, опубликованных в сети Интернет, позволяющий сократить время сравнения документов, содержащих от 5 до 30 Кб текстовой информации, в среднем на 50%. Рассмотрена возможность введения в алгоритм сравнения, весовых функций, позволяющих повысить эффективность разработанного метода.

6. Разработан метод уменьшения размерности текстового документа, являющийся основой в двухуровневом методе сравнения текстовой информации.

7. Разработан алгоритм поиска в верхней треугольной матрице последовательностей, параллельных главной диагонали, максимально покрывающих ось абсцисс не перекрывающимися проекциями, позволяющий формировать последовательности слов для двухуровневого метода поиска заимствований.

8. Разработан алгоритм формирования объединённых результатов сравнения текстовых документов, позволяющий определять итоговую оценку объёма заимствования при разбиении исходного текстового материала на незначительные фрагменты в разных текстовых документах, опубликованных в сети Интернет.

9. Разработана и программно реализована автоматизированная система поиска заимствований в электронных изданиях, позволяющая осуществлять поиск плагиата в электронных документах, опубликованных в сети Интернет, а также расположенных на локальных носителях информации, в отличие от крупнейшей отечественной системы, ориентированной на поиск заимствований лишь в тех документах, которые были добавлены в системную базу данных.

10. Проведены экспериментальные исследования, результаты которых представлены в данной работе, а также в приложениях. Данные, полученные в ходе экспериментальных исследований, позволяют оценить эффективность и адекватность предложенных и разработанных методов, направленных на выявление заимствований в электронных изданиях, опубликованных в сети Интернет. На основе проведённых исследований определен размер текстовых документов, при котором наиболее эффективно и целесообразно использование разработанного метода поиска заимствований.

11. Проведена апробация работы и внедрение разработанной системы, показавшие эффективность метода поиска и обнаружения заимствований, разработанной в рамках диссертационной работы, автоматизированной системой WebCompare.

Список литературы диссертационного исследования кандидат технических наук Крутояров, Дмитрий Владимирович, 2006 год

1. Алтунин А.Е., Востров Н.Н. Оптимизация многоуровневых иерархических систем на основе теории размытых множеств и методов самоорганизации. В сб.: "Проблемы нефти и газа Тюмени". Тюмень. Вып. 42,1979.

2. Алтунин А.Е., Семухин М.В. Модели и алгоритмы принятия решений в нечетких условиях: Монография. Тюмень: Издательство Тюменского государственного университета, 2000. 352 с.

3. Апресян Ю.Д. Избранные труды, т. I. Лексическая семантика: 2-е изд., испр. и доп. М.: Школа «Языки русской культуры», Издательская фирма «Восточная литература» РАН, 1995. - 472 с.

4. Ашманов И.С., Руссова Н.В. Поисковые системы общие понятия и национальные особенности. - М.: ООО «ФИМА», 1997. - 24с.

5. Баксалова A.M. Уголовно-процессуальная функция обвинения, осуществляемая прокурором, и её реализация на судебном следствии. Диссертационная работа к.ю.н.: 12.00.09 Томск, 2002. - 209 с.

6. Батыршин И.З. Основные операции нечёткой логики и их обобщения. Казань: Отечество, 2001. - 102 с.

7. Бах А.О. Разработка эффективных алгоритмов поиска слов в текстах для построения методов сжатия данных. Диссертационная работа к.т.н.:05.13.13, Новосибирск 2002. - 214 с.

8. Белогаиов Г.Г., Богатырев В.И. Автоматизированные информационные системы. М.: Советское радио, 1973. - 325 с.

9. Беляева JI.H. Лингвистические автоматы в современных информационных технологиях: Монография. СПб.: Изд-во РГПУ им. А.И. Герцена, 2001.-130 с.

10. Бойцов Л.М. Синтез системы автоматической коррекции, индексации и поиска текстовой информации. Диссертационная работа к.т.н.: 05.13.01 Москва, 2003.

11. Будилов В. А. Основы программирования для Интернета. СПб.: БХВ - Петербург, 2003. - 736 е.: ил.

12. Бутузова О., Ильюшина Е.А., Петрова М., Прохоров А.В., Сиротки-на Ю.К построению авторского инварианта. Труды и материалы

13. Международного конгресса «Русский язык: исторические судьбы и современность» (13-16 марта 2001 года). Москва: МГУ, 2001.

14. В.Я. Пивкин, Е.П. Бакулин, Д.И. Кореньков под редакцией Ю.Н. Золотухина Нечеткие множества в системах управления. Электронный ресурс. Электрон. дан. - Режим доступа: http://idisys.iae.nsk.su/fuzzybook/content.html

15. Варфоломеев А.Г. Аннотация проектного предложения СевероЕвропейского открытого университета. Электронный ресурс. -Электрон. дан. 2003. - Режим доступа: http://neou.karelia.ru/site/Activity/Projects/proposals/PROPOSAL7/brie f7/

16. Виноградов В.В. Проблемы авторства и теории стилей. М., 1961. -263 с.

17. Вудс В.А. Сетевые грамматики для анализа естественных языков // Кибернетический сборник. Н.С. М.: Мир, 1978. - Вып. 13.

18. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.

19. Гасов В.М., Крутояров Д.В. Метод сравнения текстовых документов, позволяющий выявлять совпадающие фрагменты // Проблемы полиграфии и издательского дела. 2006 №4 - с. 92-104.

20. Гасов В.М., Цыганенко A.M. Методы и средства подготовки электронных изданий: Учеб. Пособие / В.М. Гасов, A.M. Цыганенко; Моск. гос. ун-т печати. М.: МГУП, 2001. - 735с.: ил.

21. Генне О.В. Основные положения стеганографии // Защита информации. Конфидент. -2000. №3.

22. Гитман М.Б. Введение в теорию нечётких множеств и интервальную математику: Учебное пособие /4.1. Применение лингвистической переменной в системах принятия решений. Перм. гос. техн. ун-т. Пермь, 1998.-45с.

23. ГОСТ 7.83 2001. Электронные издания. Основные виды и выходные сведения: Межгосударственный стандарт.

24. Дембинская Н. Британцы признали Google лучшим Интернет-брендом. Электронный ресурс. Электрон, дан. - 2006- Режим доступа: http://net.compulenta.ru/258364/

25. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - с. 77-83.

26. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

27. Дюран Б., Одел П. Кластерный анализ. М.: Статистика, 1977. - 128 с.

28. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Труды международного семинара Диа-лог'2002. В двух томах. Т.2. «Прикладные проблемы». М. 2002.

29. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК., №5,2001.

30. Ермаков С.В. Судебное следствие по делам о нарушении авторских и смежных прав. Диссертационная работа к.ю.н.: 12.00.09 Владимир, 2004. - 207 с.

31. Журавлёв А.П. Опыт вероятностно-статистического изучения стилевых различий // Язык и общество. Саратов, 1967.

32. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов: Монография / ВолгГТУ. -Волгоград, 2002. 228 с.

33. Закон об авторском праве и смежных правах (Закон РФ от 9 июля 1993 г. N 5351-1; с изменениями, внесенными Федеральным законом от 19 июля 1995 г. N 110-ФЗ, Федеральным законом от 20.07.2004 N 72-ФЗ)

34. Кнут, Дональд, Эрвин Искусство программирования, том 1. Основные алгоритмы, 3-е изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2002. - 702 е.: ил.

35. Кнут, Дональд, Эрвин Искусство программирования, том 3. Сортировка и поиск, 2-е изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2003. - 832 е.: ил.

36. Красилов А.А Информатика в семи томах. Том 4. Представление знаний (структуры данных) // Интеллсист. Интеллектуальные системы общего назначения. Москва, 2003.

37. Кристофидес Н. Теория графов. Алгоритмический подход. М.: Мир. 1978.432 с.

38. Крутояров Д.В. Автоматизированная система сравнения электронных изданий, опубликованных в сети Internet/Intranet // Вестник МГУП. 2005 №11 (дополнительный). - с.84-87

39. Крутояров Д.В. О выборе метода анализа текстовой информации // Проблемы полиграфии и издательского дела. 2006 №3. - с. 175178

40. Кузнецов П.Б., Оленикова Ю.К. Основы нечёткой математики (теория нечётких множеств): Учебное пособие / Под ред. д-ра техн. наук, проф. Д.О. Бытева Ярославль: Издательство ЯГТУ, 2003. - 154 с.

41. Левенштейн В.И., Двоичные коды с исправлением выпадений, вставок и замещений символов, Докл. АН СССР, 163,4,1965.

42. Левнер Е.В., Птускин А.С., Фридман А.А. Размытые множества и их применение. -М.: ЦЭМИ РАН, 1998. 108 с.

43. Леонтьев К.Б. Проблемы развития авторского права в современных технологических условиях. Диссертационная работа к.ю.н.: 12.00.03 -М., 2003. -207 с.

44. Лихачёв Д.С. Вопросы атрибуции произведений древнерусской литературы // Труды отдела древнерусской литературы. АН СССР. Институт русской литературы (Пушкинский дом). Т. 17. М. Л., 1961.

45. Максимова Л.Г. Авторское право: Учебное пособие. М.: Гардари-ки, 2005.-383 с.

46. Мальцева Г.Ф. Некоторые количественные приёмы описания индивидуального авторского стиля // Статистика текста. Т.1, Минск, 1969.

47. Марков А.А. Об одном применении статистического метода // Изв. Имп.акад.наук, Сер. 6. 1916. №4

48. Математическая энциклопедия: Гл. ред. И.М. Виноградов, т. 3 Коо -Од М.: «Советская энциклопедия», 1982. - 1184 стб., ил.

49. Меньков А.В. Теоретические основы автоматизированного управления: Учебное пособие. М.: МГУП, 2002. - 176 с.

50. Мистрик И. Математико-статистические методы в стилистике II Вопросы языкознания. 1967, №3

51. Монсик В.Б., Скрынников А.А. Теория вероятностей и математическая статистика. Статистическая проверка гипотез: Тексты лекций. -М.: МГТУ ГА, 2005. 64 с.

52. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Известия отд. Русского языка и словесности Имп.акад.наук. 1915. Т.20, Кн. 4.

53. Москин Н.Д., Варфоломеев А.Г. О применении компьютерных технологий в исследовании фольклорных песен. // Материалы IV научной конференции «Рябининские чтения-2003» Сборник научных докладов. Петрозаводск, 2003.

54. Мэгдайниер С. Защита интеллектуальной собственности на документы в системе WWW. Электронный ресурс. Электрон, дан. -Режим доступа: http://capri.ustu.ru/

55. На электронных документах появятся "водяные знаки" Электронный ресурс. Электрон, дан. - 2001. - Режим доступа: www.cnews.ru

56. Негуляев Е.А. "Невидимый" веб и некоторые вопросы доступности научной информации. VIII Международная конференция по электронным публикациям "EL-Pub2003" Новосибирск: Академгородок, 2003.

57. Новиков Ф.А. Дискретная математика для программистов СПб.: Питер, 2001.-304 с.

58. Новый алгоритм ранжирования. Интернет. Электронный ресурс. -Электрон. дан. 2004. - Режим доступа: http://company.yandex.ru/news/2004/0326/

59. Норвич A.M., Турксен И.Б. Фундаментальное измерение нечеткости. В сб.: Нечеткие множества и теория возможностей. М.: Радио и связь, 1986

60. Олифер В.Г., Олифер Н.А Компьютерные сети. Принципы, технологии, протоколы / В.Г. Олифер, Н.А. Олифер СПб.: Питер, 2001 -672с.: ил.

61. Операционные системы, поддерживающие MySQL. Электронный ресурс. Электрон. дан. - Режим доступа: http://dev.mysql.com/doc/mysql/en/which-os.html

62. Орловский С.А. Проблемы принятия решений при нечёткой исходной информации. М.: Наука, 1981.

63. Пивкин В.Я., Бакулин Е.П., Кореньков Д.И. Нечеткие множества в системах управления. 1995.

64. Погуляев В.В. Правонарушения в сети Интернет: взгляд на проблему сбора доказательств. Электронный ресурс. Электрон, дан. -Режим доступа: http://www.juragent.ru

65. Погуляев В.В., Тулубьева И.Ю. Нарушение авторских прав в сети Интернет. Электронный ресурс. Электрон, дан. - Режим доступа: http://www.juragent.ru

66. Подольский С. В., Скиба С. А., Кожедуб О. А. Разработка Интернет -приложений в Delphi. СПБ.: БХВ - Петербург, 2002. - 432 е.: ил.

67. Производительность СУБД MySQL. Электронный ресурс. Электрон. дан. - Режим доступа: http://www.mysql.com/benchmark.html

68. Севбо И.П. Графические представления синтаксических структур и стилистическая диагностика. Киев: Наук, думка, 1981. 192 с.

69. Севбо И.П., Алёшкина С.М. Исследование зависимости между длиной фразы и количеством уровней в графе // Структурная и математическая лингвистика. Вып. 2. Киев. 1974.

70. Севбо И.П., Петунин Ю.И., Галюта Е.Д. Эксперимент по распознаванию автора, основанный на предварительном статистическом исследовании синтаксических структур //Структурная и математическая лингвистика. Вып. 5. Киев. 1977.

71. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'9б по компьютерной лингвистике и приложениям. М„ 1996. - С. 227-230.

72. Серго А.Г. Некоторые вопросы защиты авторского права в Интернете. Электронный ресурс. Электрон, дан. - Режим доступа: http://www.russianlaw.net/law/doc/al35.htm

73. Серго А.Г., Пущин B.C. Основы права интеллектуальной собственности. Курс лекций. Учебное пособие. М.: Интернет-университет информационных технологий, 2005. - 344 с.

74. Сидоров Ю.В. Математическая и информационная поддержка методов обработки текстов на основе формально-грамматических параметров. Диссертационная работа к.т.н.: 05.13.18 Петрозаводск -2002. -127 с.

75. Степанов А.В. Эвристика стиля атрибуция авторства // Литературная учёба. 1998. №2.

76. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973.-560 с.

77. Тейксейра С., Кавье П. Delphi 5. Руководство разработчика, том 1. Основные методы и технологии программирования: Пер. с англ. -М.: Издательский дом «Вильяме», 2001. 832 е.: ил.

78. Терлецкий В.В. Охрана авторских и смежных прав при использовании охраняемых объектов в цифровых сетях и продуктах мультимедиа. Диссертационная работа к.ю.н.: 12.00.03 М., 2003. - 159 с.

79. Тригуб Н.А. Система обработки неструктурированной текстовой информации на основе объектного подхода для повышения эффективности информационного поиска. Диссертационная работа к.т.н.: 05.13.01 Москва, 2004. - 189 с.

80. Труды по интеллектуальной собственности Том VI. Под редакцией М.А. Федотова-М., 2003.

81. Украинские вузы не спешат внедрять программу по обнаружению плагиата в работах студентов. Электронный ресурс. Электрон.дан. 2005- Режим доступа:http://www.podrobnosti.ua/ptheme/internet/2005/10/26/255838.html

82. Ухоботов В.И. Введение в теорию нечётких множеств и её приложения. Челябинск: Фотохудожник, 2005. - 133 с.

83. Фаронов В.В. Delphi 5 Руководство программиста. М.: «Нолидж», 2001.-880 е.: ил.

84. Федоренко Д.В. Автоматизированная система сравнения электронных изданий, опубликованных в сети Internet/Intranet // Вестник МГУП. 2004 №5. - с.74-78

85. Федоренко Д.В. Актуальность выявления нарушений авторских прав // Вестник МГУП. 2005 №5. - с.36-47

86. Федоренко Д.В. Исследование эффективности использования баз данных по сравнению с файловой системой для хранения текстовой информации // Вестник МГУП. 2005 №5. - с. 19-35

87. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Приложение: кто был автором "тихого дона"? Электронный ресурс. Электрон, дан- Режим доступа: http://www.newchrono.ru/framel/Methods/html/278.htm

88. Частичный список клиентов MySQL. Электронный ресурс. Электрон. дан. - Режим доступа: http://www.mysql.com/company/

89. Чигарин Т.Г. Авторские права и Интернет. Электронный ресурс. -Электрон. дан. 2004. - Режим доступа: http://www.allpravo.ru/librarv/docl972p0/instruml983/iteml984.html

90. Чикунов И.М. Электронное издание древних рукописей и первопечатных книг. Диссертационная работа к.т.н: 05.13.06 Москва, 2003.- 153 с.

91. Чугреев B.JI. Модель структурного представления текстовой информации и метод её тематического анализа на основе частотно-контекстной классификации. Диссертационная работа к.т.н.: 05.13.01 СП-б-2003. 185 с.

92. Чураков А.Н. Информационное общество и эмпирическая социология. // Социологические исследования. №1. 1998 с. 35-44.

93. Arimura Н., Wataki A., Fujino К., Arikawa S. A Fast Algorithm for Discovering Optimal String Patterns in Large Text Databases. // Algorithmic Learning Theory, 9th International Conference, ALT '98, Otzenhausen, Germany, 1998.

94. Baker B.S. A program for identifying duplicated code. Proceedings of the 24th Symposium on the Interface: Computer Science and Statistics, College Station, Texas, 1992.

95. Boyer R.S. Moore J.S. A Fast String Searching Algorithm // Commun. ACM.- 1977.-Vol. 20, №10.

96. Burrows J.F. Not Unless You Ask Nicely: The Interpretative Nexus Between Analysis and Information // Literary and Linguistic Computing, Oxford University Press. 1992. Vol. 7.

97. Colussi L. Correctness and Efficiency of the Pattern Matching Algorithms // Information and Computation. 1991. Vol. 95, №2.

98. Colussi L. Fastest Pattern Matching in Strings // J. of algorithms. 1994. -Vol. 16, №2.

99. Crochemore M. String-Matching on Ordered Alphabets // Theoretical Computer Science. 1992. - Vol. 92, №1.

100. Crochemore M., Czumaj A., Gasieniec L., Jarominek S., Lecroq Т., Plandowski W., Rytter W. Speeding up Two String Matching Algorithms // Algoritmica. 1994. - Vol. 12, №4/5

101. Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the WWW10,2001. p. 406-414

102. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), 1990, p. 4047.

103. Garfield E. From citation amnesia to bibliographic plagiarism. // Current Contents. 1980. No. 23.

104. Greenacre P. Note on plagiarism: The Henley-Stevenson quarrel. // Journal of American Psychoanalysis Association.1978. No. 26.

105. Hendry D.G., Harper D.J. An informal information-seeking environment. // J. of the American Society for Information Science, 48(11): 1036 -1048,1997.

106. Hirschberg D.S. A linear space algorithm for computing maximal common subsequences. // Communications of the ACM, Vol. 18, No. 6, 1975.

107. Holmes D.I. The Evolution of Stylometry in Humanities Scholarship // Literary and Linguistic Computing, Oxford University Press. 1998. Vol. 13, No. 3.

108. Horspool R.N. Practical Fast Searching in Strings // Software Practice & Experience. - 1980. Vol. 10, №6.

109. Hunt J.W., Szymanski T.G. A fast algorithm for computing longest common subsequences. // Communications of the ACM, Vol. 20, No. 5, 1977.

110. Knuth D.E., Morris J.H., Pratt V.R. Fast Pattern Matching in Strings // SIAM J. on Computing. 1977. - Vol. 6, №1.

111. Kolich A.M. Plagiarism: the worm of reason. // College English. 1983. No. 45.-p. 141-148.

112. Kurtz S. Fundamental algorithms for a declarative pattern matching system. Bielefend- 1995.

113. Landau G.M., Vishkin U. Fast parallel and serial approximate string matching. //Journal of Algorithms, Vol. 10, 1989.

114. Landauer Т.К., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis. // Discourse Processes, Vol.25, 1998, p. 259-284.

115. Mallon T. Stolen words Forays into the origins a. ravages of plagiarism. -New York: Penguin books, 1991. 300 p.

116. Masek W.J., Paterson M.S. A faster algorithm for computing string-edit distances.// Journal of Computer and Systems Sciences, Vol. 20, No. 1, 1980.

117. Masek W.J., Paterson M.S. How to compute string-edit distances quickly, in Sankofi D., Kruskall J.B. (eds.) Time warps, string edits, and macromolecules: the theory and practice of sequence comparison, Chapter 14, Addison-Wesley, Reading MA, 1983.

118. McCreight E.M. A space-economical suffix tree construction algorithm.// Journal of the ACM, Vol. 23, No. 2, 1976.

119. Myers E.W. An overview of sequence comparison algorithms in molecular biology/ Technical report TR 91-29, University of Arizona, Tucson, Department of Computer Science, 1991.

120. Ponte J., Croft W.B. A language modeling approach to information retrieval.//SIGIR, 1998.

121. Sunday D.M. A very fast substring search algorithm // Communications of the ACM. 1990. - Vol. 33, №8.

122. Ukkonen E. Algorithms for approximate string matching. // Information and Control. 1985.

123. Ukkonen E. Finding approximate patterns in strings, О (k*n) time. // Journal of Algorithms 1985.

124. Wagner R.A., Fisher M.J. The String to String Correction Problem // Journal of ACM, 21(1), 1974.

125. Yager R.R. Fuzzy sets, probilities and decision. //J. of Cybern. N 10, 1980.

126. Zobel J., Moffat A. Exploring the similarity space // SIGIR Forum, 1998.

127. Вывод на дисплей информации о результатах сравнения списков1. Начало

128. Цикл по всем элементам из списка №11. С1

129. Цикл по всем элементам из списка №2 начиная с позиции прошлого совпадения +11. Нет

130. Цикл по всем элементам из списка №2 начиная с позиции прошлого сравнения в этом цикле -11. Конецj

131. Рис. 7. Блок-схсма алгоритма сравнения списков элементов.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Крутояров, Дмитрий Владимирович

Рекомендованный список диссертаций по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации2009 год, кандидат технических наук Макаров, Сергей Львович

Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович

Автоматизация проверки знаний и навыков студентов в области прикладной математики и информатики2004 год, кандидат технических наук Веретенников, Максим Викторович

Введение диссертации (часть автореферата) на тему «Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет»

Похожие диссертационные работы по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Метод и алгоритмы классификации текстовой информации по индикаторам деструктивной направленности2021 год, кандидат наук Гостюнина Валерия Андреевна

Адаптивные гипермедиа издания, интегрированные в Интернет2005 год, кандидат технических наук Зайцев, Илья Борисович

Заключение диссертации по теме «Автоматизация и управление технологическими процессами и производствами (по отраслям)», Крутояров, Дмитрий Владимирович

Список литературы диссертационного исследования кандидат технических наук Крутояров, Дмитрий Владимирович, 2006 год