Исследование и разработка методов построения программных средств обнаружения текстового спама тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Павлов, Антон Сергеевич
- Специальность ВАК РФ05.13.11
- Количество страниц 133
Оглавление диссертации кандидат физико-математических наук Павлов, Антон Сергеевич
Содержание
Введение
Глава 1. Анализ предметной области
1.1. Разновидности поискового спама
1.1.1. Текстовый спам
1.1.1.1. Генераторы текстов на основе цепей Маркова
1.1.2. Ссылочный спам
1.1.3. Техники маскировки поискового спама
1.2. Методы обнаружения поискового спама
1.2.1. Критерии оценки качества алгоритмов обнаружения поискового спама
1.2.1.1. Коллекция веб-страниц ШеЬвратиК
1.2.2. Алгоритмы классификации
1.2.2.1. Алгоритм построения деревьев решений С4.5
1.2.2.2. Метод опорных векторов
1.2.2.3. Методы построения ансамбля классификаторов
1.2.3. Методы обнаружения текстового спама
1.2.3.1. Алгоритм обнаружения текстового спама на основе эвристик
1.2.3.2. Метод на основе анализа тематик текста, моделируемых с помощью скрытого распределения Дирихле
1.2.3.3. Алгоритм на основе обнаружения редких пар слов
1.2.4. Методы обнаружения ссылочного спама
1.2.4.1. Алгоритм Тп^гапк
1.2.4.2. Алгоритм обнаружения ссылочных ферм
1.2.4.3. Алгоритм на основе комбинации ссылочных признаков
1.2.5. Методы обнаружения дубликатов
1.2.6. Комбинированные методы обнаружения поискового спа-
ма
1.2.6.1. Методы на основе объединения текстовых и ссылочных признаков
1.2.6.2. Алгоритм обнаружения продажных ссылок . 50 1.3. Выводы к первой главе
Глава 2. Алгоритм обнаружения текстового спама на основе оценки разнообразия тематик документа
2.1. Модель массово порождаемых неестественных текстов
2.1.1. Обзор методов порождения неестественных текстов
2.1.1.1. Модель мешок слов
2.1.1.2. Генераторы на основе цепей Маркова
2.1.1.3. Метод на основе фрагментов текстов
2.1.1.4. Обобщенная модель генератора текстов на основе образцов
2.1.2. Тематическая структура текстов
2.1.3. Свойства тематической структуры порожденных текстов
2.2. Метод обнаружения неестественных текстов
2.2.1. Моделирование тематик с помощью модели скрытое распределение Дирихле (СРД)
2.2.2. Критерии обнаружения неестественных текстов
2.2.2.1. Нарушение тематической структуры текстов
2.2.2.2, Критерий Пирсона
2.2.2.3. Закон Ципфа для тематической структуры . 73 2.3. Выводы ко второй главе
Глава 3. Комбинированный алгоритм обнаружения тексотвого спама
3.1. Метод на основе трудноконтролируемых характеристик текстов
3.1.1. Характеристики читаемости текста
3.1.2. Особенности жанра и авторского стиля
3.1.3. Глобальные статистические характеристики текстов
3.1.4. Характеристики тематического разнообразия текстов
3.2. Метод машинного обучения на основе деревьев решений
3.2.1. Построение базового классификатора
3.2.2. Построение ансамбля классификаторов
3.3. Выводы к третьей главе
Глава 4. Программная система классификации поискового спама
4.1. Архитектура системы обнаружения поискового спама
4.1.1. Сценарии использования системы
4.1.2. Основные модули системы
4.2. Экспериментальная оценка предложенного решения
4.2.1. Численное подтверждение модели массово порождаемых неестественных текстов
4.2.1.1. Методология исследования
4.2.1.2. Зависимость скорости сходимости от количества документов образцов
4.2.1.3. Зависимость скорости сходимости от количества слов в документе
4.2.1.4. Применимость критериев для различных генераторов на основе цепей Маркова
4.2.2. Эксперименты на модельных данных
4.2.2.1. Эксперимент по обнаружению текстов, порожденных различными генераторами дорвеев
4.2.2.2. Сравнение методов машинного обучения
4.2.2.3. Анализ качества предлагаемых характеристик
4.2.2.4. Устойчивость алгоритма обнаружения поискового спама
4.2.2.5. Применимость алгоритма для различных языков
4.2.3. Апробация предложенного решения на реальных данных
4.2.3.1. Эксперимент по обнаружению спама в блогах
4.2.3.2. Эксперимент по обнаружению поискового спама на коллекции WebspamUK-2007
4.2.3.3. Сравнение эффективности предложенного решения с существующими аналогами
4.3. Выводы к четвертой главе
Заключение
Литература
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и алгоритмы классификации информации для защиты от спазма2013 год, кандидат технических наук Блинов, Станислав Юрьевич
Параллельная система тематической текстовой классификации на основе метода опорных векторов2012 год, кандидат технических наук Пескишева, Татьяна Анатольевна
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович
Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности2006 год, кандидат физико-математических наук Беляев, Дмитрий Владимирович
Введение диссертации (часть автореферата) на тему «Исследование и разработка методов построения программных средств обнаружения текстового спама»
Введение
Актуальность работы
В настоящее время поисковые машины стали одним из основных источников информации в сети Интернет. Задача поисковой машины - по каждому пользовательскому запросу отранжировать страницы, находящиеся в ее индексе по релевантности. Релевантность - это мера соответствия страницы запросу. Манипуляции, направленные на незаслуженное повышение оценки релевантности страницы в поисковой системе, называются поисковым спа-мом. Текстовый спам - это разновидность поискового спама, связанная с манипуляциями с текстами страниц.
Настоящая работа посвящена исследованию и разработке методов построения программных средств обнаружения текстового спама. Под текстовым спамом в данной задаче понимается массовое порождение неестественных текстов с помощью специализированных программ. Задача обнаружения такого спама заключается в определении, был ли текст написан человеком, или порожден автоматически с помощью программы.
С момента своего возникновения вычислительные комплексы использовались для автоматической обработки текстов. В частности, известны работы А.А.Ляпунова, С.Н.Разумовского, Н П.Трифонова, Л.Н. Королева по созданию систем машинного перевода в середине 50-х годов прошлого века. В 60-х и 70-х годах стало активно развиваться направление информационного поиска, в частности стали возникать системы поиска научной информации, существенный вклад в развитие которых в это время внесли Г. Э. Влэдуц, Д. Г. Лахути, Э. Ф. Скороходько, Б. Викери, Д. Фоскет, Дж. Перри, А. Кент, Дж. Костел ло.
Важными для развития информационно-поисковых систем стали работы Т. Митчела, В.Н. Вапника, А.Я. Червоненкиса, Р. Дуда, П. Харта по теории
машинного обучения, именно благодаря их работам появились современные поисковые системы, которые учитывают большое количество факторов при определении релевантности документов. Современные исследования в области машинного обучения представлены в работах К.В. Воронцова, М.С. Агеева, М.И. Кумскова, М.И. Петровского, А. Нг, И. Фреунда, Р. Шапире, Р. Квинлена.
По мере развития сети Интернет стали возникать первые поисковые машины. Важной особенностью задач поиска по сети Интернет стало то, что поиск происходит по открытой коллекции документов, в которую могут попадать документы, содержащие недостоверную информацию. Именно открытость сети Интернет привела к возникновению поискового спама. Впервые поисковые системы столкнулись с проблемой поискового спама в середине 90-х годов, в следствие чего началось развитие методов обнаружения поискового спама. В основе многих методов обнаружения поискового спама лежат статистические подходы, разработанные для обнаружения спама в электронной почте. Методы обнаружения спама в электронной почте были исследованы в работах А.Н. Розинкина, И.В. Машечкина, Г. Робинсона, X. Карераса. В 2000-х годах велись активные исследования в области систем обнаружения поискового спама, современные методы борьбы с поисковым спамом предложены в работах К.В.Николаева, Р.В. Шарапова, JI. Бечетти, А. Бенцзура, Д. Феттерли. Непосредственно методы обнаружения текстового спама описаны в работах A.M. Рай городского, И. Биро, А. Нтуласа.
Текстовый спам существенно затрудняет решение задачи поиска необходимой информации, так как пользователю приходится просматривать множество страниц, не содержащих полезной информации. Это приводит к тому, что либо пользователь поисковой системы вообще не находит интересующую информацию, либо тратит на ее поиск слишком много времени. В связи с этим текстовый спам является серьезной угрозой для развития поисковых
машин.
Особенность рассматриваемой задачи заключается в том, что для ее эффективного решения необходимо учитывать большое количество особенностей, которые невозможно учесть в явном виде. Таким образом, актуальным является применение методов машинного обучения, так как они позволяют учитывать неявные закономерности. Для рассматриваемых задач важно обрабатывать поступающие документы максимально быстро, так как должно проходить минимальное время между появлением документа и его попаданием на выдачу поисковой системы. Это выражается в том, что вердикт по каждому документу должен приниматься в течение несколько секунд после того, как поисковая система его обнаружила. Таким образом, разрабатываемая система должна работать в потоковом режиме, когда документы обрабатываются по мере их попадания в поисковую систему. Также разрабатываемые алгоритмы должны быть применимы для различных естественных языков.
Цель диссертационной работы
Целью диссертационной работы является разработка методов и программных средств обнаружения текстового спама. Разрабатываемые программные средства должны удовлетворять следующим требованиям: низкий уровень ошибок первого и второго рода при обнаружения текстового спама; обработка документов в потоковом режиме; применимость к различным естественным языкам.
Для достижения этой цели были поставлены следующие задачи:
1. разработка и исследование модели массово порожденных неестественных текстов;
2. разработка и исследование алгоритмов обнаружения текстового спама на основе машинного обучения;
3. разработка эффективного программного модуля классификации текстового спама на основе предложенных методов.
Научная новизна
Новизна настоящей диссертационной работы заключается в том, что предложен новый метод обнаружения текстового спама на основе оценки разнообразия тематик текстов. Применимость метода обоснована теоретически на основе разработанной модели массово-порождаемых неестественных текстов и численно, для чего были проведены эксперименты. Разработанный метод может применяться в системах, где требуется потоковая обработка документов.
Практическая значимость
На основе разработанных методов спроектирован и реализован программный модуль классификации текстового спама. Разработанный модуль может применяться в задачах обнаружения поискового спама, модерации Интернет-ресурсов, фильтрации спама в электронной почте. Разработанные методы и подходы определения текстового спама могут также применяться для определения авторства документа и автоматической классификации документов по жанрам и стилям. Разработанный модуль был апробирован в системе обнаружения поискового спама в поисковой системе Яндекс.
Апробация работы Основные результаты диссертации докладывались на следующих конференциях и семинарах:
• на одиннадцатой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции "(2009 г.);
• на международной конференции "Диалог 2010"(2010 г.);
• на седьмом весеннем коллоквиуме молодых исследователей в области
баз данных и информационных систем (ЗУКСоБШ) (2011 г.);
• на тринадцатой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Выступление автора удостоено диплома за лучший доклад представленный на конференции (2011 г.);
Кроме того, результаты обсуждались на семинаре Лаборатории анализа информационных ресурсов НИВЦ МГУ и на аспирантском семинаре кафедры АСВК факультета вычислительной математики и кибернетики МГУ.
Публикации. Результаты работы опубликованы в 6 печатных работах, в том числе в 1 статье в журнале из списка ВАК РФ [1] и в 5 статьях в других изданиях [4-8]. Также результаты работы содержатся в 2 статьях в журналах из списка ВАК [2,3], которые находятся в печати.
Структура и объем диссертации Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объем диссертации 133 страницы. Библиография включает 62 наименований на 8 страницах.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет2004 год, кандидат технических наук Арутюнян, Роман Эрнстович
Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа2014 год, кандидат наук Лукашевич, Наталья Валентиновна
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов2011 год, кандидат физико-математических наук Епрев, Антон Сергеевич
Разработка метода автоматического формирования рубрикатора полнотекстовых документов2008 год, кандидат технических наук Пескова, Ольга Вадимовна
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Павлов, Антон Сергеевич
4.3. Выводы к четвертой главе
В данной главе было приведено описание разработанной системы обнаружения текстового спама, описаны ее основные модули, приведены сценарии работы. В ходе экспериментальной проверки предложенного решения были подтверждены наиболее важные свойства разработанного алгоритма, такие как высокая точность обнаружения текстового спама и высокая эффективность. Отдельно было подтверждено, что характеристики тематического разнообразия, предложенные во второй главе, вносят существенный вклад в решение задачи классификации поискового спама.
Апробация предложенного алгоритма также показала, что он превосходит по качеству обнаружения поискового спама существующие аналоги и применим для обнаружения веб-спама и спама в блогах. Также, в отличие от существующих аналогов, разработанная система позволяет эффективно обрабатывать документы в режиме близком к реальному времени независимо друг от друга.
Заключение
В ходе диссертационной работы получены следующие результаты:
1. Для решения задачи построения программных средств определения текстового спама разработан новый алгоритм обнаружения текстового спа-ма на основе оценки разнообразия тематик документа.
2. Теоретически и численно обоснована применимость разработанного алгоритма и программной системы для обнаружения текстового спама, порожденного генераторами текстов на основе цепей Маркова, широко используемыми для создания поискового спама.
3. Разработан комбинированный алгоритм классификации текстового спама на основе анализа большого числа факторов, моделирующих связность, стиль, читаемость текстов, а также учета результатов алгоритма оценки разнообразия тематик документа.
4. Реализована программная система определения поискового спама. Получены более высокие характеристики классификации поискового спама на стандартном наборе данных, по сравнению с известными методами. Разработанная система позволяет обрабатывать документы в потоковом режиме.
Список литературы диссертационного исследования кандидат физико-математических наук Павлов, Антон Сергеевич, 2011 год
Литература
1. Павлов A.C., Добров Б.В. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Вычислительные методы и программирование: новые вычислительные технологии. 2011. Т. 12. С. 58-72.
2. Павлов A.C., Добров Б.В. Обнаружение поискового спама в Вебе на основе анализа разнообразия текстов // Труды Института системного программирования РАН. 2011. С. (в печати).
3. Павлов A.C. Программная система обнаружения текстового спама // Вестник ВГУ. Серия системный анализ и информационные технологии.. 2011. Т. 2. С. (в печати).
4. Павлов A.C. Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". 2009. Т. 1. С. 311-317.
5. Павлов A.C. Исследование устойчивости метода обнаружения поискового спама на основе статистических характеристик // Программные системы и инструменты. Тематический сборник. 2009. Т. 10. С. 108-119.
6. Павлов A.C. Добров Б.В. Метод определения массово порождаемых неестественных текстов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог». 2010. Т. 9(16). С. 368-374.
7. Pavlov A.S. D. В. Detecting Content Spam on the Web through Text Diversity
Analysis // Proceedings of The Seventh Spring Researchers Colloquium on Databases and Information Systems, SYR.CoDIS. 2011. Pp. 11-18.
8. Павлов A.C. . Методы обнаружения массово порождаемых неестественных текстов на основе анализа тематической структуры текстов // Тр. XIII Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". 2011. Т. 1. С. 179-184.
9. Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов: Кандидатская диссертация / МГУ им. М.В. Ломоносова. 2004.
10. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. 2004. № 13. С. 5-36.
11. Глазкова В. В. Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов: Кандидатская диссертация / МГУ им. М.В. Ломоносова, ВМиК. 2008.
12. Гречников Е.А., Гусев Г.Г., Кустарев A.A., Райгородский A.M. Поиск неестественных текстов // Труды 11й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". 2009. С. 306-308.
13. Деветьяров Д.А., Кумсков М.И. Использование нейронных сетей в задаче «структура-свойство» с использованием нечеткого описания пространственных структур молекул // Нейрокомпьютеры: разработка, применение. 2011. № 3. С. 14-19.
14. ван Дейк Т.А., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике. 1988. Т. 23. С. 153-211.
15. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Труды IX Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции"RCDL'2007. 2007. Т. 1. С. 166-174.
16. Королев JI.H. Некоторые вопросы теории машинного словаря.: Кандидатская диссертация / ИТМ и ВТ АН СССР. 1959.
17. Кураленок И.Е. Оценка систем текстового поиска: Кандидатская диссертация / СПбГУ. 2004.
18. Мальковский М.Г., Грацианова Т.Ю., Полякова H.H. Прикладное программное обеспечение: системы автоматической обработки текстов. Москва: МАКС "Пресс 2000. ISBN: 5-89407-086-4.
19. Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция построения систем анализа и фильтрации Интернет-трафика на основе методов интеллектуального анализа данных // Математические методы распознавания образов: 13-я Всероссийская конференция. М.: МАКС Пресс, 2007. С. 494-496.
20. Национальный корпус русского языка : 2006-2008. Новые результаты и перспективы. / Под ред. Плунгян В.А. СПб.: Нестор-История, 2009. С. 502.
21. Попова Е. А. Методы и программные средства для обработки данных электроэнцефалографии: Кандидатская диссертация / МГУ им. М.В. Ломоносова, ВМиК. 2009.
22. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных
текстов // В сб.: Методы количественного анализа текстов нарративных источников. 1983. Т. 1. С. 86-109.
23. Шарапов Р.В., Шарапова Е.В. Применение метода опорных векторов для обнаружения ссылочного спама // Тр. XI Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". 2009. Т. 1. С. 318-324.
24. Abernethy J., Chapelle О., Castillo С. Witch: A new approach to web spam detection //In Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web (AIRWeb. Citeseer, 2008.
25. Becchetti L., Castillo C., Donato D., Baeza-Yates R., Leonardi S. Link analysis for Web spam detection // ACM Transactions on the Web. 2008. Vol. 2, no. 1. Pp. 1-42.
26. Benczur A.A., Siklosi D., Szabo J., B\'\iro I., Fekete Z., Kurucz M., Peres-zlényi A., R,âcz S., Szabo A. Web Spam: a Survey with Vision for the Archivist // Information Retrieval. 2008.
27. Biro I., Szabo J., Benczur A. A. Latent dirichlet allocation in web spam filtering // Proceedings of the 4th international workshop on Adversarial information retrieval on the web - AIRWeb '08. 2008. P. 29.
28. Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in web spam filtering // Proceedings of the 5th International Workshop on Adversarial Information Retrieval on the Web - AIRWeb '09. 2009. P. 37.
29. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning R.esearch. 2003. Vol. 3, no. 4-5. Pp. 993-1022.
30. Boser B.E., Guyon I.M., Vapnik V.N. A training algorithm for optimal margin classifiers // Proceedings of the fifth annual workshop on Computational learning theory. COLT '92. New York, NY, USA: ACM, 1992. Pp. 144-152.
31. Braslavski P. Document style recognition using shallow statistical analysis // Proceedings of the ESSLLI 2004 Workshop on Combining Shallow. 2004. Vol. 7. Pp. 1-9.
32. Bratko A., Cormack G.V., Lynam T.R,. Spam Filtering Using Statistical Data Compression Models // Journal of Machine Learning Research. 2006. Vol. 7. Pp. 2673-2698.
33. Breiman L. Bagging predictors // Mach. Learn. 1996.—August. Vol. 24. Pp. 123-140.
34. Casella G., George E. I. Explaining the Gibbs sampler // American Statistics. 1992. Vol. 46. Pp. 167-174.
35. Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // ACM SIGIR Forum. 2006. Vol. 40, no. 2. Pp. 11-24.
36. Chang C.-C., Lin C.-J. LIBSVM: A library for support vector machines // ACM Trans. Intell. Syst. Technol. 2011.-May. Vol. 2. Pp. 27:1-27:27.
37. Dai N., Davison B.D., Qi X. Looking into the past to better classify web spam // Proceedings of the 5th International Workshop on Adversarial Information Retrieval on the Web - AIRWeb '09. 2009. P. 1.
38. Dang H.T. Overview of DUC 2006 // Proceedings of the Document Understanding Conference. Vol. 2005. 2006.
39. Dubay W.H. The Principles of Readability // Costa Mesa, CA: Impact Information. 2004.
40. Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics: using statistical analysis to locate spam web pages // Proceedings of the 7th International Workshop on the Web and Databases: colocated with ACM SIGMOD/PODS 2004. ACM, 2004. Pp. 1-6.
41. Fetterly D., Manasse M., Najork M. Detecting phrase-level duplication on the world wide web // Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '05. 2005. P. 170.
42. Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // Proceedings of the Second European Conference on Computational Learning Theory. London, UK: Springer-Verlag, 1995. Pp. 23-37.
43. Geng G.G., Jin X.B., Wang C.-H. CASIA at Web Spam Challenge 2008 Track III // airweb.cse.lehigh.edu. 2008. Vol. 24, no. 2. Pp. 100080-100080.
44. Gilliland J. The concept of readability // Reading. 1968. Vol. 2. Pp. 24—29.
45. Gyöngyi Z., Garcia-Molina H. Web spam taxonomy // First International Workshop on Adversarial Information Retrieval on the Web. Citeseer, 2005.
46. Gyöngyi Z., Garcia-Molina H., Pedersen J. Combating web spam with trustrank // Proceedings of the Thirtieth international conference on Very large data bases-Volume 30. VLDB Endowment, 2004. Pp. 576-587.
47. Heinrich G. Parameter estimation for text analysis // Bernoulli. 2005. no. 1. Pp. 1-31.
48. Henzinger M.R.., Motwani R,., Silverstein C. Challenges in web search engines // ACM SIGIR Forum. No. 2. ACM, 2002. R 22.
49. Friedman J.H. Greedy Function Approximation: A Gradient Boosting Machine // Annals of Statistics. 2000. Vol. 29. Pp. 1189-1232.
50. Joachims T. Text categorization with support vector machines: Learning with many relevant features // Machine Learning: ECML-98. 1998. Pp. 137-142.
51. Jones T., Hawking D. A Framework for Measuring the Impact of Web Spam. 2007. Pp. 108-111.
52. Kleinberg J.M. Authoritative Sources in a Hyperlinked Environment // JOURNAL OF THE ACM. 1999. Vol. 46, no. 5. Pp. 604-632.
53. Li W. Random texts exhibit Zipf's-law-like word frequency distribution // Information Theory, IEEE Transactions on. 2002. Vol. 38, no. 6. Pp. 1842-1845.
54. Nikolaev K., Zudina E., Gorshkov A. Combining anchor text categorization and graph analysis for paid link detection // Proceedings of the 18th international conference on World wide web. WWW '09. New York, NY, USA: ACM, 2009. Pp. 1105-1106.
55. Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam web pages through content analysis // Proceedings of the 15th international conference on World Wide Web - WWW '06. 2006. P. 83.
56. Page L., Brin S., Motwani R.. The PageR.ank citation ranking: Bringing order to the web. // World Wide Web Internet And Web Information Systems. 1999. Pp. 1-17.
57. Piskorski J., Sydow M., Weiss D. Exploring linguistic features for web spam
detection: a preliminary study // Proceedings of the 4th international workshop on Adversarial information retrieval on the web. ACM, 2008. Pp. 25-28.
58. Quinlan J.R. C4.5: programs for machine learning. San Francisco, CA? USA: Morgan Kaufmann Publishers Inc., 1993. ISBN: 1-55860-238-0.
59. Robertson S.E., Sparck J.K. Relevance weighting of search terms. London, UK, UK: Taylor Graham Publishing, 1988. Pp. 143-160. ISBN: 0-947568-21-2.
60. Segalovich I, A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of MLMTA. 2003. Pp. 1-9.
61. Toutanova K., Manning C.D. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger // Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics - Volume 13. EMNLP '00. Stroudsburg, PA, USA: Association for Computational Linguistics, 2000. Pp. 63-70.
62. Wu B., Davison B.D. Identifying link farm spam pages // Special interest, tracks and posters of the 14th international conference on World Wide Web - WWW '05. 2005. P. 820.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.