Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Глазкова, Валентина Владимировна

  • Глазкова, Валентина Владимировна
  • кандидат физико-математических науккандидат физико-математических наук
  • 2008, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 103
Глазкова, Валентина Владимировна. Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2008. 103 с.

Оглавление диссертации кандидат физико-математических наук Глазкова, Валентина Владимировна

ВВЕДЕНИЕ.

ГЛАВА 1. ЗАДАЧА КЛАССИФИКАЦИИ МНОГОТЕМНЫХ ДОКУМЕНТОВ.

1.1 Постановка задачи и требования к решению.

1.2 Обзор методов классификации многотемных документов.

1.2.1 Критерии сравнения методов.

1.2.2 Методы, основанные на оптимизационном подходе.

1.2.2.1 Метод AdaBoost.MH.

1.2.2.2 Метод ADTBoost.MI 1.

1.2.2.3 Метод ML-kNN на основе алгоритма к-ближайших соседей и принципа максимизации апостериорных вероятностей.

1.2.2.4 Метод на основе модели смешивания, обученной с помощью метода максимизации математического ожидания.

1.2.3 Методы, основанные на декомпозиции в набор независимых бинарных проблем.

1.2.4 Методы, основанные на подходе ранжирования с последующим отсечением нерелевантных классов.

1.2.4.1 Метод Multiclass-Multilabel Perceptron.

1.2.4.2 Метод k-ближайших соседей.

1.2.4.3 Метод RankSVM.

1.2.4.4 Методы отсечения нерелевантных классов.

1.3 Выводы.

ГЛАВА 2. РЕШЕНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ МНОГОТЕМНЫХ ДОКУМЕНТОВ НА ОСНОВЕ ПОДХОДА ПОПАРНЫХ СРАВНЕНИЙ.

2.1 Структура предложенного решения.

2.2 Традиционный подход па основе попарных сравнений для взаимно исключающих классов

2.3 Предложенный метод ранжирования на основе попарных сравнений для существенно пересекающихся классов.

2.4 Предложенные методы отсечения нерелевантных классов.

2.4.1 Метод, основанный на пороговой функции в пространстве релевантностей классов.

2.4.2 Метод, основанный на предположении о существовании линейной зависимости функции классификации от функции ранжирования.

2.5 Дообучение метода классификации.

2.6 Экспериментальная оценка предложенного решения на эталонных наборах данных.

2.6.1 Описание тестовых данных.

2.6.2 Сравнение эффективности методов отсечения нерелевантных классов.

2.6.3 Сравнение эффективности методов классификации многотемных документов.

2.7 Выводы.

ГЛАВА 3. МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ГИПЕРТЕКСТОВЫХ ДОКУМЕНТОВ.

3.1 Постановка задачи и требования к решению.

3.2 Обзор методов построения модели представления гипертекстовых документов.

3.2.1 Критерии сравнения моделей представления.

3.2.2 Выделение признаков в гипертекстовых документах.

3.2.2.1 Метод ключевых слов.

3.2.2.2 Метод N-грамм.

3.2.2.3 Учёт окружения гипертекстовых документов.

3.2.3 Меры сходства для документов.

3.2.3.1 Частотная мера сходства.

3.2.3.2 Мера сходства k-spectrum.

3.2.4 Выводы.

3.3 модель представления гипертекстовых документов на основе частых комбинаций признаков с учетом гиперссылок.

3.3.1 Предложенный метод учёта гиперссылок при представлении гипертекстовых документов.

3.3.2 Предложенный метод построения модели представления на основе выделения частых эпизодов признаков.

3.3.3 Дообучение метода построения модели представления документов.

3.3.4 Экспериментальная оценка предложенного решения на эталонных наборах данных.

3.3.4.1 Описание тестовых данных.

3.3.4.2 Оценка эффективности предложенной модели представления.

3.3.4.3 Сравнение эффективности методов выделения признаков.

3.3.4.4 Оценка эффективности разработанного метода классификации с разработанной моделью представления документов.

3.4 выводы.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЙ МОДУЛЬ КЛАССИФИКАЦИИ МНОГОТЕМНЫХ ГИПЕРТЕКСТОВЫХ ДОКУМЕНТОВ.

4.1 Требования к программным средствам классификации многотемных гипертекстовых документов.

4.2 Архитектура экспериментального модуля.

4.2.1 Компонент лексического анализа.

4.2.2 Компонент вычисления меры сходства.

4.2.3 Классификатор.

4.2.4 Свойства разработанной архитектуры.

4.3 Сценарии функционирования модуля.

4.3.1 Обучение.

4.3.2 Классификация.

4.3.3 Дообучение и добавление темы.

4.3.4 Удаление темы.

4.4 Особенности программной реализации модуля классификации.

4.5 Исследование производительности модуля и результаты экспериментов.

4.6 Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов»

Настоящая работа посвящена исследованию и разработке алгоритмов и методов построения программных средств классификации многотемных гипертекстовых документов. Задача классификации многотемных документов (multi-label classification), заключается в определении принадлежности документа к одному или нескольким классам (из предопределённого набора классов) на основании анализа совокупности признаков, характеризующих данный документ [4,9]. Классы, к которым принадлежит документ, называются релевантными для данного документа (рис. 1). Классы в рассматриваемой задаче не являются взаимоисключающими (как в традиционной постановке задачи классификации), а могут пересекаться и быть вложенными (рис. 2).

Документ В

ПНри ИЛ

• * ры а

ТЕРРОРИСТси • ptH м .

Предопределённый набор классов новости социология политика экономика терроризм искусство спорт

Релевантные классы елевантные классы

Рисунок 1. Задача классификации многотемных (multi-labe!) документов.

Разработка подходов и алгоритмов решения задачи классификации многотемных документов - это относительно новое направление исследований, которое в настоящее время активно развивается за рубежом и в России. Большинство существующих подходов [4,6-9,11,12] является альтернативой непосредственного сведения задачи классификации многотемных документов к традиционной задаче классификации, характеризующейся тем, что классифицируемый объект может принадлежать только к одному классу (multi-class classification) [18]. кпассЗ 1

Рисунок 2. Multi-class и multi-label классификация.

На сегодняшний день существует ряд актуальных прикладных задач, при решении которых возникает необходимость разработки программных средств классификации многотемных документов. К числу таких задач относятся: категоризация электронной почты [60-62]; мониторинг документооборота пользователей и предотвращение утечек конфиденциальной информации [53]; анализ и фильтрация Интернет-трафика [54-56]; автоматизированное модерирование Интернет-ресурсов [58]; категоризация документов в электронных библиотеках [52] и другие. Остановимся подробнее на некоторых из перечисленных задач.

Объёмы электронной корреспонденции и время работы пользователей с ней ежегодно возрастают, в связи с этим возникает необходимость в средствах автоматизированной категоризации электронной почты. Почтовые папки пользователей могут иметь сложную структуру и не обязательно соответствуют семантическим тематикам или отдельным адресатам. Папки могут соответствовать текущим задачам, группам проектов, адресатам, группам адресатов и т.д. При этом электронные сообщения являются многотемными относительно заданного набора папок: например, одно и то же сообщение может относиться как к текущему проекту, которым занимается пользователь, так и к нескольким отдельным адресатам (рис. 3). Отметим, что при решении данной задачи предъявляются высокие требования к производительности программных средств классификации, поскольку автоматическая категоризация входящих электронных писем не должна приводить к задержкам при общении пользователей в интерактивном режиме.

ВхрдящД /-f

Ко нф^рен^ц и Студент^

Исследовался

Новуп^прс^кт

Сотрудники

Мваиов^-

Пстрру

Срдоро^

СПА^

Рисунок 3. Категоризация электронной почты.

В задаче анализа и фильтрации Интернет-трафика возникает необходимость определять тематики web-страниц для блокирования доступа учащихся и сотрудников организаций к нелегальной информации, принадлежащей к определённым категориям ресурсов, а также для предотвращения нецелевого использования Интернет-ресурсов в рабочее время. Набор категорий фильтрации Интернет-ресурсов определяется, исходя из специфики организации и возможности задания гибких политик фильтрации трафика для различных пользователей и групп пользователей. Категории фильтрации могут пересекаться и иметь иерархическую структуру, при этом классифицируемый объект (web-страница) имеет многотемную природу относительно этого набора категорий. Например, некоторая новостная статья может одновременно принадлежать как к категории «новости», так и категориям «политика» и «терроризм» (рис. 1). В данной задаче время классификации запрашиваемых пользователями web-страниц является критичным и не должно вносить задержки в интерактивный режим работы конечных пользователей.

В задаче мониторинга документооборота пользователей и предотвращения утечек конфиденциальной информации необходимо определять категории документов, с которыми работают пользователи, и анализировать трафик пользователей с целью обнаружения и предотвращения доступа к конфиденциальным данным (таким как информация о корпоративных сетях, персональная информация пользователей и т.п.). Актуальность данной задачи обоснована тем, что порядка 45% внутренних угроз в организациях составляет нарушение конфиденциалыюсти информации [57]. Набор конфиденциальных категорий определяется спецификой конкретной организации и политиками безопасности, а передаваемые документы являются многотемными относительно этих категорий (рис. 4). Производительность программных средств классификации при решении данной задачи также является критичной, поскольку конечные пользователи не должны замечать задержки, связанные с категоризацией и анализом передаваемых ими документов.

Набор категорий секретный особо секретный кредиты продажа оборудования контракт налоговый данные о служащих

Рисунок 4. Задача предотвращения утечек конфиденциальной информации.

В задаче автоматизированного модерирования Интернет-ресурсов в качестве классифицируемых объектов выступают сообщения на дискуссионных форумах, досках объявлений, новостных порталах, редактируемых пользователями, и т.п. Каждое сообщение может одновременно затрагивать многие сферы интересов пользователей, и соответственно, может быть отнесено сразу к нескольким категориям. Определяя эти категории, можно, например, выявлять несоответствия сообщений определённым тематикам форума и перемещать сообщения в наиболее релевантные для них тематики, а также обнаруживать факты web-спама. Отметим, что требования к производительности средств классификации при решении данной задачи высоки, поскольку поступающие сообщения должны классифицироваться с такой скоростью, чтобы пользователи Интернет-ресурса при этом могли работать в интерактивном режиме.

Таким образом, во всех перечисленных задачах возникает необходимость решения задачи классификации, причем классифицируемый документ имеет многотемную природу, и для принятия решения необходимо знать набор всех классов, релевантных для документа. Существующие решения [43-50] для рассматриваемых приложений основаны на сведении их к совокупности задач традиционной (multi-class) классификации с последующим применением соответствующих методов. Настоящая работа посвящена исследованию использования методов классификации многотемных (multi-label) документов для решения обозначенных прикладных задач.

Для решения перечисленных прикладных задач требуется применение методов классификации на основе машинного обучения, поскольку состав и содержимое анализируемых документов постоянно изменяется, и одним из путей адаптации к этой динамике является использование таких методов. Цель методов машинного обучения для задачи классификации многотемных документов заключается в построении модели классификации на основе обучающего набора и применении построенной модели для предсказания набора классов, релевантных для нового документа [5] (рис. 5).

Рисунок 5. Классификация многотемных документов на основе машинного обучения.

Обучающий набор для рассматриваемой задачи классификации состоит из документов, каждому из которых сопоставлено множество релевантных классов (рис. 6). Под документами и классами в обозначенных приложениях будем подразумевать некоторые обобщённые понятия, которые различаются для разных прикладных задач. В качестве документов будут выступать web-страницы, электронные письма, сообщения на форумах, досках объявлений, новостных порталах и т.п.; в качестве классов - рубрики, тематики, категории.

Классы

Обучающий набор

Документы

1 2 3 J . ч

0 1 0 1 1

1 0 1 0

Г о г г 0

У 0 I и 1

Релевантные классы для документа х,

Рисунок 6. Обучающий набор для задачи классификации многотемных документов.

В рассматриваемых прикладных задачах обучающие наборы имеют достаточно большой размер, ввиду чего при решении этих задач необходимо применение методов классификации с возможностью дообучения без необходимости хранения обучающего набора (incremental learning, пошаговое обучение) [6,31,37]. При пошаговом обучении обучающие данные подаются алгоритму последовательно (по одному примеру на каждом шаге обучения), и на последующих шагах алгоритм использует только новые обучающие примеры. При традиционном пакетном обучении (batch learning), в отличие от пошагового, для обучения алгоритма классификации весь обучающий набор должен быть задан целиком.

Возможность пошагового обучения может включать в себя различные сценарии функционирования, связанные как с уточнением модели классификации на новых обучающих примерах в рамках предопределённого набора тематик, так и с модификацией модели классификации при удалении существующих и добавлении новых тематик классификации с новыми обучающими примерами. Специфика перечисленных прикладных задач такова, что набор интересующих тематик классификации может динамически изменяться. Например, в задачах предотвращения утечек конфиденциальной информации и фильтрации Интрнет-трафика список запрещённых и разрешённых тематик может пополняться, в то время как некоторые из существующих тематик могут становиться неактуальными в процессе работы прикладной системы. В задаче категоризации электронной почты пользователь может создавать новые тематические папки и удалять существующие, и в этом случае необходимо, чтобы алгоритм классификации дообучался с учётом этих изменений. В задаче автоматизированного модерирования Интернет-ресурсов список категорий (форума, новостного портала и т.п.), как правило, изменяется со временем. Изменения набора категорий могут быть достаточно частыми и должны оперативно отражаться в модели классификации, чтобы анализ новых сообщений осуществлялся относительно наиболее актуального набора тематик. Поэтому важно, чтобы для учёта изменений набора тематик не приходилось заново обучать модель классификации.

Таким образом, актуальна разработка программных средств классификации многотемных документов, обеспечивающих следующие сценарии функционирования: обучение на основе обучающего набора, классификация документов, дообучение па новых документах без необходимости хранения предыдущего обучающего набора, добавление и удаление тематик классификации. Разрабатываемые программные средства должны удовлетворять требованиям к производительности, предъявляемым современными прикладными задачами. Качественной неформальной оценкой этих требований будем считать, что скорость классификация документов должна соответствовать интерактивному режиму работы пользователей. Следует отметить, что методы машинного обучения для классификации документов постоянно развиваются и совершенствуются, поэтому необходимо предусмотреть в архитектуре программных средств классификации возможность расширяемости, т.е. возможность независимой замены отдельных компонентов и методов.

Ещё одной важной подзадачей при создании программных средств классификации является разработка модели представления электронных документов, поскольку для алгоритма классификации на основе машинного обучения выбор модели представления документов влияет на большинство важных критериев оценки алгоритма, таких как скорость обучения и классификации, точность, размер модели. Формальной моделью описания электронных документов, с которыми работают обозначенные прикладные задачи, является гипертекст. Гипертекстовая модель представления определяется ориентированным графом, в вершинах которого располагаются блоки содержательной информации [1-3]. Эти блоки имеют смысловую связь, фиксируемую дугами и ребрами графа. Благодаря этому гипертекст отличается от обычного линейного текста, который имеет последовательную структуру. Учёт гиперссылок в документе может позволить получить более точное (для классификации) представление, по сравнению с учётом только локального содержимого (контента) классифицируемого документа [16]. Однако при этом необходимо учитывать, что глубина выборки контента по гиперссылкам существенно влияет на скорость представления документов, а соответственно и на скорость классификации.

Итак, на сегодняшний день является актуальным проведение исследований и разработка программных средств, осуществляющих классификацию многотемных гипертекстовых документов на основе методов машинного обучения с возможностью дообучения и добавления (удаления) категорий классификации.

Постановка задачи: исследование и разработка методов и построение программных средств классификации многотемных гипертекстовых документов на основе методов машинного обучения с возможностью дообучения и добавления (удаления) категорий классификации.

Таким образом, разработанные программные средства классификации должны обеспечивать:

• возможность пошагового дообучения и добавления (удаления) категорий классификации без необходимости хранения обучающего набора;

• производительность классификации, не уступающую современному уровню разработок по данной проблеме.

Объектом исследования диссертационной работы является архитектура программных средств классификации многотемных гипертекстовых документов; алгоритмы классификации многотемных документов на основе машинного обучения; модели представления гипертекстовых документов.

Структура диссертации. Диссертация состоит из введения, четырёх глав, заключения и библиографии. Далее излагается краткое содержание работы.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Глазкова, Валентина Владимировна

Основные результаты диссертации:

1. Разработан новый метод многотемной классификации многотемных документов (на основе попарных сравнений с отсечением нерелевантных классов при помощи пороговой функции), обеспечивающий: возможность дообучения; возможность динамического удаления и добавления классов; более высокое качество классификации, по сравнению с существующими методами.

2. Разработана модель представления гипертекстовых документов, основанная на учёте гиперссылок посредством анализа структуры адресов документов и па расширении традиционной векторной модели представления за счёт добавления частых комбинаций признаков. Разработанное решение позволяет повысить эффективность представления гипертекстовых документов по сравнению с существующим и методами.

3. На основе предложенных решений разработан программный модуль классификации многотемных гипертекстовых документов. Разработанный модуль поддерживает следующие основные сценарии функционирования: обучение на основе обучающего набора, классификация документов, дообучение на новых документах без необходимости хранения обучающего набора, добавление и удаление тематик классификации.

Разработанный модуль апробирован в системе анализа и фильтрации Интернет-трафика в рамках Государственного контракта № 02.514.11.4026 (федеральная целевая программа «Исследование и разработка по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы»). Система анализа и фильтрации Интернет-трафика зарегистрирована в реестре программ для ЭВМ (свидетельство о государственной регистрации № 2008614494).

Заключение

Список литературы диссертационного исследования кандидат физико-математических наук Глазкова, Валентина Владимировна, 2008 год

1. Nelson, T.N. A file structure for the complex, the changing, and the indeterminate // ACM 20th National Conference - Proceedings (Clevelend, Ohio, 1965), pp. 84.

2. Архитектура Web и виртуальные системы, http://194.226.30.40/scripts/web/index.pl.

3. B.JI. Эпштейн. Гипертекст новая парадигма информатики // Автоматика и Телемеханика, №11,1991.

4. Zhang M.-L., Zhou Z.-H. A k-nearest neighbor based algorithm for multi-label classification // Proceedings of the 1st IEEE International Conference on Granular Computing (GrC'05). Beijing, China, 2005. pp. 718-721.

5. Boutell M. R., Luo J., Shen X., Brown C.M. Learning multi-label scene classification //Pattern Recognition. 2004. №37. pp. 1757-1771.

6. C. Crammer, Y. Singer. A family of additive online algorithms for category ranking // Machine Learning Research. №3. 2003. pp. 1025-1058.

7. Schapire R. E., Singer Y. BoosTexter: A boosting-based system for text categorization // Machine Learning. 2000. 39. №2-3. pp. 135-168.

8. Comite F. D., Gilleron R., Tommasi M. Learning multi-label alternating decision tree from texts and data // Machine Learning and Data Mining in Pattern Recognition, MLDM 2003 Proceedings, Lecture Notes in Computer Science 2734. Berlin, 2003. pp. 35-49.

9. McCallum A. Multi-label text classification with a mixture model trained by EM // Working Notes of the AAAI'99 Workshop on Text Learning, Orlando, FL, 1999.

10. Freund Y., Mason L. Alternating decision tree learning algorithm // In Proc. 16th International Conf. On Maching Learning. San Francisco, USA, 1999. pp. 124-133 .

11. Elisseeff A., Weston J. A kernel method for multi-labelled classification // Proceedings of the 14th Neural Information Processing Systems (NIPS) Conference, Cambridge, 2002.

12. Minh Due Cao, Xiaoying Gao. Combining Content and Citation for Scientific Document Classification//AI2005, LNAI 3809, 2005. pp. 143-152.

13. Information Retrieval Tutorials: Document Indexing Tutorial электронный ресурс. : представление документов для информационного поиска / Garcia Е. Режим доступа: http://m\fw.miislita.com/information-retricval-tutorial/indcxing.html.

14. Vector Theory and Keyword Weights электронный ресурс. : выделение признаков из документов / Garcia Е. Режим доступа: http://www.miislita.com/information-retrieval-tutorial/indexing.html.

15. William В. Cavnar, John М. Trenkle. NGram-Based Text Categorization // In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. pp. 161—175.

16. Soumen Chakrabarti, Byron E. Dom, Piotr Indyk. Enhanced hypertext categorization using hyperlinks // Proceedings of the ACM International Conference on Management of Data, SIGMOD, 1998. pp. 307-318

17. П.В. Борисова, П.С. Мышков, А.А. Незлобии, А.Д. Петров. Классификация вебстраниц на основе алгоритмов машинного обучения. http://companv.yandex.ru/grant/2005/08 Petrov 103106.pdf.

18. Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов // Диссертация на соискание ученой степени кандидата физико-математических наук. Москва. 2004.

19. S. Abe, Т. Inoue. Fuzzy Support Vector Machines for Multiclass Problems, Proc. of ESANN'2002, Belgium, 2002. pp. 113-118.

20. M. Petrovskiy. Probability Estimation in Error Correcting Output Coding Framework Using Game Theory, Proc. of 18th ACS Australian Joint Conference on Artificial Intelligence, Lecture Notes in Artificial Intelligence, 3809, Berlin, 2005. pp. 186-196.

21. T.-K. Huang, R. Weng and C.-J. Lin. A Generalized Bradley-Terry Model: from Group Competition to Individual Skill // Proc. of NIPS'04. 2004.

22. D. R. Hunter. MM-algorithms for generalized Bradley-Terry models, Annals of Statistics, Inst, of Math. Stat., 32 (1),, 2004. pp. 384-^06.

23. P.V. Rao and L.L. Kupper. Ties in paired-comparison experiments: A generalization of the Bradley-Terry model, Amer. Statist. Assoc, 62, 1967. pp. 194-204.

24. J. Piatt. Probabilistic Outputs for Support Vector Machines and Comparison to Regularized Likelihood Methods. Adv. in Large Margin Classifiers. MIT Press, 1999. pp. 61-74.

25. W. Zheng, L. Zhao, and C. Zou. A modified algorithm for generalized discriminant analysis. Neural Computation, 16(6), 2004. pp.1283-1297

26. Jian Pei. Pattern-growth Methods for Frequent Pattern Mining // Ph.D. Thesis. Simon Franser University, 2002.

27. Snedecor G.W., Cochran W.G. Statistical Methods // 8th ed. Ames, Iowa, Iowa State University Press, 1989.

28. Bank Research Dataset электронный ресурс.: Набор данных BankResearch.- Режим доступа: http://lib.stat.cmu.edu/datasets/bankresearch.zip.

29. D.D. Lewis, Y. Yang, Т. G. Rose, and F. Li. RCV1: A new benchmark collection for text categorization research // Machine Learning, 5, 2004. pp. 361-397.

30. J. Piatt, Fast Training of Support Vector Machines using Sequential Minimal Optimization // in Advances in Kernel Methods Support Vector Learning, B. Scholkopf, C. Burges, and A. Smola, eds., МГГ Press, 1998.

31. J. Kivinen, A. Smola, and R. C. Williamson. Online Learning with kernels. Advances in Neural Information Processing Systems 14, Cambridge, MA: MIT Press, 2002. pp. 785793.

32. C.-C. Chang and C.-J Lin. LIBSVM: a library for support vector machines, 2001. Software available at: Chih-Chung Chang, Chih-Jen Lin. LIBSVM : a library for support vector machines (http://www.csie.ntu.edu.tw/~cilin/libsvm).

33. Schapire R. E., Singer. Y.: Improved boosting algorithms using confidence-rated predictions // Machine Learning, 37(3), 1999. pp. 297-336.

34. Elisseeff A., Weston J. Kernel methods for multi-labelled classification and categorical regression problems // Technical report, BlOwulf Technologies, 2001.

35. Everitt B. S. The analysis of contingency tables // Chapman and Hall, London, 1977.

36. Осовский С. Нейронные сети для обработки информации // М.: Финансы и статистика, 2004.

37. Crammer С., Singer Y. A new family of online algorithms for category ranking // Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. Tampere, Finland, 2002. pp. 151 158.

38. M-L Zhang, Z-H Zhou. Ml-kNN: A lazy learning approach to multi-label learning // Pattern Recognition, 40(7), 2007. pp. 2038-2048

39. Parr T. J. The Definitive ANTLR Reference: Building Domain-Specific Languages // The Pragmatic Bookshelf, 2007. p. 361.

40. Mikhail Petrovskiy, Valentina Glazkova. Linear Methods for Reduction from Ranking to Multilabel Classification // Springer-Verlag, Lecture Notes in Artificial Intelligence, vol. 4304, 2006. pp. 1152-1156.

41. Система доменных имен. Российский сегмент. Технические подробности. http://www.proiect.net.ru/hosting/article3/gl6.html.

42. Average Web Page Size Triples Since 2003. www.websiteoptimization.com/speed/tweak/average-web-page.

43. US Patent 2007/0198507. System and Method For Modeling Multilabel Classification and Ranking, http://www.freepatentsonline.com/70198507.html.

44. WO Patent 2002/091193. Web Page Annotation System. http://www.wipo.int/pctdb/en/wo.isp?IA=WQ2002091193&WQ=2002091193&DISPLA Y-CLAIMS.

45. WO Patent 2002/048911. A System and Method for Multi-class Multi-label Hierarhical Categorization. http://www.wipo.int/pctdb/en/wo.jsp?wo-2002048911.

46. WO Patent 2001/093067. Method for Automatic Categorization of Items. http://www.wipo.int/pctdb/en/wo.isp?WO=2001093067&IA^W02001093067&DISPLA Y—DESC.

47. US Patent 2007/0005340. Incremental Training for Probabilistic Categorizer. http://www.freepatentsonline.com/y2007/000534Q.html.

48. US Patent 6453307. Method and Apparatus for Multi-class, Multi-label Information categorization, www.patentstorm.us/patents/6453307.html.

49. US Patent 7139754 (2005/0187892). Method for multi-class, multi-label categorization using probabilistic hierarchical modeling, www.patentgenius.com/patent/7139754.html.

50. US Patent 6112203. Method for Ranking Documents in a Hyperlinked Environment Using Connectivity and Selective Content Analysis. www.patentstorm.us/patents/6112203 .html.

51. Петровский М.И., Глазкова B.B. Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов // Вычислительные методы и программирование, №8, 2007. стр. 57-69.

52. О.В.Пескова, Классификация документов в электронных библиотеках http://www.gpntb.ru/win/inter-events/crimea2007/cd/63.pdf.

53. Info Watch Web Monitor (IWM) программный продукт для предотвращения утечки конфиденциальной информации через Интернет, http://www.infowatch.ru/.

54. POESIA project: a Public Open-source Environment for a Safer Internet Access http://www.poesia-filter.org.

55. SurfControl Web Filter, http://mtas.surfcontrol.com/.

56. SIFT Solution for Internet Combined Filtering http://www.sift-platform.org/.

57. Олег Слепов. Контентная фильтрация. http://www.ietsoft.ru/download/public/JI10v2.pdf.

58. Википедия. Спам способы распространения: блоги, вики, форумы, доски объявлений http://ru.wikipedia.org/wiki/CnaM.

59. F. Sebastiani. Machine learning in automated text categorization, ACM Computing Surveys 34 (1), 2002. pp. 1-47.

60. Олег Слепов, Александр Таранов. Безопасность систем электронной почты. www.citforum.ru/security/internet/email/articlel.6.2003104.html.

61. Email and Document Classification http://www.titus-labs.com/software/.

62. Automatic Categorization of Email into Folders: Benchmark Experiments on Enron and SRI Corpora, http://www.cs.umass.edu/~ronb/papers/email.pdf.

63. Глазкова B.B., Петровский М.И. Методы классификации многотемных документов // Сборник тезисов XIII Международной конференции студентов, аспирантов и молодых учёных «ЛОМОНОСОВ», секция ВМиК, 2006, стр. 16-17.

64. Глазкова В.В. Исследование и разработка методов классификации многотемных документов // Сборник тезисов лучших дипломных работ 2006 года, М.: Изд-во факультета ВМиК МГУ, 2006, стр. 75-76.

65. Глазкова В. В., Петровский М.И. Дообучаемый метод классификации многотемных документов для анализа и фильтрации Интернет информации. // Программные системы и инструменты. Тематический сборник № 7, М.: Изд-во факультета ВМиК МГУ, 2006, стр. 71-82.

66. Глазкова В.В., Петровский М.И. Метод быстрой классификации многотемных текстовых документов // Сборник статей молодых учёных факультета ВМиК МГУ, №3, М., 2006, стр. 55-64.

67. Глазкова В.В., Масляков В.А., Машечкин И.В., Петровский М.И. Интеллектуальная система анализа и фильтрации Интернет-информации // Сборник статей молодых учёных факультета ВМиК МГУ, №4, М., 2007, стр. 18-26.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.