Параллельная система тематической текстовой классификации на основе метода опорных векторов тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Пескишева, Татьяна Анатольевна
- Специальность ВАК РФ05.13.17
- Количество страниц 173
Оглавление диссертации кандидат технических наук Пескишева, Татьяна Анатольевна
Содержание
ВВЕДЕНИЕ
ГЛАВА 1. МЕТОД ОПОРНЫХ ВЕКТОРОВ В ЗАДАЧЕ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
1.1. Постановка задачи текстовой классификации
1.2. Выделение ключевых признаков
1.3. Классификаторы и методы обучения
1.4. Метод опорных векторов (Support Vector Machines, SVM)
1.4.1. Идея метода
1.4.2. Ядра и подбор параметров ядер
1.4.3. Алгоритмы обучения SVM
1.4.4. Методы многоклассовой классификации
1.4.5. Распараллеливание алгоритмов обучения SVM
1.5. Системы и модули текстовой классификации
1.6. Оценка эффективности систем текстовой классификации
ВЫВОДЫ ПО ГЛАВЕ 1
ГЛАВА 2. РАЗРАБОТКА ПАРАЛЛЕЛЬНЫХ МЕТОДОВ И АЛГОРИТМОВ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
2.1. Параллельный алгоритм обучения бинарного классификатора
2.2. Параллельный алгоритм формирования векторной модели текста
2.3. Параллельный алгоритм обучения многоклассового классификатора
2.4. Параллельный алгоритм настройки параметров классификатора
2.5. Параллельный метод текстовой классификации для иерархической структуры вычислительной системы
ВЫВОДЫ ПО ГЛАВЕ 2
ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ПАРАЛЛЕЛЬНЫХ МЕТОДОВ. 97 3.1. Структура параллельной системы текстовой классификации
3.2. Режимы работы параллельной системы текстовой классификации
3.3. Рекомендации по работе с системой
3.4. Оценка эффективности
ВЫВОДЫ ПО ГЛАВЕ 3
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ СИСТЕМЫ ТЕКСТОВОЙ КЛАССИФИКАЦИИ
4.1. Особенности программной реализации
4.2. Характеристики вычислительного кластера
4.3. Описание текстовых коллекций
4.4. Эксперименты на коллекции Ке^егз-21578
4.5. Эксперименты на коллекции ЯСУ1
ВЫВОДЫ ПО ГЛАВЕ 4
ЗАКЛЮЧЕНИЕ
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
СПИСОК СОКРАЩЕНИЙ
ПРИЛОЖЕНИЯ
Приложение 1. Схемы систем и модулей текстовой рубрикации
Приложение 2. Характеристика систем и модулей текстовой рубрикации
Приложение 3. Наличие блоков обобщенной структуры системы текстовой рубрикации в существующих системах и модулях (по данным доступных источников)
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович
Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов2004 год, кандидат физико-математических наук Агеев, Михаил Сергеевич
Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович
Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен объектов и последующем построении графов совместной встречаемости ключевых термов2009 год, кандидат физико-математических наук Шмулевич, Марк Михайлович
Модели и методы автоматической классификации текстовых документов2003 год, кандидат технических наук Шабанов, Владислав Игоревич
Введение диссертации (часть автореферата) на тему «Параллельная система тематической текстовой классификации на основе метода опорных векторов»
ВВЕДЕНИЕ
С каждым днем увеличивается объем текстовых данных, хранящихся в электронном виде. Развитие глобальных компьютерных сетей и появление полнотекстовых баз данных (электронных библиотек, баз авторефератов, научных статей) привело к экспоненциальному росту объема текстовой информации. Для организации эффективной работы с этой информацией используются различные системы обработки текстов, предназначенные для решения широкого круга задач, таких как поиск, аннотирование, машинный перевод, извлечение фактов и др.
Важным этапом обработки текстовой информации является тематическая классификация (рубрикация), цель которой состоит в отнесении текстовых документов к одной или нескольким заранее заданным категориям (рубрикам) по определенным признакам. Текстовая классификация применяется в таких областях, как фильтрация спама, сортировка новостей, проверка авторства, составление Интернет-каталогов, автоматическое аннотирование, информационный поиск и др.
В настоящее время существует два базовых подхода к тематической классификации текстов: подход на основе машинного обучения (machine learning) и подход на основе обработки знаний (knowledge engineering) [29]. При использовании подхода на основе машинного обучения классифицирующее правило определяется в результате автоматического анализа выборки (коллекции) заранее отрубрицированных документов. Для составления правила классификации в методах, основанных на знаниях, требуется предварительный анализ рубрик и документов и определение признаков рубрик экспертами вручную. В связи с высокой трудоемкостью использования методов, основанных на знаниях, все большее распространение получают методы машинного обучения.
Решение задачи тематической классификации позволит автоматизировать процесс обработки текстовой информации, сделать его менее тру-
доемким и более эффективным с точки зрения времени выполнения и точности полученных результатов.
Разработке и тестированию алгоритмов тематической текстовой классификации, а также связанным с ними моделям представления текстов посвящены труды таких авторов как М. С. Агеев [3], Г.Г. Белоногов [9], Б. В. Добров [3], И. Е. Кураленок [28], Д.В.Ландэ [29], Ю. М. Лифшиц [31], И. С. Некрестьянов [28], О. В. Пескова [40], В. И. Шабанов [49], I. Dagan [67], S.T.Dumais [72, 73], М. Halkidi [82], T.Joachims [89, 90], Т. Kohonen [94], D.D.Lewis [99, 100], X.Liu [143], J.Platt[116, 117], R.E. Schapire [102], H. Schutze [126], F. Sebastiani [68], Y. Yang [143] и ряда других.
В настоящее время существуют специализированные системы автоматической классификации текста, такие как TextAnalyst [130] (Микросистемы), диалоговая система классификации и анализа текста ДИСКАНТ (СПб ЭМИ РАН) [21, 22], система классификации текстов информационных сообщений АКТИС (ИПС РАН) [7], NNCS («Бинейро») [1] и др.
Автоматическая классификация текстовой информации также является необходимым этапом работы других систем автоматической обработки текстов, таких как лингвистическая система ПОЛИТЕКСТ [30] (AHO ЦИИ), университетская информационная система РОССИЯ (НИВЦ МГУ им. М. В. Ломоносова и AHO ЦИИ) [47], поисково-аналитическая система Галактика-Zoom (Галактика) [17], комплекс программ Russian Context Optimizer (Гарант-Парк-Интернет) [120], системы Intelligent Miner for Text (IBM) [86], Oracle Text (Oracle) [90, 114] и др. В перечисленных системах автоматической обработки текста классификация документов выполняется в отдельных модулях.
Большинство систем и модулей текстовой классификации имеют приемлемую скорость и точность обработки небольших и средних по объему коллекций текстов. Однако значительный рост количества и объема документов, а также увеличение числа рубрик, по которым необходимо классифицировать документы, приводит к падению производительности
существующих систем. Под большим объемом данных здесь и далее понимается такой объем, обработка которого требует больше оперативной памяти, чем обычно доступно в современном персональном компьютере. Ещё одна проблема - сложность подбора оптимальных параметров классификатора, поскольку не существует общепринятой и эффективной методики их расчета, только полный перебор. Например, на стандартных текстовых коллекциях, используемых для оценки методов классификации - Reuters-21578 [121], RCV1 [103] (английский язык), коллекции семинара РОМИП [41] (русский язык) - процесс обучения с подбором параметров на одном компьютере может занимать при разных условиях от нескольких часов до нескольких десятков дней.
Таким образом, актуальность разработки высокопроизводительной системы автоматической тематической текстовой классификации следует из несоответствия между потребностями задач обработки текстовой информации и производительностью существующих методов текстовой классификации.
Одним из путей решения данной проблемы является использование многопроцессорных вычислительных систем и комплексов. Современные многопроцессорные системы в большинстве случаев имеют иерархическую архитектуру, что позволяет выполнять распараллеливание алгоритмов на нескольких уровнях.
Использование эффективных методов рубрикации в реализации системы текстовой классификации может быть еще одним путем повышения производительности программ автоматической текстовой классификации. По данным зарубежных и российских исследователей (Т. Joachims, S. Dumais, J. Platt, F. Sebastiani, Y. Yang, X. Liu, D. Lewis, M. С. Агеев, Б. В. Добров и др.) наилучшие результаты при текстовой классификации показывает метод распознавания образов под названием «машины опорных векторов» (Support Vector Machines, SVM).
Объектом исследования являются программные системы автоматической тематической классификации электронных текстовых документов.
Предметом исследования являются методы и средства повышения производительности систем автоматической текстовой классификации.
Целью диссертационной работы является разработка параллельных методов и алгоритмов тематической классификации текстов и построение на их основе параллельной системы автоматической текстовой классификации.
Для достижения этой цели в диссертации решены следующие задачи:
1. Обзор и анализ существующих модулей и систем текстовой классификации.
2. Разработка и исследование параллельных методов и алгоритмов текстовой классификации на основе метода опорных векторов.
3. Разработка структуры и режимов работы параллельной системы тематической классификации текстовой информации.
4. Разработка программной реализации параллельной системы тематической текстовой классификации.
5. Экспериментальное исследование характеристик разработанной параллельной системы.
Научная новизна работы состоит в следующем.
1. В ходе анализа существующих модулей и систем текстовой рубрикации была разработана обобщенная модель системы автоматической текстовой классификации. Отличительной особенностью данной модели является возможность ее применения для разработки системы автоматической классификации, независимо от подходов и методов, используемых на различных этапах работы системы.
2. Предложен параллельный алгоритм формирования векторной модели текста для иерархической структуры вычислительной системы, основанный на подходе TF-IDF (Term Frequency - Inverse Document Frequen-
су), отличающийся учетом количества ключевых слов документов на этапе балансировки нагрузки между узлами вычислительной системы.
3. Предложен параллельный алгоритм обучения бинарного классификатора на основе алгоритма образования фрагментов Chunking для метода опорных векторов, отличающийся стратегией распараллеливания.
4. Предложен параллельный алгоритм обучения многоклассового классификатора для иерархической структуры вычислительной системы, основанный на методе опорных векторов и предложенном параллельном алгоритме обучения бинарного классификатора, отличающийся учетом количества опорных векторов для каждой рубрики на этапе балансировки нагрузки между узлами вычислительной системы.
5. Предложен параллельный алгоритм настройки параметров классификатора, основанный на методе скользящего контроля по R х Q блокам, отличающийся способами перебора для разных групп параметров.
6. Предложен параллельный метод текстовой классификации для иерархической структуры вычислительной системы, основанный на разработанных параллельных алгоритмах формирования векторной модели текста, обучения классификатора и настройки параметров классификатора.
Практическая значимость работы заключается в следующем.
1. Разработана структура и предложены режимы работы параллельной системы автоматической текстовой классификации на основе параллельного метода текстовой классификации.
2. Разработана программная реализация параллельной системы автоматической текстовой классификации для вычислительного кластера с иерархической архитектурой.
3. Исследована эффективность разработанной параллельной системы автоматической текстовой классификации на различных многопроцессорных иерархических системах.
4. Разработаны рекомендации по практическому применению системы автоматической текстовой классификации для решения задач обработки текстовых документов.
5. Эффективность параллельных алгоритмов и параллельной системы автоматической классификации доказана экспериментально на общедоступных текстовых коллекциях - Г1еШ;ег8-21578 и ЯСУ1.
Теоретические и практические результаты, полученные при выполнении диссертационной работы, использованы в НИР по тематическому плану ВятГГУ на 2011 год «Программная система интеллектуального анализа текстов для социально-гуманитарных исследований», в НИР «Автоматическая классификация текстов» (ВятГГУ, договор №Н-04-10), в НИР «Разработка математических методов и алгоритмов тематической классификации текстовых документов» (ВятГГУ, НИР №8/2008). Программная реализация параллельной системы текстовой классификации внедрена в учебный процесс в Вятском государственном университете и в Вятском государственном гуманитарном университете, а также в работу социологической лаборатории Вятского государственного гуманитарного университета.
Основные результаты исследования докладывались и обсуждались на следующих конференциях:
1. Седьмая Международная конференция-семинар «Высокопроизводительные параллельные вычисления на кластерных системах» (г. Нижний Новгород, 2007);
2. Международная научно-практическая конференция «Современные проблемы и пути их решения в науке, транспорте, производстве и образовании 2007» (г. Одесса, 2007);
3. Восьмая Международная конференция-семинар «Высокопроизводительные параллельные вычисления на кластерных системах» (г. Казань, 2008);
4. Международная научная конференция «Параллельные вычислительные технологии (ПАВТ'2009)» (г. Нижний Новгород, 2009);
5. X Межрегиональная научно-практическая конференция «Актуальные проблемы гуманитарных и экономических наук» (г. Киров, 2009);
6. Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации» (г. Ульяновск, 2009);
7. XII Межрегиональная научно-практическая конференция «Актуальные проблемы гуманитарных и экономических наук» (г. Киров, 2011);
8. Международная научная конференция «Параллельные вычислительные технологии (ПАВТ'2011)» (г. Москва, 2011).
По результатам исследования опубликовано 12 печатных работ, из них статей и тезисов докладов - 11 (3 статьи опубликованы в изданиях из числа рекомендованных ВАК для опубликования результатов диссертационных исследований), депонированная рукопись - 1. Получено свидетельство об официальной регистрации программы для ЭВМ.
Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка (включающего 147 наименований), списка сокращений и 3-х приложений. Основная часть работы изложена на 164 страницах и содержит 27 рисунков и 6 таблиц.
Во введении обоснована актуальность темы исследования, ее научная новизна и практическая значимость, сформулированы цель и задачи исследования, приведены сведения об апробации и внедрении результатов работы.
В первой главе определены основные понятия и терминология, используемая в диссертационном исследовании, выполнена постановка задачи текстовой классификации. В работе описаны подходы, применяемые для выделения признаков документов, а также подходы к классификации текстовых документов.
Выбор и реализация способа обучения классификатора оказывает существенное влияние на время работы и эффективность системы автоматической текстовой классификации.
Описаны идея, математические основы метода опорных векторов (Support Vector Machines, SVM), случаи линейной и нелинейной разделимости, алгоритм подбора параметров для оптимальной работы классификатора.
Исследованы два основных подхода к решению проблемы многоклассовой классификации в SVM и три стратегии сведения многоклассовой классификации к бинарной.
Приведен обзор существующих параллельных алгоритмов обучения SVM. Рассмотренные алгоритмы в большинстве своем отличаются сложностью и не учитывают особенности конкретной прикладной задачи, например, рубрикации текстов.
В ходе исследования проанализированы 13 программных продуктов, решающих задачу текстовой рубрикации: 4 самостоятельные системы и 9 модулей, входящих в состав систем автоматической обработки текста. Выделен ряд способов их классификации. На основе выделенных способов классификации приведена характеристика рассмотренных систем и модулей.
Выделены общие этапы в процессе обработки текстовых документов и предложена обобщенная структура системы текстовой рубрикации, которая была использована при разработке параллельной системы тематической текстовой классификации.
Во второй главе приводится описание разработанных параллельных алгоритмов обучения классификатора SVM. Точность распознавания, достижимая при использовании метода опорных векторов, является одной из самых высоких среди соответствующих алгоритмов. Однако время процесса обучения, как правило, квадратично зависит от числа обучающих примеров (векторов) и для ряда задач недопустимо велико. Одним из воз-
можных способов преодоления указанного недостатка является распараллеливание процесса обучения классификатора.
Предложены параллельные алгоритмы формирования векторной модели текста, обучения классификатора. Разработанные алгоритмы учитывают иерархическую структуру вычислительных систем, а также позволяют выполнять балансировку нагрузки между узлами вычислительной системы пропорционально количеству ключевых слов и опорных векторов документов.
На разработанных параллельных алгоритмах формирования векторной модели текста, обучения многоклассового классификатора и алгоритме настройки параметров классификатора основан параллельный метод текстовой классификации для иерархической структуры вычислительной системы.
Третья глава содержит описание программной реализации разработанной системы автоматической текстовой классификации. Структура параллельной системы построена на основе предложенной обобщенной структуры системы текстовой классификации и параллельного метода классификации текстов.
В представленную структуру заложено два уровня параллелизма - на уровне модулей и на уровне блоков. Параллелизм на уровне модулей предполагает размещение модулей на разных узлах вычислительной системы и их совместную параллельную работу, например, на основе технологии MPI. Параллелизм на уровне блоков заключается в возможности организации параллельного функционирования каждого из блоков, например, на основе технологии ОрепМР.
В четвертой главе приведены результаты практической апробации разработанной системы автоматической текстовой рубрикации на коллекции финансовых новостей агентства Reuters (Reuters-21578, Distribution 1.0) и коллекции RCV1.
Проведённые эксперименты показали работоспособность и эффективность разработанной системы автоматической текстовой классификации при той же точности вычисления, которая была получена в последовательном приложении, использующем тот же метод обучения классификатора. Предложенная структура и алгоритм обучения параллельной системы автоматической текстовой классификации позволяют существенно сократить время обработки больших тестовых коллекций.
В заключении приведены основные результаты, полученные в диссертационной работе.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа2014 год, кандидат наук Лукашевич, Наталья Валентиновна
Разработка метода автоматического формирования рубрикатора полнотекстовых документов2008 год, кандидат технических наук Пескова, Ольга Вадимовна
Разработка и исследование модели текста для его категоризации2010 год, кандидат технических наук Мордвинов, Алексей Вячеславович
Методы кодирования текстовой информации для построения нейросетевых классификаторов документов2000 год, кандидат технических наук Корж, Василий Вадимович
Методы разработки параллельных программ на основе машинного обучения2009 год, кандидат физико-математических наук Воронов, Василий Юрьевич
Заключение диссертации по теме «Теоретические основы информатики», Пескишева, Татьяна Анатольевна
ВЫВОДЫ ПО ГЛАВЕ 4
1. Для экспериментального исследования разработанной параллельной системы текстовой классификации была создана её программная реализация - программное приложение для многопроцессорной системы с иерархической архитектурой.
2. Представлена UML-диаграмма основных классов, используемых в разработанном приложении.
3. Эксперименты с программной реализацией параллельной системы текстовой классификации проводились на двух широко распространенных в научных исследованиях текстовых коллекциях - коллекции финансовых новостей агентства Reuters (Reuters-21578, Distribution 1.0) и коллекции RCV1.
4. Коллекция Reuters-21578 отличается сильной несбалансированностью по количеству обучающих документов для рубрик, что приводит к сложности эффективного распределения нагрузки между узлами вычислительной системы.
5. RCV1 является примером сверхбольшой коллекции, поскольку только её векторное представление в памяти компьютера (без учета промежуточных преобразований) требует порядка 3 Гб ОЗУ.
6. Коллекция RCV1 также отличается сильной неравномерностью распределения количества обучающих документов по рубрикам.
7. Эксперименты на коллекции Reuters-21578 подтвердили, что предложенные алгоритмы, методы и структура параллельной системы автоматической текстовой классификации являются достаточно эффективными и позволяют существенно сократить время обработки больших тестовых коллекций.
8. Применение предложенных алгоритма распределения документов и алгоритма распределения рубрик увеличивает ускорение в среднем на 80%, причем 9/10 этого увеличения приходится на алгоритм распределения рубрик, поскольку он используется гораздо чаще во время обучения, чем алгоритм распределения документов.
9. Снижение эффективности на коллекции ЯСУ1 оказывается меньше, чем на коллекции 11еи1ег8-21578. Связано это с немного меньшей неравномерностью распределения документов по рубрикам в коллекции ЫСУ1.
10. Эксперименты на сверхбольшой текстовой коллекции ЯСУ1 (105-106 документов) показывают, что разработанный параллельный метод тематической текстовой классификации демонстрирует приемлемые ускорение и масштабирование для небольших вычислительных кластеров. Это позволяет существенно ускорить обработку сверхбольших текстовых коллекций и расширить диапазон исследуемых моделей представления текста и алгоритмов обучения классификаторов.
ЗАКЛЮЧЕНИЕ
К основным результатам, полученным автором и описанным в данной диссертации, относятся:
1. Предложена обобщенная структура системы автоматической текстовой классификации, отличительной особенностью которой является возможность ее применения для разработки системы автоматической классификации, независимо от подходов и методов, используемых на различных этапах работы системы.
2. Разработан параллельный алгоритм формирования векторной модели текста на основе подхода ТР-ЮБ, позволяющий эффективно распределять нагрузку между узлами вычислительной системы при параллельном построении векторной модели текста.
3. Разработаны параллельные алгоритм обучения бинарного классификатора и алгоритм обучения многоклассового рубрикатора на основе метода опорных векторов, позволяющие задействовать в процессе обучения два уровня вычислительной системы с иерархической архитектурой и эффективно распределять нагрузку между узлами вычислительной системы.
4. Разработан параллельный алгоритм настройки параметров классификатора, основанный на методе скользящего контроля по В.* <2 блокам, позволяющий организовать параллельный подбор разных групп параметров текстового классификатора.
5. Разработаны структура и режимы работы, выполнена программная реализация параллельной системы автоматической текстовой классификации, позволяющей существенно ускорить и повысить качество процессов автоматической обработки текстов, в которых применяется текстовая классификация. Разработанная система может быть использована как в качестве самостоятельного программного продукта, так и в качестве модуля другой системы автоматической обработки текста (системы автоматического аннотирования, реферирования, информационно-поисковых систем и др.).
6. Экспериментально подтверждена эффективность разработанной параллельной системы для автоматической текстовой классификации на различных многопроцессорных иерархических системах с использованием общедоступных текстовых коллекций - 11еШ;ег8-21578 и ЛСУ1.
По теме диссертации опубликовано 12 печатных работ. Основное содержание диссертации отражено в публикациях [25-27, 36-39]. Получено свидетельство об официальной регистрации программы для ЭВМ. Программная реализация параллельной системы текстовой классификации внедрена в учебном процессе в Вятском государственном университете и в Вятском государственном гуманитарном университете, а также в работу социологической лаборатории Вятского государственного гуманитарного университета.
Список литературы диссертационного исследования кандидат технических наук Пескишева, Татьяна Анатольевна, 2012 год
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Авдейчик, В. Г., Система классификации текстов NNCS [Текст] /
B. Г. Авдейчик, А. Ю. Чернявский, А. С. Шмелёв // Труды третьего российского семинара по оценке методов информационного поиска; Под ред. И. С. Некрестьянова. - СПб.: НИИ Химии СПбГУ, 2005. - С. 74-77.
2. Автоматическая обработка текста [Электронный ресурс]. - Режим доступа: http://www.aot.ru/. - Дата обращения: 01.12.2011. - Загл. с экрана.
3. Агеев, М. С. Автоматическая рубрикация текстов: методы и проблемы [Текст] / М. С. Агеев, Б.В. Добров, Н. В. Лукашевич // Ученые записки Казанского государственного университета. Серия физико-математические науки. - Казань, 2008. - Т. 150, книга 4. С. 25-40.
4. Андреев, А. Н. Методика измерения основных характеристик программно-аппаратной среды [Электронный ресурс] / А. Н. Андреев, Вл. В. Воеводин. - Режим доступа: http://www.parallel.ru/testmpi/. -Дата обращения: 01.12.2011. - Загл. с экрана.
5. Антонов, А. В. Автоматическое определение тематики большого необработанного текстового массива [Текст] / А. В. Антонов, Е. С. Курзинер // НТИ. Серия 1. Организация и методика информационной работы. - 2002. - № 11. - С. 31-36.
6. Антонов, А. В. Галактика на РОМИП'2009 [Текст] / А. В. Антонов,
C. Г. Баглей, В. С. Мешков, В. А. Стоян // Российский семинар по оценке методов информационного поиска: труды РОМИП 2009. (Петрозаводск, 16 сентября 2009 г.). - СПб.: НУ ЦСИ, 2009. - С. 53-52. Режим доступа: http://www.romip.ru/romip2009/04_gz.pdf. - Дата обращения: 01.12.2011. - Загл. с экрана.
7. Бабенко, М. Система классификации текстов информационных сообщений на русском языке «АКТИС» [Текст] / М. Бабенко, Е. Куршев,
О. Одинцов, Е. Сулейманова, А. Чеповский // Программные системы: теория и приложения: труды международной конференции «Программные системы: теория и приложения», ИПС РАН, г. Переславль-Залесский, май 2004 г. / Под ред. С. М. Абрамова: в 2 т. - М.: Физматлит, 2004. - Т. 2. С. 7-20.
8. Барсегян, A.A. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP [Текст] / А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд. - СПб.: БХВ-Петербург, 2007. - 384 с.
9. Белоногов, Г.Г. Автоматическая классификация текстов [Текст] / Г. Г. Белоногов, Р. С. Гиляревский, М. В. Козачук, и др. // Сборник «Международный форум по информатике». - Т. 26, № 2. - М.: ВИНИТИ, 2001.
10. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным [Текст] / В. Н. Вапник. - М.: Наука, 1979.
11. Вапник, В. Н. Теория распознавания образов [Текст] / В. Н. Вапник, А. Я. Червоненкис. - М.: Наука, 1974.
12. Васильев, В. Г. Комплексная технология автоматической классификации текстов [Текст] / В. Г. Васильев // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». - М.: РГГУ, 2008. - Вып. 7(14). - С. 83-90.
13. Васильев, В. Г. Обработка и классификация документов с использованием системы СКАТ [Текст] / В. Г. Васильев // Российский семинар по Оценке Методов Информационного Поиска: труды РОМИП 2009. (Петрозаводск, 16 сентября 2009 г.). - СПб.: НУ ЦСИ, 2009. - С. 141-150.
14. Веб коллекция Narod.Ru семинара РОМИП [Электронный ресурс]. -Режим доступа: http://romip.ru/ru/collections/narod.html. - Дата обращения: 01.12.201 l.-Загл. с экрана.
15. Воронцов, К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов [Текст] / К. В. Воронцов // Математические вопросы ки-
бернетики / Под ред. О. Б. Лупанов. - М.: Физматлит, 2004. - Т. 13. -С. 5-36.
16. Воронцов, К.В. Математические методы обучения по прецедентам. Курс лекций [Электронный ресурс] / К. В. Воронцов. - Режим доступа: http://www.machinelearnmg.ru/wiki/images/6/6d/Voron-ML-l .pdf. -Дата обращения: 01.12.2011. - Загл. с экрана.
17. «Галактика Zoom» - уникальные возможности поиска и аналитических исследований [Электронный ресурс]. - Режим доступа: http://www.galaktika-zoom.ru/. - Дата обращения: 01.12.2011. - Загл. с экрана.
18. Гергель, В. П. Теория и практика параллельных вычислений [Текст] / В. П. Гергель. - М.: Интернет-Университет, БИНОМ. Лаборатория знаний, 2007. - 424 с.
19. ДСМ-метод автоматического порождения гипотез: Логические и эпистемологические основания [Текст] / Сост. О. М. Аншаков, Б. Ф. Фаб-рикантова; Под общ. ред. О. М. Аншакова. - М.: Книжный дом «ЛИБРОКОМ», 2009. - 432 с.
20. Интеллектуальная поисковая система Exactus [Электронный ресурс]. -Режим доступа: http://www.exactus.ru/. - Дата обращения: 01.12.2011. - Загл. с экрана.
21. Каневский, Е. А. Диалоговая система классификации и анализа текстов [Текст] / Е. А. Каневский, Г. И. Саганенко, Л. М. Гайдукова и др. // Социология - 4M, 1997. - № 9. - с. 198-216.
22. Каневский, Е. А. Концептуальное обоснование компьютерного анализа массивов с текстами [Текст] / Е. А. Каневский, Г. И. Саганенко // Социология - 4M, 1997. - № 9.
23. Карманов, В. Г. Математическое программирование. Учеб. пособие [Текст] / В. Г. Карманов. - М.: ФИЗМАТЛИТ, 2004. - 264 с.
24. Котельников, Е. В. Метод Support Vector Machine для решения задач классификации [Текст] / Е. В. Котельников, М. Л, Ямшанов // Вестник
Вятского государственного гуманитарного университета. Информатика. Математика. Язык. №4 - Киров, 2007. - с. 55-61.
25. Котельников, Е. В. Параллельная система автоматической текстовой классификации [Текст] / Е. В. Котельников, Т. А. Пескишева // Программные продукты и системы. - 2012. - №1 (97). (в печати).
26. Котельников, Е. В. Параллельные алгоритмы многоклассовой классификации на основе метода опорных векторов [Текст] / Е. В. Котельников, Т. А. Стародубова (Пескишева) // Высокопроизводительные параллельные вычисления на кластерных системах. Материалы Восьмой международной конференции-семинара. - Казань: КГТУ, 2008. -С.228-233.
27. Котельников, Е. В. Вариант параллельной реализации процесса обучения машин опорных векторов на основе алгоритма Chunking [Текст] / Е.В. Котельников, Т.А. Стародубова (Пескишева), A.B. Котельнико-ва // Параллельные вычислительные технологии (ПАВТ' 2009): Труды международной научной конференции (Нижний Новгород, 30 марта -3 апреля 2009 г.). - Челябинск: Изд. ЮУрГУ, 2009. - С. 549-555.
28. Кураленок, И.Е. Автоматическая классификация документов с использованием семантического анализа / И. Е. Кураленок, И. С. Некре-стьянов // Труды первой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - СПб, 1999 - с. 86-96.
29. Ландэ, Д. Глубинный анализ текстов технология эффективного анализа текстовых данных [Электронный ресурс] / Д. Ландэ // CHIP Ukraine. -№10. - 2003. - Режим доступа: http://www.visti.net/~dwl/art/dz/. - Дата обращения: 01.12.2011. - Загл. с экрана.
30. Леонтьева, Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие [Текст] / Н. Н. Леонтьева. - М.: Издательский центр «Академия», 2006. - с. 202.
31. Лифшиц, Ю.М. Автоматическая классификация текстов - лекция №6 из курса «Алгоритмы для Интернета» [Электронный ресурс] / Ю. М. Лифшиц. - Режим доступа: http://yury.name/internet/06ia.pdf. - Дата обращения: 01.12.2011. - Загл. с экрана.
32. Макленнен, Дж. Microsoft SQL Server 2008: Data Mining - интеллектуальный анализ данных [Текст] / Дж. Макленнен, Чж. Танг, Б. Криват. - СПб.: БХВ-Петербург, 2009. - 720 с.
33. Математическая лингвистика [Текст] / Под ред. Ю. А. Шрейдера, И. И. Ревзина, Д. Г. Лахути, В. К. Финна. М.: Мир, 1964. - 312 с.
34. Онегов, В. А. Исследование операций. Задачи, методы, алгоритмы [Текст] / В. А. Онегов. - Киров: Изд-во ВГПУ, 2001. - 224 с.
35. Морфологический анализатор Mystem от компании Yandex [Электронный ресурс]. - Режим доступа: http://company.yandex.ru/technology/mystem. - Дата обращения: 01.12.2011.-Загл. с экрана.
36. Пескишева, Т. А. Параллельная реализация алгоритма обучения системы текстовой классификации [Текст] / Т. А. Пескишева, Е. В. Котельников // Вестник УГАТУ. Серия управление, вычислительная техника и информатика. - 2011. - №5 (45). - С. 130-136.
37. Пескишева, Т. А. Параллельная реализация алгоритма обучения системы текстовой классификации [Текст] / Т. А. Пескишева, Е. В. Котельников // Параллельные вычислительные технологии (ПАВТ' 2011): Труды международной научной конференции (Москва, 28 марта - 1 апреля 2011 г.). - Челябинск: Изд. ЮУрГУ, 2011. - С. 597-605.
38. Пескишева, Т. А. Параллельный алгоритм обучения текстового классификатора для многопроцессорной системы с иерархической архитектурой [Текст] / Т. А. Пескишева, Е. В. Котельников, О. А. Пестов // Вопросы современной науки и практики. Университет им. В.И. Вернадского. - 2011. - №3 (34). - С. 103-110.
39. Пескишева, Т. А. Современные системы и модули автоматической рубрикации текстовых документов [Текст] / Т. А. Пескишева: Вятский го-
сударственный гуманитарный университет. - Киров, 2010. -37 е.: - Биб-лиогр. 30 назв. - Рус. - Деп. в ВИНИТИ 01.07.2010, №410 - В 2010.
40. Пескова, О. В. Автоматическое формирование рубрикатора полнотекстовых документов [Текст] / О. В. Пескова // НТИ-2007: Материалы 7-ой международной конференции. - Москва, 2007. - С. 241-242.
41. Российский семинар по оценке методов информационного поиска (РОМИП) [Электронный ресурс]. - Режим доступа: http://romip.ru/. -Дата обращения: 01.12.2011. -Загл. с экрана.
42. Семантические технологии НейрОК. White Paper [Электронный ресурс]. - Режим доступа: http://www.neurok.ru/. - Дата обращения: 01.12.2011. - Загл. с экрана.
43. Смирнов, И. В. Система интеллектуального поиска и анализа информации «Exactus» на РОМИП-2009 / И. В. Смирнов, И. В. Соченков, И. А. Тихомиров // Российский семинар по оценке методов информационного поиска: труды РОМИП 2009. (Петрозаводск, 16 сентября 2009 г.). - СПб.: НУ ЦСИ, 2009. - С. 41-52.
44. Taxa, X. Введение в исследование операций. В 2-х книгах [Текст] / X. Taxa. - Книга 2. - М.: Мир, 1985. - 248 с.
45. Терехов, С.А. Технологические аспекты обучения нейросетевых машин [Текст] / С.А. Терехов // Научная сессия МИФИ-2006. VIII Всероссийская научно-техническая конференция «Нейроинформатика-2006»: Лекции по нейроинформатике. - М.: МИФИ, 2006. - с. 13-73.
46. Тихомиров, И. А. Метод динамической контентной фильтрации сетевого трафика на основе анализа текстов на естественном языке [Текст] / И. А. Тихомиров, И. В. Соченков // Вестник НГУ. Информационные технологии. - Т. 6. Вып. 2. - Новосибирск, 2008. - С. 94-100.
47. Университетская информационная система (УИС) Россия [Электронный ресурс]. - Режим доступа: http://www.cir.ru/. - Дата обращения: 01.12.2011.-Загл. сэкрана.
48. Финн, В. К. Логические проблемы информационного поиска [Текст] / В. К. Финн. - М.: Наука, 1976. - 152 с.
49. Шабанов, В. И. Метод классификации текстовых документов, основанный на полнотекстовом поиске [Текст] / В. И. Шабанов, А. М Андреев // Труды РОМИП'2003. - СПб: НИИ Химии СПбГУ, 2003 - стр. 52-71.
50. Шарыгин, Р.В. Исследование производительности параллельных программ [Текст] /Р.В. Шарыгин // Вестник ВятГГУ. Информатика. Математика. Язык. Вып. 5. - Киров: ВятГГУ, 2008. - С. 120-130.
51. Achlioptas, D. Sampling techniques for kernel methods / D. Achlioptas, F. McSherry, B. Scholkopf. // In S. B. Thomas, G. Dietterich, and Z. Ghahra-mani, editors, Advances in Neural Information Processing Systems 14,2002.
52. An Oracle Technical White Paper, 2007 [Электронный ресурс]. - Режим доступа:
http://www.orade.eom/technology/products/text/pdf/l lgoracletexttwp.pdf. - Дата обращения: 01.12.2011. - Загл. с экрана.
53. Asuncion, A. UCI Machine Learning Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html) / A. Asuncion, D. J. Newman - Irvine, CA: University of California, School of Information and Computer Science, 2007.
54. Boley, D. Training Support Vector Machine using Adaptive Clustering / D. Boley, D. Cao. - SIAM International Conference on Data Mining, April 22 - April 24, Lake Buena Vista, FL, USA, 2004.
55. Boser, В. E. A training algorithm for optimal margin classifiers [Electronic resource] / В. E. Boser, I. M. Guyon, V. N. Vapnik. In Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, p. 144152, ACM Press, 1992. http://citeseer.ist.psu.edu/boser92training.html.
56. Bottou, L. Comparison of classifier methods: a case study in handwriting digit recognition / Bottou L., Cortes C., Denker J., Drucker H., Guyon I., JackelL., LeCunY., MullerU., SackingerE., SimardP., Vapnik V // In
International Conference on Pattern Recognition, pp. 77-87. IEEE Computer Press, 1994.
57. Brin, S. The anatomy of a large-scale hypertextual Web search engine / S. Brin, L. Page // Computer Networks and ISDN Systems. V.30 n.1-7. Pp. 107-117, 1998.
58. Burges, C. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery / C. Burges. - 2:121-167, 1998.
59. Burges, C. A new method for constructing artifical neural networks. Technical report, AT&T Bell Laboratories / C. Burges, V. Vapnik. - 101, Craw-fords Corner Road Holmedl NJ 077333, May 1995.
60. Campbell, C. Simple Learning Algorithms for Training SVM. Technical report / C. Campbell, N. Cristianini. - University of Bristol, 1998.
61. Cauwenberghs, G. Incremental and decremental support vector machine learning / G. Cauwenberghs, T. Poggio // In Proc. Advances in Neural Information Processing Systems, Vancouver, Canada, 2000.
62. Chisholm, E. New term weighting formulas for the vector space method in information retrieval. Technical Report Number ORNL-TM-13756 / E. Chisholm, T. G. Kolda. - Oak Ridge National Laboratory, Oak Ridge, TN, March 1999.
63. Cohen, W. W. Joins that generalize: text classification using WHIRL / W. W. Cohen, H. Hirsh // In Proceedings of KDD-98, 4th International Conference on Knowledge Discovery and Data Mining (New York, NY, 1998), 169-173, 1998.
64. Cohen, W. W. Contextsensitive learning methods for text categorization / W. W. Cohen, Y. Singer-ACM Trans. Inform. Syst. 17,2,141-173, 1999.
65. Collobert, R. A parallel mixture of SVMs for very large scale problems / R. Collobert, S. Bengio, Y. Bengiou // In Advances in Neural Information Processing Systems. MIT Press, 2002.
66. Cortes, C. Support Vector Networks / C. Cortes, V. Vapnik // Machine Learning 20(3): p. 273-297, 1995.
67. Dagan, I. Mistakedriven learning in text categorization / I. Dagan, Y. Karov, D. Roth // In Proceedings of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing (Providence, RI, 1997), 55-63, 1997.
68. Debole, F. Supervised term weighting for automated text categorization / F. Debole, F. Sebastiani // Proceedings of the ACM Symposium on Applied Computing (Melbourne, Florida, March 09 - 12, 2003), 2003. SAC •03. ACM, New York, NY, Pp. 784-788.
69. Deerwester, S. Indexing by Latent Semantic Analysis / S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, R. Harshman // Journal of the American Society for Information Science, Vol. 41, 1990. Pp. 391-407.
70. Dong, J. Fast SVM Training Algorithm with Decomposition on Very Large Data Sets / J. Dong, A. Krzyzak, Ch. Y. Suen // IEEE Transactions on Pattern Analyses and Machine Intelligence, volume 27, NO. 4, pages 603-618,2005.
71. Drucker, H. Automatic text categorization and its applications to text retrieval / H. Drucker, V. Vapnik D. Wu // IEEE Trans. Neural Netw. 10, 5, 1048-1054,1999.
72. Dumais, S. T. Hierarchical classification of Web content / S. T. Dumais, H. Chen. // In Proceedings of SIGIR-00, 23rd ACM International Conference on Research and Development in Information Retrieval (Athens, Greece, 2000), 256-263, 2000.
73. Dumais S. T. Using latent semantic analysis to improve access to textual information / S. T. Dumais, G. W. Furnas, T. K. Landauer, S. Deerwester, R. Harshman // Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Washington, D.C., United States, May 15 - 19, 1988). Pp. 281-285.
74. Dumais, S. T. Inductive learning algorithms and representations for text categorization / S. T. Dumais, J. Piatt, D. Heckerman, M. Sahami // In Proceedings of CIKM-98, 7th ACM International Conference on Information and Knowledge Management (Bethesda, MD, 1998), 148-155, 1998.
75. Ernandes, M. An Adaptive Context-Based Algorithm for Term Weighting: Application to Single-Word Question Answering / M. Ernandes, G. Angelini, M. Gori, L. Rigutini, F. Scarselli // International Joint Conference On Artificial Intelligence Hyderabad, India, 2007. Pp. 2748-2753.
76. Fine, S. Efficient SVM training using low-rank kernel representations. Journal of Machine Learning Research / S. Fine and K. Scheinberg. -2:243-264, 2001.
77. Fung, G. Incremental Support Vector Machine Classification / G. Fung, O. L. Mangasarian // In Grossman, R., Mannila, H., Motwani, R., eds.: Proceedings of the Second SIAM International Conference on Data Mining, SIAM (2002) 247-260.
78. Fung, G. Proximal Support Vector Machine Classifiers / G. Fung, O. L. Mangasarian // In F. Provost and R. Srikant, editor, Proceedings KDD-2001: Knowledge Discovery and Data Mining, August 26-29, 2001, San Francisco, CA, pages 77-86, New York, 2001. Association for Computing Machinery.
79. Fuhr, N. AIR/X—a rule-based multistage indexing system for large subject fields / N. Fuhr, S. Hartmann, G. Knorz, G. Lustig, M. Schwantner, K. Tze-ras // In Proceedings of RIAO-91, 3rd International Conference "Recherche dTnformation Assistee par Ordinateur" (Barcelona, Spain, 1991), 606-623, 1991.
80. Graf H.P. Parallel support vector machines: the Cascade SVM / H.P. Graf, E. Cosatto, L. Bottou, I. Dourdanovic, V.N. Vapnik // In Lawrence Saul, Yair Weiss, and L'eon Bottou, editors, Advances in Neural Information Processing Systems, volume 17. MIT Press, 2005.
81. Grama, A., Introduction to Parallel Computing / A. Grama, A. Gupta, G. Karypis, V. Kumar. - Second Edition. Addison-Wesley, 2003.
82. Halkidi, M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. 2001. - 17:2/3. - P. 107-145.
83. Hassan, S. Random-walk term weighting for improved text classification / S. Hassan, C. Banea // Proceedings of Textgraphs: the First Workshop on Graph Based Methods For Natural Language Processing ACL Workshops. Association for Computational Linguistics, Morristown, NJ, 2006. Pp. 5360.
84. Hayes, P.J. Construe: A System for Content-Based Indexing of a Database of News Stories / P.J. Hayes, S.P. Weinstein // Proceedings of the Second Annual Conference on Innovative Applications of Intelligence, 1990.
85. Hsu, C.-W. A comparison of methods for multi-class support vector machines / C.-W. Hsu, C.-J. Lin // Technical report, Department of Computer Science and Information Engineering, National Taiwan University, Taipei, Taiwan, 2001.
86. IBM - InfoSphere Content Assessment [Электронный ресурс]. - Режим доступа: http://www-01 .ibm.com/software/data/content-management/as-sessment.html. - Дата обращения: 01.12.2011.-Загл. сэкрана.
87. IBM - InfoSphere Classification Module [Электронный ресурс]. - Режим доступа: http://www-01.ibm.com/software/data/content-management/clas-sification/. - Дата обращения: 01.12.2011. - Загл. с экрана.
88. Joachims, Т. Making Large-scale SVM learning practical. Advances in KernelMethods- Support Vector Learning / T. Joachims // B. Schlkopf, A. J. Smola, C. Burges, J. C. Cambridge,M.A., MIT Press: 169-184,1999.
89. Joachims, T. Text categorization with support vector machines: learning with many relevant features / T. Joachims // In Proceedings of ECML-98, 10th European Conference on Machine Learning (Chemnitz, Germany, 1998), 137-142,1998.
90. Joachims, T. Transductive inference for text classification using support vector machines / T. Joachims // In Proceedings of ICML-99, 16th International Conference on Machine Learning (Bled, Slovenia, 1999), 200-209,1999.
91. Keerthi, S. S. A fast iterative nearest point algorithm for support vector machine classiffier design / S. S. Keerthi, S. K. Shevade, C. Bhattachaiyya, K. R. K. Murthy // IEEE Transactions on Neural Networks, 11(1), January 2000.
92. Klikenberg, R. Detecting concept drift with support vector machines / R. Klikenberg, T. Joachims // In Proceedings of ICML-00, 17th International Conference on Machine Learning (Stanford, CA, 2000), 487-494, 2000.
93. Kohavi, R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection / R. Kohavi // 14th International Joint Conference on Artificial Intelligence, Palais de Congres Montreal, Quebec, Canada. — 1995. —C. 1137-1145.
94. Kohonen, T. Self organization of a massive document collection / T. Koho-nen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, A. Saarela // IEEE Transactions on neural networks. 2000. - Vol. 11, No. 3. - P. 574 - 585.
95. Krebel, B. Pairwise classification and support vector machines / B. Krebel // In B. Scholkopf, C. J. C. Burges, A. J. Smola, editors. Advances in Kernel Methods - Support Vector Learning, pp. 255-268, Cambridge, MA, 1999. MIT Press.
96. Lam, S. L. Feature reduction for neural network based text categorization / S. L. Lam, D. L. Lee // In Proceedings of DASFAA-99, 6th IEEE International Conference on Database Advanced Systems for Advanced Application (Hsinchu, Taiwan, 1999), 195-202, 1999.
97. Lan, M. Supervised and Traditional Term Weighting Methods for Automatic Text Categorization / M. Lan, C.L. Tan, J. Su, Y. Lu // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 31, No. 4. 2009. Pp. 721-735.
98. Larkey, L. S. Combining classifiers in text categorization / L. S. Larkey, W. B. Croft// In Proceedings of SIGIR-96, 19thACMInternational Conference on Research and Development in Information Retrieval (Zurich, Switzerland, 1996), 289-297, 1996.
99. Lewis, D. D. Heterogeneous uncertainty sampling for supervised learning / D. D. Lewis, J. Catlett // In Proceedings of ICML-94, 11th International Conference on Machine Learning (New Brunswick, NJ, 1994), 148-156,1994.
100. Lewis, D. D. Naive (Bayes) at forty: The independence assumption in information retrieval / D. D. Lewis // In Proceedings of ECML-98, 10th European Conference on Machine Learning (Chemnitz, Germany, 1998), 4-15,1998.
101. Lewis, D.D. RCVl-v2/LYRL2004: The LYRL2004 Distribution of the RCVl-v2 Text Categorization Test Collection (12-Apr-2004 Version) [Электронный ресурс] / D. D. Lewis. - Режим доступа: http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcvlv2_README.htm. - Дата обращения: 01.12.2011. - Загл. с экрана.
102. Lewis D. D., Schapire R. Е., Callan J. P., Papka R. Training Algorithms for Linear Text Classifiers. In: Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 1996. pp. 298-306.
103. Lewis, D. D. RCV1: A New Benchmark Collection for Text Categorization Research [Электронный ресурс] / D. D. Lewis, Y. Yang, T. Rose, F. Li // Journal of Machine Learning Research, 5:361-397, 2004 - Режим доступа: http://www.jmlr.org/papers/volume5/lewis04a/lewis04a.pdf. -Дата обращения: 01.12.2011. - Загл. с экрана.
104. Li, Y. Н. Classification of text documents / Y. H. Li, A. K. Jain // Comput. J. 41, 8, 537-546, 1998.
105. LIBSVM - A Library for Support Vector Machines [Электронный ресурс]. - Режим доступа: http://www.csie.ntu.edu.tw/~cjlin/libsvm/.-Дата обращения: 01.12.2011. - Загл. с экрана.
106. Liere, R. Active learning with committees for text categorization / R. Liere, P. Tadepalli // In Proceedings of AAAI-97, 14th Conference of the American Association for Artificial Intelligence (Providence, RI, 1997), 591-596,1997.
107. Luhn, H.P. The Automatic Creation of Literature Abstracts / H.P. Luhn. - 1958.
108. Marshall, R.J. Generation of Boolean classification rules / R. J. Marshall // Proceedings of Computational Statistics 2000 - Utrecht, The Netherlands, / eds Bethlehem and PGM van der Heijden, - Springer-Verlag, Heidelberg, 2000-pp. 355-360.
109. Mihalcea, R., Textrank: Bringing order into texts / R. Mihalcea, P. Ta-rau // Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing , July (2004). Pp. 404-411.
110. Microsoft .NET [Электронный ресурс]. - Режим доступа: http://www.microsoft.com/net. - Дата обращения: 01.12.2011. - Загл. с экрана.
111. Microsoft SQL Server 2008 [Электронный ресурс]. - Режим доступа: http://www.microsoft.com/sqlserver/2008/ru/ru/default.aspx. - Дата обращения: 01.12.2011. - Загл. с экрана.
112. Microsoft Visual Studio [Электронный ресурс]. - Режим доступа: http://www.microsoft.com/visualstudio. - Дата обращения: 01.12.2011. -Загл. с экрана.
113. Mitchell, Т.М. Machine Learning / Т.М. Mitchell. - McGraw Hill, New York, NY, 1996.
114. Oracle Text [Электронный ресурс]. - Режим доступа: http://www.oracle.com/technology/products/text/index.html. - Дата обращения: 01.12.2011. - Загл. с экрана.
115. Osuna, Е. Improved Training Algorithm for Support Vector Machines / E. Osuna, R. Freund, F. Girosi // Proc. IEEE NNSP '97, 1997.
116. Piatt, J. Large Margin DAGS for Multiclass Classification / J. Piatt, N. Cristianini, J. Shawe-Taylor // In Advances in Neural Information Processing Systems, 12 ed. S. A. Solla, Т. K. Leen and K.-R. Muller, MIT Press, 2000. Pp. 547-553.
117. Piatt, J. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines / J. Piatt. - 1998.
118. Project MPI.NET [Электронный ресурс] // The Open Systems Lab, Indiana University. - Режим доступа: http://www.osl.iu.edu/research/mpi.net. - Дата обращения: 01.12.2011. - Загл. с экрана.
119. Qiu, Sh. Parallel Kernel Computation for High Dimensional Data and Its Application to fMRI Image Classification / Sh. Qiu, T. Lane. -2003.
120. RCO - Russian Context Optimizer. Технологии анализа и поиска текстовой информации [Электронный ресурс]. - Режим доступа: http://www.rco.ru/. - Дата обращения: 01.12.2011. - Загл. с экрана.
121. Reuters-21578, Distribution 1.0. [Электронный ресурс]. - Режим доступа:
http://www.daviddlewis.com/resources/testcollections/reuters21578. -Дата обращения: 01.12.2011. - Загл. с экрана.
122. Rijsbergen, С. J. van. Information Retrieval / С. J. van Rijsbergen. -2nd ed. Butterworths, London, UK. - 1979.
123. Ruiz, M. E. Hierarchical neural networks for text categorization / M. E. Ruiz, P. Srinivasan // In Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, CA, 1999), 281-282, 1999.
124. Salton, G. Term-Weighting Approaches / G. Salton, C. Buckley // In Automatic Text Retrieval. Information Processing & Management. 1988. Vol. 24, No. 5. Pp. 513-523.
125. Shin, H. Fast pattern selection for support vector classifiers / H. Shin, S. Cho // In K.-Y. Whang, J. Jeon, K. Shim, and J. Srivastava, editors, PAKDD, volume 2637 of Lecture Notes in Computer Science, pages 376-387. Springer, 2003.
126. Schutze, H. A comparison of classifiers and document representations for the routing problem / H. Schutze, D. A. Hull, J. O. Pedersen // In Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval (Seattle, WA, 1995), 229-237, 1995.
127. Sebastiani, F. Machine learning in automated text categorization / F. Sebastiani // ACM Computing Surveys, 34(1), 2002. - Pp. 1-47.
128. System.Threading - пространство имен [Электронный ресурс]. -Режим доступа: http://msdn.microsoft.com/ru-ru/library/system.threading.aspx. -Дата обращения: 01.12.2011. -Загл. с экрана.
129.Taira, Н. Feature selection in SVM text categorization / H. Taira, M. Haruno // In Proceedings of AAAI-99, 16th Conference of the American Association for Artificial Intelligence (Orlando, FL, 1999), 480486, 1999.
130. Text Analyst. White Paper [Электронный ресурс]. - Режим доступа: http://www.megaputer.com/textanalyst.php. - Дата обращения: 01.12.2011. - Загл. с экрана.
131. The OpenMP API specification for parallel programming [Электронный ресурс]. - Режим доступа: http://openmp.org. - Дата обращения: 01.12.2011. - Загл. с экрана.
132. Turner, К. Error correlation and error reduction in ensemble classifiers / K. Turner, J. Ghosh // Connection Sci. 8, 3-4, 385-403, 1996.
133.Tveit, A. Parallelization of the Incremental Proximal Support Vector Machine Classifier using a Heap-based Tree Topology / A. Tveit, H. Engum. - Technical Report, IDI, NTNU, Trondheim, Norway, August 2003.
134. Unified Modeling Language[Элeктpoнный ресурс]. - Режим доступа: http://www.uml.org. - Дата обращения: 01.12.2011. - Загл. с экрана.
135. Vapnik, V. Statistical learning theory / V. Vapnik. - Wiley, New York, 1998.
136. Vapnik, V. The Nature of Statistical Learning Theory / V. Vapnik. -Springer-Verlag, 1995.
137. Wasson, M. Classification Technology at LexisNexis / Wasson, M. // SIGIR 2001 Workshop on Operational Text Classification.
138. Weston, J. Multi-class support vector machines / J. Weston, C. Watkins // Technical Report CSD-TR-98-04, Department of Computer Science, Royal Holloway, University of London, Egham, TW20 OEX, UK, 1998.
139. Weigend, A. S. Exploiting hierarchy in text catagorization / A. S. Wei-gend, E. D. Wiener, J. O. Pedersen // Inform. Retr. 1,3, 193-216, 1999.
140. Wiener, E. D. A neural network approach to topic spotting / E. D. Wiener, J. O. Pedersen, A. S. Weigend // In Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, NV, 1995), 317-332, 1995.
141. Williams, C. K. I. Using the nystrommethod to speed up kernel machines. / C. K. I. Williams, M. Seeger// In T. K. Leen, T. G. Diettrich, and V. Tresp, editors, Advances in Neural Information Processing Systems 13. MIT Press, 2001.
142. Yang, Y. Expert network: effective and efficient learning from human decisions in text categorisation and retrieval / Y. Yang // In Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval (Dublin, Ireland, 1994), 13-22, 1994.
143. Yang, Y. A re-examination of text categorization methods / Y. Yang, X. Liu// Proc. of Int. ACM Conference on Research and Development in Information Retrieval (SIGIR-99), 1999 — pp. 42-49.
144. Yang, Y. A Comparative Study on Feature Selection in Text Categorization / Y. Yang, J.O. Pedersen // In Proceedings of the Fourteenth international Conference on Machine Learning (July 08 - 12, 1997). D. H. Fisher, Ed. Morgan Kaufmann Publishers, San Francisco, CA, 412420. 1997.
145. Zanghirati, G. A parallel solver for large quadratic programs in training support vector machines / G. Zanghirati, L. Zanni // Parallel Computing, 29:535-551,2003.
146. Zanni, L. Parallel Software for Training Large Scale Support Vector Machines on Multiprocessor Systems / /L. Zanni, T. Serafini, G. Zang-hirati //Journal of Machine Learning Research, 7: 1467-1492, 2006.
147. Zipf, G. Human Behavior and the Principle of Least-Effort / G. Zipf. -1949.
СПИСОК СОКРАЩЕНИЙ
ОЗУ - оперативное запоминающее устройство.
РОМИП - Российский семинар по оценке методов информационного поиска.
LIBSVM (A Library for Support Vector Machines) - библиотека, реализующая метод опорных векторов.
LSA (Latent Semantic Analysis) - латентный семантический анализ. LSI (Latent Semantic Indexing) - латентное семантическое индексирование. MPI (Message Passing Interface) - интерфейс передачи сообщений). OpenMP (Open Multi-Processing) - это набор директив компилятора, библиотечных процедур и переменных окружения, которые предназначены для программирования многопоточных приложений на многопроцессорных системах с общей памятью.
RCV1 (Reuters Corpus Volume 1 Version 2) - коллекция отсортированных вручную новостей агентства Reuters за период с августа 1996 по август 1997 года.
SMO (Sequential Minimal Optimization) - алгоритм последовательной минимальной оптимизации .
SVD (Singular Value Decomposition) - сингулярное разложение. SVM (Support Vector Machines) - метод (машины) опорных векторов. TF-IDF (Term Frequency - Inverted Document Frequency) - частота термина - инверсная частота документов.
UML (Unified Modeling Language) - унифицированный язык моделирования.
ПРИЛОЖЕНИЯ Приложение 1. Схемы систем и модулей текстовой рубрикации.
Рис. 1. Структура системы АКТИС
Рис. 2. Структура системы ЫЫС8
Классифицируемые документы
Рис. 3. Процесс обработки документов в УИС РОССИЯ
Рис. 5. Процесс рубрикации в системе Тех1Апа1уз1
Рис. 6. Автоматическая рубрикация в Галактика-7оот
Рис. 7. Процесс классификации текстов в SQL Server 2008 Data Mining
Приложение 2. Характеристика систем и модулей текстовой рубрикации
Название Система / модуль Степень автоматизации Область применения Открытость Подход Методы рубрикации Модель представления текста
ДИСКАНТ система автоматиз. специализир. (социология, сообщения СМИ и анкеты) исслед. стат. контент-анализ массив фраз
АКТИС система автоматич. универсальная исслед. стат. критерий у1' именные группы или слова текста с частотами
шее система автоматич. универсальная исслед. МО модификация нейронной сети Хопфилда; метод ближайшего соседа семантические векторы как веса нейронной сети Хопфилда в положении равновесия
СКАТ система автоматич. универсальная исслед. МО комбинация методов: ближайшего соседа, машины опорных векторов, деревья решений и др. векторная модель (ТТ-ГОР)
Название Система / модуль Степень автоматизации Область применения Открытость Подход Методы рубрикации Модель представления текста
УИС РОССИЯ модуль автоматич. специализир. (общественно-политическая тематика) исслед. знания рубрикация по информа- ционно-поисковому тезаурусу сеть тематических узлов
ЕхасШэ модуль автоматич. универсальная исслед. МО сравнение числовой оценки соответствия документа рубрике с пороговым значением векторная модель (модифицированный ТР-ЮБ)
ЫеигОК Зетапйс 8ике модуль зависит от способа построения рубрикатора универсальная коммерч. МО алгоритм самосогласования слов по рубрикам ассоциативный кластерный индекс
ТехгАпа^г модуль автоматич. универсальная коммерч. МО нейронные сети (иерархическая рекуррентная, сеть Хопфилда) семантическая сеть
Название Система / модуль Степень автоматизации Область применения Открытость Подход Методы рубрикации Модель представления текста
Галактика-Zoom модуль зависит от способа построения инфопортрета рубрики универсальная коммерч. МО сравнение инфопортрета документа с инфопортре-том рубрики; машины опорных векторов информационные портреты - наборы значимых слов
IBM InfoSphere Classification Module модуль зависит от подхода (знания или МО) универсальная коммерч. МО, знания обучение по примерам; рубрикация на основе правил технологии ЮМ InfoSphere Content Collector и IBM FileNet P8
Oracle InterMedia Text модуль зависит от способа создания правил универсальная коммерч. МО, знания деревья решений, машины опорных векторов, рубрикация на основе правил индекс
Russian Context Optimizer модуль автоматич. универсальная коммерч. МО метод Байеса, машины опорных векторов семантическая сеть; частотное взвешивание
Название Система / модуль Степень автоматизации Область применения Открытость Подход Методы рубрикации Модель представления текста
Microsoft SQL Server 2008 Data Mining модуль автоматич. универсальная коммерч. МО деревья решений, метод Байеса, нейронные сети, логистическая регрессия набор ключевых слов и фраз (взвешивание ТБ-ЮР)
Сокращения: автоматич. - автоматическая, автоматиз. - автоматизированная, специализир. - специализированная, исслед. - исследовательская, коммерч. - коммерческая, стат. - статистический подход, МО - машинное обучение.
Приложение 3. Наличие блоков обобщенной структуры системы текстовой рубрикации в существующих
системах и модулях (по данным доступных источников)
Система/модуль Блок предобработки Лингвистический блок Словарь Тезаурус Блок представления текста Рубрикатор Блок построения правила Блок классификации
морфология синтаксис
ДИСКАНТ + + + + + +
АКТИС + + + + + + +
NNCS + + +
СКАТ + + + + + + +
УИС Россия + + + + + + +
Exactus + + + + +
NeurOK Semantic Suite + 7 + + + + +
TextAnalyst + + + + 7 +
Галактика-Zoom + 7 + + +
IBM InfoSphere Classification Module + 7 + + + +
Oracle InterMedia Text + 7 + + + +
Russian Context Optimizer + + + + + + + +
MS SQL Server 2008 Data Mining + 7 + + + + +
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.