Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов тема диссертации и автореферата по ВАК РФ 05.13.01, доктор технических наук Толчеев, Владимир Олегович

  • Толчеев, Владимир Олегович
  • доктор технических наукдоктор технических наук
  • 2009, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 355
Толчеев, Владимир Олегович. Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов: дис. доктор технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2009. 355 с.

Оглавление диссертации доктор технических наук Толчеев, Владимир Олегович

ВВЕДЕНИЕ

ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ПРОЦЕССА ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ И СИСТЕМАТИЗАЦИЯ МЕТОДОВ

1.1. Библиографические текстовые документы

1.2. Области применения методов обработки и аналнза библиографических текстовых данных

1.3. Системный анализ процесса обработки текстовой информации

1.3.1. Этапы системного анализа

1.3.2. Формулирование цели для систем обработки текстовой информации, определение критериев достижения цели и ограничений

1.4. Построение модели процесса обработки текстовой информации

1.4.1. Формализация понятия затрат

1.4.2. Способы оценки быстродействия и затрат

1.5. Формирование выборок, модели представления текстовых документов, оценка точности классификации

1.5.1. Сбор данных и формирование выборок

1.5.2. Способы представления текстовой информации

1.5.3. Оценка эффективности функционирования системы обработки текстовой информации

1.6. Предварительная обработка текстовых данных и систематизация процедур выявления информативных признаков

1.6.1. Предварительная обработка текстовых данных

1.6.2. О проблеме выявления информативных признаков

1.6.3. Критерии систематизации методов обработки и анализа текстовой информации

1.6.4. Систематизация процедур выявления информативных признаков

1.7. Систематизация методов классификации текстовой информации

1.8. Обобщение результатов систематизации методов выявления информативных признаков и методов классификации

1.9. Анализ результатов систематизации и определение новых направлений для исследований

Выводы по главе

ГЛАВА 2. ПОСТРОЕНИЕ ВЫСОКОТОЧНЫХ, БЫСТРОДЕЙСТВУЮЩИХ И МАЛОЗАТРАТНЫХ КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ ДЛЯ КЛАССИФИКАЦИИ БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ.

2.1. Основные характеристики КРП

2.1.1. Виды коллективов решающих правил

2.1.2. Сравнительный анализ стратегий принятия решений в КРП

2.1.3. Расчет верхней точностной границы для коллективов решающих правил

2.2. Систематизация направлений работ по синтезу КРП

2.2.1. Способы отбора классификаторов для их объединения в комитеты

2.2.2. Меры разнородности

2.2.3. Выявление взаимозависимости между точностью и разнородностью классификаторов

2.3. Неоднородные КРП для решения задачи классификации текстовой информации

2.3.1. Обзор известных КРП, предназначенных для обработки и анализа текстовой информации

2.3.2. О понятии простой классификатор

2.3.3. Требования к простым классификаторам

2.3.4. Условия включения простого классификатора в КРП

2.3.5. Требования к синтезируемым КРП

2.3.6. Процедура синтеза коллективов решающих правил на основе простых классификаторов

2.4. Оценка быстродействия методов классификации

2.4.1. Понятие элементарной операции

2.4.2. Теоретический анализ быстродействия простых классификаторов

2.5. Выявление простых классификаторов среди известных процедур

Выводы по главе

ГЛАВА 3. РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ МОДИФИКАЦИЙ

МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ

3.1 Анализ метода ближайшего соседа

3.2. Обзор известных модификаций метода ближайшего соседа.

3.3. Разработка нового модифицированного метода ближайшего соседа —ММБС

3.3.1. Алгоритм ММБС

3.3.2. Влияние структуры выборки на качество классификации

3.3.3. О различиях решающих правил, используемых в ММБС и методе к—Б С

3.3.4. Асимптотические свойства алгоритма ММБС

3.3.5. Анализ быстродействия ММБС

3.4. Обобщенный метод ближайшего соседа

3.4.1. Уточненная формула взвешивания

3.4.2. Алгоритм ОМБС

3.5. Процедуры редукции обучающих выборок

3.5.1. Обзор методов редукции

3.5.2. Разработка процедуры редукции обучающей выборки

3.6. Профильные методы для классификации текстовых документов

3.6.1. Статистический и теоретико-информационный подходы для выявления информативных признаков

3.6.2. Улучшенный критерий взаимной информации.

3.6.3. Методы %2-профилей, О-профилей и М1-профилей

3.7. Обобщение результатов главы

Выводы по главе

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ИНДИВИДУАЛЬНЫХ МЕТОДОВ КЛАССИФИКАЦИИ И КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ, ПОСТРОЕННЫХ НА ОСНОВЕ ПРОСТЫХ КЛАССИФИКАТОРОВ

4.1. Организация экспериментальных исследований

4.1.1 Исходные предположения для проведения экспериментальных исследований

4.2. Формирование выборок для исследований, предварительная обработка текстовых документов и настройка параметров методов классификации

4.2.1. Источники текстовых данных для формирования выборок

4.2.2. Общие требования к формированию выборок

4.2.3. Методика формирования выборок

4.3. Исследование индивидуальных методов классификации

4.3.1. Анализ основных внешних факторов, влияющих на ошибку классификации

4.3.2. Настройка параметров методов классификации

4.4. Синтез неоднородных КРП на основе простых классификаторов и их экспериментальное исследование

4.4.1. Применение процедуры синтеза КРП на основе простых классификаторов

4.4.2. Условия включения редуцированных методов в КРП

4.5. Сравнительный анализ коллективных и индивидуальных решений по точности и быстродействию

4.5.1 Расчет среднего выигрыша в точности и быстродействии для синтезированных КРП

4.5.2. Оценка точности коллективных и индивидуальных классификаторов на новых выборках

4.5.3. Проверка статистической гипотезы о равенстве ошибок КРП-1 и базового классификатора (метод центроидов)

4.6. Введение в КРП операции "Отказ от классификации"

Выводы по главе

ГЛАВА 5. ОПЫТ ИСПОЛЬЗОВАНИЯ РАЗРАБОТАННЫХ ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ И АНАЛИЗА БИБЛИОГРАФИЧЕСКИХ

ТЕКСТОВЫХ ДОКУМЕНТОВ

5.1. Разработка программных комплексов для автоматизированной обработки и анализа текстовой информации

5.1.1. Обоснование целесообразности разработки собственных программных комплексов

5.1.2. Структура и функциональные возможности разрабатываемых программных средств

5.2. Процедура выявления тематических журналов на порталах издательств

5.2.1. Требования, предъявляемые к источникам информации, и характеристики предметных областей

5.2.2. Специфика задачи выявления группы тематических журналов, доступных в электронном виде

5.2.3. Стратегии выбора электронных журналов по заданным тематикам

5.2.4. Основные этапы выявления группы тематических журналов на порталах издательств

5.2.5. Применение предложенной методики для отслеживания научных публикаций в заданных предметных областях

5.2.6. Обсуждение предложенной методики

5.3. Автоматизация процесса получения, обработки и анализа библиографических описаний журнальных статей с помощью

ПК «СКАТ»

5.3.1. Результаты фильтрации-классификации библиографического массива журнальных публикаций

5.3.2. Дополнительные возможности ПК "СКАТ"

5.3.3. Построение и анализ семантического образа журнала «Информационные технологии»

5.4. Учебно-исследовательский программный комплекс для обработки и анализа текстовой информации

5.5. Общие замечания

Выводы по главе

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов»

Для современного этапа развития общества характерна информатизация всех сфер деятельности, в результате которой текстовые данные в электронном виде превратились в ресурс, во многом определяющий научно-технический и экономический потенциал государства. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме и лишь 30% составляют другие виды данных (фактографические, мультимедийные и др.) [1,2].

Информационный бум, порожденный стремительным ростом сети Интернет, экспоненциальное увеличение количества неструктурированных данных привели по существу к коллапсу традиционной системы получения и распределения текстовой {документальной) информации, превратили рутинную операцию поиска и анализа необходимых сведений в трудоемкий и малоэффективный процесс, вызывающий информационную перегрузку пользователей (потребителей информации). В этой ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации (СОТИ), так как даже высококвалифицированные эксперты испытывают затруднения при организации поиска документов и распределении полученных текстовых данных по тематикам (рубрикам). Как указывается в специализированной литературе, результаты определения предметной области документа "вручную", т.е. путем экспертного отнесения к имеющейся рубрике, обычно не превышают 80%) [3,4].

До середины 90-х годов прошлого века большая часть работ по автоматизации процесса классификации массивов документальной информации не учитывала специфики обработки документов, получаемых из Интернет, и проводилась в направлении, заданном Дж. Солтоном (G. Salton) и его программой SMART для поиска и анализа текстовых документов в цифровых библиотеках [4].

В последнее десятилетие в России и за рубежом было разработано и внедрено значительное число коммерческого программного обеспечения, ориентированного, прежде всего, на массового потребителя и включающего функции фильтрации электронной почты, поиска и мониторинга новостной (социально-политической, финансово-экономической, спортивной) информации, построения профиля пользователя, поиска товаров в виртуальных магазинах и т.п. При этом значительно меньше внимания было уделено созданию программных средств для удовлетворения информационных потребностей профессиональных пользователей (специалистов-предметников). Такие программы, автоматизирующие процесс обработки и анализа научных публикаций, должны своевременно обеспечивать необходимыми сведениями разработчиков высокотехнологичной продукции (руководителей проектов, ученых, исследователей, инженеров), преподавателей и аспирантов вузов, проводящих НИОКР или подготавливающих новые курсы (монографии, диссертации и т.п.).

Эффективное управление процессом научной деятельности в современных условиях предусматривает полномасштабное использование всей доступной научной, патентной, обзорно-аналитической информации при выборе тематик НИОКР (для предотвращения финансирования дублирующих и неперспективных разработок), сопоставление полученных результатов с лучшими зарубежными аналогами, учет потребностей рынка в разрабатываемом изделии. В настоящее время российская система обеспечения научных исследований, в первую очередь на уровне "производителей" знаний (конкретных ученых, лабораторий, кафедр, коллективов разработчиков), остро нуждается в создании СОТИ, способных отслеживать новые научные публикации за рубежом и организовывать к ним доступ для заинтересованных отечественных специалистов. Своевременное получение информации, точно соответствующей специфическим научным потребностям пользователя, позволяет ему быть в курсе текущих событий, выявлять зарождающиеся тенденции (путем формирования и анализа тематических коллекций в области своей компетенции), выбирать перспективные направления для исследований (в ряде случаев анализ уже имеющихся данных может значительно сократить время на проведение собственных экспериментов), минимизировать затраты на закупку зарубежных журналов, книг, трудов конференций, мобильно подготавливать актуальные учебные курсы.

Таким образом, разработка и внедрение в практику автоматизированных систем обработки научно-технической информации является фундаментальной предпосылкой успешного проведения НИОКР, повышения производительности труда специалистов-предметников, сокращения временных и финансовых затрат на организацию научных исследований. Это позволяет отнести данную проблему к числу важных народно-хозяйственных задач, решение которой, в конечном итоге, будет способствовать повышению качества и эффективности проводимых научных исследований и разработок, ускорению процесса создания и коммерциализации инноваций.

Необходимо отметить, что одной из особенностей специализированных электронных ресурсов в области науки и техники является то, что в свободном (некоммерческом) доступе обычно находятся не полные тексты статей, докладов, отчетов, а только их краткие описания (рефераты). Такие документы называются библиографическими (реферативными). Под библиографическим текстовым документом принято понимать конечное множество слов (терминов), объединенных лексическими, грамматическими, смысловыми, частотными отношениями и образующих информативное сообщение. Как правило, такие документы состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. При этом библиографическое описание представляет сжатое изложение полнотекстового документа (журнальной статьи, доклада на конференции, отчета по НИР, монографии, диссертации), его квинтэссенцию. Анализ таких коротких текстов, с одной стороны, позволяет экономить время специалиста-предметника на просмотр и оценку, с другой стороны, предоставляет возможность получить полные сведения о тематике работы, методах исследования, использовании результатов на практике. В данной диссертационной работе рассматриваются методы обработки и анализа применительно к библиографическим текстовым документам.

При построении современных СОТИ с целью удовлетворения информационных потребностей профессиональных пользователей особую актуальность приобретают работы по синтезу новых оригинальных методов обработки и анализа неструктурированных текстовых данных, усовершенствованию уже имеющихся подходов, объединению разработанных алгоритмов в специализированные программные комплексы, применение которых создает пользователю комфортные условия для продуктивной работы. Одним из основных эффективных средств анализа данных является классификация.

Классификация (группировка, категоризация, рубрикация) научных текстовых документов заключается в разбиении выборки на непересекающиеся группы (классы, рубрики) с целью обеспечения максимальной "близости" между документами одной группы, соответствующих определенной тематике, и максимального различия между группами. В качестве меры "близости" обычно используются метрики (например, евклидова метрика).

Рубрикация является мощным средством анализа текстовых документов, так как пользователям свойственно упорядочивать документы аналогичным образом. Методы классификации (решающие правила, классификаторы) позволяют минимизировать, а в ряде случаев исключить влияние пользовательской предвзятости и субъективности на процесс группировки данных. С середины прошлого века отмечается широкий общемировой исследовательский интерес к теории классификации. Существенный вклад в ее развитие внесли отечественные ученые: М.А. Айзерман, М.М. Бонгард, Э.Н. Бравер-ман, В.Н. Вапник, Ю.И. Журавлев, Н.Г. Загоруйко, В.Д. Мазуров, Г.С. Лбов,

Jl.А. Растригин, В.К. Финн, а также иностранные исследователи: Л. Брейман (Breiman), Д. Вилсон (Wilson), Т. Кавер (Cover), Т. Кохонен (Kohonen), Р. Ку-инлэн (Quinlan), Э. Патрик (Patrik), Дж. Солтон (Salton), Д. Фридман (Friedman), У. Френд (Freund), П. Харт (Hart), Р. Шапиро (Schapire), Б. Эфрон (Efron) и др.

В настоящее время в России и за рубежом наблюдается значительный интерес к исследованиям в области Data & Text Mining (интеллектуальный анализ фактографических и текстовых данных), причем количество НИОКР, ориентированных на создание СОТИ и удовлетворение информационных потребностей пользователей, растет опережающими темпами. К числу ведущих российских научных центров, специализирующихся в разработке теоретических основ и инструментальных средств в области обработки и анализа документальной информации, следует отнести: Вычислительный центр им. А.А. Дородницына РАН, ВИНИТИ, Институт проблем информатики РАН, Институт проблем управления им. В.А. Трапезникова РАН, Институт программных систем РАН, Институт системного программирования РАН, Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова, ГПНТБ, ГНИИ информационных технологий и телекоммуникаций "Инфор-мика", Санкт-Петербургский государственный университет.

Несмотря на то, что проблемы классификации документов находятся в центре внимания целого ряда научных коллективов, по многим вопросам до сих пор не найдено удовлетворительных ответов. Так, не разработано универсального подхода, способного обеспечивать наилучшую точность на различных выборках полнотекстовых и библиографических документов, т.е. не создано эффективного метода "на любой случай" (под точностью в данной работе понимается отношение правильно классифицированных документов к общему числу документов (экзаменационной) выборки, под ошибкой — количество неправильно классифицированных документов к общему числу документов (экзаменационной) выборки). Точность различных методов существенно зависит от выполнения априорных предположений и допущений, структуры текстовых данных (количества классов (тематик), размеров и однородности классов, вида "пограничной" области между классами и т п.).

При обработке документальной информации возникают дополнительные трудности. Во-первых, количество информативных признаков (терминов) обычно существенно превосходит размер выборки, затрудняя обучение методов и определение наилучших оценок параметров. Во-вторых, объем вычислительных операций при обработке и анализе текстовых документов чрезвычайно велик, что делает процесс классификации дорогостоящим и крайне трудоемким. В-третьих, получаемая матрица "документ-термин" оказывается сильно разреженной, так как большое число терминов встречается только в одном или нескольких документах. В-четвертых, в отличие от структурированной информации, которая обычно содержит фактические сведения в виде чисел, неструктурированная информация не имеет единого текстового формата и общепринятых правил представления, что делает обработку и анализ документов практически невозможным без разработки комплексной модели процесса обработки текстовой информации.

Сложность и неформализованность процедуры рубрикации текстовой информации приводит к тому, что в ряде случаев разные методы дают противоречивые, существенно отличающиеся друг от друга решения. В связи с этим использование только одного метода не может гарантировать желаемых результатов. Изначально непредсказуемая структура массива текстовых документов требует применения особо чувствительных и точных методов. С целью снижения ошибки при определении класса документов предложено несколько специальных подходов.

Первый подход связан с существенным увеличением размера обучающей выборки (или числа обучающих выборок, которые используются для настройки параметров методов). Однако такой способ улучшения точности классификации приводит к существенному росту затрат, что затрудняет его широкое использование на практике. Второй подход предполагает разработку онтологий (тезаурусов, рубрикаторов), содержащих формализованные экспертные знания, и применение этих знаний в процессе классификации. Трудоемкость и высокая стоимость составления онтологий сдерживает их полномасштабное внедрение в процесс обработки и анализа текстовой информации. Третий подход заключается в разработке специальных процедур для увеличения точности классификации. Обычно эти процедуры направлены на более тщательный отбор информативных признаков, поиск наилучших значений настраиваемых параметров методов, создание улучшенных модификаций решающих правил. Снижение ошибки классификации в рамках третьего подхода достигается за счет усложнения процедуры обучения, которая позволяет извлечь дополнительную информацию из исходной выборки.

Несмотря на возможность уменьшения ошибки методов классификации с помощью указанных подходов, тем не менее необходимо отметить наличие принципиального точностного барьера у индивидуальных решающих правил, что заставляет разработчиков СОТИ искать принципиально новые способы увеличения точности классификации.

Так, в рамках четвертого подхода для принятия решения о классификации документа предлагается использовать не один, a m методов, которые объединяются в коллектив решающих правил (КРП) или комитет (ансамбль) классификаторов. Принятие решений в таком КРП во многом аналогично процедуре согласования мнений нескольких специалистов в экспертных системах. К числу существенных преимуществ применения комитетов классификаторов относят, прежде всего, возможность увеличения точности разнесения документов по классам в сравнении с использованием индивидуального классификатора, хорошую интерпретируемость результатов, меньшую зависимость от структуры выборки и присутствия в ней нерелевантных шумовых документов (документов, не принадлежащих ни одному из классов, представленных в выборке). Механизм принятия решения в КРП обеспечивает большую устойчивость результатов классификации. Под устойчивостью в контексте проводимых исследований понимается несущественная зависимость точности классификации от наличия в выборке нерелевантных документов и документов, находящихся на границе классов.

Общим недостатком для всех описанных выше подходов является низкое быстродействие. Под быстродействием в данной работе понимается процессорное время, которое затрачивается алгоритмом для классификации нового документа (присвоения документу метки класса). Решение данной проблемы принципиально, поскольку лежит в основе требований практики к обработке текстовых сообщений в реальном масштабе времени, что означает необходимость сокращения вычислительных операций и уменьшения времени классификации поступающих документов. Причем в большинстве прикладных задач практическая ценность метода зависит как от точности классификации, так и быстродействия. Даже высокоточные методы, которые требуют длительных "раздумий" при принятии решения, редко используются пользователями, предпочитающими оперативно получать и анализировать результаты.

В настоящее время в специализированной литературе по распознаванию образов, обработке и анализу документальных, фактографических данных в качестве наиболее эффективного пути повышения точности классификации широко обсуждается именно четвертый подход [5,6,7,8,9,10]. Действительно, путем формирования КРП возможно осуществлять синтез высокоточных алгоритмов, способных удовлетворять все возрастающим требованиям практики к результатам классификации. Однако их применение приводит к значительному росту вычислительной сложности процедуры распределения документов по классам и, как следствие, резкому увеличению времени группировки документов. При этом возрастают также затраты, необходимые для обучения и реализации методов — членов комитета. Под затратами (ре-сурсозатратностью) в данной работе понимаются прежде всего ресурсы, которые должны быть затрачены на стадии обучения. К ним относятся: ресурсы, необходимые для формирования обучающих выборок (данная проблема критична, так как количество имеющихся в распоряжении исследователя рубрицированных документов, для которых известна метка класса, обычно ограничено и получение дополнительных текстов связано с трудоемким поиском и дорогостоящим экспертным отбором подходящих библиографических описаний); ресурсы, затрачиваемые на выявление и взвешивание информативных терминов; ресурсы, требуемые для обучения методов (т.е. настройки их параметров). При этом предполагается, что затраты, необходимые на программную реализацию и отладку методов, используемых в данной работе, значительно меньше затрат на формирование обучающих выборок, выявление информативных терминов и обучение методов.

Невысокое быстродействие и ресурсозатратность стандартных коми-тетных конструкций существенно сужает круг реальных проблем, которые могут быть решены с использованием таких КРП. Важным достоинством КРП, синтезируемых в данной работе, является то, что увеличение точности классификации достигается не путем усложнения механизма принятия решений (введением дополнительных настраиваемых методов) или процедуры обучения, а за счет объединения нескольких достаточно "простых" разнородных методов, ряд из которых был разработан лично автором. Использование таких комитетов позволяет изменить существующее положение вещей, когда более высокая точность, обеспечиваемая тем или иным КРП, всегда связана со значительными затратами на этапе обучения и обычно приводит к снижению быстродействия коллективных методов на этапе классификации.

Несмотря на наличие большого числа публикаций по способам увеличения точности распределения документов по классам (прежде всего для обработки фактографических данных), тем не менее практически отсутствуют системные исследования по синтезу высокоточных малозатратных комитетов, которые, наряду с низкой ошибкой классификации, обладали бы быстродействием, соизмеримым с быстродействием известных индивидуальных методов.

Сложившаяся ситуация объясняется многоаспектностью и разнородностью исследований, проводимых в теории классификации как по созданию индивидуальных классификаторов, так и по синтезу КРП. В большинстве случаев разработчики нацелены на решение отдельных практических задач или теоретическое исследование точностных характеристик процедур. При этом фактически выпадает из анализа другие важные свойства методов, включая быстродействие на стадии классификации и затраты на стадии обучения.

В отличие от ряда областей знаний, где требования к программным и техническим средствам регламентируются с помощью специализированных стандартов, в литературе по теории классификации не удалось найти комплексных исследований, которые структурировали бы имеющийся арсенал средств классификации по показателям точности, быстродействия и ресурсо-затратности. Этим обусловлена необходимость с позиций системного анализа построить концептуальную модель обработки текстовых документов и провести систематизацию известных методов с целью выделения таких индивидуальных классификаторов, которые наилучшим образом могут быть использованы для построения высокоточных быстродействующих КРП, не требующих значительных затрат на стадии обучения. Построенная методом системного анализа концептуальная модель должна позволить с единых позиций рассмотреть все этапы процесса обработки и анализа библиографических текстовых документов, обоснованно выбрать из существующих альтернатив методы, которые наилучшим образом удовлетворяют цели разработки СОТИ, и хорошо сочетаются друг с другом.

Введение специальной систематизации не только способно структурировать имеющиеся результаты исследований и дать рекомендации по синтезу эффективных комитетных решений, но позволяет определить новые перепективные направления исследований в данной научной области. Принимая во внимание вышеизложенное, представляется возможным следующим образом сформулировать цель данной диссертационной работы.

Цель работы заключается в разработке новых методов классификации и синтезе коллективов решающих правил, обеспечивающих высокую точность, быстродействие и небольшую ресурсозатратность решения задачи классификации библиографических текстовых документов.

Для достижения указанной цели необходимо:

1. Осуществить системный анализ задачи обработки библиографических текстовых документов с формулированием целевого критерия, построением модели решаемой задачи и выявлением основных этапов, оказывающих наибольшее влияние на целевой критерий.

2. На основе результатов системного анализа провести систематизацию наиболее известных и широко используемых на практике методов обработки и классификации библиографической текстовой информации.

3. Построить классификационную матрицу, позволяющую осуществить обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

4. Разработать методику синтеза высокоточных, быстродействующих и малозатратных КРП применительно к задачам классификации библиографической текстовой информации.

5. Разработать новые быстродействующие модификации методов, обеспечивающих высокую точность классификации текстовых документов (точность, сопоставимую с точностью известных методов) и не требующих существенных затрат на стадии обучения.

6. На основе разработанных процедур классификации и предложенной методики синтезировать новые КРП, которые наряду с увеличением точности, обеспечивают быстродействие, соизмеримое с быстродействием известных индивидуальных методов классификации, и не требуют существенных дополнительных ресурсозатрат на стадии обучения.

7. Разработать структуру программного комплекса, внутреннее представление данных, организацию процедур поиска, хранения, обработки и анализа библиографической текстовой информации.

8. Разработать процедуру применения предложенных методов и созданного программного обеспечения для решения практических задач.

9. Реализовать и апробировать созданные инструментальные средства на практике для обработки и анализа массивов библиографических научно-технических документов.

Объектом исследований в данной работе являются системы обработки текстовой информации, позволяющие автоматизировать процесс анализа документов и обеспечивающие своевременное получение и распределение информации по классам согласно профессиональным потребностям пользователя.

Предметом исследований в диссертации являются индивидуальные и коллективные методы классификации библиографической текстовой информации.

Материал, вошедший в диссертацию, использовался автором при чтении лекционных курсов «Интеллектуальные информационные системы», «Информационные технологии в управлении». Для проведения лабораторного практикума по данным дисциплинам разработан и внедрен в учебный процесс учебно-исследовательский программный комплекс. По тематике диссертации подготовлена монография (4,5 печ. листа) [11] и учебное пособие (4,75 печ. листа) [12].

В ходе проведения исследований под руководством автора выполнена и защищена диссертационная работа на соискание ученой степени кандидата технических наук [13] и три магистерские диссертации [14,15,16]. Основные результаты опубликованы в 14 статьях в журналах ВАК, рекомендованных по направлению управление, вычислительная техника и информатика («Информационные технологии» - 6, «Вестник МЭИ» - 3, «Автоматизация и современные технологии» - 2, «Нано- и микросистемная техника» (старое название «Микросистемная техника») - 2, «Приборы и системы. Управление. Контроль. Диагностика» -1) [10,17,18,19,20,21,22,23,24,25,26,27,28,29].

Необходимо отметить, что область применения основных научных результатов работы шире, чем рассматриваемый в работе класс задач, связанный с обработкой и анализом документальной информации. Полученные теоретические и практические результаты могут быть также использованы при классификации фактографических данных и распознавании образов, разработке информационно-поисковых и информационно-аналитических систем.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата системного анализа, теории вероятностей, математической статистики, линейной алгебры, теории множеств, вычислительной геометрии, теории алгоритмов, систем искусственного интеллекта, численных методов, имитационного моделирования.

Научная новизна.

1. На основе системного анализа процесса обработки библиографических текстовых документов предложен критерий, учитывающий требования к процедурам выявления информативных терминов, обучения и классификации по точности, быстродействию, ресурсозатратам; построена модель процесса, имеющая модульную структуру, что позволяет оценить влияние различных этапов обработки и анализа библиографических данных на значение целевого критерия.

2. Проведена систематизация процедур выявления информативных терминов и методов классификации текстовых данных, сформулированы рекомендации по их использованию. Построена классификационная матрица, которая позволяет осуществлять обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Разработано три новых метода классификации библиографических текстовых документов (модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа и метод Ml- профилей). Адаптированы метод профилей и метод Q- профилей для решения задач классификации библиографических текстовых документов. Даны рекомендации по выбору настраиваемых параметров в предложенных алгоритмах.

4. Получены оценки вычислительной сложности для разработанных и адаптированных методов на стадиях обучения и классификации. Показано, что при классификации текстовых документов предложенные методы обеспечивают более высокое быстродействие по сравнению с известными процедурами.

5. Сформулированы требования к простым классификаторам. Разработана и обоснована процедура синтеза высокоточных, быстродействующих и малозатратных КРП на основе простых классификаторов для обработки и анализа библиографических текстовых документов.

6. На основе предложенной процедуры проведен синтез двух новых коллективов решающих правил, состоящих из простых классификаторов. Синтезированные КРП состоят как из известных процедур, так и из методов классификации, разработанных в ходе выполнения диссертации. Экспериментально показано, что сформированные КРП имеют меньшую ошибку по сравнению с известными индивидуальными классификаторами.

7. Рассчитаны оценки вычислительной сложности синтезированных КРП. Показано, что их быстродействие существенно превышает быстродействие метода «--ближайших соседей.

8. Разработана оригинальная процедура выявления тематических журналов по заданным пользователем предметным областям. Данная процедура позволяет организовать автоматизированный мониторинг информационных ресурсов и получение релевантных научных публикаций, соответствующих потребностям пользователя.

Практическая ценность результатов.

1. Разработан программный комплекс (ПК) "СКАТ" ("Система Классификации и Анализа Текста"), реализующий полный цикл обработки и анализа библиографической текстовой информации. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

2. Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме текстовые документы из библиографических баз данных и с Интернет-сайтов. Показано, что предложенные в диссертации методы, алгоритмически и программно реализованные в ПК, эффективны при обработке больших массивов библиографических текстовых данных, обладают высокой точностью, быстродействием, не требуют существенных затрат на стадии обучения. Подтверждено, что точность классификации может быть повышена при формировании КРП с учетом обоснованных в работе рекомендаций.

3. Теоретические результаты и опыт применения ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научных журналов, получаемых из сети Интернет.

4. Разработан, апробирован и внедрен в учебный процесс учебно-исследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы его возможности по проведению самостоятельных комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу программного комплекса составляют разработанные автором методы классификации и синтезируемые из них КРП.

5. Показано, что функциональные возможности ПК "СКАТ" и учебно-исследовательского программного комплекса позволяют эффективно решать широкий круг реальных задач обработки и анализа библиографических текстовых документов (автоматизированный мониторинг информационных ресурсов, фильтрация-классификация научных публикаций по заданным тематикам, наукометрический анализ библиографических баз данных, исследование и сравнительный анализ методов обработки и анализа документальной информации).

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ). ПК "СКАТ" был использован для автоматизированного получения с сайтов электронных издательств англоязычных публикаций по заданным научно-техническим тематикам и фильтрации-классификации документального массива. Практическое применение разработанного программно-алгоритмического и методического обеспечения подтверждается актом о внедрении.

Созданные в диссертации инструментальные средства были успешно использованы для обработки и анализа базы данных научных публикаций в области химии, в частности для определения основных тематик исследований, построения профилей научных групп, отслеживания изменения тематик работ с течением времени. По результатам применения разработанных инструментальных средств в Институте проблем химической физики РАН (г.Черноголовка) автором был получен акт о внедрении.

Процедура выявления тематических журналов, разработанные индивидуальные и коллективные решающие правила были использованы в издательстве «Новые технологии» для обработки и анализа англоязычных документальных потоков в области информатики. По результатам использования разработанных программно-алгоритмических средств автором был получен акт о внедрении.

Разработанный учебно-исследовательский программный комплекс внедрен в учебный процесс для проведения лабораторного практикума по курсу «Интеллектуальные информационные системы», курсового и дипломного проектирования на кафедре Управления и информатики МЭИ, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на одиннадцати международных конференциях "Информационные средства и технологии" (1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Москва, МЭИ), на восьми Научных сессиях МИФИ (2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 гг. Москва, МИФИ), на семи научно-технических семинарах "Современные технологии в задачах управления, автоматики и обработки информации" (2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Алушта, МАИ).

Публикации. Автором опубликовано 55 работ по теме диссертации, в том числе 14 статей в журналах, рекомендованных ВАК по направлению управление, вычислительная техника и информатика, монография и учебное пособие.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, содержащего 284 наименований, 6 приложений. Основной текст диссертации излагается на 335 машинописных страницах и содержит 27 рисунка и 25 таблиц.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Толчеев, Владимир Олегович

Основные результаты, полученные автором, опубликованы в журнале «Информационные технологии», причем за цикл работ по классификации и моделированию текстовых документов В.О. Толчеев стал победителем конкурса «Лучшая статья года», проводимого Журналом в 2005 году.

В издательстве «Новые технологии» было использовано научно-методическое, алгоритмическое и программное обеспечение, разработанное под руководством В.О. Толчеева для проведения автоматизированной обработки и анализа библиографических текстовых документов, включая: методику выявления тематических журналов, на основе которой проводился выбор англоязычных изданий, специализирующихся в области Информатики (Computer Science) и являющихся тематически близкими к журналу «Информационные технологии»; индивидуальные и коллективные решающие правила для классификации'библиографических текстовых документов, которые были использованы в процессе обработки и анализа англоязычных документальных потоков в области Информатики.

Использование данных результатов в издательской деятельности позволяет сформировать ряд рекомендаций по своевременному отслеживанию тенденций в-интересующей области науки и технологии, сократить трудозатраты экспертов на просмотр и анализ больших массивов документальной информации, а также установить новые закономерности в документальном потоке научной информации.

Главный редактор журнала «Информационные технологии» Заслуженный деятель науки и техники РФ Доктор технических наук, профессор

Отв. секретарь объединенной редакции Издательства «Новые технологии» Кандидат технических наук, доцент

С^) ^оренков

Н.Б. Филимонов

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.