Метод классификации библиографической информации на основе комбинированных профилей классов с учетом структуры документов тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Мохов, Андрей Сергеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 180
Оглавление диссертации кандидат наук Мохов, Андрей Сергеевич
Оглавление
Оглавление
Введение
ГЛАВА 1. Методы обработки и анализа двуязычной текстовой информации
1.1. Постановка задачи классификации текстовых документов
1.2. Библиографический двуязычный текстовый документ
1.3. Использование системного анализа для разработки методов обработки текстовой информации
1.4. Предварительная обработка текстовых данных
1.5. Модели представления документов
1.6. Математические модели представления двуязычных документов
1.7. Взвешивание терминов
1.7.1 Способы взвешивания терминов при статистическом подходе
1.7.2 Выявление информативных терминов на основе таблиц сопряженности
1.8. Способы оценки точности классификатора
1.9. Основные направления исследований в области поиска, обработки и анализа многоязычной информации
1.10. Систематизация методов классификации многоязычной информации
1.11. Наивный байесовский классификатор
1.12. Метод опорных векторов
1.13. Метод ближайшего соседа
1.14. Профильные методы
1.15. Выводы по главе
ГЛАВА 2. Разработка алгоритмов комбинирования различных профилей и метода
классификации с учетом структуры библиографических документов
2.1. Подходы к составлению профилей классов
2.1.1 Статистический подход выявления информативных терминов
2.1.2 Теоретико-информационный подход выявления информативных
терминов
2
2.1.3 Эвристический подход
2.2. Обучение профильных методов и построение решающего правила
2.3. Анализ характерных особенностей профильных методов
2.4. Разработка новых алгоритмов классификации двуязычных документов
2.4.1 Алгоритм классификации двуязычных документов ЦМ1
2.4.2 Алгоритмы классификации двуязычных документов ЦМ2 и ЦМ3
2.4.3 Алгоритмы классификации двуязычных документов ЦМ4 и
UNI5
2.4.4 Алгоритм классификации двуязычных документов UNI6
2.5. Способы учета структуры текстовых документов
2.5.1 Известные подходы поиска, обработки и анализа текстовых данных с учетом структуры документов
2.5.2 Разработка метода классификации с учетом структуры библиографических документов
2.6. Выводы по главе
ГЛАВА 3. Исследование алгоритмов UNI и метода Struct на двуязычных выборках
3.1. Формирование выборок двуязычных текстовых документов
3.2. Предварительная обработка текстовых данных
3.3. Настройка параметров методов
3.4. Анализ точности методов классификации на одноязычных и двуязычных выборках
3.5. Исследование новых профильных методов
3.5.1 Непараметрический критерий Уилкоксона
3.6. Выбор профилей для структурного метода Struct-1
3.6.1 Алгоритм метода классификации двуязычных библиографических документов Struct-1
3.7. Выбор профилей для структурного метода Struct-2
3.7.1 Алгоритм классификации двуязычных библиографических
документов Struct-2
3.7.2 Процедура настройки весовых коэффициентов для метода Struct-2
3.7.3 Результаты настройки весовых коэффициентов
3.8. Исследование разработанных методов на дополнительных контрольных выборках
3.8.1 Исследование методов на контрольных выборках
3.8.2 Исследование методов на выборках с большим числом классов
3.8.3 Исследование методов на выборках с классами разных размеров
3.9. Сравнение различных методов классификации по ресурсозатратности
3.10. Применение коллективов решающих правил для классификации
двуязычных текстовых документов
3.11. Выводы по главе
ГЛАВА 4. Практическое применение разработанных методов
4.1. Обзор современных систем обработки текстовой информации
4.2. Программный комплекс Тех1:Са1
4.2.1 Методика использования ПК Твх^М для построения высокоточных классификаторов
4.2.2 Использование TextCat для учебных целей
4.2.3 Применение ПК TextCat для решения прикладных задач
4.3. Модуль 1оигпаШШегт§
4.3.1 Основные этапы задачи мониторинга и фильтрации статей
4.3.2 Настройка порога отсечения статей, относящихся к документам «общей» тематики
4.4. Классификация статей и отчетов по НИР для ИПХФ РАН
4.4.1 Результаты классификации статей
4.4.2 Выявление и удаление полных дубликатов в БД ИПХФ РАН
4.5. Обобщение результатов исследований
4.6. Выводы
Заключение
Обозначения
Список литературы
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов2009 год, доктор технических наук Толчеев, Владимир Олегович
Разработка метода повышения быстродействия непараметрических классификаторов библиографических текстовых документов2012 год, кандидат технических наук Бородкин, Артем Александрович
Разработка и исследование метода классификации библиографической текстовой информации2005 год, кандидат технических наук Некрасов, Иван Валериевич
Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович
Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора2013 год, кандидат наук Крайнов, Александр Юрьевич
Введение диссертации (часть автореферата) на тему «Метод классификации библиографической информации на основе комбинированных профилей классов с учетом структуры документов»
Введение
В настоящее время быстрыми темпами возрастает число прикладных задач, требующих разработки специального алгоритмического обеспечения систем обработки и анализа неструктурированной текстовой информации. Большинство таких задач включает проведение высокоточной классификации (Text Categorization, категоризация), т.е. предусматривает построение классификатора, способного правильно относить новые документы к заданным классам.
В России существенный вклад в создание эффективного
математического и программного инструментария внесли Институт
проблем управления им. В.А. Трапезникова РАН (метод потенциальных
функций, метод обобщенного портрета и размерность Вапника-
Червоненкиса (VC-dimension), метод структурной минимизации риска,
лингвистический подход Бравермана-Мучника к распознаванию сложных
объектов, метод экстремальной группировки параметров); ФИЦ
«Информатика и управление» (алгебраические методы классификации
(школа академика Ю.И.Журавлева), развитие методов интеллектуального
анализа данных, программно-алгоритмическая система поиска и обработки
текстовых документов «Exactus», технология «ИСИР» - Интегрированная
Система Информационных Ресурсов); МГУ им. М.В. Ломоносова
(программа Интернет-поиска и кластеризации результатов «Нигма»,
«ИСТИНА» - Интеллектуальная Система Тематического Исследования
Научно-технической информации); НИУ «Новосибирский государственный
университет» (методы обнаружения эмпирических закономерностей (школа
профессора Н.Г.Загоруйко)); Институт системного программирования РАН
(программный комплекс интеллектуального анализа многоязычной
информации «Texterra»); Научно-исследовательский вычислительный
центр МГУ им. М.В. Ломоносова (процедуры построения моделей
предметных областей на основе лексических и формальных онтологий);
ВИНИТИ РАН (ДСМ-метод). Активные исследования также ведутся в НИУ
6
«Высшая школа экономики», Институте систем информатики им.А.П.Ершова СО РАН, НИУ «МГТУ им. Н.Э.Баумана», Институте проблем передачи информации им. А.А.Харкевича РАН, НИУ «МИФИ».
Несмотря на интенсивные исследования, направленные на создание новых и совершенствование существующих методов категоризации данных, пока не найдено универсальных решений, и получаемые результаты во многом зависят от конкретной задачи, в частности, объема обучающих выборок, количества классов, размера текстов, предметной области.
В современной литературе известно несколько способов повышения точности классификации документов: использование специализированных онтологий, содержащих формализованные экспертные знания о предметной области; тщательный отбор информативных классообразующих терминов; создание сложных классификаторов, требующих настройки большого числа параметров и длительного обучения на выборках; построение коллективов решающих правил (КРП, комитеты классификаторов), в которых объединяются несколько методов для выработки общего решения о метке класса.
Еще один возможный вариант повышения точности связан с более полным учетом имеющейся априорной информации о документе и его структуре. Например, для таких документов, как научные публикации (учебники, монографии), можно ввести следующее структурное деление: автор - название - введение - основной текст (возможно, разделенный на главы и параграфы) - заключение - список литературы. Такая аппроксимация, позволяющая учитывать местоположение термина в определенном разделе текста, традиционно используется в задачах информационного поиска для определения степени релевантности документа и запроса [12,23,52,83,114]. В значительно меньшей степени этот подход нашел применение для категоризации текстовых документов.
Наиболее отчетливо структура текста выявляется в библиографических
описаниях (БО), которые содержат три важных для классификации раздела
7
(зоны): название, аннотация, ключевые слова. Для научных статей (докладов на конференциях, отчетов НИР, патентов) в обязательном порядке составляются БО, причем чаще всего они пишутся на двух языках - русском и английском. Несмотря на активные работы по созданию процедур классификации многоязычных текстовых данных (Multilingual Text Categorization) и появление достаточно эффективных подходов к обработке и анализу двуязычной информации [2,10,37,52,108,109,115,128,136,138, 141,142], к настоящему времени практически отсутствуют процедуры, предназначенные для категоризации русско-английских БО. К числу немногочисленных известных публикаций на эту тему следует отнести [26,10,37,50]. Вместе с тем классификатор, который одновременно учитывает структуру документа и терминологическую информацию, представленную на двух языках, способен проводить более точную классификацию библиографических документов (по сравнению с раздельной категоризацией, построенной на использовании только русских или только английских терминов).
Из анализа опубликованных работ следует, что разработка методов классификации русско-английских библиографических документов относится к малоизученным и нетривиальным проблемам. К настоящему времени не разработаны эффективные типовые подходы, позволяющие гарантированно увеличить точность классификации по сравнению с точностью категоризации на одноязычных выборках. Более того, не было найдено публикаций, в которых были бы разработаны и исследованы классификаторы, предназначенные для анализа двуязычных БО с учетом местоположения терминов в библиографическом документе.
Объектом исследования данной диссертации являются системы обработки и анализа текстовой информации.
Предметом исследования являются методы классификации библиографических документов, использующие информацию о структуре документа.
Принимая во внимание вышесказанное, сформулируем цель исследования.
Целью работы является разработка метода классификации библиографической информации на основе комбинированных профилей классов с учетом структуры документов, позволяющего увеличить точность категоризации по сравнению с известными классификаторами.
В работе под известными классификаторами понимаются метод к-ближайших соседей, наивный байесовский классификатор, метод центроидов, метод опорных векторов, которые хорошо теоретически и экспериментально изучены применительно к задачам категоризации текстовых документов.
Для достижения указанной цели были решены следующие задачи:
- Системный анализ имеющихся процедур обработки и анализа многоязычной информации.
- Выбор процедур предварительной обработки данных с учетом специфики анализа русско-английских библиографических документов и их структурного деления на разделы.
- Составление двуязычных (русско-английских) выборок для обучения и тестирования создаваемых классификаторов.
- Разработка методов классификации, обеспечивающих более высокую точность за счет выявления наиболее информативных русских и английских терминов, а также использование информации о местоположении терминов в различных разделах библиографического описания.
- Формирование коллективов решающих правил, обучающихся как на двуязычных, так и одноязычных выборках и обеспечивающих более высокую точность классификации.
- Проведение комплексных экспериментальных исследований точности известных и разработанных методов классификации на русско-английских выборках.
- Разработка и применение для решения прикладных задач программного комплекса, позволяющего проводить все этапы обработки и анализа двуязычной текстовой информации. Создание методики использования разработанного программного комплекса на практике. Методы исследования
Полученные в диссертации результаты основываются на применении методов системного анализа, теории вероятностей, математической статистики, теории алгоритмов и теории информации. Научная новизна работы состоит в следующем:
1. Разработаны алгоритмы UNI, которые позволяют увеличить точность классификации библиографических документов за счет построения комбинированных профилей классов, в которые включаются наиболее информативные термины, выявленные с помощью совместного применения статистического, теоретико-информационного и эвристического способов взвешивания терминов.
2. Разработан метод Struct, повышающий точность классификации библиографической информации благодаря использованию комбинированных профилей классов и учету структуры библиографических документов. В отличие от известных подходов в методе Struct для построения профилей применяются новые алгоритмы UNI5 и UNI6.
3. Предложено два способа составления словарей терминов в методе Struct: общий словарь и три раздельных словаря, каждый из которых содержит термины из названий, ключевых слов, аннотаций. Проанализирована вычислительная сложность метода Struct. Достоверность полученных научных результатов, обоснованность
сделанных выводов и рекомендаций подтверждается корректным
использованием системного анализа, математической статистики и теории
алгоритмов, комплексными многоаспектными экспериментальными
исследованиями на различных двуязычных (русско-английских) и одноязычных (русских и английских) выборках, успешным применением разработанного алгоритмического и программного обеспечения для решения практических задач, детальным изучением российских и зарубежных публикаций по тематике работы, сопоставлением собственных результатов с известными в литературе. Практическая ценность работы
1. Разработан программный комплекс (ПК) ТехЮа^ ориентированный на работу с русско-английскими документами, реализующий все этапы обработки и анализа двуязычных текстов и включающий, наряду с известными классификаторами, методы классификации, предложенные автором.
2. Разработанное алгоритмическое и программное обеспечение легко адаптируется к различным предметным областям и требованиям пользователя, при необходимости оно может дополняться новыми модулями и применяться для анализа произвольных коротких двуязычных (русско-английских) текстов. ПК TextCat предназначен для широкого круга исследователей, не имеющих специальных знаний в области программирования и теории классификации.
3. Предложена методика использования ПК TextCat для построения высокоточных классификаторов. На основе этой методики сформирован коллектив решающих правил, увеличивающий точность категоризации. Синтезированный коллектив решающих правил состоит из пяти классификаторов (два из которых разработаны в диссертации), принимает решение простым голосованием и обучается как на двуязычных (русско-английских), так и одноязычных (русских или английских) выборках
Реализация и внедрение результатов
Программный комплекс TextCat был успешно использован в Институте
проблем химической физики РАН (ИПХФ РАН) для классификации научных
11
работ из базы данных публикаций и поиска в этой базе дубликатов. Эффективность практического применения разработанного программного комплекса подтверждается актом об использовании результатов диссертационной работы в ИПХФ РАН.
ПК TextCat внедрен в учебный процесс кафедры Управления и информатики НИУ «Московский энергетический институт», на его базе проводится 4 лабораторные работы по курсу «Интеллектуальные информационные системы». По результатам применения разработанного программного комплекса в учебном процессе получен акт о внедрении.
Разработанное алгоритмическое и программное обеспечение использовано в НИУ «Московский энергетический институт» при выполнении НИР по теме: «Методическое и организационно-техническое сопровождение процессов мониторинга финансово-хозяйственной деятельности подведомственных учреждений» для автоматизации обработки текстовых документов и выявления информации, необходимой для поддержки принятия управленческих решений.
Разработанный программный комплекс TextCat зарегистрирован в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности РФ (Роспатент), свидетельство об официальной регистрации программы для ЭВМ №2017611978 от 14 февраля 2017 года
Апробация результатов
Материалы диссертации докладывались на VI Всероссийской мультиконференции по проблемам управления (Дивноморское, ИПУ РАН, 2013), X Международной конференции «Интеллектуализация обработки информации» (Крит, ВЦ РАН, 2014), ХХ Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении» (Иркутск, ИСЭМ СО РАН, 2015г,), XVIII Всероссийской конференции «Научный сервис в сети Интернет» (Абрау-Дюрсо, ИПМ РАН, 2016), XXII Международной научно-технической конференции
"Информационные системы и технологии" (Н.Новгород, НГТУ им.
12
Р.Е.Алексеева, 2016), Международной научно-технической конференции "ИНФОТЕХ-2015" (Севастополь, СевГУ, 2015), XXII Международном научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» (Алушта, МАИ, 2013), VIII Международной научно-практической конференции «Информация и образование: границы коммуникаций - INFO'16» (Горно-Алтайск, ГАГУ, 2016), XIX Международной научно-технической конференции студентов и аспирантов (Москва, МЭИ, 2013).
Положения, выносимые на защиту
1. Алгоритмы UNI, позволяющие увеличить точность классификации за счет построения комбинированных профилей классов, в которые включаются наиболее информативные термины, выявленные с помощью совместного применения статистического, теоретико-информационного и эвристического способов взвешивания терминов.
2. Метод Struct, повышающий точность категоризации по сравнению с известными классификаторами благодаря использованию комбинированных профилей классов и учету структуры библиографических документов. Два способа составления словарей терминов в методе Struct (общий словарь и три раздельных словаря, каждый из которых содержит термины из названий, ключевых слов, аннотаций).
3. Коллектив решающих правил, улучшающий точность категоризации (по сравнению с известными классификаторами) и состоящий из пяти классификаторов, два из которых разработаны в диссертации.
4. Результаты экспериментальных исследований алгоритмов UNI, метода Struct, коллектива решающих правил, известных классификаторов на выборках, состоящих из русско-английских библиографических документов.
5. Методика построения высокоточных классификаторов с помощью разработанного программного комплекса TextCat.
Публикации
По теме диссертации опубликовано 15 работ, в том числе 3 статьи в журналах из перечня ВАК и свидетельство о государственной регистрации программы для ЭВМ.
Личный вклад соискателя
Все представленные в диссертации результаты исследований получены лично автором. В работах, опубликованных в соавторстве, научному руководителю принадлежит постановка задачи, а соискателю - обзор и анализ имеющихся тематических публикаций, обоснование направлений и методов исследований, разработка новых методов классификации текстовой информации, формирование выборок и проведение экспериментов, анализ и интерпретация результатов, разработка программного комплекса и методики его использования на практике.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы, содержащего 155 наименований, 5 приложений. Основной текст диссертации излагается на 172 машинописных страницах и содержит 34 рисунка и 30 таблиц.
Соответствие диссертации паспорту специальности
В диссертации разработано специальное алгоритмическое обеспечение систем обработки библиографической научной информации. Оно включает новые алгоритмы и метод, позволяющие повысить точность классификации двуязычных (русско-английских) документов. Таким образом, настоящая диссертация соответствует отрасли технических наук и паспорту специальности 05.13.01 - Системный анализ, управление и обработка информации (в науке и промышленности) по техническим наукам, а именно пункту 5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации» и пункту 4 «Разработка методов и алгоритмов
решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации».
ГЛАВА 1. Методы обработки и анализа двуязычной текстовой
информации
1.1. Постановка задачи классификации текстовых документов
В последние десятилетия значительно увеличились объемы накопленной информации и возросли потребности практики в разработке специального алгоритмического обеспечения систем обработки текстовых данных. В связи с этим активизирована разработка новых и совершенствование существующих методов анализа документов с целью обеспечения более высокой точности классификации, сделаны различные постановки задач в данной области [3,8,12,17,18,36,37,52,84].
Наиболее высокие темпы роста документального потока наблюдаются в научно-технической области (журнальные статьи, доклады на конференциях, патенты, отчеты по НИОКР и т.п.). Усиливающаяся информационная перегрузка существенно расширяет число организаций и отдельных пользователей, готовых для увеличения эффективности своей деятельности активно использовать средства интеллектуального анализа текстовых данных (Text Mining). Средства Text Mining в зависимости от размера обрабатываемого документального массива делятся на три основные группы.
1) Системы, ориентированные на поиск и анализ больших данных (Big Data), включая Web-трафик, сведения из социальных сетей, сообщения электронной почты.
2) Системы, предназначенные для автоматизации документооборота и поддержки принятия решений в крупных корпорациях, банках, государственных организациях, университетах, новостных агентствах.
3) Системы обработки информации для удовлетворения потребностей и снижения информационной перегрузки отдельных пользователей (или небольших коллективов пользователей).
Вышеуказанные группы существенным образом отличаются по
используемым методам обработки и анализа документов, объему доступных
16
для обучения и тестирования выборок, числу классов, размеру документов, требованиям к точности, быстродействию, допустимым затратам на проектирование и эксплуатацию.
К числу наиболее коммерчески привлекательных для разработчиков относятся системы поиска и анализа больших данных (инициаторами выступают широко известные компании, специализирующиеся на работе с Web-контентом) и корпоративно-ведомственные системы (заказчиками являются крупные государственные и частные организации). Значительно меньше внимания уделяется созданию персональных систем обработки информации в интересах отдельных пользователей (групп пользователей). Чаще всего для этих целей адаптируются корпоративно-ведомственные системы. В большинстве случаев подобный подход оказывается неэффективным, в нем не учитываются значительные различия в специфике решаемых задач (особенности выборок, отражающих «природу» данных) и не всегда удается подобрать наилучший инструментарий.
Наибольшая потребность в персональных системах сложилась в
научном сообществе, представители которого работают в условиях
значительной информационной перегрузки. Для снижения этой перегрузки,
выявления из имеющихся огромных документальных потоков релевантной
информации, необходимой для повышения результативности исследований,
пользователь нуждается в специальном алгоритмическом обеспечении,
которое способно выполнять функции «интеллектуального ассистента». Такой
«интеллектуальный ассистент» должен автоматизировать ряд рутинных
операций по получению, обработке и предварительному анализу
русскоязычных и иностранных (прежде всего англоязычных) публикаций. В
качестве пользователей этих систем выступают специалисты-предметники,
научные сотрудники, преподаватели, эксперты, рецензенты, программисты,
аспиранты. Сведения, извлекаемые в ходе изучения профильных публикаций,
позволяют специалистам увеличить эффективность собственной научной
деятельности, использовать полученные данные для обоснования выбора
17
перспективных направлений исследований, составления заявок на гранты, подготовки экспертных заключений и рецензий, сопоставления результатов экспериментов.
В связи с этим актуальным представляется разработка специального алгоритмического обеспечения систем обработки текстовой информации с целью снижения информационной перегрузки специалистов-предметников и улучшения их информационного обеспечения.
Далее под алгоритмическим обеспечением понимается совокупность методов, моделей, алгоритмов, используемых в системах обработки и анализа документальной информации. Одним из наиболее важных (для пользователя) элементов алгоритмического обеспечения таких систем являются методы классификации текстовых данных. Эти методы (наряду с применением других процедур обработки текстов, снижения размерности, представления результатов) позволяют уменьшить информационную нагрузку на пользователя и удовлетворить его профессиональные интересы по ведению и обновлению коллекций документов.
Сделаем постановку задачи классификации (категоризации) текстовых документов.
Имеется X - множество документов, и фиксированное число классов
(категорий) й ={01, ,•••, йк}(йк - метка к -го класса, к = 1,..., к, К -
известное число классов). Множество документов Х (Х е Х) описывается
признаками (терминами). Имеется неизвестная целевая функция (решающее правило, классификатор) 3,
3: X ^ й • (1.1)
Каждому классу йк соответствует единственное описание. Один и тот
же документ X (Х е Х) может быть отнесен на основе своего
терминологического состава сразу к нескольким классам одновременно. Причем отнесение документа к классу может быть как однозначным, так и
задаваться определенной степенью уверенности классификатора. На этапе
*
обучения необходимо построить классификатор 3 , максимально близкий к 3 на выбранной системе признаков (хт = [х(1),...,х(м)]т, М - количество
терминов, отобранных для описания документов в Х). Построение
*
классификатора 3 осуществляется на множестве документов, размеченном экспертом («учителем») и разделенном на две части - обучающую и экзаменационную выборки.
Под правильной классификацией понимается совпадение метки,
*
которую присваивает классификатор 3 , с меткой, определенной экспертом. В случае несовпадения меток, указанных классификатором и экспертом, имеет место неправильная классификация. Таким образом, точность классификатора определяется частотой появления правильных решений, а вероятность ошибки рассчитывается как отношение количества неправильно назначенных меток к
общему числу документов экзаменационной выборки.
*
Отметим, что классификатор 3 зависит не только от выбранной системы признаков, но и от состава и структуры выборок, на которых проводилось обучение и экзамен. Для независимой оценки точности классификатора необходимо использовать контрольные выборки, которые не использовались при обучении.
В данной диссертации разрабатываются методы классификации документальных массивов в интересах отдельных специалистов-предметников (и небольших коллективов), которые заинтересованы в мониторинге, получении и упорядочивании научных публикаций в рамках своей профессиональной деятельности. В связи с этим необходимо отметить ряд характерных особенностей, возникающих при классификации научных статей для данной группы пользователей.
1) Обучение и тестирование обычно проводится на основе достаточно небольших выборок (около 100 документов в классе). Это обуславливается несколькими причинами:
- По тематикам пользователя имеется ограниченное число публикаций в хранилищах цифровой информации (такая ситуация наиболее характерна для формирующихся научных направлений, в частности, в области биотехнологий, медицины, информационных технологий, новых материалов и т.п.);
- Так как специалист-предметник сам составляет обучающие и экзаменационные выборки, он заинтересован в «разумных» временных затратах на их формирование. При этом большинство русскоязычных цифровых библиотек (например, eLibrary и КиберЛенинка), предоставляет доступ к публикациям с охватом за последние 10-15 лет (т.е. статьи до 2000 года практически отсутствуют в электронном виде). Это существенно затрудняет поиск большого числа документов по ряду тематик;
- Получение интересующих пользователя документов часто затруднено тем, что в открытом (некоммерческом) доступе содержится незначительное число полнотекстовых статей, при этом специалист-предметник не готов оплачивать покупку статей для увеличения размера обучающих и экзаменационных выборок. Справиться с этой проблемой можно путем использования библиографических описаний (БО), которые включают название, аннотацию, ключевые слова (и другую вспомогательную информацию). К БО обеспечивается бесплатный доступ и по ним возможно оперативно (по мере выхода журналов и материалов конференций) изучать последние достижения в предметной области.
2) Построение классификатора затрудняется высокой размерностью -число терминов может равняться или даже превосходить количество имеющихся документов. Данная проблема свойственна всем задачам Text Mining и требует чрезвычайно тщательного отбора информативных терминов с целью значительного сокращения их количества.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка методики и алгоритмов линейной классификации неструктурированной текстовой информации в технических системах2022 год, кандидат наук Капитанов Андрей Иванович
Параллельная система тематической текстовой классификации на основе метода опорных векторов2012 год, кандидат технических наук Пескишева, Татьяна Анатольевна
Модели и методы автоматической классификации текстовых документов2003 год, кандидат технических наук Шабанов, Владислав Игоревич
Методы тематической классификации научных текстов на основе теоретико-информационного подхода2021 год, кандидат наук Селиванова Ирина Вячеславовна
Автоматическое распознавание точки зрения автора текста на основе ансамблей методов машинного обучения2021 год, кандидат наук Вычегжанин Сергей Владимирович
Список литературы диссертационного исследования кандидат наук Мохов, Андрей Сергеевич, 2017 год
Список литературы
1. Абусев Р.А., Лумельский Я.П. Статистическая групповая классификация. Учебное пособие. // Пермь, 1987. - 92 с.
2. Агеев М.С., Обзор исследований в рамках CrossLanguage Evaluation Forum в 2006 году // Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП'2006 (Суздаль,19 октября 2006) - СПб.:НУЦСИ, 2006, с.151159.
3. Андреев А.М., Березкин Д.В., Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ. Сер. Приборостроение. М.:Издво МГТУ. 2003. №3.
4. Антонов А.В. Методы классификации и технология ГалактикаЗум // Научнотехническая информация. Сер. 1.- 2004.- № 6.-С. 2027.
5. Апанович З.В., Марчук А.Г. Комбинированный подход к кроссязыковой идентификации сущностей. // Труды XVII Международной конференции DAMDID/RCDL'2015 «Аналитика и управление данными в областях с интенсивным использованием данных». Обнинск, 2015. с.155 159.
6. Атаева О.М., Серебряков В.А. Подход к созданию персональной семантической электронной библиотеки. // Труды XV Всероссийской научной конференции RCDL'2013. - Ярославль, 2013, с. 285290.
7. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. // М.: Мир, 1979. - 536 с.
8. Барахнин В.Б., Ткачев Д.А. Классификация математических документов с использованием составных ключевых терминов. // Материалы Всероссийской конференции «ЗОНТ», Новосибирск, 2009. С. 1623.
9. Барсегян А.А., Куприянов М.С.,Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов. // СПб: БХВПетербург, 2009. - 512 с.
10. Белоногов Г.Г., Хорошилов Александр А., Хорошилов Алексей А. Автоматизация составления англорусских двуязычных фразеологических словарей по массивам двуязычных текстов. // Научнотехническая информация. Серия 2: Информационные процессы и системы. 2010. № 5. С. 18.
11. Березкин Д.В., Шабанов В.И., Андреев А.М. Методы выделения терминов из текста. // Современные информационные технологии. Межвузовская юбилейная научнотехническая конференция аспирантов и студентов. Издво МГТУ им Н. Э. Баумана, 2001. с. 117127.
12. Большакова Е.И., Клышинский Д.В., Ландэ и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Учебное пособие. МИЭМ 2011. - 272 с.
13. Борзых А.И., Брагина Г.А., Хорошилов Алексей А. Методы автоматической кластеризации документов в хранилищах научнотехнической информации для решения задачи поиска плагиата в текстах документов. // Информатизация и связь. 2012. № 8. С. 3337.
14. Борисюк Ф.В. Система поиска текстовых документов на основе автоматически формируемого электронного каталога. Дис. канд. техн. наук : 05.13.18. Н.Новгород: 2010 120 с.
15. Бородкин А.А., Толчеев В.О. Исследование влияния структуры выборки и процедур предварительной обработки на точность классификации текстовой информации. // Международная конференция "Информационные средства и технологии". Том 2. МЭИ. Издво Станкин, 2007, с. 3334.
16. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 448 с.
17. Васенин В. А., Афонин С. А., Голомазов Д. Д. К созданию системы управления научной информацией на основе семантических технологий // Материалы Всероссийской конференции с международным участием «Знания Онтологии Теории» (ЗОНТ2011), 35 октября 2011 г., г. Новосибирск, том 1. — Новосибирск, Институт математики им. С.Л. Соболева СО РАН, 2011. — С. 78-87.
18. Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов. М.:ИПИ РАН, 2008 304 с.
19. Воронцов К.В. Курс лекций «Математические методы обучения по прецедентам» (теория обучения машин) (http: //www.ccas.ru/voron).
20. Воронцов К.В., Колосков А.О. Профили компактности и выявление опорных объектов в метрических алгоритмах классификации. // Искусственный интеллект. 2006. С.3033.
21. Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL. М.: ФорумИнфраМ. 2004. - 462 с.
22. Голомазов Д. Д. Выделение терминов из коллекции текстов с заданным тематическим делением // Информационные технологии. — № 2, 2010. — С. 8-13.
23. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска. Автореферат дисс. канд. физмат. Наук : 05.13.11. СПб, 2005г. - 15 с.
24. Губин М.В., Морозов А.Б. Влияние морфологического анализа на качество информационного поиска // Консорциум «Кодекс». 2006. С.16.
25. Гулин В.В. Исследование и разработка методов и программных средств классификации текстовых документов. Дис. канд. техн. наук : 05.13.11. М.: 2013 172 с.
26. Добров Б.В., Лукашевич Н.В. Организация двуязычного поиска в Университетской Информационной Системе «Россия». // Труды Четвертой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции -ЯСВЬ», 2002, том 2, с. 148158.
27. Добров Б.В., Лукашевич Н.В., Тезаурус и автоматическое концептуальное индексирование в университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» Петрозаводск. 2001. С.7882.
28. Донской В. И. Алгоритмические модели обучения классификации: обоснование, сравнение, выбор. - Симферополь: ДИАЙПИ, 2014. - 228 с.
29. Дорофеюк А.А. Алгоритмы автоматической классификации. // Автоматика и телемеханика. № 12 1971, с. 78113.
30. Дорофеюк А.А., Дорофеюк Ю.А., Чернявский А.Л. Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам. // Проблемы управления в социальных системах. 2013. Т. 5. № 8. С. 7485.
31. Дорофеюк Ю.А. Формирование массивов для моделирования алгоритмов интеллектуальной обработки информации. Моделирование комплексного алгоритма автоматической классификации. // Управление большими системами: сборник трудов. 2010. № 31. С. 353362.
32. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 511 с.
33. Дударенко М. А. Регуляризация многоязычных тематических моделей // Вычислительные методы и программирование. 2015. Т. 16. С. 26-38.
34. Завьялова О.С., Киселёв А.А., Осипов Г.С., Смирнов И.В., Тихомиров И.А., Соченков И.В. Система интеллектуального поиска и анализа информации ЕхаСш на РОМИП2010 // Труды российского семинара по оценке методов информационного поиска РОМИП'2010. Казань: Казан. унт, 2010, с.4969.
35. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. // Новосибирск: Издво Института математики. 1999. - 270 с.
36. Загоруйко Н.Г., Барахнин В.Б., Борисова И.А., Ткачев Д.А. Кластеризация текстовых документов из электронной базы публикаций алгоритмом БШЗТах. // Вычислительные технологии. Том 18, №6, 2013, с. 6274.
37. Загорулько Ю.А Подход к обеспечению многоязычного доступа к систематизированным знаниям и информационным ресурсам заданной предметной области. // Известия Томского политехнического университета. 2009. Т. 3(14). № 5. С. 161165.
38. Загорулько Ю. А., Ахмадеева И. Р., Серый А. С. Автоматизация сбора информации о научной деятельности для тематических интеллектуальных научных интернет ресурсов. XVII Международная конференция DAMDID / RCDL'2015 «Аналитика и управление данными в областях с интенсивным использованием данных». Обнинск, 13 - 16 октября 2015 г., с.105111.
39. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. // Труды 9ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», ПереславльЗалесский, Издво ИПС РАН, 2007, с.166174.
40. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. // М. : ФАЗИС, 2005. - 159 с.
41. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов. М.: Статистика. 1977. - 144 с.
42. Елисеева И.И., Руковишников В.О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982. - 192 с.
43. Епрев А.С. Автоматическая классификация текстовых документов. // Математические структуры и моделирование 2010, вып.21, с.6581.
44. Кнут В. Искусство программирования. Т.1 Основные алгоритмы. М.: Диалектика, 2004. - 720 с.
45. Козеренко Е.Б., Лунева Н.В., Морозова Ю.И., Ермаков П.В. Проектирование многоязычного лингвистического ресурса для систем машинного перевода и обработки знаний. // Системы и средства информатики. 2009. Т. 19. № 1. С. 119141.
46. Кокорев П.В., Толчеев В.О. Разработка метода профилей для классификации текстовых документов. // Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Издво МИФИ, 2006, с. 309.
47. Косолапов К.А., Серебряков В.А., Теймуразов К.Б., Шорин О.Н. Алгоритм слияния дублетных библиографических записей. // Труды XVII Всероссийской научной конференции «Научный сервис в сети Интернет». Издво ИПМ им. М.В.Келдыша. 2015, с. 173180.
48. Кудинов Ю.И., Кудинов И.Ю. Нечеткое моделирование и кластеризация. // Проблемы управления, №6, 2008, с. 210.
49. Лепский А.Е., Броневич А.Г. Математические методы распознавания образов. Курс лекций. Таганрог: Издво ЮФУ, 2009 - 152 с.
50. Литвинов В.В., Мойсеенко О.П. Автоматизированная система обработки динамических коллекций разноязычных текстовых
документов по морскому и речному делу. // Математические машины и системы. 2014. № 2. С. 5964.
51. Ломакина Л.С., Суркова А.С. Методологические аспекты концептуального анализа и моделирования текстовых структур. // Фундаментальные исследования. 2015. № 63. С. 497501.
52. Маннинг К.Д., Рагхаван П., Шютце Х. «Введение в информационный поиск». - М.: «Вильямс», 2014. - 528с.
53. Местецкий Л.М. Математические методы распознавания образов. Курс лекций ВМиК МГУ, кафедра ММП, 2002 (http://www.ccas.ru/frc/papers/mestetskii04course.pdf).
54. Мехди Ф.Ф. Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами. Дис. канд. техн. наук : 05.13.01. СПб.: 2013 - 126 с.
55. Мешкова Е.В. Разработка и исследование гибридных нейросетевых моделей для автоматической классификации текстовых документов. Дис. канд. техн. наук : 05.13.01. Таганрог: 2009 164 с.
56. Мохов А.С. Исследование методов классификации двуязычных текстовых документов. Труды девятнадцатой ежегодной международной научнотехнической конференции студентов и аспирантов «Радиотехника, электроника, электротехника и энергетика». Том 2. М.: Издательский дом МЭИ, 2013. С. 72.
57. Мохов А.С. Методика использования программного комплекса TextCat для обработки и анализа научных документов. // Научный сервис в сети Интернет: труды XVIII Всероссийской научной конференции. М.: ИПМ им. М.В.Келдыша. - 2016. - с.274278
58. Мохов А.С. Толчеев В.О. Разработка методов высокоточной классификации двуязычных текстовых библиографических документов // Информационные технологии, №5 (213), 2014. с. 813
59. Мохов А.С. Толчеев В.О. Формирование коллектива решающих правил на основе профильных методов для классификации двуязычных библиографических документов. // Современные технологии в задачах управления, автоматики и обработки информации: сборник трудов XXII Международного научнотехнического семинара, 1824 сентября 2013г., Алушта, издво МГУПИ. с. 189190
60. Мохов А.С., Толчеев В.О. Разработка профильных методов классификации двуязычных текстовых документов // Материалы 6й Всероссийской мультиконференции по проблемам управления. Том 1. 30 сентября - 5 октября 2013г., Дивноморское, издво ЮФУ, с. 7579.
61. Мохов А.С.,Толчеев В.О. «Способы учета структуры научных документов в задачах обработки и анализа текстовой информации» // Информационные технологии, №5, 2016г., с. 332339
62. Мохов А.С., Толчеев В.О., Юров Р.С. Разработка процедуры взвешивания терминов в зависимости от структуры двуязычного библиографического документа. // Труды ХХ Байкальской Всероссийской конференции "Информационные и математические технологии в науке и управлении" (29 июня - 7 июля 2015г.). Часть III. Иркутск, издво ИСЭМ СО РАН, стр. 4350.
63. Мохов А.С., Толчеев В.О. Разработка новых модификаций профильных методов классификации и построение коллективов решающих правил // Заводская лаборатория. Диагностика материалов, Москва: №3 (81), 2015. с 7075..
64. Мохов А.С., Толчеев В.О., Юров Р.С. Автоматизированный мониторинг и классификация публикаций электронных научных журналов по заданным тематикам // Информационные технологии и информационная безопасность в науке, технике и образовании "ИНФОТЕХ 2015": материалы междунар. научнопрактит. конф., г. Севастополь, СевГУ 0711 сент. 2015, 109с. Тираж 300 экз., стр. 9495.
65. Мохов А.С., Толчеев В.О. Обработка и анализ библиографических двуязычных научных документов. // Информационные технологии и управление. Т.1 №1, 2015, Севастополь: СевГУ, 146с. Тираж 90 экз., стр 107113.
66. Мохов А.С., Толчеев В.О. "Разработка комплексного решающего правила с учетом структуры библиографических документов" // Материалы XXII международной научнотехнической конференции "Информационные системы и технологии" ИСТ2016, Н.Новгород: НГТУ им. Р.Е.Алексеева, Электронное издание, 2016. 468с. Тираж 300 экз., стр 355356
67. Мохов А.С., Толчеев В.О., Юров Р.С. Выбор научных журналов и автоматизированное отслеживание публикаций в интересах пользователя // Информация и образование: границы коммуникаций ШБО'16:сборник научных трудов № 8 (16); под ред. А. А. Темербековой, Л. А. Альковой. ГорноАлтайск : РИО ГАГУ, 2016. с. 6365
68. Мохов А.С., Толчеев В.О., Туманов В.Е. Классификация научных публикаций в области химической физики по русскоязычным и англоязычным названиям. // Научный сервис в сети Интернет: труды XVIII Всероссийской научной конференции. М.: ИПМ им. М.В.Келдыша. - 2016. - с.279284
69. Некрасов И.В., Толчеев В.О. Построение модели представления библиографического документа. // Информационные технологии, №11, 2005, с. 5763.
70. Нигма - интеллектуальная поисковая система. Режим доступа: http://www.nigma.ru/
71. Новиков Д.А., Орлов А.И. Математические методы классификации. // Заводская лаборатория. Диагностика материалов. 2012. Т. 78. № 4. С. 3.
72. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона. // Заводская лаборатория. Диагностика материалов. №1, 1999, с. 5156.
73. Орлов А.И. О проверке однородности двух независимых выборок. // Заводская лаборатория №1, 2003, с.5560.
74. Осипов Г.С., Смирнов И.В., Тихомиров И.А., Соченков И.В. Система интеллектуального вертикального поиска // Труды двенадцатой национальной конференции по искусственному интеллекту с международным участием КИИ2010. М.: Физматлит 2010. Т.4. С4554.
75. Пескова О.В. Методы автоматической классификации текстовых электронных документов. // Научнотехническая информация. Серия 2: Информационные процессы и системы. 2006. № 3. С. 1320.
76. Прикладная статистика. Классификация и снижение размерности / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1989. - 607 с.
77. Прохоров А.И., Туманов В.Е., Лазарев Д.Ю., Соловьева М.Е. Предметноориентированная система научной осведомленности по физической химии радиальных реакций. // Труды Международной суперкомпьютерной конференции «Научный сервис в сети Интернет: суперкомпьютерные центры и задачи». 2010. с. 511520.
78. Рассел С., Норвиг П. Искусственный интеллект. Современный подход. 2е издание. Вильямс, 2015 - 1407 с.
79. Растригин Л.А., Эренштейн Р.Х. Метод коллективного распознавания. М. Энергоиздат, 1981. - 79 с.
80. Савченко А.В. Методы классификации аудиовизуальной информации на основе посегментного анализа однородности. Дис. дра. техн. наук : 05.13.01. Н.Новгород: 2016 250 с.
81. Седова Я.А., Квятковская И.Ю. Интеллектуальный анализ корпуса документов научной информации. // Вестник Астраханского
государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2011. № 1. с. 128136.
82. Смирнов И.В., Соченков И.В., Муравьев В.В., Тихомиров И. А. Результаты и перспективы поискового алгоритма Еха^ш. // Труды российского семинара по оценке методов информационного поиска РОМИП'20072008. СанктПетербург: НУ ЦСИ, 2008, с. 6676.
83. Солтон Дж. Динамические библиотечно-информационные системы. - М.: Мир, 1979. - 557 с.
84. Соченков И.В. Метод сравнения текстов для решения поисковоаналитических задач // Искусственный интеллект и принятие решений. М.: ИСА РАН, 2013, №2, с.95106
85. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. - М: Советское радио, 1973. - 560 с.
86. Толчеев В.О. Модели и методы классификации текстовой информации. // Информационные технологии. №5 2004, с.6-14.
87. Толчеев В.О. Основы теории классификации многомерных наблюдений. М: Издательство МЭИ, 2012. - 122 с.
88. Толчеев В.О. Синтез коллективов решающих правил для проведения классификации текстовых документов. // Информационные технологии, №10, 2007, с. 3238.
89. Толчеев В.О. Основы теории классификации многомерных наблюдений. Учебное пособие. М.: Издательство МЭИ, 2012 - 122 с.
90. Толчеев В.О. Профильные методы классификации библиографических документов. // Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Издво ГУАП , 2008, с.264.
91. Трутнев Е. В., Токарев В. Л. Автоматизированная классификация текстов интернетстраниц по функциональным стилям речи на основе морфологического анализа // Известия Тульского государственного университета. Технические науки №4, 2008, с. 249256.
92. Туманов В.Е. Предметноориентированные системы научной осведомленности //.Информационные технологии. 2009. № 5. С. 1218.
93. Турдаков Д. и др. Texterra: инфраструктура для анализа текстов //Труды Института системного программирования РАН. - 2014. - Т. 26. - № 1.
94. Фишберн, П. Теория полезности для принятия решений / П.Фишберн; пер. с англ. Под ред. Н.Н.Воробьева. - М.:Наука, 1978. -352 с.
95. Фомичев В.А. Формализация проектирования лингвистических процессоров. М.: МАКС Пресс, 2005. - 367 с.
96. Фомичев В.А. Новый метод преобразования естественноязыковых текстов в семантические представления. // Информационные технологии. 2005. № 10. С. 2535.
97. Фролов А.Б., Андреев А.Е., Болотов А.А., Коляда К.В. Прикладные задачи дискретной математики и сложность алгоритмов. -М.: Издво МЭИ, 1997. - 310 с.
98. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. TextAnalyst комплексный нейросетевой анализатор текстовой информации. - М.: Вестник МГТУ им. Н.Э. Баумана. № 1, 1998г. Стр. 32 - 36.
99. Холлендер М., Вульф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983 - 518 с.
100. Хорошевский В.Ф. ОПоБМтег: семейство систем извлечения информации из мультиязычных коллекций документов. // 9я Национальная конференция по искусственному интеллекту КИИ2004. Т.2. М.: Физматлит, 2004, с.573581.
101. Шабанов В.И. Модели и методы автоматической классификации текстовых документов : Дис. канд. техн. наук : 05.13.11 Москва, 2003 227 с.
102. Шевелев О.Г., Петраков А.В. Классификация текстов с помощью деревьев решений и нейронных сетей прямого
распространения. // Вестник Томского государственного университета № 290, 2006, с.300307.
103. Adeva J., Calvo R., de Ipina D. Multilingual Approaches to Text Categorization. // UPGRADE: The European Journal for the Informatics Professional, 3, 2005, р. 4351.
104. Amini MR., Goutte C. A CoClassification Approach to Learning from Multilingual Corpa. // Machine Learning, 2010, v.79, №12, p. 105121.
105. Amini MR., Usunier N., Goutte C. Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization. // Proceedings of the 23rd Annual Conference on Neural Information Processing Systems, 2009, p. 2836.
106. Aone C., Blejer H. The MURASAKI project: multilingual natural language understanding // Proceedings of a workshop "Human Language Technology" - Plainsboro, New Jersey, March 2124, 1993. p. 144 - 150.
107. Bel N., Koster C.H., Villegas M. CrossLingual Text Categorization. // Proceedings of the 7th European Conference on Research and Advanced Technology for Digital Libraries, ECDL 2003, pp. 126-139.
108. Chau R., Yeh CH, Smith K. A Neural Network Model for Hierarchical Multilanguage Text Categorization. // Proceedings of the 2nd International Symposium on Neural Networks, Chongqing, China, 2005, p.238245.
109. Chau R., Yeh CH. A Multilingual Text Mining Approach to Web CrossLingual Text Retrieval. // KnowledgeBased Systems, 17, 2004, p. 219227.
110. Chen J., Huang H., Tian S., Qu Y. Feature selection for text classification with naive Bayes. // Expert Systems with Applications, 36:5432-5435, 2009.
111. Cohen W.W., Singer Y. Context-Sensitive Learning Method for Text Categorization // Proceedings of the 19th Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval. 1996, pp.307-315.
112. Debole F., Sebastiani F. Supervised term weighting for automated text categorization. // In SAC '03: Proceedings of the 2003 ACM Symposium on Applied Computing, pages 784-788, 2003.
113. Drucker H., Wu D., Vapnik V. Support Vector Machines for Spam Categorization // IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL. 10, NO. 5, 1999
114. Fresno V., Ribero A. An Analytical Approaches to Concept Extraction in HTML Environments. // Journal of Intelligent Information Systems, 22, 2004, pp.213236.
115. Gliozzo A., Strapparava C. Exploiting Comparable Corpora and Bilingual dictionaries for CrossLanguage Text Categorization. // Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006, p. 553-560.
116. Harman D. 1991. How effective is suffixing? // JASIS 42:715,
1991
117. Hollink, Vera, Jaap Kamps, Christof Monz. Monolingual document retrieval for European languages. // IR 7(1):3352, 2004
118. Wikipedia: Natural language processing http://en.wikipedia.org/wiki/Natural_language_processing
119. Translingual Information Detection, Extraction, and Summarization (TIDES) Evaluation Site http://tides.nist.gov/
120. Hull D. Stemming algorithms - A case study for detailed evaluation. // JASIS 47(1):7084, 1996
121. Joachims T. Text categorization with support vector machines : Learning with many relevant features. // In Proceedings of 10th European Conference of Machine Learning, pages 137-142, 1998.
122. Kim JaeOn, Mueller C. W. Factor Analysis: Statistical Methods and Practical Issues // Sage publications, 1978. 88p..
123. Kolcz A., Vidya P. and Jugal K. Summarization as feature selection for text categorization. // In Proc. CIKM, pp 365370. ACM Press. 2000.
124. Kuncheva L.I., Whitaker C.J. Measures of Diversity in Classifiers Ensembles and Their Relationship with the Ensemble Accuracy. // Machine Learning, 51, 2003, pp. 181-207.
125. Lan M., Tan C. L., Su J., Lu Y. Supervised and traditional term weighting methods for automatic text categorization. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(4):721—735, 2009.
126. Larose D. Discovering Knowledge in Data: An Introduction to Data Mining. // John Wiley & Sons, Inc. 2005. - 240p
127. Lewis, D. and Ringuette M. 1994. A comparison of two learning algorithms for text categorization. // In SDAIR, pp 81-93.
128. Levow GA, Oard D. Resnik P. DictionaryBased CrossLanguage Retrieval. // Information Processing and Management, 41(3), 2005, p.523 -547.
129. Luis M. de Campos. A Scoring Function for Learning Bayesian Networks based on Mutual Information and Conditional Independence Tests. // Journal of Machine Learning Research, 7, 2006 pp 2149 - 2187.
130. Liu Y., Loh H. T., Sun A. Imbalanced text classification: A term weighting approach. // Expert Systems with Applications, 36:690-701, 2009.
131. Liu Y., Scheuermann P., Li X., Zhu X. Using WordNet to Disambiguate Word Senses for Text Classification. // ICCS 2007, Part III, LNCS 4489, pp. 780-788, 2007
132. MADCAT_Data_Planning_4_Feb_2008v 11 .ppt
https: //madcatwiki .ldc.upenn.edu/madcatwiki/index.php/Meetings/Phase1 /D ARPABrief
133. Man Lan, Chew Lim Tan Supervised and Traditional Term Weighting Methods for Automatic Text Categorizatio. // JOURNAL OF IEEE PAMI, VOL. 10, NO. 10, JULY 2007, pp. 1- 36.
134. McCallum, A. and Nigam K. A Comparison of Event Models for Naive Bayes Text Classification. // In AAAI/ICML98 Workshop on Learning for Text Categorization, pp. 4148. Technical Report WS9805. AAAI Press. 1998.
135. Multilingual Information Management: Current Levels and Future Abilities. // US National Science Foundation and the European Commission's Language Engineering Office and the US Defense Advanced Research Projects Agency. April 1999.
136. Oard D. A Comparative Study of Query and Document Translation for CrossLanguage Information Retrieval. // In Proceedings of the Third Conference of the Association for Machine Translation in the Americas, 1998, p. 472-483.
137. Olive J. Multilingual Automatic Document Classification Analysis and Translation. (MADCAT) SOL BAA 0738 Proposer Information Pamplet" // DARPA/IPTO, 2007.
138. Olsson J.S., Oard D., Hajic J. CrossLanguage Text Categorization. // Proceedings of the SIGIR, 2005, p. 645-646.
139. Pluim J., Maintz J. Viegever M. Mutual information based registration of medical images: a survey. // IEEE Trans. Medical Imaging, 22:986-1004, 2003.
140. Prettenhofer P., Stein B. CrossLanguage Text Categorization Using Structural Correspondence Learning. // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010, p.11181127.
141. Rigutini L., Maggini M., Liu B. An EM Based Training Algorithm for CrossLanguage Text Classification. Proceedings of the International Conference on the WWW and Internet, 2005, p. 529535.
142. Rodriguez, GomezHidalgo, DiazAgudo Using wordnet to complement training information in text categorization. // 2nd International Conference on Recent Advances in Natural Language Processing ; RANLP '97, 16p.
143. Ruta D., Gabrys B. A Theoretical Analysis of the Limits of Majority Voting Errors for Multiple Classifier Systems. // Pattern Analysis and Applications, 5,2002, pp. 333350.
144. Schmidhuber, J. Deep Learning in Neural Networks: An Overview. Neural Networks, Vol 61, pp 85117, Jan 2015
145. Schultze H., Hull D., Pedersen J.. A comparison of classifiers and document representations for the routing problem. // In Proc, SIGIR, 1995. pp 229237, ACM press.
146. Sebastiani F. Machine Learning in Automated Text Categorization. // ACM Computing Survey. 34 (1), 2002. pp. 147.
147. Vapnik V.N. Statistical Learning Theory. // NY: John Wiley, 1998 - 740p.
148. Viola P. and Wells W. Alignment by maximization of mutual information. Int. Journal of Computer Vision, 24:137-154, 1997.
149. Wang X., Broder A. CrossLanguage Query Classification using Web Search for Exogenous Knowledge // WSDM'09, February 911, 2009, Barcelona, Catalunya, Spain, 2009
150. Wu Y., Oard D. Bilingual Aspect Classification Based on Crosslanguage Text Classification. // Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p. 203210, Singapore, 2008.
151. Xiaojun Wan. CoTraining for CrossLingual Sentiment Classification // Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, Suntec, Singapore, 2009, pp. 235-243.
152. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. // Information Retrieval Journal. 1, 1999, pp. 6788.
153. Yang Y., Pedersen J.O. A Comparative Study on Feature Selection in Text Categorization. // Proceedings of the 14th International Conference on Machine Learning ICML-97, 1997, pp.412-420.
154. Yule G.U. On the Association of the Attributes in Statistics. // Philosophical Transactions of the Royal Society of London., 1900, pp. 257319.
155. Ying Liu, Peter Scheuermann, Xingsen Li, and Xingquan Zhu Using WordNet to Disambiguate Word Senses for Text Classification. // ICCS 2007, Part III, LNCS 4489, pp. 780-788, 2007
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.