Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Цыганов, Илья Германович
- Специальность ВАК РФ05.13.01
- Количество страниц 228
Оглавление диссертации кандидат технических наук Цыганов, Илья Германович
Содержание
Обозначения
Введение
ГЛАВА 1. КЛАССИФИКАЦИЯ И АНАЛИЗ СУЩЕСТВУЮЩИХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ФИЛЬТРАЦИИ НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ. ТРЕБОВАНИЯ К ИХ СОСТАВУ И ФУНКЦИОНАЛЬНЫМ ВОЗМОЖНОСТЯМ
1.1. Исследование и анализ явления незапрашиваемой рассылки, постановка задачи фильтрации незапрашиваемой рассылки
1.1.1. Понятие незапрашиваемой рассылки
1.1.2. Причины появления и широкого распространения явлений незапрашиваемой рассылки
1.1.3. Характеристика ущерба от незапрашиваемой рассылки
1.1.4. Анализ процесса распространения незапрашиваемой рассылки
1.1.5. Особенности задачи фильтрации незапрашиваемой рассылки, постановка задачи фильтрации
1.2. Классификация и анализ возможностей существующих АСФ НР
1.2.1. Классификация АСФ НР по архитектуре системы
1.2.2. Классификация АСФ НР по способам реализации функций фильтрации
1.2.3. Классификация АСФ НР по способу реализации функций выявления ошибок фильтрации
1.2.4. Классификация АСФ НР по способу реализации функций настройки фильтров
1.2.5. Классификация методов адаптивной фильтрации незапрашиваемой рассылки по контекстным признакам
1.3. Требования к составу и функциональным возможностям автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 67 Выводы по главе
ГЛАВА 2. ФУНКЦИОНАЛЬНОЕ ПОСТРОЕНИЕ И МАТЕМАТИЧЕСКИЙ АППАРАТ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ
ФИЛЬТРАЦИИ НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
2.1. Общие принципы построения многоагентных автоматизированных систем адаптивной фильтрации незапрашиваемой рассылки
2.1.1. Многоагентная архитектура АСАФ НР
2.1.2. Принципы обмена информацией между агентами АСАФ НР
2.1.3. Принципы взаимодействия между равноправными агентами
2.1.4. Принципы взаимодействия в группах агентов
2.1.5. Общие принципы построения агентов АСАФ НР
2.2. Математическая модель подсистемы фильтрации
2.3. Формирование обучающих и тестовых выборок
2.4. Контекстная фильтрация
2.4.1. Математическая модель пространства признаков
2.4.2. Математическая модель категоризации текстовых сообщений
2.5. Коллективная фильтрация
2.6. Математические модели оценки качества системы фильтрации 117 Выводы по главе
ГЛАВА 3. АППАРАТНО-ПРОГРАММНЫЙ КОМПЛЕКС АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ ФИЛЬТРАЦИИ
НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
3.1. Особенности функционирования, требования к проектированию и реализации многоагентной автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки
3.1.1. Общесистемные требования к реализации АСАФ НР
3.1.2. Требования к реализации отдельных агентов
3.1.3. Требование к процессам взаимодействия между агентами
3.2. Проектирование программных компонентов АСАФ НР
3.3. Аппаратно-программное обеспечение
3.3.1. Системное программное обеспечение
3.3.2. Прикладное программное обеспечение
3.3.3. Оценка производительности и требования к аппаратному обеспечению АСАФ НР
3.3.4. Аппаратное обеспечение АСАФ HP
3.4. Проектирование размещения программных компонентов АСАФ HP
3.5. Методическое обеспечение 161 Выводы по главе
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ ФИЛЬТРАЦИИ
НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
4.1. Цели и задачи экспериментальных исследований
4.2. Методика экспериментальных исследований
4.3. План экспериментальных исследований
4.4. Состав экспериментального стенда
4.5. Выбор массива сообщений
4.6. Исследование методов формирования пространства признаков
4.6.1. Исследование способов формирования предварительного пространства признаков
4.6.2. Исследование методов сокращения размерности пространства признаков
4.6.3. Исследование методов выбора комплексных признаков
4.7. Исследование методов обучения нейронной сети
4.7.1. Исследование настройки одного нейрона с использованием различных функционалов вторичной оптимизации
4.7.2. Исследование числа итераций
4.7.3. Исследование выбора шага
4.7.4. Исследование выбора числа нейронов первого слоя
4.8. Исследование порогов
4.9. Исследование методов совместной фильтрации
4.10. Оценка результатов экспериментального исследования 205 Выводы по главе
ВЫВОДЫ
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining2006 год, кандидат физико-математических наук Розинкин, Андрей Николаевич
Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей2013 год, кандидат технических наук Мезенцева, Екатерина Михайловна
Оптимизация проектирования аппаратных средств нейросети на основе имитационного моделирования нейроструктур1998 год, кандидат технических наук Севостьянов, Дмитрий Анатольевич
Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей2012 год, кандидат технических наук Мироненко, Антон Николаевич
Автоматизированная система обработки изображений и классификации хромосом1997 год, кандидат технических наук Сафонов, Илья Владимирович
Введение диссертации (часть автореферата) на тему «Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации»
Современные глобальные системы обработки информации объединили большое число независимых подсистем, предоставив им множество возможностей для свободного получения и распространения информации. Однако, эксплуатация таких систем выявила целый ряд проблем в области взаимодействия их компонентов - отдельных подсистем. Ключевые из них связаны с возможностями навязывания отдельным подсистемам получения незапрашиваемой их пользователями информации (фактически, информационного шума). Обработка такой информации в подсистемах приводит к потерям, обусловленным увеличением стоимости их обслуживания и снижением качества их работы. Все это заставляет разрабатывать различные подходы борьбы с незапрашиваемой информацией.
В настоящее время проблемы незапрашиваемой информации наиболее остро проявляются в системах обработки текстовой информации, таких как электронная почта (ЭП) глобальной сети Интернет, где широкое распространение получила незапрашиваемая рассылка (так называемый "спам"), использующаяся как дешевое средство нелегальной рекламы. По данным различных международных организаций (CAUCE - Coalition Against Unsolicited Commercial Email, IETF - Internet Engineering Task Force и др.) уже сейчас среднестатистический пользователь систем электронной почты может получать несколько десятков и даже сотен незапрашиваемых сообщений в день[1,2], а процентное отношение сообщений незапрашиваемой рассылки (HP) к общему числу сообщений, передаваемых в Интернет, достигает 95%, и эта цифра постоянно растет [3]. Все это уже сейчас приводит ко множеству серьезных затруднений при использовании электронной почты [1,3-9], а в будущем многие прогнозы развития текущей ситуации показывают, что эффективность систем электронной почты будет постоянно снижаться, что может привести к массовым отказам от ее использования [10]. Таким образом, если в самое ближайшее время не будут разработаны средства, способные эффективно противодействовать HP, то это поставит под угрозу саму возможность применения систем электронной почты и нанесет заметный ущерб общему ходу поступательного развития современных высокотехнологичных, эффективных средств общения между людьми.
Сейчас проблемы незапрашиваемой рассылки в глобальной сети Интернет стали активно подниматься на самых различных уровнях [11]. В законодательстве некоторых стран (например, в США и Европейском Союзе) в последние годы появились нормы, устанавливающие юридическую ответственность за распространение НР [12-14]. Состоялось несколько громких процессов по делам, связанным с ущербом, нанесенным распространителями НР. Однако, несмотря на это, юридические нормы до сих пор так и не позволили решить проблемы НР [15]. Это связано с целым рядом причин [16]. Во-первых, понятие незапрашиваемой рассылки с юридической точки зрения является достаточно противоречивым и сложным, что затрудняет разработку и широкое внедрение подобных норм. Во-вторых, применение юридических способов борьбы с НР требует принятия единых правовых норм для всех сегментов сети Интернет, введение которых затруднено из-за различий в законодательствах стран, использующих Интернет. В-третьих, в современных телекоммуникационных системах существует множество возможностей сокрытия идентичности отправителя при осуществлении рассылки, что затрудняет идентификацию злоумышленников. Все это заставляет вместо юридических средств борьбы разрабатывать технические средства фильтрации, предоставляющие возможности для автоматического выявления и блокирования сообщений НР. Их использование в современных условиях является единственным надежным способом защиты от НР.
Выявление сообщений незапрашиваемой рассылки (СНР) с помощью технических средств фильтрации основывается на применении некоторого формального аппарата, позволяющего отнести данное сообщение к одному из двух классов: 1) к классу СНР, либо 2) к классу легитимных пользовательских сообщений (ЛПС). После того, как класс идентифицирован, сообщению назначается соответствующий вид обработки: для СНР - блокирования и уничтожение, для ЛПС - передача пользователю. Подобный же принцип уже давно используется в системах защиты от распространения компьютерных вирусов, формальный аппарат в которых обеспечивает выявление и уничтожение программ, выполняющих опасные действия.
В средствах фильтрации НР определение класса сообщения осуществляется на основании анализа различных признаков (рис. В.1.), таких, например, как адресная информация об отправителе сообщения [17-22], характерные признаки оформления сообщений [21], отдельные ключевые слова текстовой части сообщения [23-25], текст сообщения целиком [26], комплексные признаки, извлекаемые из текста сообщения [27] и т.д.
Технические средства фильтрации НР обеспечивают обработку потоков сообщений различного масштаба: от небольших потоков, поступающих отдельным пользователям, до крупных потоков, поступающих широкой группе пользователей. сообщений, поступающих из сети
Извлечение признаков HP
Анализ признаков HP
----- ►У7/7С
I IOTOK М»пшвиио w Дuanui ь. |
Принятие решения U
СНР
Рис. В. 1. Функциональная схема технических средств фильтрации HP
Наиболее сложным и перспективным направлением разработки средств фильтрации является построение многопользовательских автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ HP), обеспечивающих комплексную защиту соответствующей группы пользователей. АСФ HP чаще всего функционируют в составе автоматизированных информационных систем (АИС) организаций (рис. В.2.), но могут также применяться и в более крупных системах телеком-операторов, магистральных системах обработки информации, а также в системах спутниковой и мобильной связи.
Эффективность работы АСФ HP определяется в основном характером использующихся для выявления HP признаков, а также применяющимися способами составления и модификации признаков.
В большинстве современных АСФ HP составление и модификация признаков HP осуществляется в ручном режиме, для чего привлекаются эксперты. Однако, в настоящее время, когда общие объемы передаваемых сообщений и число распространяемых видов HP значительно возросло, настройка фильтрации в ручном режиме начинает отнимать все больше времени и становится все менее эффективным средством. Поэтому сейчас особенно остро возникла потребность в разработке и применении более простых, надежных и гибких подходов, обеспечивающих минимизацию времени при настройке фильтров за счет использования автоматических методов.
Исследование и разработка автоматических гибких адаптивных систем фильтрации HP в настоящее время активно ведется во всем мире. В эту работу вовлечены различные организации: университетские лаборатории (лаборатория CSAIL, MIT, США, подразделение Computer Science Division, Калифорнийского университета, США, Computer Laboratory, Великобритания и др.); научно-исследовательские центры (центр NCSR "Demokritos", Греция, исследовательский центр IBM, США [28,29] и др.); коммерческие фирмы (Microsoft, Symantec,
Лаборатория Касперского, и др.). Огромное внимание к рассматриваемой проблеме уделяется международными организациями. Так, в рамках организации IETF (Internet Engineering Task Force) в 2003 г. создана и постоянно действует исследовательская группа ASRG (Anti-Spam Research Group) [30,31], занимающаяся исследованием и разработкой средств противодействия HP. В последние годы стало появляться множество статей по проблемам незапрашиваемой рассылки, было организовано множество международных конференций, саммитов и симпозиумов, посвященных этой теме (NIST Spam Technology Workshop, США, 2004 г., ASRG Meeting, США, 2003, Cambridge Spam Conference, США, 2003-2005 гг., Conference on Email and Anti-Spam (CEAS), Маунтэйн Вью, США, 2004,2005 гг., Spam Forum, Париж, Франция, 2003 г., AntiSpam-Symposium, Карлсрух, Германия, 2003 г., Spam Summit, Великобритания, 2003 г., Национальная конференция "Проблема спама и ее решения", Москва,
Средства разработки
Обработка текстов и таблиц
Визуализация/ воспроизведение
Прогнозирование
Моделирование
Бизнес-приложения
Ядро АИС
Система административного управления
Система безопасности
Экспертная система
Система управления документами
Система управления базами данных
Система автоматизированного проектирования Автоматизированная L " система ~ фильтрации I
Обработка пользовательских сообщений
Приложения
Графическая обработка
Накопление/ хранение данных
Развлек аггельн ые приложения
Проектирование
ERPyCRM гг
Мониторинг
Автоматическая обработка заявок
Рис. В.2. Место АСФ HP в структуре АИС организации Россия 2003, 2004 гг., АР Net Abuse Workshop, Малайзия, Тайвань, 2002-2004 гг. и др.). Было издано несколько книг, целиком посвященных проблемам HP (Stopping Spam [32], Removing the Spam [33], Canning Spam [34], Anti-Spam Tool Kit [35] и др.). Особенно значительный вклад в разработку средств фильтрации вносят программистские коллективы глобальной сети Интернет на добровольных началах (например, Apache SpamAssassin [36,37]).
Большинство разработанных на данный момент средств автоматической настройки фильтров основываются на использовании баз данных выявленных сообщений НР. Выявляемые различными способами сообщения НР регистрируются в таких БД, а при повторном поступлении сообщений, имеющихся в БД, осуществляется их автоматическое блокирование. Использование средств нечеткого сравнения сообщений позволило значительно сократить объем обрабатываемых однотипных сообщений НР. Однако, в ответ на внедрение таких средств автоматизации, распространители НР стали использовать автоматические средства модификации содержания сообщений, что сделало использование таких подходов неэффективным. Поэтому сейчас возникла потребность в разработке более совершенных автоматизированных средств фильтрации, которые должны обеспечивать идентификацию не только полных двойников выявленных ранее сообщений, но способных на основании имеющейся выборки сообщений НР (БД сообщений НР) предсказывать новые виды НР и осуществлять их блокирование по совокупности экстрагируемых признаков. Для настройки фильтров в таких средствах используются алгоритмы автоматического анализа выборки (обучающая выборка).
Для повышения уровня адаптации фильтров АСФ НР к требованиям пользователей, настройка фильтров АСФ НР делегируется ее пользователям. Однако, при одновременной настройке фильтров, осуществляемой различными пользователями, возникают коллизии, связанные с различиями в индивидуальных требованиях каждого из пользователей. Коллизии связаны с тем, что в общем случае различные пользователи могут относить одно и то же сообщение не к одному, а к различным классам. В подавляющем большинстве АСФ НР, коллизии данного типа разрешаются путем ограничения возможностей настройки фильтров, предоставляемых отдельным пользователям. Пользователям при этом разрешается воздействовать только на свои персональные фильтры, и не разрешается воздействовать на другие части системы. Однако, подобный способ решения проблемы коллизий сейчас становится все менее эффективным, поскольку информация о выявленных одним из пользователей СНР не может использоваться другими для идентификации выявленных видов НР. Для преодоления этого недостатка существующих систем требуется построение АСФ
НР совершенного нового типа, в которых фильтрация осуществляется на основе анализа результатов голосования отдельных пользователей по множеству поступивших в АСФ НР сообщений. Контур настройки в этом случае оказывается замкнутым на пользователей АСФ НР. Это позволяет обеспечить более полный учет информации, имеющейся в системе по отдельным сообщениям, обеспечить эффективное взаимодействие пользователей при решении задачи фильтрации и автоматизировать многие задачи, решаемые в современных системах в ручном режиме.
АСФ с коллективным управлением относятся к классу интеллектуальных многоагентных (многокомпонентных) систем, в которых, можно выделить, во-первых, агентов пользователей (АП), выполняющих функции фильтрации и настройки от имени отдельных пользователей, во-вторых, агентов фильтрации (АФ), выполняющих функции фильтрации и настройки в группах пользователей, обеспечивающих синхронизацию их работы. Фильтрация и настройка в системах данного класса осуществляется при взаимодействии отдельных агентов системы. Каждый агент осуществляет оценку класса сообщения на основании той информации, которой он располагает, с учетом результатов обработки данного сообщения в других агентах системы. Разработки в области построения систем данного класса сейчас только начинаются. На данный момент создано несколько действующих систем, имеющих подобный принцип работы, однако, все они являются экспериментальными и решают только некоторые частные вопросы. Поэтому сейчас возникает потребность в разработке целостной и законченной программно-аппаратной системы фильтрации, обеспечивающей функции коллективного управления процессами фильтрации потоков сообщений в группах пользователей.
Цель работы. Исследование моделей, методов и алгоритмов адаптивной фильтрации потоков информации в группах пользователей и разработка многопользовательской многоагентной обучаемой пользователями автоматизированной системы адаптивной фильтрации, обеспечивающей автоматическое выявление и блокирование незапрашиваемой рассылки в потоках сообщений систем электронной почты глобальной информационной сети Интернет.
Достижение поставленной цели потребовало решения комплекса задач, в частности:
1) исследование и анализ функциональных возможностей и математического аппарата современных АСФ НР и разработка требований к архитектуре и математическому аппарату многопользовательских адаптивных АСФ НР;
2) исследование и разработка многоагентной архитектуры АСАФ НР, позволяющей пользователям участвовать в процессах фильтрации и адаптации фильтров АСФ НР;
3) исследование и разработка математических моделей, методов и алгоритмов, обеспечивающих адаптивную фильтрацию потоков информации в группах пользователей: методов формирования обучающей и тестовой выборки, методов построения пространства признаков, методов классификации текстовых сообщений по выявленным признакам, методов коллективной фильтрации.
4) исследование и выбор методов программной и аппаратной реализации средств фильтрации НР и разработка реализации АСАФ НР в виде аппаратно-программного комплекса, обеспечивающего фильтрацию НР на основе разработанных принципов;
5) экспериментальное исследование эффективности предложенных моделей, методов и алгоритмов, определение оптимальных параметров, обеспечивающих наивысшие показатели качества фильтрации НР, разработка рекомендаций по настройке системы.
Методы исследования. При решении поставленных задач использована теория информационных систем, теория экспертных систем и обработки знаний, нейроматематика, теория нейронных сетей, теория оптимизации, математический аппарат теории автоматического управления, теория вероятностей и математическая статистика, теория Марковских случайных полей.
Научная новизна работы состоит в следующем:
1) Проведено исследование, классификация и систематизация существующих многопользовательских АСФ НР с точки зрения функциональной структуры, особенностей реализации основных функций и применяющегося в них математического аппарата.
2) Исследована и разработана архитектура многоагентной автоматизированной системы адаптивной фильтрации НР, обеспечивающая эффективное взаимодействие пользователей системы при настройке ее фильтров.
3) Исследованы и разработаны математические модели и методы формирования пространства признаков в задаче анализа содержания сообщений электронной почты, что позволило повысить точность анализа за счет учета значимых словосочетаний.
4) Исследован и разработан метод синтеза нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности (до десяти тысяч).
5) Проведены экспериментальные исследования предлагаемых в работе методов и алгоритмов, позволившие определить оптимальные параметры, обеспечивающие их максимальную эффективность.
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена:
1) результатами экспериментальных исследований;
2) результатами внедрения разработанной многопользовательской АСАФ НР в корпоративной системе электронной почты Международного Института Экономики и Права (4000 пользователей);
3) результатами внедрения разработанных в работе моделей, методов и алгоритмов, а также программного комплекса экспериментального исследования алгоритмов фильтрации текстовой информации в учебный процесс МГТУ им. Н.Э. Баумана.
Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач автоматической адаптивной фильтрации незапрашиваемой рассылки в группах пользователей.
Положения, выносимые на защиту:
1) архитектура, функциональный состав и интерфейсы АСАФ НР;
2) метод формирования пространства признаков в задаче фильтрации текстовых сообщений, обеспечивающий учет, как значимых слов, так и значимых словосочетаний;
3) методы и алгоритмы обучения многослойной нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности;
4) аппаратно-программная реализация многоагентной АСАФ НР;
5) результаты экспериментальных исследований разработанных методов и алгоритмов для решения задачи фильтрации незапрашиваемой рассылки.
Практическая ценность работы. Разработанные в диссертации методы формирования пространства признаков, методы учета указаний группы пользователей о выявленных ошибках фильтрации и алгоритмы настройки нейронных сетей, а также аппаратно-программный комплекс, реализующий многоагентную АСАФ НР, построенный на основе разработанных принципов позволяют:
1) повысить эффективность фильтрации потоков незапрашиваемой информации;
2) автоматизировать и упростить контур настройки современных АСФ НР;
3) сократить время, требуемое на адаптацию АСФ НР к выявленным ошибкам;
4) автоматизировать и сократить ручной труд при наладке системы;
5) предоставить пользователям гибкий механизм управления процессом фильтрации сообщений НР.
Разработанные алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования систем интеллектуальной фильтрации и управления потоками текстовой информации.
Реализация результатов. Разработанная в работе аппаратно-программная реализация АСАФ НР внедрена в корпоративную систему электронной почты Международного Института Экономики и Права и обеспечивает фильтрацию потоков сообщений, поступающих нескольким тысячам пользователей этой системы.
Полученные в работе математические модели, методы и алгоритмы, а также разработанный комплекс экспериментальных исследований алгоритмов адаптивной фильтрации потоков текстовой информации, внедрен в учебный процесс МГТУ им. Н.Э. Баумана
Копии актов о внедрении прилагаются.
Апробация работы. Результаты работы были представлены на Международной молодежной научно-технической конференции "Наукоемкие технологии и интеллектуальные системы", (Москва, 2003, 2004), Международной молодежной научной конференции "Информатика и системы управления в XXI веке", (Москва, 2003 г.), студенческой научной конференции "Студенческая научная весна-2002", (Москва, 2002).
Публикации. По материалам и основному содержанию работы имеется 15 публикаций в научно-технических журналах и трудах конференций.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы. Общий объем диссертации 208 страниц, 84 рисунка, список использованных источников из 237 наименований.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Автоматизация проектирования систем цифровой фильтрации в базисах ПЛИС и заказных микросхем2008 год, кандидат технических наук Плотников, Павел Владимирович
Исследование способов выявления сетевых узлов, участвующих в несанкционированной рассылке сообщений электронной почты2009 год, кандидат технических наук Рудик, Кирилл Петрович
Многоуровневая многоагентная система фильтрации спама в организации2009 год, кандидат технических наук Никитин, Андрей Павлович
Разработка математического и программного обеспечения нейросетевых алгоритмов адаптивных АСР2013 год, кандидат технических наук Шаровин, Игорь Михайлович
Разработка и исследование методов и средств распознавания текста факсимильных сообщений2003 год, кандидат технических наук Цопкало, Николай Николаевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Цыганов, Илья Германович
ВЫВОДЫ
Перечислим основные выводы по данной работе.
1. Проведено исследование проблем, связанных с распространением незапрашиваемой рассылки (НР). Исследована и разработана обобщенная архитектура современных многопользовательских автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ НР), в которой выделены ключевые функциональные блоки. Проведена классификация и систематизация существующих видов АСФ НР по архитектуре и способам реализации отдельных функций. Произведен анализ основных математических моделей, методов и алгоритмов, использующихся в задаче адаптивной фильтрации потоков текстовой информации (статистические методы, методы информационного поиска, методы на основе правил решений, методы на основе сравнения с образцами, нейронные сети, и некоторые другие методы). Исследование показало, что большинство существующих методов при их практической реализации делают жесткие предположения о свойствах обучающей выборки (например, один кластер на класс), что накладывает ограничения на максимальное качество распознавания в задаче фильтрации НР, достижимое с применением этих подходов. Однако, нейронные сети, лишены этого недостатка, чем объясняется их выбор в качестве основного метода, использующегося в данной работе.
2. В работе произведено исследование и разработка комплекса математических моделей, методов и алгоритмов, обеспечивающих фильтрацию потоков сообщений НР в многопользовательских средах. Исследованы методы контекстной фильтрации и коллективной фильтрации. Для настройки адаптивных фильтров системы разработаны алгоритмы формирования обучающих и тестовых выборок по указаниям, поступающих от пользователей АСАФ НР. Среди методов контекстной фильтрации исследованы и разработаны методы автоматического формирования пространства признаков, а также методы синтеза нейросетевого классификатора.
3. Методы формирования пространства признаков включают методы выбора значимых слов и словосочетаний. Для выбора значимых слов в работе предложено использовать ряд статистических и информационных критериев. Для формирования значимых словосочетаний используется метод стохастического моделирования лингвистической структуры категорий, который позволяет выделить наиболее информативные комплексные признаки и повысить точность фильтрации НР.
4. Исследованы и разработаны методы синтеза нейросетей с переменной структурой, показана эффективность применения нейросетей этого класса в задаче фильтрации НР, определены их оптимальные параметры.
5. На основании предложенных функциональных моделей, математических методов и алгоритмов в работе произведена разработка аппаратно-программного комплекса АСАФ НР. Произведена декомпозиция агентов АСАФ НР на ряд программных компонентов, часть из которых является стандартными, другие разрабатываются в данной работе. Разработаны требования к аппаратной платформе АСАФ НР и предложены варианты ее реализации в системах различного уровня: от небольших систем с малой пропускной способностью до высокопроизводительных магистральных систем обработки информации.
6. Проведены экспериментальные исследования математических методов и алгоритмов, использующихся в АСАФ НР на реальном материале сообщений электронной почты Интернет: при 0% ложной фильтрации пользовательских сообщений обеспечивается пропуск порядка 8,8% сообщений НР. Определены оптимальные параметры, использование которых обеспечивает максимальную эффективность разработанных в работе математических моделей, методов и алгоритмов. Определены методики автоматического выбора оптимальных параметров алгоритмов, использующихся в работе.
209
Список литературы диссертационного исследования кандидат технических наук Цыганов, Илья Германович, 2005 год
1. Atkins S. Size and Cost of the Problem // Proc. of the 56th Internet Engineering Task
2. Force Meeting. San Francisco, 2003. - P. 23-34.
3. Francois R.C. Economics of Spam // Proc. of the FTC Spam Forum. Washington, 2003. - P. 45-78.
4. Никишин А. Криминальный бизнес и его цена для общества // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 101122.
5. Microsoft. Вред, наносимый спамом // Информационный бюллетень. Microsoft. -2003. Вып. 23. - С. 59-71.
6. Cranor L.F., LaMacchia В. A. Spam! // Communications of the ACM. 1998. - V. 41,8. P. 174-189.
7. Gartner Consulting. ISPs and Spam: The Impact of Spam on Customer Retention an Acquisition : Report. San Jose: Gartner Consulting, 1999. - 15 p.
8. Bruening P.J. Why Am I Getting All This Spam? II Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 55-61.
9. USA. House Office of Program Research and Senate Committee Services. Commercial Electronic Messages Select Task Force Report. Washington, 1998. -32 p.
10. Barnett N. Le Spam: Definition, analyse, measures // Proc. of the Spam Forum. -Paris, 2003. P. 45-65.
11. USA. Department of Commerce. National Telecommunications and Information Administration. Falling through the net: Defining the digital divide: Technical report. -Washington, 1999. -73 p.
12. Blumenthal D.M. Federal Trade Commission Anti-Spam Efforts H Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 44-54.
13. Бекещенко Э. Законы о спаме в США и Европе // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 122-125.
14. Lugaresi N. European Union vs. Spam: A Legal Response // Proc. of the First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P. 468^80.
15. Yolin J.-M. Aspects juridiques // Proc. of the Spam Forum. Paris, 2003. - P.324-344.
16. Лужков Ю. О темной стороне Интернета // Известия. 16.05.04.
17. Crocker D., Spam: Ready, Fire, Aim // Proc. 4th AP Net Abuse Workshop (APCAUCE Conference). Kuala Lumpur, 2004. - P.328-349.
18. Goodman J. IP Address in Email Clients // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P.254-264.
19. Athola S. An overview of Spam Handling Techniques: Whitepaper / Computer Science Department, Florida State Univ. Florida, 2003. - P.111-132.
20. Hird S. Technical Solutions for Controlling Spam / Distributed Systems Technology Centre, Australia // Proc. Australian UNIX and Open Systems User Group (AUUG). -Melbourne, 2002. P.576-594.
21. Libbey M. Yahoo! SpamGuard // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 211 -234.
22. Huseman B. Technological Solutions to Spam. Structural Changes to Email // Proc. of the FTC Spam Forum. Washington, 2003. - P. 658-680.
23. Salem E. The technological solutions to spam / Brightmail // Proc. APIG Spam Summit. London, 2003. - P.211-231.
24. Zdziarski J. Bayesian Noise Reduction // Proc. of the Spam Conference. -Cambridge, 2005. P. 23-33.
25. Michelakis E. Filtron: A Learning-Based Anti-Spam Filter // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P.75-86.
26. Meyer T.A. SpamBayes: Effective open-source, Bayesian based, email classification system // Proc. First Conference on Email and Anti-Spam (CEAS). -Mountain View, 2004. P.771- 795.
27. Rigoutsos I., Huynh T. Chung-Kwei: a Pattern-discovery-based System for the Automatic Identification of Unsolicited E-mail Messages // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P. 15-27.
28. Chiarella J., O'Brien J. An Analysis of Spam Filters: A Major Qualifying Project Report / Worcester Polytechnic Institute. Worcester, 2003. - 53 p.
29. Segal R. IBM Research Antispam Task Force // Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 345-374.
30. Powers C. Do Not E-mail Registries: Standards, Operational Issues, and Business Models / IBM Software Group // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 217-225.
31. Shafranovich Y. Introduction to the Anti-Spam Research Group (ASRG) / SolidMatrix Technologies, Inc // Proc of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P.44-59.
32. Judge P. Q. Anti-Spam Research Group (ASRG) // Proc. of the 56th Internet Engineering Task Force Meeting. San Francisco, 2003. - P. 113-128.
33. Schwartz A. Stopping Spam. Sebastopol (USA): O'Reilly, 1998.-201 p.
34. Mulligan G. Removing the Spam: Email Processing and Filtering. San Francisco: Addison-Wesley, 1999. - 190 p.
35. Poteet J. Canning Spam: You've Got Mail (That You Don't Want). Indianapolis: Sams, 2004. - 256 p.
36. Wolfe P. Anti-Spam Tool Kit. New York: McGraw-Hill, 2004. - 374 p.
37. Schwartz A. SpamAssassin. Sebastopol (USA): O'Reilly, 2004. - 523 p.
38. McDonald A. SpamAssassin: A Practical Guide to Integration and Configuration. -Birmingham: Packt Publishing, 2004. 324 p.
39. Brightmail. The Brightmail Server Technical White Paper. Cupertino: Symantec, 2005.-65 p.
40. Цыганов И. Г., Смирнова Е.Г. Исследование и анализ предпосылок распространения незапрашиваемой рассылки в глобальных гетерогенных сетях передачи информации // Научно-технический сборник. ВТУ при Спецстрое России. 2004. - Вып. 8. - С. 114-133.
41. Denning, P. Electronic Junk // Communications of the ACM. 1982. - V. 3, № 25. -P.163-165.
42. Савельев M.C. Внутренний СПАМ // PCWeek. 2003. - №32. - C.17-21.
43. McWilliams B. S. Spam Kings: The Real Story behind the High-Rolling Hucksters Pushing Porn, Pills, and %* )# Enlargements. Sebastopol (USA): O'Reilly, 2004. -312 p.
44. Spammer-X. Inside the SPAM Cartel. Sebastopol (USA): Syngress, 2004.-450 p.
45. IETF RFC 706-75. On the Junk Mail Problem. Reston (USA), 1975. -3 p.
46. Цыганов И.Г., Смирнова Е.Г. Проблемы построения распределенных систем управления информационными потоками // ВТУ при Спецстрое России. Научно-технический сборник. 2004. - Вып. 9. - С. 55-61.
47. Набережный А., Нартова А. Практический опыт борьбы со спамом и спаммерами // Мир ПК. 2003. - №9. - С. 22-28.
48. IETF RFC 2616-99. Hypertext Transfer Protocol HTTP/1.1. - Reston (USA), 1999. -176 p.
49. IETF RFC 977-86. Network News Transfer Protocol. Reston (USA), 1986.-27 p.
50. Набережный А., Нартова А. Практический опыт борьбы со спамом и спаммерами // Мир ПК. 2003. - №10. - С. 12-19.
51. Тутубалин A. RBL: вред или польза? // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 39-44.
52. Тутубалин А. Распределенные методы обнаружения // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 6678.
53. IETF RFC 2821-2001. Simple Mail Transfer Protocol. Reston (USA), 2001. - 79 p.
54. IETF RFC 2822-2001. Internet Message Format. Reston (USA), 2001. - 51 p.
55. IETF RFC 1939-96. Post Office Protocol Version 3. - Reston (USA), 1996. - 23 p.
56. IETF RFC 2060-96. Internet Message Access Protocol Version 4rev1. - Reston (USA), 1996.-82 p.
57. IETF RFC 2045-96. Multipurpose Internet Mail Extensions (MIME). Part One: Format of Internet Message Bodies. Reston (USA), 1996. -63 p.
58. IETF RFC 2046-96 Multipurpose Internet Mail Extensions (MIME). Part Two: Media Types. Reston (USA), 1996.-43 p.
59. IETF RFC 2047-96. Multipurpose Internet Mail Extensions (MIME). Part Three: Representation of Non-ASCII Text in Internet Message Headers. Reston (USA), 1996.-32 p.
60. IETF RFC 2048-96. Multipurpose Internet Mail Extensions (MIME). Part Four: MIME Registration Procedures. Reston (USA), 1996.-21 p.
61. IETF RFC 2049-96. Multipurpose Internet Mail Extensions (MIME). Part Five: Conformance Criteria and Examples. Reston (USA), 1996. - 51 p.
62. IETF RFC 2184-97. MIME Parameter Value and Encoded Word Extensions: Character Sets, Languages, and Continuations. Reston (USA), 1997. - 22 p.
63. Блам P. Система электронной почты на основе Linux. М.: Вильяме, 2001. -464 с.
64. Гома X. UML. Проектирование систем реального времени, параллельных и распределенных приложений. М.: ДМК Пресс, 2002 - 704 с.
65. The editors of Windows IT Pro. Symantec Antivirus for Clearswift MIMEsweeper // Windows IT Pro. 2003. - №03. - P. 56-74.
66. Савельев С. Что в трафике моем ? // Технологии и средства связи. 2002. -№3. - С. 32-35.
67. Лукацкий А. В. Интернет-дисциплинарий, или средства контроля содержимого // Сетевой. 2002. - №2. - С. 15-32.
68. Лукацкий А.В. Контролируй Internet! // Системы безопасности, связи и телекоммуникаций. 2001. - №11. - С. 55-76.
69. Никишин А. Антиспам Касперского для корпораций, ISP и индивидуальных пользователей // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 41-49.
70. Б. Курье. Долой информационный мусор! // Сети. -1998. №09. - С. 17-19.
71. Payne Т., Edwards P. Interface agents that learn: An investigation of learning issues in a mail agent interface // Applied Artificial Intelligence. 1997. - V.11, №2. - P. 11-32.
72. Rosen M. E-mail Classification in the Haystack Framework: Report. -Cambridge(USA): MIT Press, 2003.-45 p.
73. Boyce J. Microsoft Office Outlook 2003 Inside Out. Washington: Microsoft Press, 2003.-452 p.
74. Mosher S. Microsoft Outlook Programming, Jumpstart for Administrators, Developers, and Power Users. Washington: Digital Press, 2002.-734 p.
75. Cohen P., Cheyer A, Wang M. An Open Agent Architecture // Proc. Software Agents Spring Symposium. Menlo Park, 1994. - P. 230-236.
76. Segal R., Kephart M. Mailcat: An intelligent assistant for organizing e-mail // Proc. of the Third International Conference on Autonomous Agents. Seattle, 1999. - P. 276-282.
77. Benz В. Lotus Notes and Domino 6 Programming Bible. Indianapolis: Wiley, 2003. - 764 p.
78. Huynh D., Karger D., Quan D. Haystack: A platform for creating, organizing and visualizing information using RDF // Semantic Web Workshop. Hawaii (USA), 2002.-P.111-128.
79. Winiwarter W. PEA a Personal Email Assistant with Evolutionary Adaptation // International Journal of Information Technology. -1999. - V.5, №1. - P. 98-123.
80. Pantel P., Lin D. SpamCop: A spam classification and organization program // Proc. of AAAI-98 Workshop on Learning for Text Categorization. Madison (USA), 1998. -P. 95-98.
81. Сегалович И. Принципы и технические методы работы с незапрашиваемой корреспонденцией // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 35-49.
82. Сегалович И. Бесчеловечная Спамооборона: автоматические методы детектирования спама II Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 69-88.
83. Pruitt S. Hotmail Aims to Can Spam // PC World. -2002. №9. - P.21-39.
84. Stiles С. Spam Technologies // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 301-317.
85. Resnik P. GroupLens: An Open Architecture for Collaborative Filtering of Netnews // Proc. of ACM Conference on Computer Supported Cooperative Work. Chicago, 1994.-P. 312-324.
86. Good N. Schafer В., Kostan J.A. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of the sixteenth national conference on Artificial intelligence. Orlando, 1999. - P. 439-446
87. Lashkari Y., Metral M., Maes P. Collaborative interface agents // Proc. of AAAI Conference. Washington, 2004. - P. 643-659.
88. Engst A. Eudora 4.2 for Windows and Macintosh: Visual QuickStart Guide. -Berkeley: Peachpit Press, 1999. 732 p.
89. Harbaugh L. G. Spam-Proof Your In-Box // PC World Magazine 2004. - №6. -P.59-72.
90. Tynan D. Natural-Born Spam Killers // PC World Magazine. 2003. - №5. - P.87-99.
91. Тутубалин A. SpamAssassin: опыт эксплуатации // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 88-92.
92. The editors of Wired. Play Test // Wired Magazine. 2003. -№11.- P.45-47.
93. Blosser J. Scalable Centralized Bayesian Spam Mitigation with Bogofilter// Proc. of the 18th Large Installation System Administration Conference. Atlanta, 2004. - P. 21—40.
94. Graham P. Better Bayesian Filtering // Proc. of the Spam Conference. Cambridge (USA), 2003. - P. 423-456.
95. Kiritchenko S., Matwin S. Email Classification with Co-Training / University of Ottawa. Ottawa, 2001. - 30 p.
96. Manning C., Schutze H. Foundations of Statistical Natural Language Processing. — Cambridge: MIT Press, 1999. 760 p.
97. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 2004. - 358 с.
98. Гладкий А.В., Мельчук И.А. Элементы математической лингвистики. М.: Наука, 1974.-612 с.
99. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М., 1983. - 287 с.
100. Городецкий Б.Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. 1983. - Вып. 12. - С. 15-20.
101. Карпова Г.Д., Пирогова Ю.К., Кобзарева, Т.Ю., Микаэлян, Е.В. Компьютерный синтаксический анализ: описание моделей и направлений разработок // Итоги науки и техники. Серия Вычислительные науки. 1991. - Т.6. - С. 19-25.
102. Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. -М.:УРСС, 2002. 332 с.
103. Мельчук И. А. Опыт теории лингвистических моделей "Смысл <=> Текст". -М.:Яз.рус.культуры, 1999. -345 с.
104. Статистика речи и автоматический анализ текста / Отв. ред. Р. Г. Пиотровский. Л.:Наука, 1980.-223 с.
105. Уилкс Й. Анализ предложений английского языка // Новое в зарубежной лингвистике. 1983. - Вып. 12. -С. 24-36.
106. Чарняк, Ю. Умозаключения и знания // Новое в зарубежной лингвистике. -1983.-Вып. 12.-С. 5-77.
107. Шенк Р., Лебовиц М., Бирнбаум Л. Интегральная понимающая система // Новое в зарубежной лингвистике. 1983. - Вып. 12. - С. 99-111.
108. Knight К. Mining Online Text // Communications of ACM. 1999. -V. 42, №11. -P. 58-61.
109. Han J. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2000. - 925 p.
110. Hand D. J. Principles of Data Mining (Adaptive Computation and Machine Learning). Cambridge(USA): MIT Press, 2001. - 615 p.
111. HastieT.The Elements of Statistical Learning. New York:Springer,2001. - 1219 p.
112. Berry M. W. Survey of Text Mining : Clustering, Classification, and Retrieval. -New York: Springer, 2003. 490 p.
113. Самойленко Д. Data Mining: учебный курс. СПб.: Питер, 2001. - 725 с.
114. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. - V.34, №1. - P. 801-847.
115. Mitchell T.M. Machine Learning. New York: McGraw Hill, 1996. - 973 p.
116. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989. - 189 с.
117. Pazienza М. Т. Information Extraction: Lecture Notes in Computer Science. -Heidelberg: Springer, 1997.-490 p.
118. Merkl D. Text classification with selforganizing maps: Some lessons learned // Neurocomputing. 1998. - V.21, №2. - P. 270-277.
119. Курбаков К.И. Кодирование и поиск информации в автоматическом словаре. М.: Радио и связь, 1968.-248 с.
120. Frakes W. В. Information Retrieval: Data Structures and Algorithms. New Jersey: Prentice Hall PTR, 1992.-745 p.
121. Baeza-Yates R. Modern Information Retrieval. San Francisco: Addison-Wesley, 1999.-785 p.
122. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М.: Сов. радио, 1973.-560 с.
123. Salton G., McGill M.J. Inroduction to Modern Information Retrieval. New York: McGraw-Hill, 1983.-714 p.
124. Соколов A.B. Информационно-поисковые системы / Под ред. А.Б. Рябова-М.: Радио и связь, 1981. 310 с.
125. Белоногов, Г.Г., Новосёлов, А.П. Автоматизация процессов накопления, поиска и обобщения информации. М., 1979 . - 412 с.
126. Скороходько, Э.Ф. Лингвистические проблемы обработки текстов в автоматизированных ИПС // Вопросы информационной теории и практики. — 1974. -№25. -С. 96-102.
127. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование,- 2002. №4. - С. 78-89.
128. Кураленок И.Е. Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - №4. - С. 34-36.
129. Duda R., Hart P. Bayes Decision Therory. Indianapolis: Wiley, 1973. - 823 p.
130. Rennie J. Ifile: An application of machine learning to e-mail filtering // Proc. of the KDD Text Mining Workshop. Boston, 2000. - P. 412-432.
131. Salib M. MeatSlicer: Spam Classification with Naive Bayes and Smart Heuristics: Technical Report. Cambridge, 2002. - 39 p.
132. Sahami M., Dumais S., Heckerman D. A Bayesian approach to filtering junk e-mail // Proc. AAAI-98 Workshop on Learning for Text Categoriztion. Madison, 1998. -P. 152-156.
133. Provost J. Naive-bayes vs. rule-learning in classification email: Technical report. -Austin, 1999.-93 p.
134. Lang K. NewsWeeder: Learning to Filter Netnews // Proc. of the 12th Int. Conf. on Machine Learning. Stanford, 1995. - P. 634-639.
135. Yerazunis W. S. The Spam-Filtering Accuracy Plateau at 99.9% Accuracy and How to Get Past It // Proc. of the Spam Conference. Cambridge, 2004. - P. 823832.
136. Androutsopoulos I. An evaluation of Naïve Bayesian anti-spam filtering // Proc. of Workshop on Machine Learning in the New Information Age. Barcelona, 2000. -P.338-342.
137. Schneider K. A comparison of event models for Naïve Bayes anti-spam e-mail filtering // Proc. of the 10th Conf. of the European Chapter of the Association for Computational Linguistics. Budapest, 2003. - P.730-737.
138. Joachims T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization // Proc. of the 14th Int. Conf. on Machine Learning. Nashville, 1997. -P.1278-1282.
139. G. Boone. Concept features in re:agent, an intelligent email agent // Proc. of the Second International Conference on Autonomous Agents. Minneapolis, 1998. — P. 812-819.
140. Sakkis G., Androutsopoulos I. A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists // Information Retrieval. 2003. - V. 6, № 1. - P. 49-73.
141. Apte C. Automated Learning of Decision Rules For Text Categorization // ACM Transactions on Information Systems. 1994. - V.12, №3. - P.233-251.
142. Cohen W. Learning rules that classify e-mail // Proc. of the AAAI Spring Symposium on Machine Learning in Information Access. Palo Alto, 1996. - P. 18 -25.
143. Crawford E., Kay J., McCreath E. Automatic Induction of Rules for e-mail Classification // Proc. of the Sixth Australiasian Document Computing Symposium. -Coffs Harbour, 2001. P. 106-118.
144. Crawford E., McCreath E., Kay J. IEMS The Intellient Email Sorter // Proc. 19th Int. Conf. on Machine Learning. - Sydney, 2002. - P. 623-629.
145. Spertus E. Smokey: Automatic Recognition of Hostile Messages // Proc. of the Conference on Innovative Applications of Artificial Intelligence. Menlo Park, 1997. -P. 1058-1065.
146. Clark J., Koprinska I., Poon J. Linger A Smart Personal Assistant for E-mail classification // Proc. of 13th Int. Conf. on Artificial Neural Networks. - Istanbul, 2003. - P. 274-277.
147. Katirai H. Filtering junk e-mail: A performance comparison between genetic programming and naive bayes. Birmingham, 1999. - 27 p.
148. Drucker H., Wu D., Vapnik V.N. Support vector machines for spam categorization // IEEE Trans, on Neural Networks. 1999. -V. 10, №5. - P. 1048-1054.
149. Brutlag C., Meek J. Challenges of the email domain for text classification // Proc. of the Seventeenth International Conference on Machine Learning. Stanford, 2000. -P. 916-925.
150. Kolcz A., Alspector J. SVM-Based Filtering of E-Mail Spam with Content-specific Misclassification Costs // Proc. of the IEEE Int. Conf. on Data Mining. San Jose, 2001.-P. 218-225.
151. Carreras X., Marquez L. Boosting Trees for Anti-Spam Email Filtering // Proc. 4th Int. Conference on Recent Advances in National Language Processing. Tzigov Chark, 2001.-P. 617-627.
152. Sakkis G. Stacking classifiers for anti-spam filtering of e-mail // Proc. of the 6th Conf. on Empirical Methods in Natural Language Processing. Carnegie Mellon, 2001.-P.912-929.
153. Hidalgo J.G. Evaluating cost-sensitive unsolicited bulk email classification // Proc. of the 17th ACM Symposium on Applied Computing. Madrid, 2002. - P.117-135.
154. Hidalgo J.G. Combining text and heuristics for cost-sensitive spam filtering // Proc of the 4th Computational National Learning Workshop. Lisbon, 2000. - P. 854-862.
155. Цыганов И.Г., Власов А.И. Архитектура корпоративной многоагентной автоматизированной системы фильтрации информационных потоков // Информационные технологии. 2005. - №1. - С. 34-41.
156. Цыганов И.Г., Власов А.И. Адаптивная фильтрация информационных потоков в корпоративных системах на основе механизма голосования пользователей // Информационные технологии. 2004. - №9. - С.12-19.
157. IETF RFC 2234-97. Augmented BNF for Syntax Specifications: ABNF. Reston (USA), 1997.-41 p.
158. Дирк С. Корпоративные системы на основе CORBA. М.: Вильяме, 2000. -368 с.
159. Эммерих В. Конструирование распределенных объектов. М.: Мир, 2002. -510 с.
160. Причард Д. Com и Corba. Просто и доступно. М.гЛори, 2001. -372 с.
161. Орфали P. Java и CORBA в приложениях клиент-сервер.- М.:Лори,2000. 734 с.
162. Henning М. Advanced CORBA(R) Programming with С++. San Francisco: Addison-Wesley, 1999. -1120 p.
163. Лейнекер P. COM+: Энциклопедия программиста. СПб.: Диа-СофтЮП, 2002. - 656 с.
164. Grimes R. Professional DCOM Programming. Indianapolis: Wrox, 1997. - 565 p.
165. Maloney J. Distributed COM Application Development Using Visual С++ 6.0. -New Jersey: Prentice Hall PTR, 1999.-500 p.
166. Monson-Haefel R. Enterprise JavaBeans. Sebastopol (USA):0'Reilly, 2004. - 800 p.
167. Johnson R. Expert One-on-One J2EE Design and Development (Programmer to Programmer). Indianapolis: Wrox, 2002. - 768 p.
168. Deerweste S. Indexing by latent semantic analysis // Journal of the Society for Information Science. 1990. - V.41, №6. - P.391-407.
169. Lochbaum K.E. Comparing and combining the effectiveness of latent semantic indexing and the ordinary vector space model for information retrieval // Information Processing and Management. -1989. V.25, № 6. - P.665 - 676.
170. Gallant S. HNC's MatchPlus system // ACM SIGIR Forum. 1992. - V.26, №2. -P.34-38.
171. Kaski S. WEBSOM self-organizing maps of document collection // Neurocomputing. -1998. - V.21, №2. - P. 107-117.
172. Kaski S. Dimensionality reduction by random mapping: fast similarity computation for clustering // Proc. of IEEE Int. Joint Conf. on Neural Networks. Anchorage, 1998.-P. 2413-2418.
173. Корж В. В. Методы кодирования текстовой информации для построения нейросетевых классификаторов документов. Дис. канд. техн. наук. М., 2000. -167 с.
174. Yang Y. A Comparative Study on Feature Selection in Text Categorization //Proc. of the 14th International Conference on Machine Learning Nashville, 1997. - P. 412-420.
175. Lewis D. D. An evaluation of phrasal and clustered representations on a text categorization task II Proc. 15th ACM International Conference on Research and Development in Information Retrieval. Copenhagen, 1992. - P.37-50.
176. Tzeras K. Automatic Indexing based on Bayesian inference networks И Proc. 16th ACM International Conference on Research and Development in Information Retrieval. Pittsburgh, 1993. - P.22-34.
177. Cohen W. Learning Trees and Rules with Set-valued Features // Proc. Of the Thirteenth National Conf. on Artifical Intelligence (AAAI). Portland, 1996. - P. 134198.
178. John G.H. Irrelevant Features and the Subset Selection Problem // Proc. of the 11th Int. Conf. on Machine Learning. San Mateo, 1994. - P. 124-129.
179. Ng H. Feature selection, perceptron learning, and a usability case study for text categorization // Proc. 20th ACM International Conference on Research and Development in experimental inquiry. Philadelphia, 1997. - P. 67-73.
180. Цыганов И.Г., Руденко М.И. Метрики текстов в автоматизированных системах обработки информации // Наукоемкие технологии и интеллектуальные системы: Сборник научных трудов VI Международной молодежной научно-технической конференции. М., 2004. - С. 86-93.
181. Geman S. Stochastic Relaxation, Gibbs Distributions, and Bayesian Restoration of Images // IEEE Trans, on pattern analysis and machine intelligence. 1984. - V.6, №6.-P. 721-741.
182. Berger A.L. A maximum entropy Approach to Natural Language Processing // Computational Linguistics. -1996. V.22, №1. - P. 101-135.
183. Pietra S.D., Pietra V.D., Lafferty J. Inducing features of random fields. Yorktown Heights: IBM Thomas J. Watson Research Center, 1995. -23 p.
184. Nigam K. Using Maximum Entropy for Text Classification // Proc. of the 16th Int. Joint Conf. on Artifical Inelligence. Stockholm, 1999. - P. 1202-1214.
185. Розанов Ю.А. Марковские случайные поля. М.: Наука, 1981. -256 с.
186. Кульбак С. Теория информации и статистика. М.: Наука, 1967. - 408 с.
187. Hanson К. Maximum Entropy and Bayesian Methods. New York: Kluwer Academic Publishers, 1996. - 621 p.
188. Галушкин А.И. Синтез многослойных систем распознавания образов. М.: Энергия, 1974-324 с.
189. Галушкин А.И. Теория нейронных сетей. М.: ИПРЖР, 2000. -416 с.
190. Цыганов И.Г. Применение нейросетевых методов для фильтрации SPAM сообщений // Информатика и системы управления в XXI веке: Сборник научных трудов Международной молодежной научной конференции. Мм 2002. - С.26-33.
191. Цыганов И.Г. Нейросетевые методы автоматизированного анализа информационных потоков в масштабе реального времени У/ Студенческая научная весна 2002: Сборник докладов студенческой научной конференции с международным участием. - М., 2002. - С. 19-24.
192. Дертоузос М. Пороговая логика. М.: Мир, 1967. - 344 с.
193. McCluskey E.J., Jr., Minimization of Boolean Functions II Bell System Technical Journal. -1956. -V.35, №1417. P. 122-129.
194. Quine W.V., A Way to Simplify Truth Functions // American Mathematical Monthly. 1955. - V.62, №9. - P.627-631.
195. Цыганов И. Г., Смирнова Е.Г. Анализ методов разработки программного обеспечения систем управления информационными потоками // Научно-технический сборник. ВТУ при Спецстрое России. 2004. - Вып. 9. - С. 47-54.
196. Стивене У. UNIX: разработка сетевых приложений. СПб.: Питер, 2003. - 1088 с.
197. Стивене У. UNIX: взаимодействие процессов. СПб.: Питер, 2003. - 576 с.
198. Mauro J. Solaris Internals: Core Kernel Architecture. New Jersey: Prentice Hall PTR, 2000.-704 p.
199. Sharma K. Professional Red Hat Enterprise Linux 3. Indianapolis: Wrox, 2004. -744 p.
200. Siever E. Linux in a Nutshell. Sebastopol (USA): O'Reilly, 2003. - 959 p.
201. Welsh M. Running Linux. Sebastopol (USA): O'Reilly, 2002. - 692 p.
202. Bovet P. Understanding the Linux Kernel. Sebastopol(USA): O'Reilly,2002. - 816 p.
203. Вишневский A.B. Книга Windows Server 2003: Для профессионалов. СПб.: Питер, 2005. - 767 с.
204. Anderson С. Mastering Windows Server 2003. London: Sybex, 2003. - 1616 p.
205. ISO/IEC 9945-1:2003. Information technology. Portable Operating System Interface (POSIX). Part 1: Base Definitions. Geneva, 2003. -452 p.
206. ISO/IEC 9945-2:2003. Information technology. Portable Operating System Interface (POSIX). Part 2: System Interfaces. Geneva, 2003. - 1696 p.
207. Нортон П. Мюллер Дж. Windows 98 в подлиннике. Энциклопедия системных ресурсов. СПб.: BHV, 2003. - 592 с.
208. Bott Е. Microsoft Windows ХР Inside Out. Washington: Microsoft Press, 2003. -1296 p.
209. Савилл Дж. Windows XP/2000: Вопросы и ответы: Универсальный справочник для всех от домашнего пользователя до системного администратора корпоративной сети. - СПб.: Вильяме, 2004. - 1120 с.
210. Costales В. Sendmail. Sebastopol (USA): O'Reilly, 2002. -1232 p.
211. Hunt С. Sendmail Cookbook. Sebastopol (USA): O'Reilly, 2003. -456 p.
212. Hildebrandt R. The Book of Postfix: State-of-the-Art Message Transport. San Francisco: No Starch, 2005. - 496 p.
213. Dent K.D. Postfix : The Definitive Guide. Sebastopol (USA): O'Reilly, 2003. -264p.
214. Hazel P. Exim: The Mail Transfer Agent. Sebastopol (USA): O'Reilly, 2001. -624p.
215. Levine J.R. Qmail. Sebastopol (USA): O'Reilly, 2004.-248 p.
216. Sill D. The qmail Handbook. Berkeley: Apress, 2001. - 492 p.
217. Blum R. Running qmail. Indianapolis: Sams, 2000. - 500 p.
218. Вахалия Ю. UNIX изнутри. СПб.: Питер, 2003. - 844 с.
219. Boswell D. Creating Applications with Mozilla. Sebastopol (USA): O'Reilly, 2002. - 480 p.
220. Laurie B. Apache: The Definitive Guide.- Sebastopol (USA):0'Reilly, 2002. 536 p.
221. Bowen R. Apache Administrator's Handbook. Indianapolis: Sams, 2002. - 448 p.
222. Coar K. Apache Cookbook. Sebastopol (USA): O'Reilly, 2003. - 254 p.
223. ISO 14882:2003. Programming languages. С++. Geneva, 2003. - 757 p.
224. Gilmore W. J. Beginning PHP 5 and MySQL: From Novice to Professional. -Berkeley: Apress, 2004. 800 p.
225. Ullman L. PHP and MySQL for Dynamic Web Sites: Visual QuickPro Guide. -Berkeley: Peachpit Press, 2003. 400 p.
226. Templeman J. Microsoft Visual С++ .NET Step by Step-Version 2003 (Step By Step (Microsoft)). Washington: Microsoft Press, 2003.-608 p.
227. Young M. Inside Microsoft Visual Studio .NET 2003. Washington: Microsoft Press, 2003. - 576 p.
228. Sanders R. E. ODBC 3.5 Developer's Guide. New York: McGraw-Hill, 1998. - 974 p.
229. Geiger К. Inside ODBC (Microsoft programming series). Washington: Microsoft Press, 1995.-482 p.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.