Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей тема диссертации и автореферата по ВАК РФ 05.12.13, кандидат технических наук Мезенцева, Екатерина Михайловна

  • Мезенцева, Екатерина Михайловна
  • кандидат технических науккандидат технических наук
  • 2013, Самара
  • Специальность ВАК РФ05.12.13
  • Количество страниц 150
Мезенцева, Екатерина Михайловна. Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей: дис. кандидат технических наук: 05.12.13 - Системы, сети и устройства телекоммуникаций. Самара. 2013. 150 с.

Оглавление диссертации кандидат технических наук Мезенцева, Екатерина Михайловна

ВВЕДЕНИЕ

ГЛАВА 1. ОРГАНИЗАЦИЯ ЗАЩИТЫ СЕТЕЙ

ТЕЛЕКОММУНИКАЦИЙ

1.1 Место сайтов в сетях телекоммуникаций

1.2 Причины размещения и специфика спам сообщений на сайтах

1.3 Способы распространения и цели размещения спама на сайтах

1.4 Негативное влияние размещения спам сообщений на сайтах

1.5 Способы защиты сайтов от спама

1.5.1 Законодательные меры регламентирующие защиту от спама

1.5.2 Технические меры защиты от спама

1.6 Анализ методов, моделей и существующих систем защиты сайта...

от спама

1.7 Выводы и результаты

ГЛАВА 2. РАЗРАБОТКА КОНЦЕПЦИИ ФИЛЬТРАЦИИ СПАМ

СООБЩЕНИЙ В КОМПЬЮТЕРНЫХ СЕТЯХ

2.1 Задача классификации сообщений

2.1.1 Способы представления сообщений для задачи классификации

2.1.2 Анализ алгоритмов классификации сообщений

2.2 Процесс фильтрации

2.2.1 Подготовка сообщения для обеспечения наилучшей

фильтрации

2.3 Процесс принятия решения

2.3.1 Вычисление объединенных вероятностей признаков

2.3.2 Модуль принятия решения на основе теоремы Байеса

2.3.3 Модуль принятия решения на основе метода Фишера

2.4 Критерии оптимальности при классификации сообщений на

основе статистических методов

2.5 Критерии оценки качества работы обученного спам-фильтра

2.6 Выводы и результаты

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СПАМ-ФИЛЬТРА

ДЛЯ ВЕБ САЙТОВ

3.1 Трехуровневая архитектура клиент-серверного приложения для

фильтрации спама

3.2 Схема фильтрации спама на сайтах участниках системы

3.3 Концепция интеграции системы фильтрации с системой сайта

3.3.1 Описание связи фильтра с форумом

3.3.2 Структура базы данных форума

3.3.3 Изменения в исходном коде форума. Функция добавления нового сообщения

3.3.4 Изменения в исходном коде форума. Редактирование базы данных

3.3.5 Изменения в исходном коде форума. Модификация отображения сообщений

3.3.6 Интерфейс администратора форума

3.4 Процесс обучения

3.4.1 Алгоритм дообучения фильтра

3.4.2 Тестирование этапа обучения и работы фильтра на сообщение форума

3.5 Выводы и результаты

ГЛАВА 4. ИССЛЕДОВАНИЕ КАЧЕСТВА КЛАССИФИКАЦИИ СООБЩЕНИЙ И АПРОБАЦИЯ СИСТЕМЫ ФИЛЬТРАЦИИ СПАМА

4.1 Критерии при оценке работы алгоритмов фильтрации спама

4.2 Тестирование модуля распределения хи квадрат

4.3 Алгоритм обучения фильтра на тестовой выборке сообщений

4.4 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на тестовой

выборке сообщений

4.5 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на дампе базы данных форума СГАУ

4.6 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на форуме

ПГУТИ

4.7 Экспериментальное исследование степени корректности фильтрации сообщений, совмещенным фильтром

4.7 Оценка производительности

4.8 Выводы и результаты

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

ПРИЛОЖЕНИЕ 1 Свидетельства о государственной

регистрации программы для ЭВМ

ПРИЛОЖЕНИЕ 2 Акты внедрения

Рекомендованный список диссертаций по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей»

ВВЕДЕНИЕ

В современном обществе использование сети Интернет в качестве средства коммуникаций - широко распространенная практика. Уже не только электронная почта, но и блоги, социальные сети, форумы, Instant messaging (IM - службы мгновенных сообщений - ICQ, Skype и др.), являются привычными средствами общения.

По прогнозам Gartner, исследовательской и консалтинговой компании, специализирующейся в информационных технологиях, к 2014 году социальные сети станут основным средством электронного обмена в 20% организаций. В тоже время, росту популярности социальных сервисов будут способствовать повышение их безопасности, создание «белых» сообществ и толерантное отношение к использованию персональных учетных записей во время работы. В ходе дальнейшего развития принципиальные различия между электронной почтой и социальными сетями постепенно нивелируются, и почтовая служба перестанет играть главенствующую роль в осуществлении деловых операций [68].

Можно ожидать, что больше половины бизнес структур будут поддерживать связь друг с другом через подобие микроблогов, с улучшенной системой контроля и защиты информации.

Изначально данные виды коммуникаций оставались незамеченными спамерами, однако, с ростом их популярности ситуация коренным образом изменилась. На сегодняшний день по различным подсчетам уже примерно 10% IM сообщений и 17% комментариев в блогах, форумах и социальных сетях представляет собой спам [42]. Публичные форумы, сайты Википедии, социальные сети и блоги, уже давно стали мишенями для размещения не относящихся к теме форума сообщений или рекламы различной продукции. Заинтересованность спамеров в новых средствах коммуникации объясняется не только их растущей популярностью и увеличивающейся базой пользователей, но и тем, что средства борьбы со спамом в программах мгновенного общения и блогах находятся в настоящее время в начальной стадии развития. Практически не существует

универсальных решений, предназначенных для фильтрации спама на сайтах в комментариях, формах обратной связи и других интерактивных разделах. При создании данных приложений, необходимо заранее продумать возможные технологии и средства защиты от спама.

Существует лишь небольшое количество узкоспециализированных инструментов, препятствующих автоматическому размещению сообщений. В основном, такие инструменты рассчитаны на конкретную систему управления контентом, например, такую как WordPress. Эти модули обладают серьезными недостатками. Во первых, они распространяются по принципу «как есть» без статистической базы, что не дает возможности сравнивать новые сообщения с уже проверенными аналогами. Во вторых, являются онлайн-сервисами в России, но ориентированы главным образом на англоязычные словари. Пока не разработано универсальных решений, позволяющих производить полноценную фильтрацию на русскоязычных сайтах.

Другой инструмент, препятствующий автоматическому размещению сообщений, - это тест Тьюринга. Наиболее популярной его реализацией является САРТСНА (Completely Automated Public Turing Test to Tell Computers and Humans Apart - «полностью автоматизированный публичный тест Тьюринга для различия компьютеров и людей») [42]. Сегодня известно достаточно много способов обхода различного рода captcha-фильтров, к тому же такой метод защиты раздражает пользователей интерактивных ресурсов.

Инструменты защиты от спама, приведенные выше, показывают низкую эффективность при ручном распространении спама. Разновидностью ручного спама является фишинг, основная цель данного вида сообщений - получение доступа к конфиденциальным данным пользователей - логинам и паролям. Сюда относятся кражи номеров кредитных карт, паролей, банковских счетов и другой конфиденциальной информации. Проблема предотвращения распространения фишинговых сообщений носит серьезный характер.

Существуют и другие методы фильтрации спама, которые можно использовать на сайтах, хорошо известные по опыту фильтрации в почте. Это

построение черных и серых списков, контент-анализ текста, контроль дубликатов, анализ заголовков пользовательских сообщений [42]. Однако наиболее эффективными являются многокомпонентные, обучающиеся антиспам-фильтры, которые применяют несколько методов распознавания спама [6, 25, 36]

Рассылка спама признана преступлением во многих странах, но, несмотря на это, его объемы постоянно растут, а технологии рассылки продолжают совершенствоваться.

В дальнейшем, безусловно, рост активности спамеров, будет продолжаться, т. к. объем трафика постоянно увеличивается. В общем потоке, при остуствии должных средств защиты, будет возрастать эффективность ручного спама. Это произойдет за счет двух факторов: с одной стороны, за счет растущей популярности фишинга, с другой, - за счет начала использования этой технологии в рекламном спаме.

Разработано множество способов борьбы со спамом, но все они делятся на две категории:

- предотвращение распространения спама;

- предотвращение получения спама, или фильтрация;

Первая категория - это различные административные и технические методы, направленные на предотвращение рассылки спама. Сюда относятся такие методы как:

- законодательно ограничение рассылки спама;

- блокирование 1Р-адресов, пользователи которых рассылают спам.

Использование этих решений пока не дает значительных результатов.

Наибольшую активность по законодательному ограничению распространения спама проявляет США, тем не менее, это не мешает тому, что Соединенные Штаты считаются одной из лидирующих стран в мире по количеству высылаемого спама [16].

Вторая категория средств борьбы с рассылками несанкционированных сообщений - это методы, направленные на предотвращение получения спама

пользователями, так называемые методы фильтрации спама. Можно выделить две основные группы методов:

- традиционные методы - это те методы, для которых классификатор (различные правила, шаблоны, списки IP-адресов) строится экспертом;

- обучаемые методы - это те методы, для которых классификатор строится с помощью методов интеллектуального анализа данных.

С 2000-х годов ведутся активные исследования в области разработки программных систем обнаружения почтового спама. Вопросу противодействия спаму посвящены работы Пола Грэма [11], Джонатана Здзиарски [36], Джона Грэм-Камминга [74], Уильяма Йеразуниса [45], Гари Робинсона [27], Игоря Станиславовича Ашманова [38]. Все разработанные алгоритмы и системы посвящены базовым принципам фильтрации почты на основе классификации текстовой информации, содержащейся в письме.

Пол Грэм в 2002 году, написал статью, которая привела к революции в методах фильтрации спама - "A Plan for Spam" [11]. Грэм попробовал отделять спам от не спама, используя статистику о том, какие слова появляются в обоих типах сообщений. Система фильтрации спама отслеживает частоту появления отдельных слов в спаме/не спаме, и затем использует частоты вхождения этих слов, для вычисления вероятности того, к какой категории относится сообщение. Он назвал этот метод Байесовской фильтрацией (Bayesian filtering) по названию статистического подхода, применяемого им для вычисления частот слов [25].

Джонатан Здзиарски разработал свободное программное обеспечение DSPAM, представляющее собой статистический спам-фильтр. Это масштабируемый спам фильтр на основе содержания, предназначенный для больших многопользовательских систем. DSPAM распространяется под лицензией GNU General Public License. Джонатан Здзиарски является автором книги [36]. Основой для работы DSPAM служит библиотека libdspam, которая содержит основные процедуры фильтрации и хранения, а так же интерфейсы командной строки и HTTP. Система, вне независимости от агента пересылки сообщений (англ. mail transfer agent, МТА), может хранить данные классификации

спама в форматах разных баз данных, и использует фильтрацию на основе теоремы Байеса для обучения [7].

Джон Грэм-Камминг автор персонального антиспам модуля POPfile и Polymail - антиспамовой библиотеки, которой пользуются многие компании в спам-фильтрах. Грэм-Камминг предлагает пользователям внести свой вклад в борьбу со спамом - на специально созданном им сайте заняться сортировкой писем, разделяя их на «spam» («мусорные» письма) или «ham» («хорошие» письма). В состав TREC (Text Retrieval Conference) 2005 Public Spam Corpus входят около 100000 сообщений. Идея проекта состоит в том, что каждое письмо будет проверяться десятикратно, прежде чем попадет в разряд спама или «ham».

Труднее всего людям будет классифицировать послания фишеров - такие письма имитируют сообщения из легитимных источников, и отличить их от «хороших» писем пользователям не всегда удается. Грэм-Камминг выражает надежду, что результаты данного проекта будут использованы не только для создания обновленного свода спама, но и дадут более четкие знания о фишинговых письмах [74].

Уильям Йеразунис, научный сотрудник лаборатории Mitsubishi Electronics

__о

и автор спам-фильтра CRM114 Discriminator. Для борьбы со спамом Йеразунис предлагает использовать систему CRM114 Discriminator, разбивающую электронные письма на короткие фрагменты (до пяти слов), которые затем сравниваются с заложенными в базу данных образцами спама. Важной особенностью разработки Йеразуниса является то, что она позволяет отфильтровывать письма с нестандартным для спамеров текстом. По словам разработчика, эффективность системы составляет 99,9%, и ее использование может оказаться эффективнее аналогичной работы, выполняемой человеком [45].

Робинсон написал множество статей посвященных вопросам борьбы со спамом, наиболее интересными из которых являются "A Statistical Approach to the Spam Problem" опубликованная в Linux Journal и доступная по адресу [18], "Why Chi? Motivations for the Use of Fisher's Inverse Chi-Square Procedure in Spam Classification", доступная по адресу [20] и "Handling Redundancy in Email Token

Probabilities, доступна по адресу [19]). Он является участником проекта SpamBayes [27] архив которого содержит большое количество алгоритмов и подходов к тестированию спам-фильтров.

Игорь Станиславович Ашманов - российский специалист в области искусственного интеллекта, разработки программного обеспечения, управления проектами. Кандидат технических наук. Генеральный директор компании «Ашманов и партнёры». Наиболее известный продукт компании - антиспам-фильтр «Спамтест», используемый такими компаниями, как Mail.Ru, «РосБизнесКонсалтинг», «РТКомм.РУ», «Петерлинк», «Мастерхост», «РТС», «CBOSS» и сотовыми операторами. Позднее технология «Спамтеста» стала основой фильтра «Антиспам Касперского» [38].

«Спамтест» - это уникальная методика распознавания и фильтрации нежелательных массовых почтовых рассылок на основе анализа содержания писем. Ее основным элементом является фильтр Спамтест, который использует для анализа корреспонденции более 15 методов распознавания спама. В их числе лингвистические, графические и сигнатурные методы. Круглосуточная лингвистическая лаборатория, анализирующая спам в реальном режиме времени, выпускает обновления баз каждые 20 минут, что является практически уникальным показателем для антиспамового решения. Фильтр имеет очень высокую производительность (до 2'000'000 сообщений в сутки на среднем сервере Intel Pentium 2,4 МГц 1 ГБ RAM), что позволяет использовать его на самых больших публичных сервисах[47].

В настоящее время продолжает активно развиваться направление фильтрации сообщений в электронной почте, разработано множество алгоритмов и систем, исследованию данного вопроса посвящена не одна диссертация. Разрабатываются и используются обучаемые или так называемые интеллектуальные методы, использующие алгоритмы интеллектуального анализа данных (Data Mining) [9]. При этом на сайтах организаций существуют только ручные методы борьбы со спамом и небольшое количество узкоспециализированных систем. Поэтому, на наш взгляд, актуальным является

вопрос автоматизированной защиты сайтов организаций (в комментариях, форумах и других интерактивных разделах). Так как наилучший результат дают системы фильтрации, объединяющие в себе несколько методов распознавания спама, поэтому возникает задача организации многокомпонентной универсальной системы фильтрации спама на языках веб-программирования.

Таким образом, для фильтрации сообщений на сайтах можно применить широкий спектр методов, используемых для решения задачи, классификацию сообщений. Учитывая специфику предметной области, основная сложность заключается в выборе базового метода классификации и его адаптации к условиям применения в задаче фильтрации сообщений на сайтах.

Следовательно, исследование, разработка и создание новых алгоритмов, методов, средств и систем, обеспечивающих защиту сайтов от несанкционированных рассылок сообщений и минимизацию приносимого такими рассылками ущерба, актуально и представляет научный и практический интерес в области защиты сетей телекоммуникаций.

Значимость и актуальность предопределили выбор направления исследования, цели и задачи работы.

Цель и задачи работы. Целью диссертационной работы является повышение качества фильтрации спама в сообщениях интерактивных разделов сайтов на основе совмещения работы классификаторов Байеса и Фишера. Предложенная программная реализация должна обладать высокой точностью детектирования спама при низком количестве ложных срабатываний и пропуске спама, а также высокой производительностью на уровне сервера.

Для достижения поставленной цели решены следующие научные задачи:

1. Разработка концепции построения непрерывно обучающейся системы фильтрации спам-сообщений в сетях телекоммуникаций.

2. Разработка многоуровневой архитектуры системы фильтрации сообщений, которая включает в себя:

- этап нормализации поступившего сообщения с его предварительной подготовкой для обеспечения фильтрации с применением морфологических приемов;

- модификацию статистических алгоритмов классификации сообщений применительно к интерактивным разделам сайтов на основе совмещения методов Байеса и Фишера.

3. Повышение качества работы классификаторов на основе анализа подмножества пересечения множеств сообщений, распознаваемых обоими используемыми статистическими методами.

4. Интеграция разработанной системы фильтрации сообщений с системой управления сайтом.

5. Проведение тестирования по оценке производительности и экспериментальное использование разработанной системы фильтрации сообщений на форумах крупных ВУЗов.

В соответствии с целями и задачами диссертационной работы определены её объект и предмет.

Объектом исследования является процесс фильтрации спама в сообщениях и контенте интерактивных ресурсов инфокоммуникационных сетей.

Предметом исследования являются алгоритмы фильтрации сообщений на сайтах на основе статистических методов Байеса и Фишера с оценкой рисков при принятии решений.

Методы исследования. Клиент-серверные технологии, технологии web и объектно-ориентированного программирования, методы учета морфологии слов, методы вычислительной математики, теории вероятностей и математической статистики.

Научная новизна результатов диссертации заключается в том, что впервые предложены:

1) Статистический алгоритм фильтрации спама в сообщениях интерактивных ресурсов глобальных сетей, основанный на сочетании методов Байеса и Фишера и позволяющий оценить их качество в отдельности.

2) Методы предварительной подготовки поступивших сообщений, включающих модули предобработки текста, разбиения на отдельные слова с учетом морфологии слов и словосочетания для повышения качества фильтрации сообщений.

3) Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера с определением абсолютной меры их близости — числа общих документов для оценки качества обученности совмещенного фильтра.

Достоверность результатов работы. Обоснованность и достоверность результатов работы обеспечивается корректностью применения используемого аналитического аппарата. Для сравнения результатов работы алгоритмов Байеса и Фишера на основе анализа пересечения их подмножеств использованы базы данных сообщений форумов реальных сайтов ВУЗов. Достоверность результатов подтверждается экспериментальными исследованиями и тестированием разработанной системы фильтрации спама на форумах.

Практическая значимость результатов диссертации состоит в том, что предложенные алгоритмы реализованы в виде программной системы, которая применяется для фильтрации спама в интерактивных разделах Интернета, что позволяет защитить информацию в части обеспечения доступности и целостности данных. Разработанный программный комплекс многоуровневой системы фильтрации сообщений для форумов пригоден для отслеживания спам-сообщений в любой базе данных, поэтому может применяться не только для отсеивания спама на интерактивных сайтах, но и в сообщениях пользователей услуг операторов связи.

Основные результаты, полученные автором и выносимые на защиту:

1. Статистический алгоритм фильтрации спама в сообщениях на интерактивных шеЬ-сайтах, основанный на сочетании методов Байеса и Фишера, совокупная работа которых повышает качество фильтрации.

2. Методы подготовки поступивших сообщений для дальнейшего их анализа, включая предобработку текста и разбиение текста на отдельные слова и

словосочетания, с приведением слов к нормальной форме при помощи специализированных словарей.

3. Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Результаты экспериментальных исследований по оценке быстродействия алгоритмов фильтрации сообщений методами Байеса и Фишера, каждого в отдельности и совмещенного алгоритма, а также производительности совмещенного фильтра.

Личный вклад автора. Основные научные результаты теоретических и прикладных исследований, выводы, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, соискателю принадлежит часть, связанная с постановкой задач, разработкой алгоритмов, программной реализацией системы фильтрации сообщений и проведением экспериментальных исследований.

Внедрение результатов диссертационной работы. Результаты диссертационной работы внедрены в Самарском государственном аэрокосмическом университете имени академика С. П. Королева (национальный исследовательский университет), в Оренбургском государственном университете, у оператора связи ОАО «Телекоммуникационные сети», в филиале ОАО «Газпромбанк» в г. Самаре и в Поволжском государственном университете телекоммуникаций и информатики, что подтверждено соответствующими актами внедрения.

Апробация работы. Основные научные и практические результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

- XI Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций» (г. Уфа, 2010);

- X Международной научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» (г. Пенза, 2010);

- II Всероссийской научно-практической конференции «Новые технологии в промышленности, науке и образовании» (г. Оренбург, 2010);

- Международной научной конференции «Технико-экономические проблемы инжиниринга в России, Узбекистане, Украине» (г. Самара, 2011);

- X Международной научно-технической конференции «Физика и технические приложения волновых процессов» (г. Самара, 2011);

- XII Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (г. Казань, 2011);

- Международном Форуме «Россия как трансформирующееся общество: экономика, культура, управление» (г. Оренбург, 2011);

- XVIII, XIX, XX Российской научной конференции профессорско-преподавательского состава, научных сотрудников и аспирантов (ФГОБУ ВПО ПГУТИ, г. Самара, 2011-2013 гг.).

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 14 работах и в 2 свидетельствах о регистрации программы для ЭВМ. Публикации включают 3 работы в изданиях из перечня ВАК РФ; 1 статью из прочего издания; 3 статьи, опубликованные в трудах международных научных конференций; 1 статью, опубликованную в трудах российской научной конференции и 6 тезисов докладов.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 145 страниц машинописного текста, 45 рисунков, 15 таблиц. В списке литературы 80 наименований.

Похожие диссертационные работы по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Мезенцева, Екатерина Михайловна

4.8 Выводы н результаты

1. В четвертом разделе приведены критерии, необходимые при оценке работы алгоритмов фильтрации спама.

2. Описано тестирование модуля распределения хи квадрат, применяемого в методе Фишера.

3. Показан алгоритм обучения фильтра на тестовой выборке сообщений.

4. Проведено экспериментальное исследование степени корректности фильтрации сообщений многомодульной системой фильтрации спама на формах сайтов ПГУТИ, ОГУ и СГАУ.

5. Проведено экспериментальное исследование степени корректности фильтрации сообщений совмещенным фильтром.

5. Дана оценка производительности алгоритмов классификации и разработанной системы фильтрации сообщений.

По результатам проведенного исследования можно сделать выводы, о том, что применяя разработанные алгоритмы фильтрации спама, удалось максимально уменьшить количество возникновения ложных срабатываний и пропуска спама. Несмотря на то, что алгоритм Фишера показал результаты тестирования выше, чем метод Байеса, отказываться от второго метода не следует, так как при дальнейшем обучении спам-фильтра на другом наборе он может показать иной результат, который учитывается при работе совмещенного метода. На начальном этапе работы фильтра следует использовать подход на основе анализа подмножества пересечения множеств, распознанных обоими методами по категориям (спам/не спам, ложные срабатывания и пропуск спама), который, как показало тестирование, позволяет повысить качество фильтрации спама. В случае, когда фильтр полностью обучен, т.е. достигнут наилучший показатель меры близости множеств и Б/г по всем категориям, администратор может сделать выбор, каким фильтром в дальнейшем ему пользоваться.

129

ЗАКЛЮЧЕНИЕ

1. Разработан статистический алгоритм фильтрации спама в интерактивных разделах сайтов сети Интернет, основанный на сочетании методов Байеса и Фишера, совокупная работа которых обеспечивает новое качество фильтрации сообщений.

2. Предложены и практически реализованы методы подготовки сообщений для дальнейшего их анализа, включая предобработку текста; разбиение текста на отдельные слова с учетом морфологии слов с приведением их к нормальной форме с использованием специализированных словарей; разбиение на словосочетания, что, в свою очередь, также повышает качество фильтрации.

3. Предложен алгоритм анализа пересечения подмножеств сообщений по категориям (спам\не спам, ложные срабатывания и пропуск спама), распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Проведены экспериментальные исследования совмещенного фильтра по оценке качества и производительности разработанного классификатора. Установлено, что качество работы фильтра зависит от степени его обученности и поэтому сам фильтр необходимо непрерывно дообучать. Быстродействие алгоритма Байеса на сообщении длиной 1 кБ составило 0,0001 с, Фишера - 0,0007 с, совмещенного алгоритма - 0,0009 с. Производительность совмещенного фильтра в среднем составила 17 сообщений в секунду, что удовлетворяет требованиям большинства потенциальных пользователей системы.

5. На основе предложенного комплекса алгоритмов разработана и апробирована серверная программная система фильтрации сообщений на сайтах, позволяющая оценить эффективность и быстродействие предложенных методов.

6. На основе предложенного комплекса алгоритмов разработана и апробирована серверная программная система фильтрации сообщений на сайтах, позволяющая оценить эффективность и быстродействие предложенных методов.

Разработанная автором система внедрена в ряде организаций. По результатам опытной эксплуатации и проведенных экспериментов было показано преимущество системы в качестве фильтрации сообщений на сайтах по сравнению с наиболее распространенными в настоящее время алгоритмами фильтрации сообщений.

131

Список литературы диссертационного исследования кандидат технических наук Мезенцева, Екатерина Михайловна, 2013 год

ЛИТЕРАТУРА

1. Akis met [Электронный ресурс]. - Режим доступа: http://akismet.com/ 07.02.2011.

2. Bad Behaviour 2 [Электронный ресурс]. - Режим доступа: error.wordpress.com/2006/07/04/bad-behavior-2 07.02.2011.

3. Berger, A. Statistical Machine Learning for Information Retrieval.- Carnegie : Mellon University, 2001.- 143 p.

4. Bot Check [Электронный ресурс]. - Режим доступа: www.blueeye.us/wordpress/index.PHP?p=5 07.02.2011.

5. Cavnar, W. В. Text Categorization/ W. B. Cavnar, J. M. Trenkle // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994.-P. 161-175.

6. Christian Siefkes, Fidelis Assis, Shalendra Chhabra, William S. Yerazunis4Combining Winnow and Orthogonal Sparse Bigrams for Incremental Spam Filtering [Электронный ресурс]. - Режим доступа: http://www.siefkes.net/ie/winnow-spam.pdf

7. DSPAM [Электронный ресурс].- Режим доступа: http:// http://dspam.nuclearelephant.com/ 12.07.2012.

8. Dumais, S.T. Inductive learning algorithms and representations for text categorization/ S.T. Dumais, J. Piatt, D. Heckerman, M. Sahami // Proceedings of CIKM-98, 7th ACM International Conference on Information and Knowledge Management. -MD : Bethesda, 1998. - P. 148-155.

9. Eibe, F. Data mining. Practical machine learning tools and techniques/ F.Eibe, I.Witter. — 2005. — 525 c.

10. Goutte, C. Probabilistic Interpretation of Precision, Recall and F-score, with Implication for Evaluation/ C. Goutte, E. Gaussier.- ECIR'05, 2005.- P.345-359.

11. Graham, P. A Plan For Spam [Электронный ресурс]/ P. Graham.- Режим доступа: http://www.paulgraham.com/spam.HTML 23.11.11.

12. HTTP [Электронный ресурс].- Режим доступа : http:// http://tools.ietf.org/HTML/rfc2616 06.04.2012.

13. Lankhorst, М. Automatic Word Categorization with Genetic Algorithms/ M. Lankhorst // Proceedings of the ECAI'94 Workshop on Applied Genetic and other Evolutionary Algorithms, 1994.- 30 p.

14. Lewis, D.D. An evaluation of phrasal and clustered representations on a text categorization task / D.D. Lewis // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval. - US : ACM Press, 1992.- P. 37-50.

15. Math Anti-Spam [Электронный ресурс]. - Режим доступа: http://sw-guide.de/wordpress/math-comment-spam-protection-plugin 07.02.2011.

16. MessageLabs Intelligence, A Spammer In The Works [Электронный ресурс].- Режим доступа: http://www.messagelabs.com 10.05.2011.

17. Paliouras, G., Machine Learning and Its Applications: Advanced Lectures (Lecture Notes in Computer Science / Lecture Notes in ArtiDcial Intelligence)/ G. Paliouras, V. Karkaletsis, C. D. Spyropoulos - Springer, 2001. 325 p.

18. Robinson, Gary A Statistical Approach to the Spam Problem [Электронный ресурс]/ Gary Robinson .- Режим доступа: http://www.linuxjournal.com/article.PHP?sid=6467 11.01.2012.

19. Robinson, Gary Handling Redundancy in Email Token Probabilities [Электронный ресурс]/ Gary Robinson .- Режим доступа: http://garyrob.blogs.eom//handlingtokenredundancy94.pdf 11.01.2012.

20. Robinson, Gary Why Chi? Motivations for the Use of Fisher's Inverse Chi-Square Procedure in Spam Classification [Электронный ресурс]/ Gary Robinson .Режим доступа: http://garyrob.blogs.com/whychi93.pdf 11.01.2012.

21. Rocchio, J.J. feedback in information retrieval/ J.J. Rocchio // The SMART Retrieval System: Experiments in Automatic Document Processing, 1971.- P. 313-323.

22. Salton, G. Term-Weighting Approaches in Automatic Text Retrieval/ G. Salton, C. Buckley // Information Processing and Management. 1988,- P. 513-523.

23. Sebastiani, F. Machine Learning in Automated Text Categorization ACM Computing Surveys/ F. Sebastiani // Vol. 34.- № 1, 2002.- P. 1-47.

24. Sebastiani, F. Text Categorization/ F. Sebastiani // Text Mining and Its Applications. - Southampton, UK : WIT Press, 2005.- P. 109-129.

25. Seibel, Peter Practical Common Lisp/ Peter Seibel.- New York City: Apress, 2005.- 528 p.

26. Spam Karma 2 [Электронный ресурс]. - Режим доступа: unknowngenius.com/blog/wordpress/spam-karma 07.02.2011.

27. SpamBayes [Электронный ресурс].- Режим доступа: http://spambayes.sourceforge.net/ 11.01.2012.

28. Vapnik, V. N. Statistical learning theory/ V. N. Vapnik.- New York: Wiley, 1998.- 732 c.

29. Vapnik, V. N. The nature of statistical learning theory/ V. N. Vapnik. -Springer- New York : Verlag, 1995.- 314 c.

30. Web-сайт, общие понятия [Электронный ресурс].- Режим доступа: http://www.zao-kmdi.ru/page/pagel8.HTML / 17.02.2012.

31. Witten, I. Н., Frank Е. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition)/1. H. Witten, E. Frank.- Morgan Kaufmann, 2005. -525 p.

32. Wong, M. L. Data Mining Using Grammar Based Genetic Programming and Applications/M. L. Wong, K. S. Cheung.- Academic Publishers : Kluwer, 2002.-228 p.

33. Wordpress [Электронный ресурс]. - Режим доступа: wordpress.org/extend/plugins/quiz 07.02.2011.

34. Yang, Y. An example-based mapping method for text categorization and retrieval/ Y. Yang, C. G. Chute // ACM Trans. Inform. Syst., 1994.-P. 252-277.

35. Yang, Y. Expert network: effective and efficient learning from human decisions in text categorisation and retrieval/ Y. Yang // Proceedings of SGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval.-Dublin, Ireland, 1994. P. 13-22.

36. Zdziarski J. Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification / J. Zdziarski, 2005.-312 p.

37. Андерсон, Т. Введение в многомерный статистический анализ./ Т. Андерсон. - М.: Физматиз, 1963. - 500 с.

38. Ашманов, Игорь Станиславович [Электронный ресурс].- Режим доступа: http://www.ashmanov.com/we/ia.pHTML 12.07.2012.

39. Блоги, вики, форумы, доски объявлений [Электронный ресурс].- Режим доступа: http://www.spam-fighter.ru/articlematerial9?format=pdf 14.05.2011.

40. Васильев, H.H., Новиков, Ф.А. Математика алгоритмов. Часть 1: Учеб. Пособие./ H.H. Васильев, Ф.А. Новиков. - СПб.: Изд-во Политехи. Ун-та, 2010. -140 с.

41. Введение [Электронный ресурс]. - Режим доступа: http://download.yandex.ru/company/spamooborona-latest.pdf

42. Габриелян, В. Возможные методы борьбы со спамом в IM и блогах [Электронный ресурс]/ В. Габриелян.- Режим доступа: http://www.securelist.com/ru/analysis/208050318/V ozmozhnye_metody_borby_so_spa mom_v_IM_i_blogakh?print_mode=1 06.03.2012.

43. Гаврилова, Т. А. Базы знаний интеллектуальных систем / Т. А. Гаврилова, В. Ф. Хорошевский.- Спб.: Питер, 2000.-384 с.

44. Джарратано Дж. Экспертные системы принципы разработки и программирование, 4-е издание/ Джозеф Джарратано, Гари Райли.- М: Вильяме, 2007.- 1147 с.

45. Карташев, И. Антиспамерская конференция в МТИ [Электронный ресурс]/ И. карташев.- Режим доступа: http://www.sibinfo.ru/archive/news/03_01_20/spam.HTML 12.07.2012.

46. Козловский С. Что и как может Байес?/ С. Козловский.- [Электронный ресурс]. - Режим доступа: http://sergeikozlovsky.narod.ru/Bayes_tech.HTML. -15.09.11.

47. «Лаборатория Касперского» приобретает проект «Спамтест» [Электронный ресурс]. - Режим доступа: http://www.kaspersky.ru/news?id==167020096

48. Машевский, Ю. Кража собственности в компьютерных сетях, часть II [Электронный ресурс]/ Ю. Машевский, С. Шевченко.- Режим доступа: Ьйр ://\у\у\у.5есигеН сот/ги/апа1у б/204007514/КгагЬа_8оЬ81уеппо811_у_котруи1егп укИ_8е1уакЬ_сЬа81_П 12.04.2012.

49. Мезенцева, Е.М. Борьба со спамом / Е.М. Мезенцева // Материалы XVIII Российской научн. конф. 1111С, НС и аспирантов - Самара : ПГУТИ, 2011. - С. 226.

50. Мезенцева, Е.М. Защита компьютерных сетей. Веб программирование многомодульного спам фильтра / Е.М. Мезенцева, В.Н. Тарасов // Программная инженерия. - 2012.- № 4.- С. 27-32.

51. Мезенцева, Е.М. Информативность свойств как мера классификации объектов/ Е.М. Мезенцева // Проблемы информатики в образовании, управлении, экономике и технике : тр. X Междунар. научно-техн. конф. - Пенза, 2010.- С. 3133.

52. Мезенцева, Е.М. Методы и средства фильтрации спама на интернет -сайтах / Е.М. Мезенцева, В.Н. Тарасов // Физика и технические приложения волновых процессов : Материалы X Межд. научно-техн. конф. - Самара, 2011. - С. 364-366.

53. Мезенцева, Е.М. Многомодульный спам фильтр для защиты компьютерных сетей. Свидетельство о государственной регистрации программы для ЭВМ № 2012612754, Роспатент, М., 19.03.2012.

54. Мезенцева, Е.М. Многоуровневая архитектура клиент-серверного приложения фильтрации спама на сайтах / Е.М. Мезенцева, В.Н. Тарасов // Академический журнал Интеллект. Инновации. Инвестиции.- 2012.- №4.- С. 179 -184.

55. Мезенцева, Е.М. Определение вероятности соотнесения сообщения к спаму / Е.М. Мезенцева, В.Н. Тарасов // Проблемы техники и технологий телекоммуникаций : Материалы XII Межд. научно-техн. конф. - Казань, 2011. -С. 96-97.

56. Мезенцева, Е.М. Определение спама. Теорема Байеса с применением априорного знания / Е.М. Мезенцева, В.Н. Тарасов // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. - Самара : ПГУТИ, 2012. - С. 197 .

57. Мезенцева, Е.М. Организация защиты компьютерных сетей. Метод многомодульной фильтрации спама на \уеЬ-сайтах / Е.М. Мезенцева, В.Н. Тарасов // Информационные технологии. - 2012.- № 6.- С.18 - 22.

58. Мезенцева, Е.М. Программная система распознавания и фильтрации спама на сайтах. Свидетельство о государственной регистрации программы для ЭВМ № 2011619160, Роспатент, М., 25.11.2011.

59. Мезенцева, Е.М. Разработка специализированной модели, методов и алгоритмов, предназначенных для фильтрации спама / Е.М. Мезенцева // Спец. выпуск академического журнала Интеллект. Инновации. Инвестиции, по материалам международного форума «Россия как трансформирующееся общество: экономика, культура, управление». - 2011. - С. 73-77.

60. Мезенцева, Е.М. Расчет вероятностей совместного появления слов в спам сообщение / Е.М. Мезенцева // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. - Самара : ПГУТИ, 2012. - С. 198.

61. Мезенцева, Е.М. Сегментированный анализ-метод выявления скрытых сущностей объекта/ Е.М. Мезенцева //Проблемы техники и технологии телекоммуникаций : тр. XI Междунар. научно-техн. конф. - Уфа, 2010. - С. 145147.

62. Мезенцева, Е.М. Спам. Статистические и вероятностные методы фильтрации / Е.М. Мезенцева // Новые технологии в промышленности, науке и образовании : матер. Н-ой Всероссийской научно-практ. конф. - Оренбург, 2010. -С. 286-290.

63. Мезенцева, Е.М. Трехуровневая архитектура клиент-серверного приложения для фильтрации спама / Е.М. Мезенцева, В.Н. Тарасов // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. - Самара : ПГУТИ, 2013. -С..

64. Мезенцева, Е.М. Фильтрация спама на сайтах в комментариях, формах обратной связи и других интерактивных разделах / Е.М. Мезенцева // Технико-экономические проблемы инжиниринга в России, Узбекистане, Украине : Матер. Междун. научн. конф.- Самара : ИУНЛ ПГУТИ, 2011. - С. 34 - 37.

65. Мерков, А. Б. Распознавание образов. Введение в методы статистического обучения/ А. Б. Мерков.-М. : Едиториал УРСС, 2011.- 254 с.

66. Морфологические модули [Электронный ресурс]. - Режим доступа: http://aot.ru/docs/sokirko/Dialog2004.htm. - 27.03.2011.

67. Никитина, Т. БорЬоз: социальные сети — угроза корпоративной безопасности [Электронный ресурс]/ Т. Никитина.- Режим доступа: http://www.securelist.com/ru/blog/2924 l/Sophos_sotsialnye_seti_ugroza_koфorativno у^егоразпоБЙ 13.04.2012.

68. Никитина, Татьяна. Социальные сети вытеснят почтовый сервис? [Электронный ресурс] / Татьяна Никитина.- Режим доступа: http://www.secureHst.com/ru/blog/32409/Sotsialnye_seti_vytesnyatjochtovyy_servis.-12.05.2012.

69. Никольский, С. М. Квадратурные формулы / С. М. Никольский. -М.: Наука, 1974.- 224 с.

70. Правовое положение спама в России - 2009. Доклад Рабочей группы Проекта «АнтиСпам» [Электронный ресурс].- Режим доступа: http://www.ifap.ru/as/rep2009.pdf20.06.2012.

71. Принципы и технические методы работы с незапрашиваемой корреспонденцией Часть 2 [Электронный ресурс].- Режим доступа: http.7/www.securelist.com/ru/analysis/28 12.01.2012.

72. Рассел, С. Искусственный интеллект: современный подход/С. Рассел, П. Норвинг.- М.: Вильяме, 2007. - 1408 с.

73. Раткевич, И. С. Спам и методы борьбы с ним [Электронный ресурс]/ И. С. Раткевич.- Режим доступа: http.7/software.intel.com/ш-ru/articles/spam 14.04.2012.

74. Ручная работа [Электронный ресурс].- Режим доступа: http://www.secuгelist.com/ru^log?print_mode=l&weblogid=28494 12.07.2012

75. Себестиан, Г. С. Процессы принятия решений при распознавании образов./Г. С. Себестиан. - Киев.: Техника, 1965. - 149 с.

76. Сегаран, Тоби Программируем коллективный разум/ Тоби Сегаран; пер. с англ. - СПб.: Символ-Плюс, 2008. - 368 с.

77. Спам [Электронный ресурс].- Режим доступа: http://www.kaspersky.ru/spam 11.04.2012.

78. Спамом по вебу [Электронный ресурс].- Режим доступа: http://www.razvedka.ru/catalog/577/592/15584.htm05.07.2012.

79. Федеральный закон № 139-ФЭ от 28 июля 2012 года [Электронный ресурс]. Режим дocтyпa:http://ш.wikipedia.org/wiki/Фeдepaльный_зaкoн_№_l39-Ф3_от_28_июля_2012_года 20.11.2012.

80. Хайкин, С. Нейронные сети: полный курс. 2-е изд./ С. Хайкин.- М.: Издательский дом Вильяме, 2006. - 1104 с.

І

Си

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образовани «Оренбургский государственный университет»

УТВЕРЖДАЮ Проректор по

Г"

АКТ

_№_

г. Оренбург

(ОГУ)

С.Н. Летута іраля 2013 г.

АКТ ВНЕДРЕНИЯ

Настоящим Актом подтверждается, что программная система «Многомодульный спам фильтр для защиты компьютерных сетей» (Е.М. Мезенцева Заявка № 2012612754 от 19.03.2012 г.), как результат практической и научно-исследовательской работы, проведенной Мезенцевой Екатериной Михайловной, внедрена и используется на форуме сайта Оренбургского государственного университета.

Программная система «Многомодульный спам фильтр для защиты компьютерных сетей» автоматизирует процесс обнаружения спама практически в режиме реального времени, что значительно снижает объем работ администратора форума и сайта. Система прошла успешную апробацию и получила положительные отзывы модераторов форума.

Выражаем свою заинтересованность в дальнейшем развитии указанного программного комплекса.

Заведующий СИТ (Филиал ЦИТ)

Ушаков Ю.А.

Согласовано:

Системный администратор СИТ (Филиал ЦИТ)

і - «ч , (? А.Л. Коннов

Начальник отдела сетевых технологий ЦИТ

С.В. Щетинкин

МИНОБРНАУКИ РОССИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕСС11011АЛЫ ЮГ0 0БРА30ВА1 1ИЯ «САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АЭРОКОСМИЧЕСКИЙ УНИВЕРСИТЕТ ИМЕНИ АКАДЕМИКА С П КОРОЛЕВА (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)» (СГАУ)

фьев

АКТ

об использовании результатов диссертационных исследований Мезенцевой Е.М. в учебном процессе Самарского государственного аэрокосмического университета имени академика С.П. Королёва (Национального исследовательского университета) (СГАУ)

Мы, нижеподписавшиеся, начальник учебного отдела Демина Т.М., заведующий кафедрой информационных систем и технологий (ИСТ) д.т.н., профессор Прохоров СА., заведующий кафедрой программных систем (ПС) Коварцев А.Ы., зам. начальника управления информатизации и телекоммуникаций Еленев Д.В., составили настоящий акт в том, что результаты диссертационного исследования аспиранта кафедры ПОУТС ФГОБУ «Поволжский государственный университет телекоммуникаций и информатики» Мезенцевой Е.М. в области защиты компьютерных сетей и ее программа «Многомодульный спам-фильтр для защиты компьютерных сетей» (объем программы с обученным фильтром 8,7 Мб) внедрены в учебный процесс на кафедрах ИСТ и ПС, а так же в Медиацентре СГАУ.

Разработанный спам-фильтр основан на применении Байесовского подхода с последующим уточнением выходных данных методом Фишера. Система прошла тестирование и опытную эксплуатацию на форуме СГАУ. В настоящее время используется в Медиацентре СГАУ как образец спам-фильтра на форуме главного сайта СГАУ. Данная программная система позволила в значительной степени исключить пропуск «спама» и повысить качество оценки поступающих данных.

Начальник учебного отдела

Зав. кафедрой ИСТ д.т.н., профессор

Зав. кафедрой ПС д.т.н., профессор

Зам. начальника управления информатизации и телекоммуникаций к.т.н., доцент

Т.М. Дёмина С.А. Прохоров

А.Н. Коварцев

Д.В. Еленев

і

ГАЗПРОМБАНК

h?

«Газпромбанк»

(Открытое акционерное общество)

Филиал «Газпромбанк»

(Открытое акционерное общество) в г.Самаре

(Ф-л ГПБ (ОАО) в г.Самаре)

ОКПО 80615589 БИК 043601917

ИНН/КПП 7744001497/631602001

443100, г. Самара, ул. Галактионовская, д 191 сквозная на ул. Самарская, д.190 ТЕЛЕФОН' +7 (846) 273-83-93 ФАКС +7 (846) 332-00-18 www.samara.gazprombank.ru

Результаты научных исследований, содержащихся в диссертационной работе Мезенцевой Е.М. «Многомодульный спам фильтр для защиты компьютерных сетей», представляемой на соискание ученой степени кандидата технических наук, опробованы в работе сайта дополнительного офиса «Поляна Фрунзе» Филиала «Газпромбанк» (Открытое акционерное общество) в г. Самаре. При этом, следует особо выделить профессиональный подход диссертанта к разработке алгоритмов, позволяющих наиболее точным образом определять нежелательные сообщения (спам).

Практическое применение данной программной системы существенно упрощает работу модераторов сайта за счет автоматизации процесса фильтрации сообщений. Так же хотелось бы отметить, что работа программной системы фильтрации не отражается на производительности сайта. Необходимо особо отметить разработанный модуль администратора, позволяющий обучать фильтр и проводить модерацию сообщений, не затрагивая клиентскую часть форума.

На №

от

АКТ

внедрения результатов диссертационной работы Мезенцевой Е.М. «Многомодульный спам фильтр для защиты компьютерных сетей»

Начальник дополнительного офиса «Поляї

ч

Захаров С.В.

eS Соболева А.О. » (846) 925-35-45

TELENET

ОАО "ТЕЛЕКОММУНИКАЦИОННЫЕ СЕТИ

Россия, 443125, г. Самара, ул. Ново-Садовая, 329 тел.: (846) 245-45-53, 245-46-10 факс: (846) 245-50-14 тт^екпепуги

Юр. адрес: 443090, г. Самара, ул. Блюхера, 30

ОГРН 1026301516890 ИНН 6318117989, КПП 6311801001 р/с 40702810554120103600 в Поволжском банке ОАО «Сбербанка России» г. Самара к/с 30101810200000000607, БИК 043601607 ОКВЭД 64.20.21,45.21.4,45.31,64.20.12, 70.20.1, 74.4

ОКПО 51876627

Исх. №_

от"_"_20 _г.

АКТ ВНЕДРЕНИЯ

Настоящим Актом подтверждается, что программная система «Многомодульный спам фильтр для защиты компьютерных сетей», как результат практической и научно-исследовательской работы, проведенной Мезенцевой Екатериной Михайловной, внедрена на форуме сайта ОАО «Теленет».

Полученные результаты используются на форуме сайта ОАО «Теленет». Практическое применение данной программной системы, значительно снижает объем работы администраторов форума, за счет автоматизации процесса фильтрации сообщений. Необходимо отметить, что работа спам-фильтра не отражается на производительности сайта. Так же хотелось бы отдельно отметить удобный в использовании интерфейс администратора форума, позволяющий оценивать правильность работы фильтра, проводить его обучение и модерацию сообщений. Применение системы фильтрации значительно сократило объем спама на сайте, что вызвало положительные отзывы не только администраторов, но и пользователей сайта.

АКТ

о внедрении результатов диссертационной работы Мезенцевой Е.М.

«Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуннкационных сетей»

Комиссия ФГОБУ ВПО «Поволжский государственный университет телекоммуникаций и информатики» (ПГУТИ) в составе: председателя комиссии к.т.н., доц. Кустовой М.Н., начальника управления организации учебного процесса, и членов комиссии - д.т.н., проф. Тарасов В.Н., зав. кафедрой программного обеспечения и управления в технических системах, д.т.н., проф. Бахарева Н.Ф. зав. кафедрой информатики и вычислительной техники, составили настоящий акт о том, что в университете внедрены в учебный процесс на кафедре «Программное обеспечение и управление в технических системах» следующие результаты диссертационной работы Мезенцевой Е.М.:

1. Принципы построения обучающейся системы фильтрации спам сообщений в инфокоммуннкационных сетях.

2. Методы подготовки сообщений, для дальнейшего их анализа включая предобработку текста; разбиение текста на отдельные слова с учетом морфологии слов с приведением их к основной форме с использованием специализированных словарей.

3. Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценю! качества совмещенного фильтра.

4. Многомодульная программная система фильтрации спама, которая прошла апробацию на форуме сайта ФГОБУ ВПО ПГУТИ.

Основные результаты диссертационной работы Мезенцевой Е.М. используются на лекционных и лабораторных занятиях по дисциплинам «Информационная безопасность» и «Методы и средства защиты компьютерной информации»

Председатель комиссии

начальник управления организации учебного процесса

к.т.н., доц.

Кустова М.Н.

Члены комиссии Зав. кафедрой ПОУТС д.т.н., проф. Зав. кафедрой ИиВТ д.т.н., проф.

Тарасов В.Н.

Бахарева Н.Ф.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.