"Квазар-Офлайн". Распределенный вычислительный комплекс для решения задач распознавания образов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Качалков, Александр Викторович

  • Качалков, Александр Викторович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2007, Екатеринбург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 115
Качалков, Александр Викторович. "Квазар-Офлайн". Распределенный вычислительный комплекс для решения задач распознавания образов: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Екатеринбург. 2007. 115 с.

Оглавление диссертации кандидат физико-математических наук Качалков, Александр Викторович

Введение

1 Инструменты разработки и проектирования

1.1 Обзор существующих решений.

1.2 Платформа разработки

1.3 Система управления вычислительным порталом

1.4 Сервер базы данных.

1.5 Компоненты доступа к данным.

1.6 Объектно—ориентированный анализ и унифицированный процесс.

2 Анализ требований и построение модели

2.1 Анализ требований.

2.2 Сопутствующие цели и требования.

2.3 Функции системы.

2.4 Подсистема размещения и мониторинга заданий

2.4.1 Прецеденты системы.

2.4.2 Диаграмма прецедентов.

2.5 Диаграммы последовательностей.

2.6 Модель предметной области (концептуальная модель)

2.7 Описание системных операций.

2.7.1 Системные операции для основных прецедентов

2.8 Пример тестовой модели.

3 Архитектура прототипа системы

3.1 Структура базы данных.бб

3.2 Компоненты доступа к базе данных.

3.3 Архитектура модуля Quasar.

3.4 Установка модуля и настройка Quasar.

3.5 Подсистема размещения и мониторинга заданий

3.5.1 Функции по управлению данными пользователя

3.5.2 Функции, связанные с размещением заданий

3.5.3 Функции, связанные с мониторингом заданий

3.6 Вычислительная подсистема.

3.6.1 Разработка вычислительного алгоритма

3.6.2 Архитектура вычислительного алгоритма

3.6.3 Создание вычислительного компонента Quasar.

3.6.4 Служба обработки заданий.

3.6.5 Регистрация нового вычислительного алгоритма в базе данных Quasar

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «"Квазар-Офлайн". Распределенный вычислительный комплекс для решения задач распознавания образов»

Диссертационная работа посвящена анализу и моделированию предметной области в рамках унифицированного процесса, с использованием универсального языка моделирования UML, построению универсальной модели для описания задачи распознавания образов, описанию нескольких конкретных алгоритмов распознавания в терминах модели, и разработке прототипа подсистемы размещения и мониторинга заданий «КВАЗАР-Офлайн».

Актуальность темы

Исторически отделы математического программирования и исследования операций Института математики и механики (ИММ) УрО РАН известны пакетами прикладных программ, среди которых выделялся пакет «КВАЗАР», разработанный B.C. Казанцевым [2] и базировавшийся, в основном, на созданных Вл.Д. Мазуровым комитетных алгоритмах распознавания образов [10].

В свое время (80-е г.г.) появилось несколько версий пакета, ориентированных на различные вычислительные платформы (БЭСМ-6, ЕС, IBM PC) и операционные системы.

Позднее, в 1995-97 г.г. М.Ю.Хачаем, А.И.Рыбиным и А.Н.Тютиным был создан программный комплекс «КВАЗАР-}-» для MS Windows. Несмотря на то, что алгоритмическая база новой программы в большинстве своем осталась прежней, все алгоритмы [15], по ряду причин, были реализованы заново. Кроме того, более тщательно были проработаны вопросы хранения и обработки данных.

В 2000г. А. В. Качал ков, М.Ю.Хачай и А.И.Рыбин продолжили развитие известного пакета. Результатом работы стал вычислительный портал «КВАЗАР—Онлайн», который предоставил Web—доступ к алгоритмам распознавания образов. Были реализованы следующие алгоритмы: алгоритм поиска информативной подсистемы признаков [9, 1], алгоритм опорных векторов (классический и со штрафными коэффициентами) [31], а также алгоритм аффинных разделяющих комитетов [26].

С использованием «КВАЗАР—Онлайн» было решено несколько прикладных задач в области медицины, экономики и геофизики [11]. В ходе решения задач было выявлено несколько проблем. Основная проблема состояла в том, что при решении реальных задач с большими объемами данных время отклика системы на запросы пользователей могло быть довольно большим. В связи с этим решение задач большой размерности средствами сайта «КВАЗАР—Онлайн» было затруднительным. Для решения этой и ряда других проблем в 2003 г. были начаты работы по проекту «КВАЗАР—Офлайн».

Разработка концепции реализации вычислительных алгоритмов является актуальной задачей, так как позволяет облегчить задачу создателей алгоритмов за счет использования рекомендаций по разработке, а так же поддержка всей необходимой инфраструктуры. Расширяемость системы не ограничивается пополнением алгоритмической базы. Использование технологии с открытой модульной архитектурой позволяет расширять как функциональность, так и наполнение вычислительного портала, предоставляющего Web—интерфейс для доступа к системе.

Актуальной задачей является коммерциализация предоставления вычислительных услуг за счет популяризации алгоритмов распознавания образов и развития сервиса «удаленных» вычислений, а также «хостинга» вычислительных алгоритмов сторонних разработчиков.

Алгоритмы распознавания образов находят применение в различных областях, таких как: экономика, медицина, геофизика и позволяют решать неформализованные задачи. Поэтому предоставление возможности «удаленных» вычислений с помощью алгоритмов распознавания образов в удобной форме для пользователей является актуальной задачей.

Цель работы

Создать систему управления пакетными вычислениями на удаленном сервере в конкретной предметной области — распознавании образов. Создаваемая система должна предоставлять возможность удаленному пользователю через Web—интерфейс размещать вычислительные задания, связанные с распознаванием образов и анализом эмпирических данных, а также проводить мониторинг активных заданий.

Научная новизна

В рамках диссертации разработан оригинальный вычислительный модуль на базе системы управления контентом DotNetNuke, который, используя алгоритмическую базу и предложенную вычислительную инфраструктуру «КВАЗАР—Офлайн», позволяет различным пользователям удаленно решать задачи распознавания образов с помощью любого Web—браузера. В ходе работы, проведен полный цикл разработки, используя методологию унифицированного процесса. Реализация прототипа системы выполнена с помощью современных технологий.

На защиту выносятся следующие положения

1. Разработана новая методология создания распределенных вычислительных порталов для различных предметных областей. В рамках разработанной методологии построена универсальная модель подсистемы размещения и мониторинга заданий, с использованием унифицированного процесса разработки и языка моделирования UML.

2. В соответствии с предложенной методологией, реализован оригинальный распределенный вычислительный комплекс для решения задач распознавания образов, который включает в себя: а) подсистему размещения и мониторинга заданий, реализованную на базе системы управления контентом DotNetNuke:

• оригинальный специализированный модуль Quasar, реализующий доступ к системе;

• база данных Quasar в соответствии с построенной концептуальной моделью, хранимые процедуры и функции;

• компоненты доступа к базе данных Quasar. (b) вычислительную подсистему:

• оригинальный базовый асинхронный вычислительный компонент, в рамках подхода основанного на событиях, облегчающий доступ к инфраструктуре вычислительного портала;

• вычислительная служба, отвечающая за инициализацию и запуск текущих заданий на счет, используя подключаемую технологию загрузки вычислительных алгоритмов.

3. Разработаны новая концепция и рекомендации реализации вычислительных алгоритмов, используя вычислительную библиотеку численного анализа dпAnalytics на базе платформы .NET Framework 2.0.

Методы исследования

При решении поставленных задач в работе использован унифицированный язык моделирования (UML) в рамках унифицированного процесса (Unified Process), а также методы и средства проектирования баз данных и объектно—ориентированного программирования.

Практическая значимость

Основным результатом работы является распределенный вычислительный комплекс, предоставляющий «удаленными» пользователям возможности для решения различных вычислительных задач распознавания образов с использованием алгоритмической базы вычислительного портала «КВАЗАР-Офлайн».

Апробация работы

Результаты работы обсуждались на семинаре «Математическое программирование» ИММ УрО РАН под руководством академика И.И. Еремина, докладывались на международных и всероссийских конференциях:

- Международных конференциях «Распознавание образов и анализ изображений РОАИ» (2002, Новгород), (2004, Санкт-Петербург).

- Всероссийской конференции «Математическое программирование и приложения» (2003, Екатеринбург).

- Международной конференции «Интеллектуализация обработки информации (ИОИ-2006)» (2006, Алушта).

Публикации

Основные результаты диссертации опубликованы в работах

И,[13], [4], [5], [25], [71, [231, [24], [3], [22]

Структура и объем работы

Диссертационная работа состоит из введения, трех глав, содержащих 3 таблицы, 34 рисунка, заключения и списка литературы из 32 наименований. Объем работы составляет 115 страниц.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Качалков, Александр Викторович

Заключение

В заключении перечислим основные результаты диссертационной работы:

1. Разработана новая методология создания распределенных вычислительных порталов для различных предметных областей. В рамках разработанной методологии построена универсальная модель подсистемы размещения и мониторинга заданий, с использованием унифицированного процесса разработки и языка моделирования UML.

2. В соответствии с предложенной методологией, реализован оригинальный распределенный вычислительный комплекс для решения задач распознавания образов, который включает в себя: а) подсистему размещения и мониторинга заданий, реализованную на базе системы управления контентом DotNetNuke:

• оригинальный специализированный модуль Quasar, реализующий доступ к системе;

• база данных Quasar в соответствии с построенной концептуальной моделью, хранимые процедуры и функции;

• компоненты доступа к базе данных Quasar. (b) вычислительную подсистему:

• оригинальный базовый асинхронный вычислительный компонент, в рамках подхода основанного на событиях, облегчающий доступ к инфраструктуре вычислительного портала;

• вычислительная служба, отвечающая за инициализацию и запуск текущих заданий на счет, используя подключаемую технологию загрузки вычислительных алгоритмов.

3. Разработаны новая концепция и рекомендации реализации вычислительных алгоритмов, используя вычислительную библиотеку численного анализа dnAnalytics на базе платформы .NET Framework 2.0.

3.7 Новые направления развития проекта «КВАЗАР-Офлайн»

Вычислительная служба

Разработанный распределенный вычислительный комплекс «КВАЗАР—Офлайн» реализует технологию динамического подключения алгоритмов для решения задач пользователей. В текущей реализации, вычислительной службе загружает алгоритмы из локального каталога расположенного на сервере. Базовый вычислительный компонент загружает параметры и публикует результаты вычислений в непосредственно напрямую в базу данных Quasar, расположенную на выделенном сервер в локальной сети. Данный подход хорошо работает в случае если разработчики алгоритмов согласны разместить вычислительные компоненты на вычислительном сервере Quasar. Как оказалось, существует потребность в альтернативной архитектуре решения, которая позволяет размещать вычислительную службу на вычислительных ресурсах сторонних разработчиков алгоритмов, которые не хотят передавать вычислительные компоненты, реализующие авторские алгоритмы. Для поддержки данной модели вычислений было предложено доработать вычислительную службу таким образом, чтобы предоставить возможность обращаться к базе данных Quasar с помощью сети интернет.

На сегодняшний день, ведутся исследования по созданию специального сервиса задач, который обеспечит доступ к

Подсистеме размещения и заданий» и тем самым, позволит сторонним разработчикам решать размещенные вычислительные задачи и публиковать результаты через интернет.

Предварительное исследование показало, что выбор технологии .NET Framework в качестве базовой платформы разработки, позволяет с помощью новой технологии -Windows Communication Foundation 44 (входящей в состав .NET Framework 3.0 45) обеспечит реализацию сервиса заданий.

Разработчику алгоритмов для того, чтобы получить доступ к сервису заданий, необходимо зарегистрироваться в качестве пользователя. Отправить заявку о реализованных им алгоритмах. После этого, с помощью сервиса заданий, использую стандартные протоколы обмена разработчик сможет получать информацию о текущих заданиях, получать параметры задания, публиковать результаты вычислений.

Более того, сервис заданий планируется расширить для того, чтобы предоставить сторонних разработчикам распределенных вычислительных порталов обеспечить возможность разработки клиентской части подсистемы мониторинга и заданий, например в виде Windows—приложения.

Импорт данных в таблицу «объект-признак»

Для того, чтобы исключить проблемы связанные с продолжительностью импорта данных большого объема в таблицу «объект—признак», планируется использовать другой подход

44http://msdn2.microsoft.com/en-us/netframework/aa663324.aspx

45http://vw.netfx3.com в следующей версии системы. Благодаря тому, что модель алогоритмов расширяема, предлагается рассматривать процедуру импорта данных пользователей как одну из задач. Новая задача — «импорт данных в таблицу «объект—признак», будет реализована в рамках концепции «подключения» алгоритмов в систему, а именно в виде .NET сборки. В системе будут зарегистрированы необходимые для импорта параметры, такие как: «имя файла с данными», «имя листа Excel», и т.п. Данный подход является естественным и позволяет пользователю «размещать» импорт данных асинхронным образом, а не ждать загрузки данных. Более того, пользователь сможет «подгружать» нужные данные в таблицу «объект—признак» непосредственно перед запуском определенной задачи на счет.

В настоящее время, ведутся исследования о возможности изменить модель хранения данных для оптимизации процедуры импорта данных за счет ослабления требования безопасности. Хранение файлов данных пользователей вне базы данных безусловно снизит безопасность, а также потребует дополнительных процедур нацеленных на резервное копирование данных пользователя и других операций администрирования данных. Это позволит значительно сократить время импорта данных, т.к. будет достаточно загрузить упакованный файл данных на сервер. Хранение данных описанным способом требует дополнительного исследования и тестирования.

Список литературы диссертационного исследования кандидат физико-математических наук Качалков, Александр Викторович, 2007 год

1. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. — Изд-во Института математики, Новосибирск, 1990. — 270 с.

2. Казанцев, В. С. Задачи классификации и их программное обеспечение (пакет КВАЗАР) / В. С. Казанцев.— М.: Наука, 1990.- 136 с.

3. Качалков, А. В. Проект «Квазар-оффлайн»: распределенный вычислительный комплекс для решения задач распознавания образов / А. В. Качалков // Научно-теоретический журнал «Искусственный интеллект». 2006. - Т. 2. - С. 356-359.

4. Качалков, А. В. О развитии вычислительного сайта «Квазар онлайн» / А. В. Качалков, А. И. Рыбин, М. Ю. Хачай // Труды конференции «Математическое программирование и приложения». — Екатеринбург: 2003. - С. 136-137.

5. Качалков, А. В. Технология создания вычислительного сайта «КВАЗАР—Онлайн» / А. В. Качалков, А. И. Рыбин, М. Ю. Хачай // Труды международной конференции «Распознавание образов и Анализ Изображений:

6. Новые Информационные Технологии (РОАИ-6-2002)». — Т. 1. Новгород: НовГУ, 2003. - С. 258-262.

7. Ларман, К. Применение UML и шаблонов проектирования.2-е издание / К. Ларман.— М.: Издательский дом Вильяме, 2002.

8. Лбов, Г. С. Выбор эффективности системы зависимых признаков / Г. С. Лбов // е сб. трудов ИМ СО АН СССР: Вычислительные системы. — 1965. — № 19.

9. Мазуров, Вл. Д. Метод комитетов в задачах оптимизации и классификации / Вл. Д. Мазуров. — М.: Наука, 1990.

10. И. Мазуров, Вл. Д. Реализация диагностики и выбора вариантов в горно-геологических задачах / Вл. Д. Мазуров, М. Ю. Хачай, В. П. Некрасов // Известия ВУЗ-ов. Горный журнал. — 1998. — № 1. — С. 10-15.

11. Сапожников, А. П. Реинжениринговая технология автоматизированного построения распределенныхвычислительных систем на основе автономно разработанных фортранных программ: Tech. rep. / А. П. Сапожников, Т. Ф. Сапожникова: JINR LIT, 2004-2005.

12. Создание вычислительного портала распознавания образов «Квазар-ОНЛАЙН» / А. В. Качалков, А. И. Рыбин, Е. А. Трофимова, М. Ю. Хачай // Сборник «Модели идентификации территорий». — Екатеринбург: УрО РАН, 2002. С. 74-83.

13. Якобсон, А. Унифицированный процесс разработки программного обеспечения. 1-е издание. Пер с Англ. / А. Якобсон, Г. Буч, Дж. Рамбо. Питер, СПб, 2002.

14. Algorithms of the KVAZAR+ Package / V. D. Mazurov, S. V. Plotnikov, A. I. Rybin et al. // Pattern Recognition and Image Analysis. 1998. - Vol. 8, no. 3. - Pp. 374-375.

15. Astagi, S. Evaluation and testing of a web content management system : comparison of DotNetNuke technology: Ph.D. thesis / Clemson University — 2006.

16. Beck, K. Extreme programming eXplained : Embrace Change / K. Beck.— Reading, MA : Addison-Wesley, 2000. 224 pp.

17. Esposito, D. Programming Microsoft ASP.NET 2.0 core reference / D. Esposito. — Redmond, Wash. : Microsoft Press, 2006. 800 pp.

18. Friedl, J. Mastering Regular Expressions / J. Friedl.— O'Reilly Media, Inc., 2006. 534 pp.

19. Guide to Web Application and Platform Architectures / I. Petrov, C. Meiler, U. Mayer, S. Jablonski.— Berlin: Springer, 2004. 270 pp.

20. Jacobson, I. Object-Oriented Software Engineering: A Use Case Driven Approach / I. Jacobson. — Addison-Wesley Professional, 1992. — 552 pp.

21. Kachalkov, A. V. Project "QUASAR-offline": a Distributed computational complex for solving problems of pattern recognition / A. V. Kachalkov // Pattern Recognition and Image Analysis. 2007. - Vol. 17, no. 2. - Pp. 276-289.

22. Kachalkov, A. V. The sybsystem of allocation and monitoring the tasks for «Quasar-Offline» Project / A. V. Kachalkov, A. V. Naiman, M. Yu. Khachay // Pattern Recognition and Image Analysis. — 2005. — Vol. 15, no. 2. — Pp. 418-421.

23. Kachalkov, А. К Development of QUASAR-online computational site / A. V. Kachalkov, A. I. Rybin, M. Yu. Khachai // Pattern Recognition and Image Analysis. — 2003. — Vol. 13, no. 2. Pp. 217-220.

24. Mazurov, VI. D. Committee constructions for solving problems of selection, diagnostics and prediction / VI. D. Mazurov, M. Yu. Khachai, A. I. Rybin // Proceedings of the Steklov Institute of mathematics. — 2002. — Vol. 1. — Pp. 77-101.

25. Microsoft Corporation. MCSD Self-Paced Training Kit: Analyzing Requirements and Defining Microsoft .NET Solution Architectures / Microsoft Corporation. — Microsoft Press, New York, 2003. 700 pp.t

26. Parsons, A. Professional Visual Studio 2005 / A. Parsons, N. Randolph.- Indianapolis, IN : Wiley/Wrox, 2006.744 pp.

27. Professional DotNetNuke 4: Open Source Web Application Framework for ASP.NET 2.0 / S. Walker, J. Brinkman, B. Hopkins et al.— Indianapolis, IN: Wrox/Wiley Pub, 2006. 552 pp.

28. Richter, J. Applied Microsoft .NET Framework programming / J. Richter.— Redmond, Wash. : Microsoft Press, 2002. 640 pp.

29. Vapnik, V. Statistical Learning Theory / V. Vapnik. — Wiley, New York, 1998.

30. Yeager, N. J. Web Server Technology: The Advanced Guide for World Wide Web Information Providers / N. J. Yeager, R. E. McGrath. — California, Morgan Kaufmann Publishers, 1996. 407 pp.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.