Средства создания параллельных алгоритмов интеллектуального анализа данных тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Каршиев, Зайнидин Абдувалиевич

  • Каршиев, Зайнидин Абдувалиевич
  • кандидат технических науккандидат технических наук
  • 2013, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 183
Каршиев, Зайнидин Абдувалиевич. Средства создания параллельных алгоритмов интеллектуального анализа данных: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2013. 183 с.

Оглавление диссертации кандидат технических наук Каршиев, Зайнидин Абдувалиевич

Оглавление

ВВЕДЕНИЕ

ГЛАВА 1 АЛГОРИТМЫ ПАРАЛЛЕЛЬНОГО И РАСПРЕДЕЛЕННОГО ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

1.1 Интеллектуальный анализ данных и решаемые ею задачи

1.2 Существующие подходы к распараллеливанию алгоритмов

анализа данных

1.2.1 Методы распараллеливания алгоритмов

1.2.2 Параллельный и распределенный интеллектуальный анализ данных

1.2.3 Существующие стратегии распараллеливания алгоритмов интеллектуального анализа данных

1.2.4 Проект NIMBLE как обобщенный подход к параллельному выполнению алгоритмов интеллектуального анализа данных

1.3 Существующие параллельные алгоритмы интеллектуального анализа данных

1.3.1 Параллельные алгоритмы классификации

1.3.2 Параллельные алгоритмы кластеризации

1.3.3 Параллельные алгоритмы ассоциативных правил

1.4 Методы представления алгоритмов

1.5 Методика распараллеливания

1.6 Выводы

ГЛАВА 2 ФОРМАЛЬНАЯ МОДЕЛЬ И БЛОЧНАЯ СТРУКТУРА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

2.1. Особенности алгоритмов hi 1теллектуального анализа данных

2.2 Формальная модель алгоритма интеллектуального анализа данных

2.3 Особенности параллельного выполнения алгоритмов интеллектуального анализа данных

2.3.1. Работа алгоритма интеллектуального анализа при распараллеливании по данным и по задачам

2.3.2. Параллельная работа алгоритма интеллектуального анализа

с диспетчером и без диспетчера

2.3.3 Взаимодействие в параллельных алгоритмах

интеллектуального анализа

2.4 Расширение формальной модели параллельных алгоритмов

интеллектуального анализа

2.5 Метод построения параллельных алгоритмов интеллектуального

анализа из потоконезависимых функциональных блоков

2.5.1 Основная идея метода

2.5.2 Типы функциональных блоков

2.5.3. Описание метода

2.5.4 Типы параллельных структур алгоритмов интеллектуального анализа создаваемых методом

2.6 Выводы

ГЛАВА 3 ШАБЛОНЫ И МЕТОДИКА ПОСТРОЕНИЯ ПАРАЛЛЕЛЬНЫХ АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

3.1 Реализация блочной структуры алгоритмов интеллектуального анализа данных

3.1.1 Реализация базовых блоков алгоритмов интеллектуального

анализа данных

3.1.2 Реализация блоков для параллельного выполнения

алгоритмов анализа

3.1.3 Работа параллельного блока при разных видах параллелизма алгоритмов интеллектуального анализа данных

3.2 Адаптеры к средствам выполнения параллельных вычислений

3.2.1 Существующие концепции выполнения параллельных

и распределенных вычислений

3.2.2 Интеграция алгоритмов интеллектуального анализа данных

со средствами выполнения распределенных вычислений

3.3 Методика распараллеливания алгоритмов интеллектуального

анализа данных

3.4 Выводы

ГЛАВА 4 РАСПАРАЛЛЕЛИВАНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ

И КЛАСТЕРИЗАЦИИ

4.1 Библиотека распределенного анализа данных

4.1.1 Структура проекта

4.1.2 Место стандартов Data mining в библиотеке распределенного анализа данных

4.2 Экспериментальная проверка полученных результатов

4.2.1 Результаты выполнения алгоритма k-means

4.2.2 Результаты выполнения алгоритма 1R

4.3 выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ 1

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Средства создания параллельных алгоритмов интеллектуального анализа данных»

Введение

Актуальность работы

Алгоритмы интеллектуального анализа извлекают знания из объемных массивов данных. При этом наибольшая ценность и нетривиальность получаемых знаний возможна при анализе значительных объемов данных. Здесь возникают следующие основные проблемы анализа:

• производительность - анализ больших объемов (измеряемых терабайтами) требует больших вычислительных ресурсов и может выполняться за неприемлемое для аналитика время;

• распределенность — в связи с большим объемом данных хранение информации может быть реализовано в распределенном хранилище, кроме того в силу природы данных они могут храниться в разных источниках.

Обе проблемы могут решаться за счет параллельного и/или распределенного выполнения интеллектуального анализа данных (ИАД).

В последнее несколько лет повышение производительности вычислительной техники связано, как с развитие многоядерных процессоров, так и с все большим распространение кластерных систем, в том числе и «облачных» систем. Однако современное программное обеспечение значительно отстает от аппаратной части и часто неэффективно использует предоставляемые вычислительные ресурсы. Данная проблема в первую очередь связана с трудоемкостью задачи распараллеливания вычислительных алгоритмов.

К сожалению, исключением не являются и алгоритмы ИАД. В настоящее время проводится достаточно большое количество исследований в этой области. Выделены отдельные направления в области ИАД (в зарубежной литературе данная область имеет название Data Mining): параллельный ИАД (Parallel Data Mining) и распределенный ИАД (Distributed Data Mining). Большинство усилий исследователей в области параллельных алгоритмов ИАД тратятся на распараллеливание отдельных алгоритмов анализа и их дальнейшую оптимизацию.

Ситуацию усугубляет и тем, что эти усилия прикладываются исходя из определенной среды вычисления, а следовательно при переносе такого решения в другие условия оно становится не эффективным. В связи с этим исследование в области общих подходов к распараллеливанию существующих алгоритмов интеллектуального анализа является достаточно актуальной задачей.

Целью диссертационной работы является разработка средств построения параллельных алгоритмов интеллектуального анализа данных для выполнения в распределенной среде. Для достижения заявленной цели в работе решены следующие задачи:

- анализ существующих подходов к созданию параллельных алгоритмов

ИАД;

- разработка формальной модели алгоритма ИАД;

- разработка метода создания параллельных алгоритмов ИАД на основе по-токобезопасных функциональных блоков;

- разработка методики построения параллельных алгоритмов ИАД для выполнения в распределенной среде;

- разработка программных шаблонов для реализации последовательных и параллельных алгоритмов ИАД из потокобезопасных функциональных блоков;

- проведение экспериментов по выполнению алгоритмов, построенных в соответствии с предложенной методикой.

Объектом исследования являются алгоритмы ИАД.

Предметом исследования являются методы построения параллельных алгоритмов ИАД.

Методы исследования. Методы теории множеств, методы построения параллельных алгоритмов, методы проектирования программного обеспечения.

Научная новизна работы заключается в следующем:

1. Предложена формальная модель алгоритма ИАД, отличающаяся представлением алгоритма в виде набора независимых операций, выполняющих изме-

нение состояния модели знаний, и структурных блоков, позволяющих модифицировать структуру алгоритма, в том числе и для параллельного выполнения.

2. Предложен метод создания параллельных алгоритмов ИАД, в отличие от существующих, использующий декомпозицию алгоритма на потокобезопасные функциональные блоки и позволяющий выполнять распараллеливание, как за счет изменения структуры параллельного алгоритма, так и за счет настройки его выполнения.

3. Предложена методика распараллеливания алгоритмов ИАД, которая отличается от известных тем, что к последовательным алгоритмам анализа применяется предложенный метод создания параллельных алгоритмов ИАД с учетом характеристик распределенной среды.

Практическая значимость:

1. Для создания параллельных алгоритмов ИАД предложены программные шаблоны, построенные на основе формальной модели и отделяющие реализацию алгоритма от средств распределенного выполнения.

2. Разработана библиотека параллельных алгоритмов ИАД для выполнения в распределенной среде, включающая в себя предложенные шаблоны.

Положения, выносимые на защиту:

1. Формальная модель алгоритмов интеллектуального анализа данных.

2. Метод создания параллельных алгоритмов интеллектуального анализа данных из потокобезопасных функциональных блоков.

4. Методика распараллеливания алгоритмов интеллектуального анализа данных для выполнения в распределенной среде.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на международных конференциях по мягким вычислениям и измерениям 8СМ'2010, 8СМ'2011 и 8СМ'2012, Санкт-Петербург, 2010-2012 г.г, конференциях профессорско-преподавательского состава СПбГЭТУ «ЛЭТИ», Санкт-Петербург, 2011-2013 г.г.

Внедрение результатов работы. Результаты работы были использованы при выполнении НИР и в учебном процессе СПбГЭТУ на кафедре вычислительной техники.

Достоверность результатов исследования. Достоверность результатов диссертационной работы подтверждается корректным применением математического аппарата и результатами экспериментов на гетерогенном кластере в ресурсном центре СПбГЭТУ.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 12 работах, среди которых 4 работы в ведущих рецензируемых изданиях, рекомендуемых в действующем перечне ВАК, 2 раздела в 2-х монографиях, 4 работы - в материалах международных научно-технических конференций, 2 свидетельства о регистрации программ для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав с выводами по каждой из них, заключения, списка литературы, включающего 77 наименований. Основная часть работы изложена на 178 страницах машинописного текста. Работа содержит 55 рисунка, 8 таблиц и 1 приложение общим объемом 5 страниц.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Каршиев, Зайнидин Абдувалиевич

4.3 Выводы

В текущей главе были описаны:

1. Библиотека алгоритмов ИАД, реализующая блочный подход построения алгоритмов ИАД, ядром которой являются классы, реализованные в соответствии с предложенной моделью и позволяющие реализовывать функциональные блоки алгоритмов ИАД и выполнять их распараллеливание. Кроме того, в библиотеку были добавлены классы, определяющие:

- исходные данные и их метаданные;

- модель знаний;

- настройки уровня алгоритма и функции ИАД.

Это позволило реализовать полный цикл интеллектуального анализа данных алгоритмами построенными в соответствии с предложенной в главе 2 формальной моделью.

2. Реализованные, на базе библиотеки алгоритмов ИАД, в соответствии с методикой, алгоритмы классификации и кластеризации для экспериментального подтверждения результатов выносимых на защиту:

- при распараллеливании алгоритма кластеризации первая структура параллельного алгоритма (предполагающая частичное распараллеливание) была признана не эффективной для всех типов параллельного выполнения алгоритма ИАД. Для повышения эффективности в соответствии с методикой было принято решение о реструктуризации алгоритма и параллельном выполнении всего алгоритма. Повторные эксперименты показали эффективность новой структуры при всех типах параллельного выполнения кроме SDMM для данных с количеством векторов 150 и 1500;

- при распараллеливании алгоритма классификации также были экспериментально проверены две структуры: с частичным распараллеливанием и с параллельным выполнением всего алгоритма. Первая структура алгоритма дает эффективные результаты при всех типах параллельного выполнения кроме SDMM и SDSM для данных с количеством векторов 150. Вторая структура алгоритма дает эффективные результаты при всех типах параллельного выполнения кроме SDMM.

Проведенные эксперименты доказали эффективность предложенных решений и подтвердили их правильность.

Заключение

В рамках работы были достигнуты следующие результаты:

1. Предложена формальная модель алгоритма ИАД, отличающаяся представлением алгоритма в виде набора независимых операций, выполняющих изменение состояния модели знаний и структурных блоков, позволяющих модифицировать структуру алгоритма, в том числе и для параллельного выполнения. Выделены основные типовые элементы алгоритмов, в том числе и для параллельного выполнения.

2. Предложен метод построения алгоритмов ИАД на основе потокобезопасных функциональных блоков, позволяющий выполнять распараллеливание, как на структурном уровне, так и на уровне настройки без необходимости изменения таких блоков.

3. Предложены программные шаблоны для параллельных алгоритмов ИАД на основании формальной модели, позволяющие строить параллельные алгоритмы, как путем структурных изменений, так и путем настройки выполнения и позволяющие отделить реализацию алгоритма от средств распределенного выполнения.

4. Предложена методика декомпозиции и построения параллельных алгоритмов ИАД из потокобезопасных функциональных блоков для выполнения в распределенной среде, которая позволяет не повторять наиболее трудоемкие шаги при оптимизации алгоритма. Все изменения алгоритма в данном направлении связаны или с реструктуризацией алгоритма без изменения функциональных блоков или с его перенастройкой.

5. Построена библиотека алгоритмов ИАД для выполнения в распределенной среде.

Дальнейшие пути развития работы представляются в направлении автоматизации оценки критериев эффективности выполнения параллельных алгоритмов ИАД и их реструктуризации для повышения эффективности работы в распределенной среде. Это должно еще больше снизить трудозатраты на оптимизацию параллельных алгоритмов ИАД.

Список литературы диссертационного исследования кандидат технических наук Каршиев, Зайнидин Абдувалиевич, 2013 год

Список литературы

1. Анализ данных и процессов: Учеб. пособие для вузов. 3-е изд. / А. А. Барсегян [и др.] - СПб.: БХВ-Петербург, 2009. - 512 с.

2. Интеллектуальный анализ данных в распределенных системах / М. С. Куприянов [и др.] - СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2012. - 110 с.

3. Amol G., Prabhanjan К., Edwin P., Ramakrishnan К. NIMBLE: A Toolkit for the Implementation of Parallel Data Mining and Machine Learning Algorithms on MapReduce. Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD'll), San Diego, California, USA, August 21-24, 2011. P. 334-342.

4. Talia D. Parallelism in Knowledge Discovery Techniques. In Proceedings of the 6th International Conference on Applied Parallel Computing Advanced Scientific Computing. London, UK. Springer-Verlag. 2002. pp. 127-138.

5. Mehta M., Agrawal R., Rissanen J. SLIQ: A fast scalable classifier for data mining. In: Proc. of the Fifth Intl Conference on Extending Database Technology (EDBT), Avignon, France. 1996.

6. Shafer J., Agrawal R., Mehta M. SPRINT: A scalable parallel classifier for data mining. In: 22nd VLDB Conference. 1996.

7. Joshi M., Karypis G., Kumar V. ScalParC: A New Scalable and Efficient Parallel Classification Algorithm for Mining Large Datasets. In: Intl. Parallel Processing Symposium. 1998.

8. Kumar V., Grama A., Gupta A., Karypis G. Introduction to Parallel Computing: Algorithm Design and Analysis. Benjamin-Cummings/Addison Wesley, Redwood City, CA. 1994.

9. Chattratichat J., Darlington J., Ghanem M., et al. Large scale data mining: Challenges and responses / In 3rd Intl. Conf. on Knowledge Discovery and Data mining. 1997.

10. Geller J., Kitano H., Suttner C. Parallel Processing for Artificial Intelligence 3. Elsevier-Science. 1997.

11. Zaki M.J., Ho C.T., Agrawal R. Parallel classification for data mining on shared memory multiprocessors. In: 15th IEEE Intl. Conf. on Data Engineering. 1999.

12. Amado N., Gama J., Silva F. Exploiting Parallelism in Decision Tree Induction. In Parallel and Distributed computing for Machine Learning. Cavtat-Dubrovnik, Croatia. 2003.

13. Andrade H., Kurc T., Saltz J., Sussman A. Decision Tree Construction for Data mining on Clusters of Shared Memory Multiprocessors. In 6th International Workshop on High Performance Data mining: Pervasive and Data Stream Mining (HPDM: PDS'03). San Francisco, CA. 2003.

14. Caragea D. Learning Classifiers from Distributed, Semantically Heterogeneous, Autonomous Data Sources. PhD thesis, Iowa State University. 2004.

15. Williams G. J. Inducing and Combining Decision Structures for Expert Systems. PhD thesis, The Australian National University. 1990.

16. Provost F. J., Hennessy D. N. Scaling up: Distributed machine learning with cooperation. In Thirteenth National Conference on Artificial Intelligence (AAAI-96). 1996. P. 74-79.

17. Hall O. L., Chawla N., Bowyer W. K. Learning rules from distributed data. In Workshop on Large - Scale Parallel KDD Systems (KDD99). Also in RPI, CS Dep. Tech. Report 99-8. 1999. P. 77-83.

18. Chan P., Stolfo S. Experiments on multistrategy learning by meta-learning. In Proceeding of the second international conference on information knowledge management. 1993. P. 314-323.

19. Chan P., Stolfo S. Toward scalable learning with non-uniform class and cost distribution: A case study in credit card fraud detection. In Proceeding of the fourth international conference on knowledge discovery and data mining. AAAI Press. 1998.

20. Chan P., Stolfo S. Toward parallel and distributed learning by meta-learning. In Working notes AAAI work knowledge discovery in database. 1993. P. 227-240.

21. Ranka S., Sahni S. Clustering on a Hypercube Multicomputer. IEEE Transactions on Parallel and Distributed Systems, 2(2). 1991. P. 129-137.

22. Li X., Fang Z. Parallel clustering algorithms. Parallel Computing 11(3). 1989. P. 275-290.

23. Judd D., McKinley P., Jain A. Large-scale parallel data clustering. In: Intl Conf. Pattern Recognition. 1996.

24. Goil S. H. N., Choudhary A. MAFIA: Efficient and scalable subspace clustering for very large data sets. Technical Report 9906-010, Center for Parallel and Distributed Computing, Northwestern University. 1999.

25. Dhillon I., Modha D. A Data-clustering Algorithm on Distributed Memory Multiprocessors. In Proceedings of the KDD'99 Workshop on High Performance Knowledge Discovery. 1999. P. 245-260.

26. Johnson E. , Kargupta H. Collective, Hierarchical Clustering From Distributed, Heterogeneous Data. In Large-Scale Parallel KDD Systems. Lecture Notes in Computer Science, vol. 1759. Springer-Verlag 1999. P. 221-244.

27. Li T., Zhu S., Ogihara M. Algorithms for Clustering High Dimensional and Distributed Data. Intelligent Data Analysis Journal, 7(4). 2003.

28. Kargupta H., Hamzaoglu I., Stafford B. Scalable, distributed data mining using an agent based architecture. In Proceedings the Third International Conference on the Knowledge Discovery and Data mining, AAAI Press, Menlo Park, California. AAAI Press, 1997. P. 211-214.

29. Samatova N. F., Ostrouchov G., A1 Geist, Melechko A. V. Rachet: An efficient cover-based merging of clustering hierarchies from distributed datasets. Distrib. Parallel Databases, 11(2). 2002. P. 157-180.

30. Johnson E. L, Kargupta H. Collective, hierarchical clustering from distributed, heterogeneous data. Workshop on Large-Scale Parallel KDD Systems, SIGKDD. Springer-Verlag. London. 2000. P. 221-244.

31. Kargupta H., Huang W., Sivakumar K., Johnson E. Distributed clustering using collective principal component analysis. Knowl. Inf. Syst., 3(4). 2001. P. 422-448.

32. Dhillon I. S., Modha D. S. A data-clustering algorithm on distributed memory multiprocessors. Workshop on Large-Scale Parallel KDD Systems, SIGKDD. SpringerVerlag. London. 2000. P. 245-260.

33. Zhang B., Meichun Hsu, Forman G. Accurate recasting of parameter estimation algorithms using sufficient statistics for efficient parallel speed-up: Demonstrated for center-based data clustering algorithms. In PKDD '00. Springer-Verlag. London. 2000. P. 243-254.

34. Januzaj E., Kriegel H.-P., Pfeifle M. Dbdc: Density based distributed clustering. EDBT. Vol. 2992 of Lecture Notes in Computer Science. Springer. 2004. P. 88-105.

35. Xu Xiaowei, Jager J., Kriegel H.P. A fast parallel clustering algorithm for large spatial databases. Data Min. Knowl. Discov. 3(3). 1999. P. 263-290.

36. Klusch M., Lodi S., Moro G. Agent-based distributed data mining: The KDEC scheme. Intelligent Information Agents: The KDEC Scheme. The AgentLink Perspective. Vol. 2586 of Lecture Notes in Computer Science. Springer. 2003.

37. Klusch M., Lodi S., Moro G. Distributed clustering based on sampling local density estimates. In Proc. International Joint Conference on Artificial Intelligence (IJCAI), Acapulco, Mexico, 2003.

° 38. C. da Silva J., Giannella C., Bhargava R., Kargupta H., Klusch. Distributed data mining and agents. Engineering Applications of Artificial Intelligence, 18. 2005. P. 791-807.

39. Strehl A., Ghosh J. Cluster ensembles - a knowledge reuse framework for combining multiple partitions. Mach. Learn. Res., 3. 2003. P. 583-617.

40. Fred A.L.N, Jain A.K. Data clustering using evidence accumulation. Pattern Recognition proceedings 16th International Conference. Vol.4. Springer-Verlag. London. 2002. P. 443-452.

41. Nicoloyannis J., Nicoloyannis N. A method for aggregating partitions, applications in k.d.d. PAKDD, Vol. 2637 of Lecture Notes in Computer Science. Springer. 2003. P. 411-422.

42. Merugu S., Ghosh J. Privacy-preserving distributed clustering using generative models. InlCDM. IEEE Computer Society. 2003. P. 211-218.

43. Vaidya J., Clifton C. Privacy-preserving k-means clustering over vertically partitioned data. KDD. ACM. 2003. P. 206-215.

44. Deb D., Angryk R. A. Distributed document clustering using word-clusters. Computational Intelligenceand Data mining. CIDM 2007. IEEE Symposium. 2007. P. 376-383.

45. Hammouda K. M., Kamel M. S. Hp2pc: Scalable hierarchically-distributed peer-to-peer clustering. In SDM. SIAM. 2007.

46. Datta S., Giannella C., Kargupta H. K-means clustering over a large, dynamic network. SDM. SIAM. 2006.

47. Hammouda K. M., Kamel M. S. Distributed collaborative web document clustering using cluster keyphrase summaries. Information Fusion, 9(4). 2008. P 465 -480.

48. Hammouda K. M. , Kamel M. S. Collaborative document clustering. SDM. SIAM. 2006.

49. Kashef R. Cooperative Clustering Model and Its Applications. PhD thesis, University of Waterloo, Department of Electrical and Computer Enginnering, 2008.

50. Agrawal R., Shafer J. C. Parallel mining of association rules. IEEE Trans, on Knowledge and Data Engineering, 8(6). 1996. P. 962-969.

51. Han E.H., Karypis G., Kumar V. Scalable parallel data mining for association rules. IEEE Trans, on Knowledge and Data Engineering, 12(3). 2000. P. 337-352.

52. Zaki M. J., Ogihara M., Parthasarathy S., Wei L. Parallel data mining for association rules on shared-memory multi-processors. In Proc. of the ACM/IEEE Conf. on Supercomputing. 1996.

53. Zaki M. J., Parthasarathy S., Wei L. A localized algorithm for parallel association mining. In Proc. of the 9th ACM Symposium on Parallel Algorithms and Architectures. 1997. P. 321-330.

54. Zaki M. J., Ogihara M., Parthasarathy S., Wei L. Parallel algorithms for discovery of association rules. Data mining and Knowledge Discovery. An International Journal, special issue on Scalable High-Performance Computing for KDD, 1(4). 1997. P. 343-373.

55. Zaiane 0. R., El-Hajj M., Lu R Fast parallel association rule mining without candidacy generation. In Proc. of the IEEE Int'l Conf. on Data mining. 2001.

56. Pramudiono I., Kitsuregawa M. Tree structure based parallel frequent pattern mining on PC cluster. In Proc. of the 14th Int'l Conf. on Database and Expert Systems Applications. 2003. P. 537-547.

57. A. Mueller. Fast Sequential and ParallelAlgorithms for Association Rule Mining: A Comparison, Tech. Report CS-TR-3515, Univ. of Maryland, College Park, Md. 1995.

58. Park J.S., Chen M., Yu P.S. Efficient Parallel Data mining for Association Rules. Proc. ACM Intl Conf. Information and Knowledge Management. ACM Press, New York. 1995. P. 31-36.

59. Shintani T., Kitsuregawa M. Hash Based Parallel Algorithms for Mining Association Rules. Proc. 4th Int'l Conf. Parallel and Distributed Information Systems. IEEE Computer Soc. Press. Los Alamitos.Calif. 1996. P. 19-30.

60. D. Cheung et al. A Fast Distributed Algorithm for Mining Association Rules. Proc. 4th Intl Conf. Parallel and Distributed Information Systems. IEEE Computer Soc. Press. Los Alamitos. Calif. 1996. P. 31-42.

61. Cheung D., Hu K., Xia S. Asynchronous Parallel Algorithm for Mining Association Rules on Shared-Memory Multiprocessors. Proc. 10th ACM Symp. Parallel Algorithms and Architectures. ACM Press. New York. 1998. P. 279-288.

62. Стариченко, Б. E. Теоретические основы информатики: Учебное пособие для вузов / Б. Е. Стариченко - 2-е изд. перераб. и доп. - М.: Горячая линия - Телеком, 2003.-312 с.

63. Столяров JI.H., Абрамов В.М. Начала информатики. От задачи к программе / JI.H. Столяров, В.М. Абрамов - М.: Изд-во МАКЕТ, 2007. - 120 с.

64. Карпов В. Е. Введение в распараллеливание алгоритмов и программ / В. Е. Карпов // Компьютерные исследования и моделирование. - 2010, - Т. 2, № 3, -С. 231-272.

65. Сайт центра перспективных исследований СПбГПУ [Электронный ресурс] - Режим доступа: http://www.spbcas.rU/cfd/techn/Parallel.htm#ch2, свободный. - Загл. с экрана.

66. Шветха, Д. Методика разработки и оптимизации параллельных приложений [Электронный ресурс] / Д. Шветха, О. Джон // Сайт компании Intel. - Режим доступа: http://software.intel.com/rii-ru/articles/best-practlces-for-developing-and-optimizing-threaded-applications-part-1, свободный. - Загл. с экрана.

67. Холод, И.И. Унифицированная модель Data Mining / И.И. Холод // Сборник докладов XV Международной конференции по мягким вычислениям и измерениям SCM^On, Санкт-Петербург, 25-27 июня, 2012 г. - Санкт-Петербург, 2012. -Том 1,-С. 237-240.

68. Холод, И.И. Параллелизация алгоритма Naïve Bayes на основе блочной структуры / И.И. Холод, З.А. Каршиев // Сборник докладов XV Международной конференции по мягким вычислениям и измерениям SCM'2012, Санкт-Петербург, 25-27 июня, 2012 г.-Санкт-Петербург, 2012.-Том 1,-С. 182-185.

69. Интеллектуальный анализ распределенных данных на базе облачных вычислений / М.С. Куприянов [ и др.] - СПб.: Изд-во СПбГЭТУ "ЛЭТИ", 2011. -148 с.

70. Куприянов, М.С. Формальная модель выполнения алгоритмов интеллектуального анализа / М.С. Куприянов, З.А. Каршиев // Известия СПбГЭТУ «ЛЭТИ». - Санкт-Петербург 2012 г. - № 9,, - С. 60-68.

71. Каршиев З.А. Обзор параллельных алгоритмов построения деревьев решений / З.А. Каршиев // Известия СПбГЭТУ «ЛЭТИ». - Санкт-Петербург , 2011.-№9,-С. 43-48.

72. Холод, И.И. Методика распараллеливания алгоритмов интеллектуального анализа данных / И.И. Холод, З.А. Каршиев // Известия СПбГЭТУ «ЛЭТИ». -Санкт-Петербург - 2013. - № 3, - С. 38-45.

73. Каршиев, 3. А. Оценка ускорения и эффективности параллельного выполнения алгоритмов интеллектуального анализа данных / 3. А. Каршиев, И. А. Голубев,

К. А. Прохоренко // Известия СПбГЭТУ «ЛЭТИ». - Санкт-Петербург - 2012. - № 10, -С. 46-52.

74. Каршиев, З.А. Анализ распределенных данных: обзор методов объединение моделей / З.А. Каршиев, И.И. Холод // Сборник докладов XIV Международной конференции по мягким вычислениям и измерениям SCM"2011, Санкт-Петербург, 23-25 июня, 2011 г. - Санкт-Петербург, 2011. - Том 1, - С. 163-166.

75. Холод И.И., Каршиев З.А., Школьный P.E. Виды распределения данных и возможности их интеллектуального анализа / И.И. Холод, З.А. Каршиев, P.E. Школьный // Сборник докладов XIV Международной конференции по мягким вычислениям и измерениям SCM'2011, Санкт-Петербург, 23-25 июня, 2011 г. -Санкт-Петербург 2011. - Том 1, - С. 255-258.

76. Холод И.И., Каршиев З.А. Блоковая структура выполнения алгоритма классификации Naïve Bayes. № 2012660852, Федеральная служба по интеллектуальной собственности. Зарегистрировано в Реестре программ для ЭВМ 29 ноября 2012 г.

77. PMML Specification.: Data Mining Group. - Режим доступа: http://www.dmg.org/pmml-v4-0-1 .html, свободный. - Загл. с экрана.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.