Исследование и разработка методов извлечения знаний для создания интеллектуальных систем поддержки принятия решений тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Айман Мохамед Мофтах Кхамес Йоунес Бериша
- Специальность ВАК РФ05.13.11
- Количество страниц 218
Оглавление диссертации кандидат технических наук Айман Мохамед Мофтах Кхамес Йоунес Бериша
ВВЕДЕНИЕ.
ГЛАВА 1 Обзор систем обнаружения знаний и систем извлечения знаний.
1.1 Системы поддержки принятия решений.
1.2 Нерешенные проблемы баз данных.
1.3 Процесс обнаружения знаний.
1.4 Задачи обнаружения знаний.
1.5 методология обнаружения знаний.
1.6 Сравнение аналитических систем различного типа.
1.6.1 Предметно - ориентированные аналитические системы (технический анализ)
1.6.2 Статистические пакеты.
1.6.3 Нейронные сети.
1.6.4 CBR (системы рассуждения на основе аналогичных случаев).
1.6.5 Деревья решений.
1.6.6 Генетические алгоритмы.
1.6.7 Нелинейные регрессионные методы (методы группового учёта атрибутов).
1.7 Описание дерева решений.
1.8 Основные алгоритмы, использующие деревья решений.
1.8.1 Алгоритм ID3.
1.8.2 Определения.:.
1.8.3 Использование критерия прироста информативности Gain Ratio.
1.8.4 Алгоритм С4.5.
1.9 Методы сокращения решающих деревьев.
1.9.1 Сокращение, уменьшающее ошибки (Reduced Error Pruning).
1.9.2 Сокращение по пессимистической ошибке (Pessimistic Error Pruning ).
1.9.3 Сокращение по минимальной ошибке (Minimum Error Pruning).
1.9.4 Сокращение по критическому значению (Critical Error Pruning).
1.9.5 Сокращение, основанное на ошибках (Error-Based Pruning).
1.10 Выводы по главе 1.
Глава 2 Индуктивное построение понятий при "зашумлённых" данных.
2.1 Признаковое описание объекта.
2.2 Проблемы, возникающие при работе с "зашумлёнными" данными.
2.2.1 Ограниченная информация.
2.2.2 Искажённая информация.
2.2.3 Большой размер баз данных.
2.2.4 Изменение баз данных со временем.
2.3 Проблема моделирования шума в данных.
2.3.1 Внесение шума в поле признака, содержащего дискретные значения.
2.3.2 Внесение шума в поле признака, содержащего непрерывные значения.
2.4 Анализ распределения значений для непрерывных признаков.
2.4.1 Оценка математического ожидания, дисперсии, функции распределения и плотности.
2.4.2 Распределения, отличные от равномерных.
2.5 Моделирование шума в обучающей выборке.
2.6 Выводы по главе 2.
Глава 3 Методы построения деревьев решений при наличии шума во входных данных.
3.1 Постановка задачи индуктивного построения понятий при отсутствии шума и при наличии шума.
3.2 Алгоритм предсказания неизвестных значений по методу ближайшего соседа
3.3 Использование алгоритма восстановления неизвестных значений при построении дерева решений.
3.4 Описание работы алгоритмов ID3 и С4.5 в сочетании с алгоритмами восстановления.
3.5 Описание метода сокращения решающих деревьев.
3.6 Выводы по главе 3.
Глава 4 Программная реализация разработанного метода.
4.1 Основные функции, выполняемые программой.
4.2 Структура программного комплекса.
4.3 Описание программы.
4.4 Эксперименты на тестовых данных.
4.4.1 Эксперименты на данных "задач монахов".
4.4.2 Медицинские данные.
4.4.3 Данные проекта StatLog.
4.4.4 Другие наборы данных.
4.5 Методы проверки.
4.5.1 Перекрестная проверка.
4.5.2 Проверка исключением одного примера.
4.5.3 Метод бутстрепа.
4.6 Методика проведения эксперимента по работе алгоритма IDTUV.
4.7 Выводы по главе 4.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Исследование и разработка алгоритмов обобщения на основе теории приближенных множеств2004 год, кандидат технических наук Куликов, Алексей Владимирович
Разработка и исследование модели знакового представления данных в задачах распознавания образов2010 год, кандидат технических наук Гончаров, Александр Владимирович
Математическое обеспечение многоуровневых систем распознавания сигнальной информации в условиях априорной неопределенности2000 год, доктор технических наук Геппенер, Владимир Владимирович
Алгоритмы автоматизированного поиска признаковых пространств на основе характерных последовательностей в цифровых сигналах2009 год, кандидат технических наук Горшков, Алексей Павлович
Разработка методов и алгоритмов построения деревьев решений для систем управления на железнодорожном транспорте2001 год, кандидат технических наук Панасов, Виктор Леонидович
Введение диссертации (часть автореферата) на тему «Исследование и разработка методов извлечения знаний для создания интеллектуальных систем поддержки принятия решений»
Актуальность темы исследований. Обнаружение знаний в базах данных является стремительно увеличивающейся областью, развитие которой подстегивается большим интересом к настоятельным практическим, социальным и экономическим нуждам. Бурное развитие методов электронного сопровождения данных позволяет назвать настоящее время "информационной эрой" — эрой мощных систем баз данных, предназначенных для сбора и сопровождения информации, такие системы используются сейчас фактически во всех больших и средних компаниях. Каждый год все больше различных операций фиксируются на компьютере, включая данные о самих операциях, их действии и выполнении. Все такие данные содержат ценную информацию, которая могла бы использоваться в целях улучшения деловых решений и достижения успеха в различных экономических и научных сферах.
Современные базы данных содержат так много данных, что практически невозможно вручную проанализировать их для извлечения ценной информации, помогающей принимать важные решения. Во многих случаях описание поведения сложных систем содержит сотни независимых атрибутов, которые необходимо анализировать, чтобы наиболее точно смоделировать поведение системы. Отсюда следует, что люди нуждаются в помощи интеллектуальных систем для повышения своих аналитических возможностей.
Настоящая диссертационная работа посвящена созданию алгоритмических и программных средств для поиска индуктивных закономерностей, неявно представленных в базах данных. Такой процесс, называемый обобщением, направлен на получение правил классификации, с помощью которых можно успешно распознавать объекты определенного класса. Над разработкой алгоритмов обобщения работали многие авторы, созданием подобных алгоритмов занимались известные ученые Р. Куинлан, Утгофф, Нуньес, Михальский, Финн, Вагин и другие. Созданные ими методы и алгоритмы внесли большой вклад в развитие систем машинного обучения; эти методы позволяют получать средства для эффективной классификации объектов, представленных множествами признаков. Однако, обработка реальных массивов, представленных в базах данных, которые часто содержат зашумленные и противоречивые данные, характеризуются большим размером и наличием избыточного множества признаков. Это снижает успешность применения этих алгоритмов. С другой стороны, массивы данных, содержащие шум, встречаются в целом ряде реальных ситуаций и задач. Для решения проблемы обработки данных, содержащих шум, необходимо было изучить модели шума, предложить способы поиска неизвестных или искаженных значений некоторых признаков, что должно повысить эффективность классических методов обобщения. Таким образом, исследование методов обобщения при наличии шума в массивах данных является актуальной задачей.
Цель работы заключается в разработке алгоритмов обобщения данных, способных давать удовлетворительные результаты не только на "чистых" обучающих множествах, но и на обучающих выборках, содержащих шум.
Поставленная задача потребовала решения следующих проблем:
1. Разработка моделей представления шума в обучающих множествах. При этом было проведено исследование моделей шума двух типов -отсутствие значений признака и искажение значений признака.
2. Разработка алгоритмов восстановления отсутствующих значений в обучающем множестве на основе метода "ближайшего соседа". Использование методов восстановления на этапе построения дерева решений и на этапе классификации тестовых примеров.
3. Моделирование средств для внесения шума в обучающую выборку на основе заданных параметров шума.
4. Разработка и программная реализация системы обобщения для работы с зашумленными данными на основе созданной модификации алгоритма построения дерева решений.
Методика проведения исследований. Для достижения целей работы были использованы следующие методы исследования: методы математической логики и дискретной математики, математической статистики, машинного обучения, методы анализа математической сложности алгоритмов.
Достоверность научных результатов подтверждена теоретическими выкладками, данными компьютерного моделирования, результатами экспериментов, а также сравнением полученных результатов с результатами, приведенными в научной литературе.
Научная новизна исследования.
Дан обзор аналитических систем различного типа, решающих проблему извлечения скрытых закономерностей из больших массивов данных. Обоснован выбор решающих деревьев в качестве основного алгоритмического подхода для построения эффективной системы обобщения данных.
Созданы модели шума в множестве объектов, имеющих признаковое описание, для случая отсутствия значения признака и искажения значения признака.
Введено понятие информационной системы по заданному классу, которая хранит сведения о свойствах информативных признаков объектов обучающей выборки.
Введена метрика, позволяющая определять расстояние между объектами, представленными в виде набора признаков.
На основании введенной метрики разработаны алгоритмы восстановления неизвестных значений признаков в обучающей выборке на этапе построения дерева решений и на этапе выполнения классификации.
Разработан эффективный алгоритм обобщения и классификации объектов, представленных в обучающих выборках с шумом.
Практическая значимость. Результаты диссертационной работы отражены в созданной программной системе, выполняющей обобщение понятий на основе обучающих выборок с шумом. В данной системе реализованы предложенные автором алгоритмы восстановления неизвестных значений, дискретизации непрерывных признаков, классификации примеров с шумом на полученном дереве решений.
Практическая значимость работы подтверждается внедрением полученных результатов в динамической экспертной системе оперативной диагностики состояния экологически опасных объектов и производств "ДИЭКС" в ОАО "ЦНИИКА". Имеется акт о внедрении.
Апробация работы. Основные положения и научные результаты диссертации докладывались на трех научно-технических конференциях МЭИ (ТУ) (2003, 2004, 2005 гг.), на международных форумах информатизации МФИ-2003, МФИ-2004 и МФИ-2005 (Международные конференции «Информационные средства и технологии» , г. Москва, 2003, 2004, 2005 гг.).
Публикации. Материалы по теме диссертационной работы опубликованы в 6 печатных работах.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы, приложений.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Выбор оптимальной сложности класса логических решающих функций в задачах анализа разнотипных данных2006 год, доктор технических наук Бериков, Владимир Борисович
Метод минимизации эмпирического риска при индуктивном построении баз знаний2006 год, кандидат технических наук Чистяков, Сергей Павлович
Многомерные статистические методы диагностики аномальных состояний ЯЭУ2011 год, доктор технических наук Скоморохов, Александр Олегович
Автоматизированная система диагностики новообразований головного мозга по магнитно-резонансным изображениям2010 год, кандидат технических наук Кирсанова, Анна Владиславна
Влияние устойчивости алгоритмов классификации на точность их работы2006 год, кандидат физико-математических наук Ветров, Дмитрий Петрович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Айман Мохамед Мофтах Кхамес Йоунес Бериша
4.7 Выводы по главе 4
В данной главе:
1. Была рассмотрена программная реализация системы на основе разработанной модификации алгоритма обобщения IDTUV, приведенной в главе 3. Система формирует обобщенное правило в виде дерева решений, а также производит распознавание тестовых объектов.
2. Были описаны структура, основные функции реализованного программного комплекса, а также его главные возможности, представлено описание пользовательского интерфейса, приведены примеры работы программы.
3. Были описаны проведенные эксперименты на тестовых наборах данных, в том числе на известной тестовой коллекции данных Калифорнийского университета информатики и вычислительной техники UCI Machine Learning Repository ([64]).
4. Было показано, что обобщение и классификация могут проводиться на неполной информации об объектах, что может выражаться в отсутствии ряда значений атрибутов для части объектов. При этом наиболее сложным случаем является наличие шума в наиболее информативном признаке.
5. Эксперимент был проведен для модели шума "отсутствие значения признака" и "перемешивание значений признака". В обоих случаях алгоритм IDTUV показал точность классификации более высокую, чем алгоритмы ID3 и С4.5. Средняя точность классификации для модели шума "отсутствие значений" оказалась выше, чем для модели "перемешивание", что свидетельствует о высокой эффективности алгоритма ВОССТАНОВЛЕНИЕ.
ЗАКЛЮЧЕНИЕ
Перечислим основные результаты, полученные автором в процессе работы над диссертацией.
1. Проведён анализ методов и средств организации систем поддержки принятия решений и систем обнаружения знаний в базах данных. Выделены основные этапы процесса обнаружения знаний в базах данных. Показано место и роль этапа анализа данных (Data mining) как этапа формирования индуктивных понятий в общем процессе обнаружения знаний.
2. Рассмотрены основные задачи, которые решаются на этапе анализа данных, выделены основные группы методов решения задач анализа данных: статистические методы, вывод, основанный на прецедентах, нейронные сети, деревья решений, индуктивные правила, байесовские доверительные сети, генетические алгоритмы, нечеткие множества, приближенные множества. На основе анализа этих методов обоснован выбор деревьев решений как способа построения обобщенных понятий.
3. Проанализированы сложности, которые возникают при использовании таблиц баз данных в качестве обучающего множества. Показано, что одной из таких проблем является наличие шума.
4. Рассмотрены модели шума в таблицах баз данных, следствием которых является отсутствие значения признака, либо искажение значения признака в обучающей выборке. Предложены алгоритмы внесения шума на этапе построения дерева решений и на этапе классификации тестовых примеров.
5. Для случая обучения при неполной информации введено понятие информационной системы по заданному классу, которая хранит сведения о свойствах информативных признаков объектов предъявленной обучающей выборки.
Введена метрика, позволяющая определять расстояние между объектами, содержащими неизвестные значения признаков. На основании этой метрики разработаны алгоритмы восстановления, позволяющие определить предполагаемое значение неизвестного признака методом "ближайшего соседа".
6. Предложен алгоритм IDTUV, позволяющий обрабатывать обучающие выборки, содержащие примеры с неизвестными или искажёнными значениями, на основе использования алгоритмов ID3 и С4.5 в сочетании с алгоритмами восстановления.
7. Разработана и программно реализована система построения обобщенных понятий в виде дерева решений, которая использует полученные теоретические результаты и создана на основе предложенных алгоритмов.
8. Полученные результаты моделирования показали, что алгоритм IDTUV в сочетании с алгоритмами восстановления позволяет повысить точность классификации примеров с отсутствующими значениями признаков в 3 - 4 раза по сравнению с классическими алгоритмами ID3 и С4.5.
Разработанные алгоритмы и программные средства применены в динамической экспертной системе оперативной диагностики состояния экологически опасных объектов и производств «ДИЭКС» в ОАО «ЦНИИКА», что позволило повысить точность технической диагностики оборудования сложных промышленных объектов благодаря возможности обработки зашумленных данных.
129
Список литературы диссертационного исследования кандидат технических наук Айман Мохамед Мофтах Кхамес Йоунес Бериша, 2005 год
1. Вагин В. Н. Дедукция и обобщение в системах принятия решений. М.: Наука, 1988 384 с.
2. Alter, S.L. Decision Support Systems: Current Practice and Continuing Challenge.Addison-Wesley. 1980.
3. Вагин B.H., Загорянская A.A. Извлечение данных как наиболее важное приложение технологии информационных хранилищ. //Программные продукты и системы, 1, 2000. с.2-11.
4. Codd E.F. Providing OLAP (On-line Analytical Processing) to User-Analysts: An IT Mandate. Codd and Associates, 1993.
5. Вагин B.H. и др. Достоверный и правдоподобный вывод в интеллектуальных систеамх. -М.: ФИЗМАТЛИТ, 2004. -704 с.
6. Goil, Sanjay and Choudhary, Alok. Design and Implementation of a
7. Scalable Parallel System for Multidimensional Analysis and OLAP.13th International and 10th .i
8. Свинарев С. Десять требований Red Brick System. Комьютеруик-МОСКВА, 2, 1996. c.45.
9. Lu, J., Quaddus, M.A. and Williams, R. Developing a Knowledge-Based Multi-Objective Decision Support System. System Sciences. Proceedings of the 33rd Annual Hawaii International Conference 2000.
10. Fayyad,U., Data mining and knowledge Discovery: Making Sense Out of Data. IEEE Expert, v.l 1, no.5 PP. 20-25 October 1996.
11. Fayyad U., Piatetsky-Shapiro, Smith P. From Data mining to Knowledge Discovery: an Overview. In Advances in Knowledge Discovery and Data Mining. AAAI Press/The MIT Press., Cambridge, Mass., 1996. p 1-36.
12. Brands, Estelle and Gerritsen, Rob. Assocation and Sequencing. DBMS, Data Mining Solutions Supplement. Miller Freeman, Inc. 1998.
13. Silverman B. Density Estimation for Statistics and Data Analysis. New York:1. Chaptman and Hall.
14. Quinlan J.R. Discovery rules from large collections of examples: a Case Study // Expert Systems in the Microelectronic Ahe. Edinburg, 1979.
15. Гаврилова Т.А., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992, 199 с.
16. Д. Уотермен, Нейрокомпьютерная техника, М.: Радио и связь, 1993-е. 21-63.
17. Quinlan J.R. Induction of Decision Trees// Machine Learning, Vol.1, 1986. p. 81-106.
18. Quinlan J.R. Improved Use of Continuous Attributes in С 4.5. //Journal of Artifical Intelligence Reseach, Vol. 4, 1996. pp.77-90.
19. Utgoff P.E. Incremental induction of Decision Trees.// Machine Learning, Vol.4, 1989. pp. 161-186.
20. Nunez M. The Use of Background Knowledge in Decision Tree Induction.// Machine Learning, Vol. 6, 1991. pp.231-250.
21. A. Hutchinson. Algorithmic Learning, Clarendon Press, Oxford, 1994.
22. Heckerman D. Bayesian Networks for Knowledge Discovery. In Advances in Knowledge Discovery and Data Mining. AAAI Press/The MIT Press., Cambridge, Mass., 1996. p 273-306.
23. Heckerman D. Bayesian Networks for Data Mining. In Data mining and Knowledge Discovery. 1, 1997, p79-119.
24. Гладун В.П. Планирование решений. Киев: Наукова Думка, 1990. 168 с.
25. Нечёткие множества в моделях управления и искусственного интеллекта/под ред. Поспелова Д.А. -М.: Наука, 1986.-312 с.
26. Ни X. Knowledge Discovery in Databases: Attribute-Oriented Rough Set Approach. PhD thesis, Canada, Regina, University of Regina, 1995.
27. Michael Goebel and Le Gruenwald, "A survey of data mining and knowledge discovery software tools", ACM SIGKDD, Vol.1, Issue 1, Page20, June 1999.
28. Komorowski J., Pawlak Z., Polkowski L., Skowron A. Rough Sets: A Tutorial. / Rough Fuzzy Hybridization, Springer-Verlag, 1999.
29. Pawlak Z. Rough sets and intelligent data analysis / Information Sciences, Elsevier Science, Nov. 2002, vol. 147, iss. 1, pp. 1-12.
30. Буров К. Обнаружение знаний в хранилищах данных. Открытые системы № 05-06, 1999.
31. Мусаев А. Интеллектуальный анализ данных: Клондайк или Вавилон? //
32. Банковские технологии, 1998, ноябрь-декабрь. С. 79-82.
33. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе ифинансах. — Открытые системы, № 4, 1997. С.41-44.
34. Quinlan J.R., Improved use of continuos of function in C4.5.
35. Journal of Artificial Intelligence Research, vol. 4, pp. 77-90, 1996.
36. Holsheimer M., Siebes A. Data mining: the search for knowledge in databases. / Technical Report CS-R9406, CWI, 1994.-78 p.
37. Айман Бериша. Алгоритмы обобщения в интеллектуальных системах // Радиоэлектроника, электротехника и энергетика. Тез. докл. девятой междунар. науч.-техн. конф. студентов и аспирантов. В 3-х т. — Т.1. -М.: Изд. МЭИ, 2003.-С. 283 284.
38. Salvatore Ruggieri. Efficient С4.5, IEEE TRANSACTIONS AND DATA ENGINEERING. Vol. 14, No. 2, March / April 2002.
39. Айман Бериша. Примененение алгоритмов обобщения в системах принятия решений // Международный форум информатизации — 2003: Труды международной конференции «Информационные средства и технологии». В 3-х т. Т.1 - М.: Янус-К, 2003. С. 143 - 146.
40. Mingers J. An Empirical comparison of pruning methods fordecision tree induction. Machine Learning , Vol. 4, pp. 227-243, 1989.
41. Quinlan J. R. Simplifying Decision Trees. Int'l J. Man- Machine Studies, Vol 27, pp. 221-234. 1987.
42. Floriana Esposito, Donato Malerba, Giovanni Semeraro, IEEE, Acomparative analysis of methods for pruning decision tree, TRANSACTIONS ON PATTERN ANALYSIS & Machine Intelligence, vol. 19, No. 5, May 1997.
43. Niblett Т., Bratko I. Learning decision rules in noisy domains. Proceedings of Expert Systems 86. Cambridge University Press: Cambridge, 1986.
44. Vagin V.N., Fedotov A. A., Fomina M.V. Methods of Data Mining and Knowledge Generalization in Large Databases. Journal of Computer and Systems Sciences International, Vol.38 No.5, 1999. p. 714-727.
45. Федотов A.A., Фомина M.B. Система формирования обобщенных продукционных правил на основе анализа больших баз данных. // Сборник научных трудов Шестой национальной конференции по искусственному интеллекту КИИ-98. Том 1. Пущино, Россия. 1998. с. 287-292.
46. Дюк В., Самойленко A. Data Mining. -СПб: Питер, 2001. -368 с.
47. Kalapanidas Е., Avouris N., Craciun М., Neagu D. Machine Learning algoritms: a Study on Noise Serntivity.
48. Айвазян C.A., Бухштабер B.M., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. —М.: Финансы и статистика, 1989. -128с.
49. Вентцель Е.С. Теория вероятностей. М.: Высш.шк., -576с. Физматлит, -1972 г.
50. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. -511с.
51. Бонгард М.М. Проблема узнавания М.: Наука, 1967. -320с.
52. Смородинский С.С., Батин Н.В. Алгоритмы и программные средства интеллектуальных систем принятия решений. Часть 2. -Минск: БГУИР, 1994, -68с.
53. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978.-411 с.
54. Mookerjee V., Mannino М., Gilson R. Improving the Performance Stability of Inductive Expert Systems under Input Noise // Information Systems Research, Vol.6 N4 1995, p.328-356.
55. Hill D. Interviever, Respondent and Regional Office Effects, Measurement Errors in Surveys. Chapter 23, New-York, 1991, p.463-486.
56. Rao J., Thomas R. Chi-Squared Tests with Complex Survey Data Subject to Misclassiflcation Error, Measurement Errors in Surveys. Chapter 31, New-York, 1991, p.637-664.
57. Clark P., Niblctt T. Induction in Noisy Domains. In Proc. 2nd European Machine Learning Conferencc(EWSL-87), pp.11-30.
58. Бериша A.M., Вагин B.H., Использование алгоритма построениядеревьев решений для зашумлённых данных. // Доклады международного форума информатизации МФИ, 12-14 октября 2004.-М.: МИФИ, 2004. Том 1. -С. 171- 174.
59. Dixon P. Nearest Neighbor Methods. Dep. of Statistics, Iowa State University, 2001. 25p.
60. Вагин B.H., Гулидова В.Г., Фомина M.B. Распознавание состояний сложного объекта при неполной входной информации. Изв. АН СССР. Техн. кибернетика. № 5 1992. с. 120-132.
61. Бериша A.M., Разработка алгоритмов для обобщения и классификации объектов с шумом // Доклады международного форума информатизации МФИ, 12 14 октября 2004. -М.: МИФИ, 2004. Том 1. -С. 167-170.
62. Esposito F., Malcrba D., Semeraro G., Tamma V. the Effects of Pruning Methods on the Predictive Accuracy of Induced Decision Trees. In Appl. Stochastic. Models Bus. Ind. V. 15, 1999, pp.277-299.
63. Huo X. and all. A Graph-Based Tree Pruning Algorithm and Automatic Identification of Inadmiissibility. Technical Report. The Logistic Institute, Georgia tech., The Logistic Institute Asia Pacific, National university of Singapore, 2002, 20 p.
64. Hall L.O. and all. Error-Based Pruning of Decision Trees Grown on Very Large Data Sets Can Work. Int. Conference on Tools for Art. Intell., Nov.2002, pp.233-238.
65. Windcatt Т., Ardeshir G. An empirical comparison of pruning methods for ensemble classifiers. In IDA 2001. Springer-Verlag, Lecture notes in computer science, 2001.
66. C. J. Merz and P. M. Murphy. UCI Repository of Machine Learning Datasets, 1998. Information and Computer Science University of California, Irvine, С A 92697-3425, http://www.ics.uci.edu/ mlearn/MLRepository.html.
67. R. S. Michalski, L. Mozetic, J. Hong and N. Lavrac. The
68. Multipurpose Incremental Learning System AQ15 and Its Testing Applicationto Three Medical Domains, Proceedings of 1986 AAAI Conference, Philadelphia, PA, 1986, pp. 1041-1045.
69. D. Michie, D.J. Spiegelhalter, and C.C. Taylor, Machine Learning, Neural and Statistical Classification. Ellis Horwood, Chichester, UK, 1994.
70. Weiss S., Kulikowski C. Computer System that Learn, Morgan Kaufmann, 1991.
71. Efron and R. J. Tibshirani, An Introduction to the to the bootstrap. Chapman and Hall, New York, 1993.
72. Ron Kohavi, Brian Frasca. Useful Feature Subsets and Rough Set Reducts. In proceedings of the third international workshop on rough sets and soft computing. (RSSC'94). pp. 310-317, San Jose, California, 1994.
73. F. Zarndt, A comprehensive case study: An examination of machine learning and connectionist algorithms. M.Sc. Thesis, Dept. Comput. Sci., Brigham Young Univ., Provo, UT, 1995.
74. Ресурс Интернет: http://www.salford-systems.com/cart.php.
75. R.C. Holte. Very simple classification rules perform well on most commonlyused datasets // Machine Learning, Vol. 1, pp. 63--91, 1993.t
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.