Разработка численных методов выбора контрастирующих признаков по эмпирическим данным тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Цурко, Варвара Владимировна
- Специальность ВАК РФ05.13.18
- Количество страниц 100
Оглавление диссертации кандидат наук Цурко, Варвара Владимировна
Оглавление
Введение
1 Восстановление зависимостей по эмпирическим данным
1.1 Задачи восстановления зависимостей
1.1.1 Классификация
1.1.2 Регрессия
1.1.3 Оценка плотности распределения
1.1.4 Контрастирование распределений
1.2 Методы отбора признаков
1.2.1 Определения понятия «значимый признак»
1.2.2 Классификация методов отбора значимых признаков
1.3 Обзор методов оценки среднего риска по эмпирическим данным
1.3.1 Теория Вапника-Червоненкиса
1.3.2 Оценки среднего риска по эмпирическому риску, адаптированные к данным
1.4 Основные выводы
2 Разработка метода выбора контрастирующих признаков
2.1 Средний риск
2.2 Эмпирический риск
2.3 Равномерная оценка Вапника-Червоненкиса уклонения эмпирического риска от среднего в задаче контрастирования
2.4 Оценки среднего риска, основанные на Радемахеровской сложности
2.4.1 Штраф Радемахера
2.4.2 Оценка среднего риска
2.5 Алгоритм выбора контрастирующих признаков
2.6 Основные выводы
3 Применение метода выбора контрастирующих принаков для поиска классов заболеваний, влияющих на возникновение злокачественных новообразований
3.1 Статистические данные о причинах смерти и сопутствующих заболеваниях
3.2 Применение метода контрастирования распределений при поиске связи между причинами смерти и сопутствующими заболеваниями
3.2.1 Рак органов пищеварения и брюшины
3.2.2 Рак органов дыхания и грудной клетки
3.2.3 Рак мочеполовых органов
3.3 Основные выводы
4 Применение метода выбора контрастирующих признаков для контроля производственного процесса
4.1 Выбор параметров для классификации состояний производственного процесса
4.2 Применение метода выбора контрастирующих признаков для контроля производственного
процесса
4.3 Проверка результатов применения метода выбора контрастирующих признаков
4.4 Основные выводы
Заключение
Список основных обозначений
Список литературы
Список иллюстраций
Список таблиц
Приложение
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Теоретико-групповой подход в комбинаторной теории переобучения2013 год, кандидат наук Фрей, Александр Ильич
Минимаксные оценки риска в задачах статистического обучения2017 год, кандидат наук Животовский, Никита Кириллович
Неравенства концентрации вероятностной меры в трансдуктивном обучении и РАС-Байесовском анализе2014 год, кандидат наук Толстихин, Илья Олегович
Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций2011 год, кандидат физико-математических наук Кочедыков, Денис Алексеевич
Метод минимизации эмпирического риска при индуктивном построении баз знаний2006 год, кандидат технических наук Чистяков, Сергей Павлович
Введение диссертации (часть автореферата) на тему «Разработка численных методов выбора контрастирующих признаков по эмпирическим данным»
Введение
Актуальность темы. Современное развитие экспериментальной базы научных исследований, создание сложных систем с большим числом взаимосвязанных компонент, развитие средств телекоммуникации и телеметрии привело к необходимости автоматически обрабатывать большие объёмы многомерных массивов данных и создало возможность выявлять ранее недоступные для анализа закономерности и связи.
Среди многих задач автоматизированной обработки многомерных эмпирических данных актуальна проблема выделения наиболее значимых, существенных для решаемой задачи факторов и переменных. Эта проблема важна при анализе популяционных данных с целью выявления закономерностей заболеваемости и смертности, при поиске факторов, существенных для классификации состояний производственного процесса, а также в различных задачах медицинской диагностики, анализа изображений и текстов. Исходные данные, возникающие в таких задачах, обычно характеризуются высокой размерностью. Количество признаков, например, в ; задачах распознавания текстов может достигать порядка 104 - 107, причем значимыми является лишь небольшая часть из них. Данные, получаемые в биологических экспериментах на микрочипах, характеризуются экспрессией десятков тысяч генов, причем число доступных для анализа объектов исчисляется сотнями. В такой ситуации необходимо привлечение алгоритмов машинного обучения, способных учитывать явно ненаблюдаемые закономерности между признаками. Учёт этих закономерностей может использоваться для более компактного и статистически надёжного описания данных. Кроме того, наличие таких закономерностей часто представляет самостоятельный интерес для исследователя, давая новые знания об изучаемом объекте.
Для повышения результативности анализа многомерных данных большой эффект даёт снижение их размерности через выделение лидирующих факторов и комбинаций признаков. При этом строятся модели взаимного влияния
признаков друг на друга и выявляются их независимые комбинации. Однако существует круг задач, в которых такой подход малоэффективен. Например, при исследовании состояния здоровья человека масса параметров имеет качественный характер, и для выяснения взаимосвязи между ними необходимо строить сложные классификационные модели, решая задачу по сложности сопоставимую с исходной, что сильно снижает статистическую достоверность результата. Альтернативным путем является выделение совокупности признаков и факторов, которые напрямую связаны с восстановлением зависимости без построения, по сути промежуточной, модели взаимодействия признаков. В случае решения задачи классификации такой подход означает выбор признаков, распределения которых в двух классах максимально различны, без построения модели взаимодействия факторов, например, в виде системы главных компонент. В свою очередь, выделение факторов, значимых для классификации, приводит и к снижению размерности задачи поиска той зависимости между факторами, которая существенна для возникновения классов. Примером такой задачи является задача анализа заболеваний, сопутствующих возникновению рака.
Часто различие между распределениями признаков в двух классах характеризуется с помощью расстояния Кульбака-Лейблера. В работах [36], [62] предложено аппроксимировать эти распределения смесью параметризованных функций. Выбор признаков осуществляется путем максимизации расстояния Кульбака-Лейблера, опираясь только на эмпирические данные без контроля обобщающей способности при использовании этих признаков. В качестве обобщающей способности в данном случае служит теоретическая величина расстояния Кульбака-Лейблера, либо связанная с ним характеристика, имеющая смысл среднего риска потерь.
Проблема контроля достигнутой величины среднего риска при анализе данных хорошо изучена в машинном обучении. В задаче классификации эта величина может характеризоваться методами теории статистического обучения, оценивая вероятность ошибки построенного алгоритма на объектах, не
входящих в обучение. В.Н. Вапником и А.Я. Червоненкисом в 1970-х годах были получены неравенства для оценки вероятности ошибки классификации через ошибку на обучающей выборке с учетом сложности семейства рассматриваемых алгоритмов [3-7]. Позже эти оценки были обобщены на более широкий круг задач и улучшены путём учета свойств данных и специфики рассматриваемых задач. Среди плодотворных подходов можно выделить оценки, адаптирующиеся к данным и использующие понятие Радемахеровской сложности класса [50-53].
Применение оценок, полученных Вапником и Червоненкисом, а также оценок, адаптирующиеся к данным, позволяет построить алгоритмы поиска факторов, значимых при разделении двух классов, обладающих высокой обобщающей способностью без решения промежуточной задачи выявления зависимости между факторами.
Цель диссертационной работы. Разработка, исследование и применение метода выбора по эмпирическим данным признаков для описания состояния системы с учётом сложности полученного описания.
Методы исследования. В диссертационной работе задача выбора признаков формулируется в терминах максимизации функционала среднего риска по наборам признаков. В отличие от задачи классификации, где ищется минимальное значение среднего риска, этот подход направлен на поиск факторов и признаков, в терминах которых описания объектов в различных классах максимально различаются. Средний риск формализуется как аналог информационного расстояния между внутриклассовыми распределениями. Для оценки среднего риска по эмпирическим данным используются результаты теории статистического обучения, в частности, равномерная по классу функций оценка уклонения среднего от эмпирического риска, полученная Вапником и Червоненкисом [7], и оценки, использующие понятие Радемахеровской сложности класса [52].
Предложенный в диссертации метод выбора совокупности признаков для описания состояния системы с учётом сложности полученного описания
применён к двум практическим задачам: для выяснения связи заболеваемости раком с заболеваниями, которыми человек болел в конце жизни, и для выбора параметров для контроля производственного процесса. Основные результаты, выносимые на защиту:
1. Постановка задачи выбора признаков для описания состояния системы как задачи максимизации среднего риска.
2. Адаптация оценок равномерного уклонения среднего и эмпирического рисков, основанных на теории Вапника-Червоненкиса, и оценок, основанных на Радемахеровской сложности, для решения поставленной задачи.
3. Теорема о величине локальной Радемахеровской сложности в классе байесовских оценок гистограмм.
4. Метод выбора контрастирующих признаков.
5. Программный комплекс, реализующий предложенный алгоритм выбора контрастирующих признаков.
6. Практическое применение алгоритма выбора контрастирующих признаков для выявления связи между возникновением злокачественных новообразований и присутствующих при этом сопутствующих заболеваниях при анализе данных медицинской статистики о заболеваемости и смертности.
7. Практическое использование алгоритма выбора контрастирующих признаков для выбора параметров для контроля производственного процесса.
Научная новизна. Существенным новшеством предложенного метода является постановка задачи выбора признаков как задачи максимизации среднего риска. В отличие от работ многих авторов, не используется параметрическое представление распределений признаков в классах и не решается промежуточная задача построения модели взаимодействия факторов. Предложенный функционал среднего риска является математическим ожиданием энтропийной функции потерь. Для максимизации этого
функционала по эмпирическим данным модифицированы методы оценки среднего риска с использованием равномерных оценок уклонения среднего риска от эмпирического по классу функций (Вапник-Червоненкис) и с использованием Радемахеровской сложности, что позволяет эффективно контролировать сложность получаемого описания.
Теоретическая значимость. В диссертационной работе ставится и решается задача поиска факторов, распределения которых в двух классах максимально различны, строится функционал среднего риска, соответствующий данной задаче. В работе рассмотрены два подхода к оценке среднего риска по эмпирическим данным. В рамках первого подхода, показано, что для оценки функционала среднего риска применим результат Вапника-Червоненкиса о равномерной по классу функций сходимости средних к математическим ожиданиями, проведена необходимая модификация метода для рассматриваемой задачи. В рамках второго подхода, используются оценки, адаптированные к данным, в частности, оценки, использующие Радемахеровскую сложность, получено аналитическое выражение для величины штрафа Радемахера в классе байесовских оценок гистограмм для рассматриваемого функционала эмпирического риска.
Практическая значимость. В работе приведен пошаговый алгоритм отбора значимых факторов, описаны процедуры вычисления эмпирического риска и оценки среднего, разработан программный комплекс, реализующий предложенный алгоритм выбора контрастирующих признаков.
Решены две практические задачи. В первой задаче метод позволил выявить зависимости между заболеваниями, которые человек имел в конце свой жизни, и возникновением злокачественных новообразований. Показано, что предложенный метод устойчиво выделяет сердечно-сосудистые заболевания (ишемическая болезнь сердца, гипертония, цереброваскулярные заболевания) в качестве заболеваний, характеризующих нераковую группу, т.е. конкурирующих причин смерти, и заболевания, выступающие в роли факторов риска возникновения рака.
Во второй задаче алгоритм выбора контрастирующих признаков позволил выделить параметры, связанные с определенным состояния производственного процесса, что позволяет осуществить эффективный контроль за состоянием процесса, регистрируя малое число параметров.
Внедрение. Метод выбора контрастирующих признаков, разработанный в диссертации, успешно внедрен в практику работы компании ООО «Ай Эм Эс Хэле». Внедрение метода позволило сократить количество признаков, необходимое для достоверного разделения аптек на классы по объемам продаж.
Результаты внедрения подтверждены соответствующими актами. Область исследования. Согласно паспорту специальности 05.13.18 — «Математическое моделирование, численные методы и комплексы программ»:
- Разработка новых математических методов моделирования объектов и явлений (п. 1);
- Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента (п.4);
- Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента (п.5).
Согласно формуле специальности «содержанием специальности является разработка фундаментальных основ и применение математического моделирования, численных методов и комплексов программ для решения научных и технических, фундаментальных и прикладных проблем». Разработанный в диссертационной работе алгоритм решает фундаментальную задачу анализа данных - задачу выбора значимых признаков. Применение алгоритма к популяционным данным о заболеваемости и смертности позволяет создать математическую модель влияния сопутствующих заболеваний на заболеваемость раком. Применение алгоритма выбора контрастирующих признаков к данным о состоянии производственного процесса моделирует зависимость между параметрами и состоянием системы.
Достоверность и обоснованность результатов. Достоверность результатов обеспечивается математическими доказательствами теорем и утверждений.
Обоснованность выводов анализа популяционных данных проводилась путем сопоставления результатов с опубликованными медицинскими данными. Результаты были доложены на специализированных конференциях и опубликованы в профильных изданиях [20], [25], [72].
В задаче выделения факторов, значимых для классификации состояний производственного процесса, качество метода оценивалось по контрольной части выборки, результаты, полученные алгоритмом выбора контрастирующих признаков, сравнивались с результатами других популярных алгоритмов отбора признаков.
Апробация работы. Результаты диссертационной работы докладывались и обсуждались на следующих конференциях и научных семинарах:
1 - III Международная конференция «Математическая биология и биоинформатика», Пущино, 2010 [24];
2. XV Международная научно-практическая конференция «Пожилой больной. Качество жизни», Москва, 2010;
3. Международная конференция "14th Applied Stochastic Models and Data Analysis International Conference (ASMDA2011)", Рим, Италия, 2011 [67];
4. Международная научная школа «Моделирование и анализ безопасности и риска в сложных системах» (МАБР - 2011), Санкт-Петербург, 2011 [70];
5. Международный симпозиум "Applied Methods of Statistical Analysis. Simulations and Statistical Inference (AMSA)", Новосибирск, 2011 [71];
6. XVI Международная научно-практическая конференция «Пожилой больной. Качество жизни», Москва, 2011;
7. Международная конференция "Statistical Models and Methods for Reliability and Survival Analysis and Their Validation", Бордо, Франция, 2012 [69];
8. Научный семинар «Математическое моделирование и системная биология» под руководством д.т.н. В.Н.Новосельцева и д.ф.-м.н. А.А.Романюхи, ИПУ РАН и ИВМ РАН, Москва, 28 ноября 2012;
9. VII Международная конференция «Управление развитием крупномасштабных систем» (MLSD'2013), Москва, 2013;
10. XII Всероссийское совещание по проблемам управления (ВСПУ 2014), Москва, 2014 [23];
11. XVI Международная конференция "Artificial Intelligence: Methodology, Systems, Applications" (AIMSA 2014), Варна, Болгария, 2014 [68].
Публикации. Основные результаты диссертационной работы опубликованы в 10 работах [20], [23-25], [67-72], одна из которых является публикацией в издании из списка Scopus [68], а две являются статьями в ведущих рецензируемых научных журналах и изданиях, рекомендованных ВАК РФ [20], [25].
Личный вклад. Личный вклад диссертанта заключается в теоретическом решении задач, поставленных научным руководителем, в проведении экспериментальных исследований.
Подготовка к публикации работ [20], [23-25], [67-72] проводилась совместно с научным руководителем.
Структура и объем работы. Диссертация состоит из оглавления, введения, четырех глав, заключения, списка основных обозначений, списка литературы, списка иллюстраций, списка таблиц и приложения. Общий объем работы составляет 100 страниц. Краткое содержание работы по главам.
Первая глава диссертационной работы является обзорной, она посвящена задачам восстановления зависимостей по эмпирическим данным, которые включают в себя задачи обучения по прецедентам, отбор значимых признаков, оценку качества и обобщающей способности простроенной зависимости. В разделе 1.1 представлен обзор задач восстановления зависимостей по
эмпирическим данным. Задачи классификации, регрессионного анализа, восстановления плотностей распределений сформулированы в общем виде как частные случаи задачи восстановления функциональных зависимостей. В разделе 1.1 также приводятся основные идеи метода выбора контрастирующих признаков, разработанного в диссертации. В разделе 1.2 рассмотрена проблема отбора признаков. Приведены различные определения понятия «значимый признак», дан обзор и классификация существующих методов. В разделе 1.3 описана задача оценки качества обучения, дан обзор оценок обобщающей способности, начиная с равномерных по классу решающих функций оценок, полученных Вапником В.Н и Червоненкисом А.Я. в 70-х годах XX века и положивших начало развитию этой теории, и заканчивая недавними работами, в которых получены оценки, адаптированные к данным.
Вторая глава посвящена формальному описанию рассматриваемой задачи выбора признаков, ставится задача максимизации среднего риска для нахождения признаков, распределения которых в двух классах максимально отличаются. В разделах 2.1 и 2.2 диссертационной работы вводятся необходимые обозначения, объясняется выбор функция штрафа, теоретически обосновывается построение функционалов среднего и эмпирического риска. В разделе 2.3 доказано, что в рамках поставленной задачи применима теория Вапника-Червоненкиса, выведена форма штрафного члена, корректирующего значение эмпирического риска для оценки среднего риска. В Утверждении 1 оценена функция роста рассматриваемой системы множеств. В Утверждении 2 для поставленной задачи приводится нижняя оценка функционала среднего риска. В разделе 2.4 рассматривается применение оценки среднего риска, адаптированной к данным и основанной на Радемахеровской сложности. В Теореме 1 и Лемме 1 решена оптимизационная задача, позволяющая в классе байесовских оценок гистограмм вычислить аналитически штраф Радемахера. В Утверждении 3 приводится нижняя оценка рассматриваемого функционала среднего рнска, использующая штраф Радемахера. В разделе 2.5 приведен метод выбора контрастирующих признаков, решающий задачу поиска такого
подмножества признаков, на котором достигается максимум оценки функционала среднего риска.
В третьей главе диссертационной работы предложенный метод выбора контрастирующих признаков применяется к данным медицинской статистики о смертности и сопутствующей заболеваемости для выделения заболеваний, связанных с возникновением злокачественных новообразований. В разделе 3.1 приведено подробное описание анализируемых данных, обоснована актуальность поставленной задачи. В разделе 3.2 описываются особенности применения метода к рассматриваемым данным медицинской статистики, приведены результаты применения метода выбора контрастирующих признаков с использованием равномерной оценки Вапника-Червоненкиса и штрафной функции Радемахера для выделения сопутствующих заболеваний, связанных с возникновением злокачественных новообразований трех различных локализаций. Третья глава оканчивается обсуждением полученных результатов, приводится медицинское обоснование найденных закономерностей.
В четвертой главе метод выбора контрастирующих признаков применен для выбора подмножества параметров для контроля за состоянием производственного процесса. В разделе 4.1 приведено описание данных задачи и постановка задачи. Раздел 4.2 посвящен применению метода к данным о двух состояниях, продемонстрировано преимущество оценки, основанной на Радемахеровской сложности, по сравнению с оценкой среднего риска Вапника-Червоненкиса в силу сильной завышенное™ последней. В разделе 4.3 результаты, полученные методом выбора контрастирующих признаков, сравнивались с результатами, полученными шестью другими известными алгоритмами отбора признаков. После отбора или преобразования признаков данные классифицировались наивным байесовским классификатором, качество оценивалось процедурой скользящего контроля. Алгоритм выбора контрастирующих признаков выбрал пару признаков, позволяющих с высокой точностью предсказать состояние производственного процесса. Другие рассмотренные алгоритмы выбрали большее количество признаков и
обеспечили более низкое качество классификации, что демонстрирует преимущества алгоритма выбора контрастирующих признаков над другими рассмотренными методами отбора признаков.
В заключении диссертации сформулированы основные результаты и выводы.
Благодарности. Автор благодарит своего научного руководителя доктора биологических наук, кандидата технических наук Анатолия Ивановича Михальского за постановку задачи, помощь и плодотворные дискуссии, сотрудников Института проблем управления им. В.А. Трапезникова РАН за содержательные советы и интерес к работе, а также мужа и родителей за терпение и поддержку.
1 Восстановление зависимостей по эмпирическим данным
Восстановление зависимостей по эмпирическим данным является одной из центральных областей теории статистического обучения, которая включает в себя задачу обучения по прецедентам, отбор значимых признаков, оценку качества и обобщающей способности построенной зависимости.
В части 1.1 данной главы представлен обзор задач восстановления зависимостей по эмпирическим данным. Задачи классификации, регрессионного анализа, восстановления плотностей распределений сформулированы в общем виде как частные случаи задачи восстановления функциональных зависимостей. В части 1.1 также приводятся основные идеи метода выбора контрастирующих признаков, разработанного в диссертации. Подробному изложению этого метода посвящена вторая глава.
В части 1.2 рассмотрена проблема отбора признаков. Приведены различные определения понятия «значимый признак», дан обзор и классификация существующих методов, обсуждается проблема оценки обобщающей способности метода при отборе признаков.
В части 1.3 описана задача оценки качества обучения, дан обзор оценок обобщающей способности, начиная с равномерных
по классу решающих функций оценок, полученных Вапником В.Н и Червоненкисом А .Я. в 70-х годах XX века и положивших начало развитию этой теории, и заканчивая недавними работами, в которых получены оценки, адаптированные к данным.
Данная глава является обзорной. В ней вводится используемая терминология, необходимые определения и обозначения. 1.1 Задачи восстановления зависимостей
Методы решения задачи восстановления зависимостей по эмпирическим данным называются «методами машинного обучения». Этот обширный термин включает методы построения регрессионных зависимостей, классификацию, кластеризацию и многие другие.
Рассмотрим множество объектов и множество ответов У 6 Я.
Пусть на декартовом произведении X х У задано неизвестное вероятностное распределение Р. Обозначим (х,у) случайную пару из распределения Р. Дана обучающая выборка - последовательность пар (х^у^, С^Уг)» ••■» (*г»Уг)> состоящая из I независимых наблюдений случайной пары (х,у). Величины (х1,...,х[) называют также входными значениями, а (уг, ...,у{) - выходами, соответствующими входным значениям. Задача заключается в нахождении такой зависимости у = <р(х), чтобы предсказанные значения у* = (р{х) как можно точнее аппроксимировали фактическое выходное значение у, соответствующее входу х.
Чтобы оценить насколько хорошо выбранная исследователем функция у* = (р(х) подходит для описания наблюдаемой связи между входом и выходом вводится так называемая штрафная функция ¿(у, у*), характеризующая отклонение предсказания выходного значения у* от истинного значения у. Цель обучения формально может быт сформулирована как нахождение такой функции (решения), на которой минимизируется математическое ожидание функции штрафа, называемое истинным (средним) риском:
М((р) = Е1{у,у•) = | Цу,у*)с*Р(х,у) = 11{у,(р{х))йР(х,у), (1.1)
где (р{х) -выбранная функция.
Эмпирическим риском, согласно [7], называют среднее значение функции штрафа на обучающей выборке:
I
(1-2)
¿=1
В задачах восстановления зависимостей в качестве штрафной функции часто используют квадрат разности (у —у*)2. В этом случае эмпирический риск интерпретируется как средний квадрат уклонения построенной зависимости от эмпирических данных. В задачах классификации значение штрафной функции ¿(у,у*) равно нулю при правильной классификации
объекта и 1 иначе, тогда эмпирический риск равен среднему числу ошибок на обучении, а средний риск равен вероятности ошибочной классификации при использовании данного решающего правила.
Далее в данном разделе будут рассмотрены классические задачи восстановления зависимостей, будут выписаны функционалы среднего и эмпирического риска для них. 1.1.1 Классификация
Задачи классификации являются частным случаем восстановления функциональных зависимостей. Вектор х является набором непрерывных или дискретных признаков, выход у в задаче классификации - скалярная величина, принимающая дискретные значения из конечного множества и имеющая смысл номера или метки класса, Р - класс функций, определенных на множестве значений признаков х и принимающих значения из множества значений переменной у. Штрафная функция, определенная через индикатор
и принимает значение 1, если с помощью функции (р(х) вектор х классифицируется правильно, т.е. выполнено у = ф(х), или значение 0 иначе. Средний риск
имеет смысл вероятности ошибочной классификации при использовании правила классификации <р(рс). Эмпирический риск
является частотой ошибок на обучающей выборке (х^Ух), (х2,У2)> —> Методы классификации нацелены на минимизацию этой величины. 1.1.2 Регрессия
В задаче восстановления регрессионной зависимости предполагается, что выходом является числовое значение. Входным значением может быть одно
¿(у><КУ)) = 1{У * <р(х)),<р(х') £ Р
М{<р) = Еху1{у Ф <р(х)}
¿=1
число или вектор из п координат, в первом случае говорят о восстановлении функции одной переменной, во втором случае о восстановлении функции п переменных.
В задаче регрессии вектор х является вектором непрерывных признаков, у - скалярная непрерывная величина, ¥ - класс функций, определенных на множестве значений признаков х и принимающих значения из множества значений переменной у. Штрафную функцию можно определить как квадрат разности предсказанного значения у* = ср(х) и истинного значения у
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Минимаксный подход к построению оптимального классификатора методом SVM с одновременным выбором оптимального подпространства признаков2010 год, кандидат физико-математических наук Гончаров, Юрий Владимирович
Синтез алгоритмов нейросетевого распознавания образов и восстановления зависимостей в условиях непараметрической неопределенности2010 год, кандидат технических наук Зарипова, Юлия Хайдаровна
Байесовские методы опорных векторов для обучения распознаванию образов с управляемой селективностью отбора признаков2014 год, кандидат наук Татарчук, Александр Игоревич
Методы и алгоритмы классификации данных на основе многомерной триангуляции Делоне2018 год, кандидат наук Дорошенко Александр Юрьевич
Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций2010 год, кандидат технических наук Саутин, Александр Сергеевич
Список литературы диссертационного исследования кандидат наук Цурко, Варвара Владимировна, 2014 год
Список литературы
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. - М: Финансы и статистика, 1989.
2. Анисимов В. Н. Молекулярные и физиологические механизмы старения (в 2-х т.). - СПб.: Наука, 2008.
3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. -М.: Наука, 1979.
4. Вапник В.Н., Червоненкис А .Я. Необходимые и достаточные условия равномерной сходимости средних к математическим ожиданиям // Теория вероятностей и ее приложения. - 1981. - Т. 26, № 3. - С. 543564.
5. Вапник В.Н., Червоненкис А.Я. О методе упорядоченной минимизации риска. I // Автоматика и телемеханика. - 1974. - №8. - С. 21-30.
6. Вапник В.Н., Червоненкис А.Я. О методе упорядоченной минимизации риска. II // Автоматика и телемеханика. - 1974. - №9. - С. 29-39.
7.Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. - М.: Наука, 1974
8. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / Под ред. О.Б. Лупанов. - М.: Физматлит, 2004. - Т. 13. - С. 5-36.
9. Воронцов К.В. Комбинаторная теория надежности обучения по прецедентам. Диссертация на соискание ученой степени д. ф.-м. н.: ВЦ РАН, 2010
10. Воронцов К.В. Обзор современных исследований по проблеме качества обучения алгоритмов // Таврический вестник информатики и математики. - 2004. - №1. - С. 5-24.
11. Вьюгин В.В. Элементы математической теории машинного обучения. -М.: МФТИ, 2010.
12. Гнеденко Б.В. Курс теории вероятностей. - М.: Наука, Главная редакция физико-математической литературы, 1965.
13. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976.
14. Дюличева Ю.Ю. Оценка VCD r-редуцированного эмпирического леса // Таврический вестник информатики и математики. - 2003. - №1. - С. 31-42.
15.3агоруйко Н.Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999.
16. Кобзарь А.И. Прикладная математическая статистика. - М.: Физматлит, 2006.
17. Колмогоров А.Н. Теория информации и теория алгоритмов / Под ред. Ю.В. Прохорова. - М.: Наука, 1987. - 304 с.
18. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. - М.: Эдиториал УРСС, 2011 . - 256 с.
19. Местецкий J1.M. Математические методы распознавания образов. -М.: ИНТУ ИТ, 2008.
20. Михальский А.И., Цурко В.В. Возрастные особенности причин смерти и сопутствующих болезней // Клиническая геронтология. -2014.-1-2.-С. 35-40
21. Свешникова А.Н., Иванов П.С. Экспрессия генов и микрочипы: проблемы количественного анализа // Рос. Хим. Ж. - 2007. - LI № 1. -С. 127-135.
22. Ту Дж., Гонсалес Р. Принципы распознавания образов. -М.: Мир, 1978.
23. Цурко В.В., Михальский А.И. Исследование влияния сопутствующих заболеваний на возникновение злокачественных новообразований // XII Всероссийского совещания по проблемам управления (ВСПУ 2014). Москва, 16-19 июня 2014 г.: Труды. [Электронный ресурс] М.: ИПУ РАН. - 2014. - С. 6800-6810
24. Цурко В.В., Михальский А.И. Математическое моделирование смертности по причинам при сочетанной заболеваемости // Доклады III Международной конференции Математическая биология и биоинформатика, г. Пущино, 10-15 октября 2010 г.: Сборник докладов. -М.: МАКС Пресс.-2010. - С. 260-261.
25. Цурко В.В., Михальский А.И. Статистический анализ связи рака и сопутствующих заболеваний // Успехи Геронтологии. - 2013. - Т.26. -№4. - С. 766-774
26. AIHW & AACR 2012. Cancer in Australia: an overview 2012. Cancer series no. 74. Cat. no. CAN 70. Canberra: AIHW.
27. Allmuallim H., Dietterich T.G. Learning with many irrelevant features // Proceedings of the Ninth National Conference on Artificial Intelligence, pp. 547-552. San Jose. - CA: AAAI Press, 1991.
28. Azad N., Rojanasakul Y., Vallyathan V. Inflammation and lung cancer: roles of reactive oxygen/nitrogen species // J. Toxicol. Environ Hlth В Crit. Rev.-2008.-Vol. 11.-Pp. 1-15.
29. Bay S.D., Pazzani M.J. Detecting group differences: mining contrast sets // Data mining and knowledge discovery. - 2001. - Vol. 5. - Pp. 213-246.
30. Blagosklonny M.V. Why human lifespan is rapidly increasing: solving "longevity riddle" with "revealed-slow-aging" hypothesis // AGING. -2010.-Vol.2, no.4. - Pp. 177-182.
31. Blum A., Langley P. Selection of relevant features and examples in machine learning // AI. - 1997. - Vol. 97(1-2). - Pp. 245-271.
32. Boorjian S. A., Kim S. P., Tollefson M. K. et al. Comparative Performance of Comorbidity Indices for Estimating Perioperative and 5-Year All Cause Mortality Following Radical Cystectomy for Bladder Cancer // J. Urol. -2013.-Vol. 190.-Pp. 55-60.
33. Cardie C. Using decision trees to improve case-based learning // Proceedings of the IEEE Symposium on Foundations of Computer Science. Pp. 302-311.- IEEE: Palo Alto, CA. - 1993.
34. Caruana R.A., Freitag D. How useful is relevance? // Working notes of the AAAI Fall Symposium on Relevance. - LA: AAAI Press, New Orleans. -1994.-Pp. 25-29.
35. Classification of Diseases and Injuries. Доступно: http://icd9cm.chrisendres.com/
36. Coetzee F.M. Correcting Kullback-Leibler Distance for Feature Selection // Pattern Recognition Letters. - 2005. - Vol. 26, no.ll.-Pp. 1675-1683.
37. Comon P. Independent component analysis. A new concept // Signal Processing. - 1994. - Vol. 36. - Pp. 287-314.
38. Correa P. Chronic gastritis as a cancer precursor // Scand. J. Gastroenterol. - 1984.-Vol. 104.-Pp. 131-136.
39. Cover Т., Thomas J. Elements of Information Theory. - Wiley, 1991.
40. Desesquelles A., Salvatore M. A., Frova L. et al. Revisiting the mortality of France and Italy with the multiple-cause-of-death approach // Dem. Res. -2010. - Vol. 23. - Pp. 771-806.
41. Doak J. An evaluation of feature-selection methods and their application to * computer security// Technical Repport CSE-92-18. - 1992.
42. Erbas В., Akram M., Gertig D.M. et. al. Using functional data analysis models to estimate future time trends in age-specific breast cancer mortality for the United States and England-Wales // J. Epidemiol. - 2010. - Vol. 20, no. 2.-Pp. 159-165.
43. Hall M.A. Correlation-based feature selection for discrete and numeric machine learning//Proceedings of Seventeenth International Conference on Machine Learning (ICML-00). - Morgan Kaufmann Publishers, 2000. - Pp. 359-366.
44. IBM SPSS Modeler 14.2 Algorithms Guide. Доступно: ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/.
45. John G.H., Kohavi R., Pfleger K. Irrelevant features and the subset selection problem // Proceedings of the Eleventh International Conference
on Machine Learning. - Morgan Kaufmann Publishers, 1994. - Pp. 121129.
46. Jolliffe I.T. Principal component analysis. - New York: Springer-Verlag, 1986.
47. Kearns M.J., Schapire R.E. Efficient distribution-free learning of probabilistic concepts // Computational Learning Theory and Natural Learning Systems, Volume I: constrains and Prospect, edited by Stephen Jose Hanson, George A. Drastal, and Ronald L. Rivest, Bradford/MIT Press. - 1994.-Vol. 1.
48. Kira K., Rendell L. The feature selection problem: Traditional methods and a new algorithm // In: Tenth National Conference on Artificial Intelligence. - MIT Press. - 1992. - Pp. 129-134.
49. Koller D., Sahami M. Toward Optimal Feature Selection // In: Proceedings of the Thirteenth International Conference on Machine Learning. Morgan Kaufmann Publishers. - 1996. - Pp. 284-292.
50. Koltchinskii V. Oracle Inequalities in Empirical Risk Minimization and Sparce Recovery Problems: Ecole d'Eté de Probabilities de Saint-Flour XXXVIII-2008. - Springer. - 2011.
51. Koltchinskii V. Rademacher penalties and structural risk minimization // IEEE Transactions on Information Theory. - 2001. - Vol. 47, no. 5. - Pp. 1902-1914.
52. Koltchinskii V., Panchenko D. Rademacher process and bounding the risk of function learning // High Dimentional Probability, II / Ed. By D.E. Gine, J. Wellner. - Birkhauser, 1999. - Pp. 443-457.
53. Koltchinskii V., Panchenko D. Empirical margin distributions and bounding the generalization error of combined classifiers // The Annals of Statistics. - 2002. - Vol. 30, no. 1. - Pp. 1 -50.
54. Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. - 1951. - Vol. 22, no. 1. - Pp. 79-86.
55.Langley P., Iba W. Average-case analysis of a nearest neighbor algorithm // Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence. - Chambery, France, 1993. - Pp. 889-894.
56. Langley P., Sage S. Oblivious decision trees and abstract cases // Working Notes of the AAAI94 Workshop on Case-Based Reasoning. - AAAI Press, Seattle, 1994.-Pp. 113-117.
57. Lewis D.D. Feature selection and feature extraction for text cauterization // Proceedings of Speech and Natural Language Workshop. - Morgan Kaufmann Publishers, 1992. - Pp. 212-217.
58. Lozano F. Model selection using Rademacher Penalization // Proceedings 2nd ICSC Symp. Neural Computation NC2000. - ICSC Academic, Berlin, 2000.
59. Manning C., Raghavan P., Schutze H.: An Introduction to Information Retrieval. - Cambridge University Press, Cambridge, 2009.
60. Mendelson S. A Few Notes on Statistical Learning Theory. // Lecture Notes in Computer Science. - 2003.
61. Mortality Data, Multiple Cause-of-Death Public-Use Data Files. Доступно:
http://www.cdc.gov/nchs/data access/VitalStatsOnline.htm#Mortality Mult iple
62. Novovicova J., Pudil P., Kittler J. Divergence based feature selection for multimodal class densities // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1996. - Vol. 18(2). - Pp. 218-223.
63. Quinlan J.R. Induction of decision trees // Machine Learning/ - 1986. -Vol. 1, no 1.-Pp. 81-106.
64. Singh M., Provan G.M. A comparison of induction algorithms for selective and non-selective Bayesian classifiers // Proceedings of the Twelfth International Conference on Machine Learning. - CA: Morgan Kaufmann, Lake Tahoe, 1995. - Pp. 497-505.
65. Ross R. К., Jones P. A., Yu M. C. Bladder cancer epidemiology and pathogenesis // Seminars Oncol. - 1996. - Vol. 23, no. 5. - Pp. 536-545.
66. Stallard E. Underlying and multiple cause mortality at advanced ages: United States 1980-1998 // North Amer. Actuarial J. - 2002. - Vol. 6. - Pp. 64-87.
67. Tsurko V., Michalskii A. Comorbidity in Cancer Mortality Analysis // Proceedings of the 14th Applied Stochastic Models and Data Analysis International Conference - ASMDA 2011, Rome, Italy, 6-10 June 2011. -2011.-Pp. 1373.
68. Tsurko V., Michalski A. Feature Selection by Distributions Contrasting // Artificial Intelligence: Methodology, Systems and Applications, G. Agre, P. Hitzer, A.A. Krisnadhi, S.O. Kuznetsov (eds.), LNAI 8722, SpringerVerlag, 2014.-Pp. 139-149.
69. Tsurko V., Michalski A. Investigation of cancer mortality on the basis of historical comorbidity data // Proceedings of the International Conference on Statistical Models and Methods for Reliability and Survival Analysis and Their Validation - S2MRSA, Bordeaux, France, 4-6 July 2012. - 2012. -Pp. 236-239.
70. Tsurko V.V., Mikhalsky A.I. Investigation Of Cancer Death Risk In The Comorbidity Case // Международная Научная Школа Моделирование и Анализ Безопасности и Риска в Сложных Системах (МАБР - 2011), Санкт-Петербург, 28 июня - 2 июля, 2011 г. - С. 399-404.
71. Tsurko V., Michalski A. Statistical analysis of mortality-comorbidity links // Proceedings of the International Workshop "Applied Methods of Statistical Analysis. Simulations and Statistical Inference" - AMSA'2011, Novosibirsk, Russia, 20-22 September, 2011. - Novosibirsk: Publishing house of NSTU. - 2011. - Pp. 63-70.
72. Tsurko V.V., Michalski A.I. Statistical analysis of the relationship between cancer and associated diseases // Advances in Gerontology, SpringerVerlag, 2014. - Vol. 4, issue 3. - Pp. 205-212.
73. Vapnik V. Estimation of Dependences Based on Empirical Data. -Springer-Verlag, New York, 1982.
74. Vapnik V. The nature of statistical learning theory. - Springer-Verlag, New York, 1995.
75. Vapnik V. Statistical learning theory. - Wiley, New York, 1998.
76. Vapnik V., Levin E., Cun Y.L. Measuring the VC-dimension of a learning machine // Neural Computation. - 1994. - Vol. 6, no 5. - Pp. 230-240.
77. Wolf L., Shashua A. Features Selection for Unsupervised and Supervised Inference: The Emergence of Sparsity in a Weight-Based Approach // Journal of Machine Learning Research. - 2005. - Vol. 6. - Pp. 1855-1887.
Список иллюстраций
Рисунок 1
Рисунок. 2
Рисунок 3
Рисунок 4
Рисунок 5
Рисунок 6
Структура смертности от неинфекционных Стр. 54
заболеваний среди людей старше 65 лет (США, 2008 г.)
Доля смертей от новообразований разных
локализаций среди людей старше 65 лет, Стр. 55
выраженная в долях к общему числу смертей
Рак органов пищеварения и брюшины. Доли Стр. 63
людей с сопутствующими заболеваниями в
раковой и нераковой группах
Рак органов дыхания и грудной клетки. Доли Стр. 66
людей с сопутствующими заболеваниями в раковой и нераковой группах
Рак мочеполовых органов. Доли людей с Стр. 70
сопутствующими заболеваниями в раковой и нераковой группах
Ошибки классификации при различных наборах Стр. 79 признаков
Список таблиц
Таблица 1
Таблица 2
Таблица 3
Таблица 4 Таблица 5
Таблица 6
Таблица 7
Рак органов пищеварения и брюшины. Результаты применения метода контрастирования распределений
Рак органов дыхания и грудной клетки. Результаты применения метода контрастирования распределений
Рак мочеполовых органов. Результаты применения метода контрастирования распределений Названия параметров состояний системы
Результаты применения метода контрастирования распределений
Результаты сравнения алгоритмов отбора (преобразования) признаков Блоки сопутствующих заболеваний, согласно МКБ-9
Стр. 61
Стр. 64
Стр. 68
Стр. 74 Стр. 78
Стр.80
Стр. 95
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.