Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Сметанников Иван Борисович

  • Сметанников Иван Борисович
  • кандидат науккандидат наук
  • 2017, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.18
  • Количество страниц 110
Сметанников Иван Борисович. Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2017. 110 с.

Оглавление диссертации кандидат наук Сметанников Иван Борисович

Введение

1 Обзор предметной области

1.1 Экспрессия и транскрипция генов

1.2 Предсказательные модели и их обучение

1.3 Метод опорных векторов

1.4 Задача выбора признаков

1.5 Алгоритмы оптимизации функции, представленной черным ящиком

1.6 Задача о многоруком бандите и алгоритм UCB-1

1.7 Мета-обучение

1.8 Задачи, решаемые в диссертационном исследовании

Выводы по главе

2 Предлагаемый метод выбора признаков

2.1 Метод MeLiF

2.2 Алгоритм MeLiF-1

2.3 Алгоритмы оптимизации функции QC для метода MeLiF

Выводы по главе

3 Предлагаемые параллельные алгоритмы, реализующие предложенный метод

3.1 Алгоритм MeLiF+

3.2 Алгоритм PqMeLiF

3.3 Алгоритм MaMeLiF

Выводы по главе

4 Предлагаемый алгоритм на основе мета-обучения, реализующий предложенный метод

4.1. Система мета-обучения для предсказания стартовых точек

4.2. Алгоритм ОР$>МеЬ1¥

Выводы по главе

5 Описание программного комплекса

5.1 Состав комплекса программ

5.2 Структура проекта

5.3 Руководство пользователя

5.4 Внедрение программного комплекса в Insilico Medicine Inc. (Москва)

Выводы по главе

Заключение

Список литературы

Ресурсы сети интернет

Приложение А Расширенные таблицы экспериментов

А.1 Результаты алгоритма MeLiF-1

А.2 Результаты различных методов оптимизации для алгоритма MeLiF

A.3 Время работы различных конфигураций алгоритмов PqMeLiF и

MaMeLiF

A.4 F1 мера различных конфигураций алгоритмов PqMeLiF и MaMeLiF

А. 5 Результаты алгоритма GPSMeLiF

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод и алгоритмы выбора признаков в предсказательном моделировании фенотипических характеристик на основе транскриптомных данных»

ВВЕДЕНИЕ

Актуальность темы. Дезоксирибонуклеиновая кислота (ДНК), представляющая собой длинную полимерную двухцепочечную молекулу, закрученную в спираль, является основным механизмом хранения и передачи наследственной информации живых организмов. Он реализуется через экспрессию генов — процесс, в ходе которого наследственная информация преобразуется в рибонуклеиновую кислоту (РНК) или белок. Вследствие этого уровень экспрессии генов связан с объективными характеристиками проистекающих в клетках живых организмов процессов.

Поскольку многие заболевания, в том числе раковые, могут сопровождаться изменением экспрессии генов, ее измерение может быть использовано для предсказания фенотипических характеристик, таких как наличие заболевания органа или реакции организма на прием лекарства. Однако ввиду того, что непосредственное измерение уровня экспрессии напрямую является дорогостоящей и трудоемкой задачей, такие предсказания обычно осуществляются опосредованно на основе анализа транскриптомных данных — данных, в которых для каждого гена измеряется количество мРНК, промежуточного продукта экспрессии гена.

Несмотря на существующую связь между экспрессией генов и фенотипиче-скими характеристиками, построение точных математических моделей, явно описывающих эти связи, принципиально недостижимо ввиду чрезвычайно большого числа переменных и связей между ними. Перечисленные ограничения позволяет преодолеть подход на основе данных (data driven approach), дающий возможность строить предсказательные модели за счет автоматического выявления представленных в выборке значимых зависимостей между переменными.

Однако применение подхода на основе данных к построению предсказательных моделей фенотипических характеристик также сопряжено со значительными трудностями, вызванными высокой размерностью транскриптомных данных. Поиск зависимостей между большим числом переменных требует разработки специальных алгоритмов, позволяющих избегать переобучения таких моделей

и высоких временных затрат на их работу. Из изложенного следует, что предсказательное моделирование фенотипических характеристик по транскриптомным данным является актуальной проблемой.

Степень разработанности темы. Значительных результатов в данном направлении добились Veronica Bolon-Canedo [22, 23, 62], Kenneth N. Ross [63], Yu Wang [77], а также Загоруйко Н. Г. [1, 2, 4], Князев Д. И. [6, 7] и др. Общая схема построения предсказательных моделей фенотипических характеристик состоит из двух шагов. Первый шаг — получение транскриптомных данных по взятым образцам. При этом для каждого образца должно быть известно значение предсказываемой фенотипической характеристики (целевой переменной), например, наличие или отсутствие ракового заболевания у исследуемого организма. Это позволяет сформировать обучающую выборку. Второй шаг — применение методов машинного обучения для построения предсказательной модели в рамках решения задачи обучения с учителем.

Наиболее важным этапом второго шага является уменьшение размерности — выбор значимых генов, которые в контексте машинного обучения будут называться признаками. В общем случае, наборы данных, для которых осуществляется выбор признаков, имеют число объектов \Х\ больше числа признаков \F\. Однако в случае выбора наиболее значимых генов это не верно, так как число объектов (образцов) измеряется десятками, а число признаков (генов) — тысячам. Выбор наиболее значимых генов позволяет строить более точные предсказательные модели для выявления врожденных и приобретенных заболеваний и других фенотипических характеристик обследуемых.

Для выбора генов чаще всего применяются фильтрующие методы выбора признаков ввиду их высокой скорости работы, которая достигается за счет ограниченного качества получаемых результатов. Данная работа направлена на улучшение качества результатов применения фильтров за счет построения их агрегации набора фильтрующих методов.

Целью работы является снижение времени построения и доли ошибок предсказательной модели фенотипических характеристик на основе транскрип-томных данных за счет разработки метода и алгоритмов выбора признаков.

Указанная цель достигается последовательным решением основных задач диссертационной работы:

1. Разработать метод выбора признаков, основанный на агрегации фильтрующих методов путем автоматического конструирования новой меры значимости признаков для обрабатываемого набора данных.

2. Разработать параллельные алгоритмы, реализующие предложенный метод выбора признаков, которые основаны на агрегации фильтрующих методов путем автоматического конструирования новой меры значимости признаков для обрабатываемого набора данных.

3. Разработать систему мета-обучения, позволяющую в автоматическом режиме настроить параметры и повысить эффективность метода выбора признаков, который основан на агрегации фильтрующих методов путем автоматического конструирования новой меры значимости признаков для обрабатываемого набора данных.

4. Разработать программный комплекс, реализующий указанные алгоритмы и позволяющий осуществлять построение предсказательной модели рассматриваемой физиологической характеристики по набору транскриптом-ных данных.

5. Провести вычислительные эксперименты для оценки работы алгоритмов, реализующих предлагаемый метод.

Научная новизна. В работе получены следующие научные результаты:

1. Метод построения ансамблей фильтрующих методов выбора признаков МвЫЕ, основанный на поиске оптимальных коэффициентов линейной комбинации мер значимости признаков (МЗП) этих алгоритмов. Новизна предложенного метода заключается в сведении задачи выбора признаков к задаче оптимизации в проективном пространстве коэффициентов линейной комбинации МЗП.

2. Алгоритм выбора признаков МвЫЕ-1, реализующий новый метод ЫвЫЕ и основанный на поиске оптимальных коэффициентов линейной комбинации МЗП агрегируемых фильтров при помощи жадной модификации метода покоординатного спуска. Показано, что разработанный алгоритм получает более качественный набор признаков, чем другие методы выбора признаков, применяемые для построения предсказательных моделей по транскриптомным данным, однако проигрывает им во времени работы.

3. Алгоритм выбора признаков PqMeLiF, реализующий новый метод МвЫЕ и основанный на поиске оптимальных коэффициентов линейной комбинации МЗП агрегируемых фильтров при помощи параллельной модификации алгоритма MeLiF-1 на основе очереди с приоритетами. Показано, что разработанный алгоритм получает схожий по качеству набор признаков, как и алгоритм MeLiF-1, и тратит меньше времени на вычисления.

4. Алгоритм выбора признаков MaMeLiF, реализующий новый метод MeLiF и основанный на поиске оптимальных коэффициентов линейной комбинации МЗП агрегируемых фильтров при помощи параллельной модификации алгоритма MeLiF-1 на основе обучения с подкреплением. Показано, что разработанный алгоритм получает схожий по качеству набор признаков, как и алгоритм MeLiF-1, но тратит меньше времени на вычисления.

5. Алгоритм выбора признаков GPSMeLiF, реализующий новый метод MeLiF и основанный на поиске оптимальных коэффициентов линейной комбинации МЗП агрегируемых фильтров, который выбирает стартовые точки для алгоритма MeLiF-1 на основе мета-обучения. Показано, что большинстве случаев разработанный алгоритм позволяет значительно сократить пространство оптимизации.

Методология и методы исследований. Работа выполнена преимущественно в методологии машинного обучения, в работе используются методы дискретной математики, машинного обучения, теории вероятностей и математической статистики, а также методология проведения вычислительных экспериментов для оценки работы алгоритмов.

Положения, выносимые на защиту:

1. Метод, позволяющий производить выбор признаков для построения предсказательной модели на основе агрегации фильтрующих методов путем автоматического конструирования новой меры значимости признаков для обрабатываемого набора данных.

2. Совокупность алгоритмов выбора признаков на основе поиска оптимальных коэффициентов линейной комбинации МЗП агрегируемых фильтров.

3. Программный комплекс, позволяющий осуществлять полный цикл построения модели от набора транскриптомных данных до предсказательной модели рассматриваемой физиологической характеристики, используя предлагаемые в диссертации алгоритмы.

Степень достоверности научных положений, выводов и практических рекомендаций, полученных в диссертации, обеспечиваются корректным обоснованием постановок задач, точной формулировкой критериев оценки, а также подтверждаются результатами вычислительных экспериментов по использованию предложенных в диссертации метода и алгоритмов.

Практическая значимость работы состоит в том, что предложенный метод позволяет автоматически выбирать наиболее значимые гены на транскрип-томных данных эффективнее других методов, применяемых для решения этой задачи, что, в частности, было применено в процессе синтеза новых лекарств в компании Insilico Medicine Inc. (Москва) и подтверждается актом о внедрении. Кроме того, предложенный метод и алгоритмы обеспечивают повышение эффективности систем автоматической кластеризации голосов дикторов в массивах неразмеченных данных, что подтверждается актом о внедрении.

Теоретическая значимость работы состоит в сведении задачи построения ансамбля методов фильтрации к задаче оптимизации качества работы предсказательной модели на проективном пространстве коэффициентов линейной композиции мер значимости признаков соответствующих методов.

Внедрение результатов работы. Предложенный метод выбора признаков на транскриптомных данных MeLiF применяется в компании Insilico Medicine Inc. (Москва).

Результаты диссертации нашли применение в Университете ИТМО при выполнении прикладных научных исследований и экспериментальных разработок по теме "Разработка технологии автоматической кластеризации голосов дикторов в массивах неразмеченных данных для решения задач голосовой биометрии" в рамках Соглашения о предоставлении субсидии с Минобрнауки России № 14.578.21.0126 от 27.10.2015 г. (ID проекта RFMEFI57815X0126).

Кроме того, результаты работы использовались в учебном процессе кафедры «Компьютерные технологии» Университета ИТМО при руководстве тремя бакалаврскими работами, авторы и названия которых приведены в диссертации.

Апробация результатов работы. Основные результаты диссертационной работы докладывались на следующих научных и научно-практических конференциях:

- XVIII Международная конференция по мягким вычислениям и измерениям (SCM'15). 2015, СПбГЭТУ «ЛЭТИ», Санкт-Петербург.

- V Всероссийский конгресс молодых ученых (КМУ'16). 2016, Университет ИТМО, Санкт-Петербург.

- Научная и учебно-методическая конференция Университета ИТМО. 2016-2017 гг., Университет ИТМО, Санкт-Петербург.

- Девятая международная конференция «Управление развитием крупномасштабных систем» (MLSD'16). 2016, ИПУ РАН, Москва.

- The 23rd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN'15). 2015, Брюгге, Бельгия.

- First International Symposium of Information and Internet Technology (Symintech'15). 2015, Малакка, Малайзия.

- First International Early Research Career Enhancement School on Biologically Inspired Cognitive Architectures BICA. 2016, МИФИ, Москва.

- The 12th International Conference on Machine Learning and Data Mining in Pattern Recognition (MLDM'16). 2016, Нью-Йорк, США.

- The 18th International Conference on Soft Computing and Machine Intelligence (ICSCMI'16). 2016, Дубай, ОАЭ.

- The 5th Young Scientists Conference in HPC and Simulation (YSC'16). 2016, Краков, Польша.

- The 12th Artificial Intelligence Applications and Innovations (AIAI'16). 2016, Тессалоники, Греция.

- The 8th Asian Conference on Machine Learning (ACML'16). 2016, Гамильтон, Новая Зеландия.

Личный вклад автора. Идея метода выбора признаков MeLiF принадлежит совместно автору диссертации и А.А. Фильченкову, формализация и разработка предложенного в работе метода MeLiF принадлежит лично автору диссертации. Все представленные в диссертации алгоритмы, реализующие предложенный метод, принадлежат лично автору диссертации. Реализация и проведение вычислительных экспериментов алгоритма MeLiF-1 принадлежат лично автору диссертации, реализация и проведение вычислительных экспериментов алгоритмов MeLiF+, PqMeLiF, MaMeLiF, GPSMeLiF принадлежат совместно автору диссертации и Е.О. Варламову, И.П. Исаеву и А.В. Дейнеке.

Публикации по теме диссертации. Основные результаты по теме диссертации изложены в одиннадцати публикациях [3, 12, 13, 35, 45, 64-68, 83], одна из которых издана в журнале, рекомендованном ВАК [12], семь — в изданиях, индексируемых в международных базах цитирования Web of Science и Scopus [35, 45, 64-66, 68, 83].

Свидетельства о регистрации программы для ЭВМ. Автором по теме диссертации получено два свидетельства о регистрации программ для ЭВМ:

1. Долганов В.О., Фильченков А.А., Сметанников И.Б. «Программа ранжирования признаков на основе проекции на первую главную компоненту в задачах классификации для ЭВМ». Свидетельство о регистрации программы для ЭВМ №2015615940 от 27.05.2015.

2. Сметанников И.Б., Исаев И.П., Филъченков А.А. «Программа выбора признаков на основе оптимизации агрегации ранжирующих функций в задачах классификации для ЭВМ». Свидетельство о регистрации программы для ЭВМ №2017617445 от 25.07.2017.

Участие в научно-исследовательских работах. Результаты диссертации использовались при выполнении следующей НИР: «Биоинформатика, машинное обучение, технологии программирования, теория кодирования, проактивные системы» (Программа государственной финансовой поддержки ведущих университетов Российской Федерации, субсидия 074-Ш1. Сроки выполнения: 2013-2018 гг.), а также государственном задании № 2.8866.2017/БЧ «Технология разработки программного обеспечения систем управления ответственными объектами на основе глубокого обучения и конечных автоматов», выполняемого в рамках базовой части государственного задания.

Структура диссертации. Диссертация изложена на 110 страницах и состоит из введения, пяти глав, заключения и приложений. Список источников содержит 102 наименования. Работа проиллюстрирована 9 рисунками и 6 таблицами.

ГЛАВА 1 ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ

Первая глава посвящена обзору предметной области и результатов существующих исследований предсказательного моделирования фенотипических особенностей особи на основе транскриптомных данных.

1.1 Экспрессия и транскрипция генов

В данном разделе приведено описание процесса экспрессии и транскрипции генов, а также получения транскриптомных данных при помощи ДНК-микрочипов и РНК-секвенирования.

Одно из наиболее фундаментальных свойств живых организмов, а, следовательно, одним из основных предметов изучения биологии является их способность к самовоспроизведению, которая обеспечивается за счет клеточной структуры [24, 54]. Клетка — базовая единица строения любого живого организма. Из клеток состоят как простейшие одноклеточные организмы и бактерии, так и многоклеточные грибы, растения и животные. Клетка обладает собственным обменом веществ, способна к автономному существованию, и, как уже было сказано, способна к самовоспроизведению, что будет рассмотрено подробнее далее.

В случае многоклеточного организма большинство составляющих его клеток различаются по строению и выполняемым функциям [24]. Ключевым общим свойством, позволяющим определить, что все клетки принадлежат к одному организму, является клеточная ДНК (Дезоксирибонуклеиновая кислота) [24,54]. У организмов эукариот (животных, растений, грибов) ДНК содержится в ядре каждой клетки в составе хромосом [54]. Хромосома — это нуклеопротеидная структура в ядре клетки эукариота, главные функции которой состоят в том, чтобы эффективно хранить, реализовывать и передавать наследственную информацию. Все эти функции, так или иначе, осуществляются через ее основной компонент — ДНК организма [54].

Структурно ДНК выглядит как длинная полимерная двухцепочечная молекула, закрученная в спираль [24] (рисунок 1). Первое доказательство того, что именно ДНК — основной носитель генетической информации, было получено в

1944 году в результате экспериментов Освальда Э., Колина М. и Маклина М. на колониях из бактерий-пневмококков [24]. А эксперимент с помеченными радиоактивными изотопами белками и ДНК бактериофагами, который провели в 1952 году ученые Херши А. и Чейз М., сформировал окончательное понимание того, что именно ДНК является основным и первичным носителем генетической информации всех живых организмов [24]. В 1953 году Криком Ф., Уотсоном Д., Морисом У. и Франклин Р. была доказана модель структуры двойной спирали молекул ДНК [24].

Рисунок 1 - Структура двойной спирали молекул ДНК Повторяющиеся блоки в спирали — это нуклеотиды, каждый из которых состоит из дезоксирибозы, фосфатной группы и азотистого основания [24]. Хранение генетической информации обеспечивается с помощью уникальных последовательностей блоков нуклеотидов [24].

Набор процессов, при котором хранящаяся в ДНК информация распространяется дальше и становится функциональным продуктом, называется экспрессией генов [10, 11, 24, 54]. Генетическая информация может передаваться от ДНК к белку, но никогда — в обратную сторону. Есть несколько этапов экспрессии, которые могут регулироваться клетками (то есть клетки могут вносить изменения в структуру и функцию при воспроизведении новых клеток), самыми базовыми из которых являются транскрипция и трансляция [24, 54]. Транскрипция — это син-

тез молекул РНК (рибонуклеиновой кислоты) на базе ДНК, а трансляция — это синтез белков на базе РНК.

Остановимся подробнее на РНК, основная функция которой состоит в том, что она служит переходным звеном между ДНК и белками. Существуют три вида РНК: рибосомальные РНК (рРНК), транспортные РНК (тРНК), и матричные РНК (мРНК). рРНК составляют основу рибосомы клеток, тРНК выполняют транспортировку аминокислот к месту синтеза белка. Наиболее важной и представляющей интерес в данном диссертационном исследовании является мРНК, потому что именно она содержат информацию о первичной структуре белка и используется как матрица для его синтеза. Если ДНК хранит в себе информацию о том, как производить любые необходимые организму белки, то мРНК — это временный, выделенный из общего массива «чертеж» белка, который необходим в данный конкретный момент. тРНК доставляют аминокислоты в состоящие из рРНК рибосомы клеток, где синтезируется белок на основе информации, которые рибосома берет из мРНК.

Для современной науки уже вполне возможны полное восстановление последовательности нуклеотидов в ДНК и запись полного генома человека в семантическую форму [19, 54]. Однако задача интерпретации полученных результатов и нахождения закономерностей влияния разных элементов ДНК на экспрессию генов в сложных многоклеточных организмах еще далека от полного решения. Тем не менее, уже сейчас возможно решение многих важных задач. Например, находить взаимосвязи между определенными последовательностями ДНК и фено-типическими характеристиками организма, в первую очередь имеющих высокую значимость для медицины: для задач предсказания возникновения рака, заболеваний органов, определения реакций организма на лекарства и т.д. [19] Анализ проводится на основании сравнения пробы пришедшего пациента с образцами пациентов с уже известными фенотипическими характеристиками и поиска в них сходств и закономерностей. Поскольку прямой анализ экспрессии генов — трудная и дорогостоящая задача, предсказания обычно делаются на основе анализа того самого промежуточного продукта мРНК, или, в более широком смысле, тран-

скриптомных данных. Транскриптомные данные в данный момент чаще всего получают с помощью РНК-секвенирования (RNA-seq) [79] или гибридизации проб мРНК на ДНК-микрочипах (DNA-microarray) [19].

Стандартный ДНК-микрочип состоит из твердой подложки, к которой крепятся ДНК-зонды, представляющие собой некоторые известные цепочки молекул [19]. С помощью специальных процедур из взятой у пациента пробы выделяют мРНК, которая затем наносится на ДНК-микрочип, где цепочки мРНК проходят гибридизацию с ДНК-зондами — зацепляются за них, образуя двухцепочеч-ные молекулы. Число цепочек мРНК, зацепившихся за определенный участок ДНК-микрочипа, определяет интенсивность свечения этого участка при сканировании с помощью специального микроскопа, Интенсивность свечения показывает экспрессию соответствующего участку гена.

Секвенирование РНК — это определение нуклеотидной последовательности молекулы РНК и получение описания ее первичной структуры в текстовом виде [19]. Секвенировать можно и тРНК, и рРНК, но обычно под RNA-Seq, как правило, понимают секвенирование именно мРНК с использованием методов нового поколения (Next-generation Sequencing, NGS или секвенирование нового поколения, СНП) [79], ввиду того, что именно мРНК содержит доставленную из ДНК информацию о генах, и именно эта информация представляет наибольший интерес для медицины. Ранние методы секвенирования не давали возможности одновременно считывать сразу несколько разных участков генома, эту проблему позволило решить СНП. Секвенирование происходит с помощью циклических ферментативных реакций с дальнейшим сбором полученной информации в виде данных, по которым уже восстанавливается нуклеотидная последовательность.

Между экспрессией генов и фенотипическими характеристиками организма существует прямая связь, однако полностью секвенированный геном — это огромный набор данных с неочевидными зависимостями. Из-за таких объемов данных построение точных математических моделей недостижимо, однако возможно строить предсказательные модели с помощью подхода на основе данных

(data driven approach), который позволяет автоматически выявлять значимые зависимости [14].

1.2 Предсказательные модели и их обучение

В данном разделе рассмотрена задача построения предсказательных моделей на основе данных в постановке задачи обучения с учителем. Приведена формальная постановка данной задачи, описаны основные подходы к ее решению. Кроме того, в разделе представлен обзор работ, посвященных предсказательному моделированию фенотипических характеристик на основе транскриптомных данных.

Как было упомянуто в предыдущем разделе, одной из современных задач биологии является задача выявления фенотипических характеристик на основе транскриптомных данных. В данный момент не существует ни точных математических моделей, ни формальных математических методов для моделирования химических и биологических процессов, соответствующих экспрессии генов ее взаимосвязям с фенотипическими признаками. Более того, многие процессы, задействованные в данных взаимосвязях, не могут быть декомпозированы с точки зрения биологии, так как их внутренняя работа на данный момент не известна, либо малоизучена [19].

Как следствие, построение математических моделей на основе анализа предметной области на данном этапе невозможно. Однако существуют огромные наборы данных измерений экспрессии генов для самых различных фенотипиче-ских характеристик. В связи с этим, задача выявления фенотипических характеристик на основе транскриптомных данных сводится к задаче поиска целевой зависимости между уровнями экспрессии и целевой характеристикой. Эта задача в явном виде является задачей обучения с учителем. Далее введем понятия и определения, так или иначе имеющие отношение к задаче обучения с учителем, и будем следовать рамкам методологии таких задач. Следует заметить, что, как будет указано далее, задача обучения с учителем может быть как задачей классификации, так и регрессии и ранжирования, однако, не умаляя общности, проводимые в

диссертации исследования фокусируются именно на задаче классификации, так как она лучше всего подходит для задачи предсказания фенотипических характеристик.

Машинное обучение (machine learning) — подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, основной задачей которого является решение задачи извлечения знания из данных [4, 8, 21, 23, 43].

Машинное обучение принято разделять на три крупные категории в зависимости от вида обучаемой системы, а также доступной ей информации [21, 23, 43]:

- Обучение с учителем (supervised learning). В этом случае алгоритм имеет доступ не только к информации об объектах, но и об их метках, соответствующих данным объектам, которые нужно предсказывать. Основной целью является построение обобщающего правила, которое воспроизводит зависимость между объектами и их метками.

- Обучение без учителя (unsupervised learning). В отличие от предыдущей категории, алгоритм не имеет информации о метках. Как правило, целью обучения без учителя является нахождение скрытых свойств в данных.

- Обучение с подкреплением (reinforcement learning). Алгоритмы данной категории взаимодействуют с некоторой внешней средой или ее моделью для достижения определенных целей. На свои действия алгоритм получает некоторую отдачу от среды и, исходя из нее, корректирует работу.

Данная классификация не является единственно возможной — она содержит лишь наиболее крупные и общепризнанные задачи, однако существуют и иные, более детализированные классификации. Например, зачастую отдельно выделяют частичное обучение (semi-supervised learning), при котором в обучающем наборе данных присутствуют не все метки обучения [18, 21, 43].

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Сметанников Иван Борисович, 2017 год

СПИСОК ЛИТЕРАТУРЫ

[1] Борисова И.А., Дюбанов В.В., Загоруйко Н.Г., Кутненко О.А. Использование FRiS-функции для построения решающего правила и выбора признаков (задача комбинированного типа DX) // Труды Всероссийской Конференции «Знания-Онтологии-Теории». — 2007. — Т. 1. — С. 37-44.

[2] Борисова И.А., Загоруйко Н.Г., Кутненко О.А. Критерии информативности и пригодности подмножества признаков, основанные на функции сходства // Заводская лаборатория. Диагностика материалов. — 2008. — № 1 (74).

— С. 68-71.

[3] Варламов Е.Н., Сметанников И.Б. Исследование методов оптимизации агрегации ранжирующих функций для фильтрующих методов отбора признаков // Сборник тезисов докладов конгресса молодых ученых. Электронное издание.

— URL: http://openbooks.ifmo.ru/ru/file/3799/3799.pdf (дата обращения 10.09.2017).

[4] Загоруйко Н.Г. Методы распознавания и их применение. — М.: Книга по Требованию, 2012. — 211 с.

[5] Захарова Е.М., Минашина И.К. Обзор методов многомерной оптимизации // Информационные процессы. — Т. 14. — № 3. — 2014. — С. 256-274.

[6] Князев Д., Старикова В., Сахарнов Н., Солнцев Л., Уткин О. Разработка ДНК-микрочипа для изучения апоптоз-ассоциированного транскриптома // Им-мунопаталогия и иммунореабилитация: от теории к практике. — 2015.

— С. 37-38.

[7] Князев Д., Старикова В., Уткин О., Солнцев Л., Сахарнов Н. Ефимов Е. Особенности сплайсинг-ориентированных ДНК-микрочипов и их применение в биомедицинских исследованиях // Современные технологии в медицине. — 2015.

— Т. 7. — №4. — С. 162-173.

[8] Николенко С. И., Тулупьев А. Л. Самообучающиеся системы. — М.,

— 2009. — 288 с.

[9] Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. — М.: Горячая линия - Телеком, 2013.

— 384 с.

[10] Самсонова М. Г., Суркова С. Ю., Козлов. К. Н., Писарев А. С. Что и как изучает биоинформатика // Труды Санкт-Петербургского политехнического университета Петра Великого. — 2009. — № 511. — С. 169-190.

[11] Сергушичев А. А. Методы вычислительного анализа метаболических моделей для интерпретации транскриптомных и метаболомных данных. Диссертация на соискание ученой степени кандидата технических наук. Университет ИТМО. — 2016.

[12] Сметанников И.Б. Параллельный алгоритм выбора признаков на основе очереди с приоритетом // Научно-технический вестник информационных технологий, механики и оптики. — 2017. — 4 (110). — С. 664-669.

[13] Танфильев И.Д., Сметанников И.Б. Агрегирование ранжирований результатов в задаче выбора подмножества атрибутов на основе мета-обучения // Международная конференция по мягким вычислениям и измерениям. — 2015.

— Т. 1. — С. 91-94.

[14] Alves A. et.al. Predictive Analysis of Gene Data from Human SAGE Libraries // Proceedings of the Workshop ECML/PKDD. — 2005. — P. 60-71.

[15] Auffarth B., Lopez M., Cerquides J. Comparison of redundancy and relevance measures for feature selection in tissue classification of CT images // Advances in Data Mining. Applications and Theoretical Aspects. — 2010. — P. 248-262.

[16] Amit S., Shrivas M.M. Filter - PSO based approach for Feature Selection // International Journal of Advanced Research in Computer Science — Vol.8 — No.5

— 2017.

[17] Anidha M., Premalatha K. An application of fuzzy normalization in miRNA data for novel feature selection in cancer classification. // Biomedical Research

— Vol. 28, no. 9. — 2017. — P. 4187-4195.

[18] Ang J.C., Mirzal A., Haron H., Abdull Hamed H.N. Supervised, Unsupervised, and Semi-Supervised Feature Selection: A Review on Gene Selection // IEEE

ACM Transactions on Computational Biology and Bioinformatics. — Vol.13, no. 5.

— 2016. — P. 971-989.

[19] Baxevanis A., Ouellette F. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. — Wiley, 2004. — 504 p.

[20] Binitha S., Sathya S. A survey of bio inspired optimization algorithms. Int. J. Soft Comput. Eng. — Vol. 2. Iss. 2. — 2012. — P. 137-151.

[21] Bishop C. Pattern recognition and machine learning. — Springer-Verlag New York, 2006. — 738 p.

[22] Bolón-Canedo V., Sánchez-Maroño N., Alonso-Betanzos A., An ensemble of filters and classifiers for microarray data classification // Pattern Recognition. — Vol. 45. — 2012. — P. 531-539.

[23] Bolón-Canedo V., Sánchez-Maroño N., Alonso-Betanzos A., Benítez J.M., Herrera F. A review of microarray datasets and applied feature selection methods // Information Sciences — Vol. 282. — 2014. — P. 111-135.

[24] Brooker R. Genetics: Analysis and Principles. — McGraw-Hill Higher Education, 2004. — 842 p.

[25] Burges C. A tutorial on support vector machines for pattern recognition // Data mining and knowledge discovery. — Vol. 2, no. 2. — P. 121-167.

[26] Burkovski, A., Lausser, L., Kraus, J.M., Kestler, H.A.: Rank aggregation for candidate gene identification // Data Analysis, Machine Learning and Knowledge Discovery. — 2014. — P. 285-293.

[27] Castiello C., Castellano G., Fanelli A. Meta-data: Characterization of input features for meta-learning // Modeling decisions for artificial intelligence. — 2005.

— P. 457-468.

[28] Chellamuthu G., Kandasamy P., Kanagaraj S. Biomarker Selection from Gene Expression Data for Tumour Categorization Using Bat Algorithm // International Journal of Intelligent Engineering & Systems. — 2017. — P. 401-408.

[29] Chuang L., Yang C., Wu K., Yang C. A hybrid feature selection method for DNA microarray data // Computers in biology and medicine. — Vol. 41, no. 4. — 2011.

— P. 228-237.

[30] Das A., Das S., Ghosh A. Ensemble feature selection using bi-objective genetic algorithm // Knowledge-Based Systems. — Vol. 123. — 2017. — P. 116-127.

[31] Diale M., Van Der Walt C., Celik T., Modupe A. Feature Selection and Support Vector Machine Hyper-parameter Optimisation for Spam Detection // Pattern Recognition Association of South Africa and Robotics and Mechatronics International Conference — 2016. — P. 1-7.

[32] Dietterich T. Ensemble methods in machine learning // Multiple classifier systems. — 2000. — P. 1-15.

[33] Dubey V. K., Saxena A. K., Shrivas M. M. A Cluster-Filter Feature Selection Approach // ICT in Business Industry & Government (ICTBIG). — 2016.

— P. 1-5.

[34] Fang C., Zhao Z., Zhou P., Lin Z. Feature learning via partial differential equation with applications to face recognition // Pattern Recognition. — Vol. 69.

— 2017. — P. 14-25.

[35] Filchenkov A., Dolganov V., Smetannikov I. PCA-based Algorithm for Constructing Ensembles of Feature Ranking Filters // Proceedings of European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. — 2015. — P. 201-206.

[36] Forsati R., Moayedikia A., Jensen R., Shamsfard M., Meybodi M.R. Enriched ant colony optimization and its application in feature selection // Neurocomputing. — Vol. 142. — 2014. — P. 354-371.

[37] Garner S. Weka: the waikato environment for knowledge analysis. // Proceedings of the New Zealand Computer Science Research Students Conference. — 1995. — P. 57-64.

[38] Ghaemi M., Feizi-Derakhshi M-R. Feature selection using Forest Optimization Algorithm // Pattern Recognition. — Vol. 60. — 2016. — P. 121-129.

[39] Gheyas A., Smith L. Feature subset selection in large dimensionality domains // Pattern recognition. — Vol. 43. — 2010. — P. 5-13.

[40] Giraud-Carrier, C. Metalearning - a tutorial // Proceedings of the 7th International Conference on Machine Learning and Applications. — 2008. — P. 1-45.

[41] Guyon I., Elisseeff A., An introduction to variable and feature selection, The Journal of Machine Learning Research Vol. 3 —2003. — P. 1157-1182.

[42] Han X., Chang X., Quan L., Xiong X., Li J., Zhang Z., Liu Y. Feature subset selection by gravitational search algorithm optimization // Information Sciences.

— Vol. 281. — 2014. — P. 128-146.

[43] Hastie T., Tibshirani R., Friedman J. The elements of statistical learning.

— Springer-Verlag New York, 2009. — 764 p.

[44] Huang, H., Xu, H.,Wang, X., Silamu, W. Maximum f1-score discriminative training criterion for automatic mispronunciation detection // Transactions on Audio, Speech, and Language Processing. — Vol. 23, no. 4. — 2015. — P. 787-797.

[45] Isaev I., Smetannikov I. MeLiF+: Optimization of filter ensemble algorithm with parallel computing // Proceedings of IFIP International Conference on Artificial Intelligence Applications and Innovations. — 2016. — P. 341-347.

[46] Jeyasingh S., Veluchamy M. Modified Bat Algorithm for Feature Selection with the Wisconsin Diagnosis Breast Cancer (WDBC) Dataset // Asian Pac J Cancer Prev. — 2017. — P. 1257-1264.

[47] Kashef S., Nezamabadi-pour H. An advanced ACO algorithm for feature subset selection // Neurocomputing. — Vol.147. — 2015. — P. 271-279.

[48] Kent, J.T. Information gain and a general measure of correlation // Bio-metrika. — Vol. 70, Iss. 1, — 1983. — P. 163-173.

[49] Komeili M., Louis W., Armanfard N., Hatzinakos D. Feature Selection for Nonstationary Data: Application to Human Recognition Using Medical Biometrics // IEEE Transactions on Cybernetics. — Vol. PP, no. 99. — 2017. — P. 1-14.

[50] Kononenko I. Estimating attributes: analysis and extensions of relief // Proceedings of European Conference on Machine Learning: ECML-94. — 1994.

— P. 171-182.

[51] Lagarias J., Reeds J., Wright M., Wright P. Convergence properties of the Nelder-Mead simplex method in low dimensions // SIAM Journal on Optimization.

— Vol. 9. — 1998. — P. 112-147.

[52] Lazar C., Taminau J., Meganck S., Steenhoff D., Coletta A., Molter C., de Schaetzen V., Duque R., Bersini H., Nowe A. A survey on filter techniques for feature selection in gene expression microarray analysis // IEEE ACM Transactions on Computational Biology and Bioinformatics (TCBB). — Vol. 9. — 2012. — P. 1106-1119.

[53] Lemke C., Budka M., Gabrys B. Metalearning: a survey of trends and technologies // Artif Intell Rev. — Vol. 33. — 2013. — P. 117-130.

[54] Lesk A. Introduction to Genomics. Oxford university press, 2011. — 424 p.

[55] Liu T., Xie S., Zhang Y., Yu J., Niu L., Sun W. Feature selection and thyroid nodule classification using transfer learning // Proceedings of IEEE 14th International Symposium on Biomedical Imaging. — 2017. — P. 1096-1099.

[56] Liu Y., Wang G., Chen H., Dong H., Zhu X., Wang S. An Improved Particle Swarm Optimization for Feature Selection // Journal of Bionic Engineering. — Vol. 8, no. 2. — 2011. — P. 191-200.

[57] Maldonado S., López J. Synchronized feature selection for Support Vector Machines with twin hyperplanes // Knowledge-Based Systems. — Vol. 132. — 2017.

— P. 119-128.

[58] Mungloo-Dilmohamud Z., Jaufeerally-Fakim Y., Peña-Reyes C. A MetaReview of Feature Selection Techniques in the Context of Microarray Data // Bioinformatics and Biomedical Engineering. — 2017. — P. 33-49.

[59] Naftchali R.E., Abadeh M.S. A multi-layered incremental feature selection algorithm for adjuvant chemotherapy effectiveness/futileness assessment in non-small cell lung cancer // Biocybernetics and Biomedical Engineering — Vol.37. — Iss.3

— 2017. — P. 477-488.

[60] Pedersen M. Good Parameters for Particle Swarm Optimization. Technical Report HL1001. — Hvass Laboratories. — 2010. — 12 p.

[61] Saeys Y., Abeel T., Van de Peer Y., Robust feature selection using ensemble feature selection techniques // ML and KDD. — 2008. — P. 313-325.

[62] Seijo-Pardo B., Bolón-Canedo V., Alonso-Betanzos A. Testing Different Ensemble Configurations for Feature Selection // Neural Processing Letters. — 2017.

— P. 1-24.

[63] Shipp M., et.al. Diffuse large B-cell lymphoma outcome prediction by geneexpression profiling and supervised machine learning // Nature medicine. — 2002.

— Vol. 8. — P. 68-74.

[64] Smetannikov I., Deyneka A., Filchenkov A. Meta Learning Application in Rank Aggregation Feature Selection // Proceedings of the 3rd International Symposium on Soft Computing and Machine Intelligence. — 2016. — P. 120-123.

[65] Smetannikov I., Filchenkov A. MeLiF: filter ensemble learning algorithm for gene selection // Advanced Science Letters. — 2016. — Vol. 22. — P. 2982-2986.

[66] Smetannikov I., Isaev I., Filchenkov A. New Approaches to Parallelization in Filters Aggregation Based Feature Selection Algorithms // Procedia Computer Science. — 2016. — Vol. 101. — P. 45-52.

[67] Smetannikov I. Isaev I., Filchenkov A. Reinforcement Learning Approach for Parallelization in Filters Aggregation Based Feature Selection Algorithms // JMLR: Workshop and Conference Proceedings. — 2016. — arXiv: 1611.02047. — 10 p.

[68]Smetannikov I., Varlamov E., Filchenkov A. Swarm MeLiF: Feature Selection with Filter Combination Found via Swarm Intelligence // Proceedings of the First International Early Research Career Enhancement School. — 2016. — P. 227-234.

[69] Song L., Smola A., Gretton A., Bedo J., Borgwardt K. Feature selection via dependence maximization // The Journal of Machine Learning Research. — 2012.

— Vol. 13, no. 1. — P. 1393-1434.

[70] Sutton R., Barto A. Introduction to Reinforcement learning. — MIT Press Cambridge, 1998. — 342 p.

[71] Tommasel A., Godoy D. A Social-aware Online Short-text Feature Selection Technique for Social Media // Information Fusion. — Vol. 40. — 2018. — P. 1-17.

[72] Umayaparvathi V., Iyakutti K. Automated Feature Selection and Churn Prediction using Deep Learning Models // International Research Journal of Engineering and Technology — Vol.04 — Iss.03 — 2017. — P. 1846-1854.

[73] Vilalta R., Giraud-Carrier C., Brazdil P. Meta-learning concepts and techniques // Data mining and knowledge discovery handbook. — 2009. — P. 717-731.

[74] Wang C., Shao M., He Q., Qian Y., Qi Y. Feature subset selection based on fuzzy neighborhood rough sets // Knowledge-Based Systems. — Vol.111. — 2016.

— P. 173-179.

[75] Wang D., Zhang Z., Bai R., Mao Y. A hybrid system with filter approach and multiple population genetic algorithm for feature selection in credit scoring // Journal of Computational and Applied Mathematics — 2017. — P. 1-24.

[76] Wang F. Fuzzy supervised classification of remote sensing images // IEEE Transactions on Geoscience and Remote Sensing. — Vol. 28. — 1990. — P. 194-201.

[77] Wang S., Wei J. Feature selection based on measurement of ability to classify subproblems // Neurocomputing. — Vol. 224. — 2017. — P. 155-165.

[78] Wang Y., et.al. Gene selection from microarray data for cancer classification

— a machine learning approach // Computational biology and chemistry. — 2005.

— Vol. 29. — P. 37-46.

[79] Wang Z., Gerstein M., Snyder M. RNA-Seq: a revolutionary tool for tran-scriptomics // Nat. Rev. Genet. — 2009. — Vol. 10, no. 1. — P. 57-63.

[80] Yang M-S., Nataliani Y. A Feature-Reduction Fuzzy Clustering Algorithm Based on Feature-Weighted Entropy // IEEE Transactions on Fuzzy Systems.

— Vol. PP, no. 99. — 2017. — P. 1-1.

[81] Yang X. Firefly algorithm, Levy flights and global optimization // Research and Development in Intelligent Systems. — Vol. 26. — 2010. — P. 209-218.

[82] Yu L. Feature selection for genomic data analysis // Computational methods of feature selection. — 2008. — P. 337-353.

[83] Zabashta A., Smetannikov I., Filchenkov A. Rank Aggregation Algorithm Selection Meets Feature Selection // Machine Learning and Data Mining in Pattern Recognition. — 2016. — P. 740-755.

[84] Zaharieva M., Breiteneder C., Hudec M. Unsupervised group feature selection for media classification // International Journal of Multimedia Information Retrieval — Vol.6 — Iss.3 — 2017. — P. 233-249.

[85] Zhang Y., Gong D., Hu Y., Zhang W. Feature selection algorithm based on bare bones particle swarm optimization // Neurocomputing. — Vol. 148. — 2015.

— P. 150-157.

[86] Zhang Z., Tian Y., Bai L., Xiahou J., Hancock E. High-order covariate interacted Lasso for feature selection // Pattern Recognition Letters. — Vol. 87 — 2017.

— P. 139-146.

[87] Zhou Y., Zhou G., Zhang J. A Hybrid Glowworm Swarm Optimization Algorithm for Constrained Engineering Design Problems // Appl. Math. Inf. Sci.

— Vol. 7. — 2013. P. 379-388.

Ресурсы сети интернет

[88] Apache commons CLI. — URL: https://commons.apache.org/proper/ commons-cli/. (дата обращения 10.09.2017).

[89] ArrayExpress, functional genomics data. — URL: https:// www.ebi.ac.uk/ arrayexpress/. (дата обращения 11.02.2017).

[90] Bioinformatics Research Group of Universidad Pablo de Olavide Dataset Repository. — URL: http://eps.upo.es/bigs/datasets.html. (дата обращения 10.09.2017).

[91] Broad Institute Cancer Program Data Sets. URL: — http:// www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. (дата обращения 11.02.2017).

[92] Eclipse IDE for Java Developers. — URL: https://www.eclipse.org/ downloads/packages/eclipse-ide-java-developers/keplersr1. (дата обращения 10.09.2017).

[93] Feature selection datasets at Arizona State University. — URL: http://featureselection.asu.edu/datasets.php. (дата обращения 11.02.2017).

[94] Gene Expression Omnibus datasets. — URL http://www.ncbi.nlm.nih.gov/ sites/GDSbrowser/. (дата обращения 11.02.2017).

[95] Java SE Development Kit 8 — URL: http://www.oracle.com/technetwork/ java/javase/downloads/jdk8-downloads-2133151.html (дата обращения 10.09.2017).

[96] Kent Ridge Bio-Medical Dataset. — URL: http://datam.i2r.a-star.edu.sg/datasets/krbd/. (дата обращения 11.02.2017).

[97] Logback Project. — URL: https://logback.qos.ch. (дата обращения 10.09.2017).

[98] RSCTC'2010 Discovery Challenge. — URL: http://tunedit.org/repo/RSCTC/ 2010/B/public. (дата обращения 11.02.2017).

[99] Shenzhen University datasets. — URL: http://csse.szu.edu.cn/staff/zhuzx/ Datasets.html. (дата обращения 11.02.2017).

[100] Simple Logging Facade for Java (SLF4J). — URL: https://www.slf4j.org. (дата обращения 10.09.2017).

[101] Joulani P. Online learning under delayed feedback // arXiv. — 2013. — arXiv:1306.0686. — 14 p. — URL: https://arxiv.org/abs/1306.0686. (дата обращения 10.09.2017).

[102] University of Plymouth microarrays dataset. — URL: http:// www.tech.plym.ac.uk/spmc/links/bioinformatics/microarray/microarray_cancers.html. (дата обращения 11.02.2017).

[103] Weka 3: Data Mining Software in Java. — URL: https:// www.cs.waikato.ac.nz/ml/weka/. (дата обращения 10.09.2017).

ПРИЛОЖЕНИЕ А РАСШИРЕННЫЕ ТАБЛИЦЫ

ЭКСПЕРИМЕНТОВ

А.1 Результаты алгоритма MeLiF-1

Набор данных FC SP SU VDM Relief1 Relief3 Relief5 MeLiF-1

B CAN1 0,910 0,980 0,989 0,940 0,921 0,910 0,954 0,991

B CAN2 0,990 0,991 0,994 0,987 0,991 0,989 0,990 0,997

B CAN3 0,994 0,996 0,997 0,996 0,996 0,995 0,998 0,999

GCM BLAD 0,818 0,895 0,803 0,781 0,817 0,859 0,841 0,926

G CAN BR 0,847 0,766 0,826 0,833 0,741 0,758 0,723 0,863

GCM CNS 0,997 1,000 1,000 1,000 1,000 1,000 1,000 1,000

GCM COL. 0,885 0,905 0,921 0,826 0,897 0,915 0,918 0,993

GCM LEUK 0,993 0,979 0,979 0,982 0,996 0,978 0,989 1,000

GCM LUNG 0,829 0,972 0,903 0,969 0,814 0,825 0,895 0,994

GCM LYMPH 0,854 0,887 0,977 0,970 0,970 0,973 0,980 0,987

GCM MESO 0,917 0,822 0,819 0,780 0,878 0,877 0,890 0,928

GCMRY 0,706 0,558 0,619 0,582 0,619 0,671 0,633 0,706

GCM PANCR 0,811 0,673 0,915 0,790 0,835 0,683 0,768 0,920

GCM PROST 0,829 0,683 0,766 0,763 0,735 0,739 0,733 0,856

GCM RENAL 0,870 0,788 0,747 0,768 0,745 0,739 0,766 0,875

GCM UT 0,797 0,856 0,765 0,850 0,856 0,845 0,833 0,947

LEU UPO 0,967 0,935 0,968 0,951 0,941 0,952 0,949 0,984

LYMPH ABB 0,976 0,948 0,958 0,981 0,995 0,977 0,982 1,000

LYMPH CLL 0,990 0,966 0,961 0,933 0,956 0,956 0,956 0,995

LYMPH DLBCL 0,973 0,962 0,967 0,983 0,988 0,991 0,994 0,994

LYMPH FL 0,905 0,926 0,885 0,913 0,949 0,925 0,947 0,992

LYMPH RAT 0,995 1,000 0,991 1,000 1,000 1,000 1,000 1,000

LYMPH RBB 0,949 0,878 0,931 0,945 0,931 0,926 0,878 0,997

LYMPH TCL 0,840 0,920 0,924 0,924 0,929 0,943 0,943 0,995

TUMOR 0,677 0,679 0,647 0,689 0,639 0,632 0,624 0,732

А.2 Результаты различных методов оптимизации для алгоритма MeLiF

Набор данных MeLiF FF5 FF10 FF5R GW10-5-3 GW10-1-3 GW10-1-5

B CAN1 0,991 0,994 0,994 0,991 0,994 0,992 0,992

B CAN 2 0,997 0,997 0,993 0,994 0,994 0,997 0,994

B CAN3 0,999 0,997 0,996 0,997 0,998 0,997 0,997

GCM BLAD 0,926 0,916 0,985 0,914 0,902 0,920 0,909

G CAN BR 0,863 0,826 0,867 0,858 0,854 0,864 0,867

GCM CNS 1,000 1,000 1,000 1,000 1,000 1,000 1,000

GCM COL 0,987 0,990 0,945 0,987 0,991 0,989 0,987

GCM LEUK 1,000 1,000 1,000 1,000 1,000 1,000 1,000

GCM LUNG 0,994 0,990 0,994 0,984 0,994 0,993 0,991

GCM LYMPH 0,987 0,987 0,990 0,980 0,987 0,987 0,990

GCM MESO 0,928 0,974 0,964 0,916 0,968 0,939 0,950

GCMRY 0,706 0,706 0,706 0,681 0,706 0,706 0,706

GCM PANCR 0,920 0,915 0,917 0,903 0,921 0,926 0,921

GCM PROST 0,856 0,908 0,880 0,766 0,867 0,855 0,883

GCM RENAL 0,875 0,895 0,916 0,869 0,917 0,909 0,905

GCM UT 0,947 0,952 0,955 0,917 0,944 0,939 0,974

LEU UPO 0,984 0,984 0,989 0,994 0,989 1,000 0,978

LYMPH ABB 1,000 0,995 0,995 0,991 0,995 0,991 0,995

LYMPH CLL 0,995 0,990 1,000 0,986 1,000 1,000 0,995

LYMPH DLBCL 0,990 0,985 0,985 0,983 0,989 0,985 0,990

LYMPH FL 0,992 0,990 0,988 0,985 0,988 0,990 0,988

LYMPH RAT 1,000 1,000 1,000 1,000 1,000 1,000 1,000

LYMPH RBB 0,997 1,000 0,996 1,000 1,000 0,988 0,949

LYMPH TCL 0,995 0,995 0,995 0,987 0,995 0,995 0,995

TUMOR 0,732 0,708 0,729 0,717 0,716 0,748 0,712

Набор MeLiF GW10- PSO14- PSO2- PSO-4- PSO4- PSO6-

данных 1-55 25-13 3-23 7-22 25-13 4-14

B CAN1 0,991 0,995 0,995 1,000 1,000 0,997 0,995

B CAN2 0,997 0,994 0,996 0,996 0,996 0,996 0,996

B CAN3 0,999 0,997 1,000 1,000 0,999 0,999 1,000

GCM BLAD 0,926 0,909 0,912 0,915 0,928 0,908 0,912

G CAN BR 0,863 0,867 0,869 0,907 0,884 0,905 0,873

GCM CNS 1,000 1,000 1,000 1,000 1,000 1,000 1,000

GCM COL 0,987 0,987 0,994 0,992 0,997 0,990 0,994

GCM LEUK 1,000 1,000 1,000 1,000 1,000 1,000 1,000

GCM LUNG 0,994 0,993 0,989 0,980 0,989 0,990 0,989

GCM LYMPH 0,987 0,987 0,987 0,990 0,987 0,993 0,987

GCM MESO 0,928 0,971 0,922 0,933 0,971 0,952 0,922

GCMRY 0,706 0,706 0,695 0,685 0,751 0,743 0,698

GCM PANCR 0,920 0,924 0,918 0,910 0,916 0,927 0,920

GCM PROST 0,856 0,927 0,922 0,933 0,934 0,941 0,922

GCM RENAL 0,875 0,888 0,910 0,925 0,960 0,935 0,910

GCM UT 0,947 0,966 0,967 0,946 0,921 0,939 0,967

LEU UPO 0,984 0,984 0,984 0,994 1,000 0,994 0,984

LYMPH ABB 1,000 0,991 0,995 1,000 0,995 1,000 0,995

LYMPH CLL 0,995 1,000 0,995 0,990 0,990 0,995 0,995

LYMPH DLBCL 0,990 0,984 0,996 0,992 0,987 0,995 0,996

LYMPH FL 0,992 0,990 0,990 0,962 0,988 0,990 0,990

LYMPH RAT 1,000 1,000 1,000 1,000 1,000 1,000 1,000

LYMPH RBB 0,997 0,949 1,000 0,988 0,997 1,000 1,000

LYMPH TCL 0,995 0,995 0,976 0,995 0,995 0,995 0,976

TUMOR 0,732 0,711 0,779 0,750 0,756 0,783 0,776

A.3 Время работы различных конфигураций алгоритмов PqMeLiF и

MaMeLiF

Набор данных MeLiF PqMeLiF 75 PqMeLiF 100 PqMeLiF re MaMeLiF 75 MaMeLiF 100 MaMeLiF 125 MaMeLiF re

Arizona1 558 85 106 102 99 145 167 117

Arizona5 219 37 45 39 41 60 69 48

Breast 161 27 30 23 28 39 45 17

CNS 33 7 8 5 7 9 11 6

Data t 172 28 30 38 25 41 48 32

Data4_t 513 73 86 149 81 114 129 87

Data5 t 370 59 68 92 65 93 108 58

Data6 t 381 65 76 56 76 101 117 64

DLBCL 65 12 14 14 12 16 19 19

GDS2771 299 42 48 62 45 66 77 42

GDS28191 303 15 14 15 17 16 17 17

GDS28192 435 60 71 89 63 95 108 80

GDS2901 88 4 4 4 4 4 4 4

GDS2960 33 5 7 6 6 8 9 6

GDS2961 49 8 11 6 9 12 14 5

GDS2962 45 8 9 15 8 12 14 7

GDS3116 142 30 34 27 31 42 52 32

GDS3257 131 8 12 13 12 8 12 9

GDS3929 376 45 55 36 52 74 86 32

GDS4103 265 54 64 44 62 84 98 51

GDS4109 142 24 26 32 22 33 40 20

GDS4222 454 73 82 84 77 114 133 93

GDS4318 275 40 50 63 43 62 73 53

GDS4336 200 30 36 37 34 46 56 20

GDS4431 537 85 100 95 90 131 153 134

GDS4600 472 94 108 114 105 143 172 114

GDS4837 413 57 65 59 56 86 103 51

GDS4901 220 44 53 48 40 65 74 30

GDS4968 226 37 47 39 38 59 68 38

GDS5037 243 49 56 57 53 74 88 62

GDS5047 185 9 11 10 11 12 12 11

GDS5083 195 29 34 43 30 44 52 40

Leuk 3 34 7 9 6 8 10 13 7

Ovarian 192 9 9 9 10 10 10 11

plySRBCT 17 1 1 1 1 1 1 1

Prostate 93 16 22 18 19 26 31 15

A.4 F1 мера различных конфигураций алгоритмов PqMeLiF и

MaMeLiF

Набор данных MeLiF PqMeLiF 75 PqMeLiF 100 PqMeLiF re MaMeLiF 75 MaMeLiF 100 MaMeLiF 125 MaMeLiF re

Ariz1 0,833 0,833 0,833 0,833 0,833 0,833 0,833 0,833

Ariz5 0,768 0,786 0,793 0,769 0,773 0,773 0,773 0,773

BCancer 0,844 0,812 0,812 0,812 0,802 0,802 0,802 0,802

CNStumour 0,742 0,899 0,899 0,852 0,830 0,830 0,83 0,83

Data t 0,853 0,849 0,854 0,854 0,839 0,839 0,839 0,839

Data4 t 0,823 0,775 0,804 0,826 0,775 0,775 0,775 0,775

Data5 t 0,847 0,901 0,901 0,907 0,886 0,886 0,886 0,886

Data6 t 0,835 0,859 0,859 0,859 0,853 0,869 0,869 0,869

DLBCL-A 0,799 0,800 0,835 0,835 0,761 0,761 0,761 0,761

G2771 0,798 0,801 0,817 0,817 0,783 0,783 0,783 0,783

G2819-1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

G2819-2 0,948 0,957 0,951 0,961 0,921 0,921 0,921 0,921

G2901 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

G2960 0,990 0,977 0,984 0,98 0,977 0,977 0,977 0,977

G2961 0,860 0,829 0,843 0,782 0,784 0,784 0,784 0,784

G2962 0,877 0,924 0,926 0,946 0,883 0,888 0,883 0,883

G3116 0,852 0,868 0,888 0,868 0,853 0,857 0,857 0,853

G3257 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

G3929 0,809 0,810 0,812 0,810 0,774 0,774 0,774 0,774

G4103 0,933 0,923 0,923 0,923 0,923 0,923 0,926 0,923

G4109 0,936 0,924 0,924 0,933 0,947 0,947 0,947 0,947

G4222 0,974 0,970 0,970 0,970 0,970 0,970 0,970 0,970

G4318 0,923 0,970 0,970 0,970 0,942 0,942 0,942 0,942

G4336 0,928 0,916 0,916 0,916 0,900 0,916 0,916 0,916

G4431 0,827 0,817 0,817 0,817 0,817 0,817 0,817 0,817

G4600 0,983 0,979 0,979 0,979 0,979 0,979 0,979 0,979

G4837 0,916 0,928 0,938 0,928 0,909 0,909 0,909 0,909

G4901 0,931 0,919 0,933 0,919 0,913 0,913 0,913 0,913

G4968 0,905 0,913 0,936 0,936 0,907 0,907 0,907 0,907

G5037 0,825 0,867 0,878 0,867 0,867 0,867 0,867 0,867

G5047 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

G5083 0,862 0,872 0,892 0,892 0,847 0,847 0,832 0,847

Leukemia 0,989 0,986 0,986 0,986 0,986 0,986 0,986 0,986

OCancer 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

SRBCtumor 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

PCancer 0,919 0,927 0,929 0,927 0,925 0,925 0,925 0,921

А.5 Результаты алгоритма GPSMeLiF

Набор данных Результат выбранной ОРБМеШ точки ОРБМеШ МеШ Тип результата

arizona7 5 1,000 1,000 1,000 1

GDS2819 0 1,000 1,000 1,000 1

GDS2819 1 0,833 0,833 0,833 1

GDS2901 1,000 1,000 1,000 1

GDS2947 1,000 1,000 1,000 1

GDS2954 0,800 0,800 0,800 1

GDS2960 0,978 0,978 0,978 1

GDS3145 1,000 1,000 1,000 1

GDS3233 0 0,833 0,833 0,833 1

GDS3233 1 0,833 0,833 0,833 1

GDS3244 1,000 1,000 1,000 1

GDS3553 0,833 0,833 0,833 1

GDS3622 1,000 1,000 1,000 1

GDS4129 1,000 1,000 1,000 1

GDS4130 1,000 1,000 1,000 1

GDS4261 1,000 1,000 1,000 1

GDS4381 1,000 1,000 1,000 1

GDS4437 1,000 1,000 1,000 1

GDS4502 0 1,000 1,000 1,000 1

GDS4502 1 1,000 1,000 1,000 1

GDS4516 1 0,948 0,948 0,948 1

GDS4589 2 0,833 0,833 0,833 1

GDS4600 0,983 0,983 0,983 1

GDS4602 2 0,986 0,986 0,986 1

GDS4758 2 0,733 0,733 0,733 1

GDS4761 3 0,833 0,833 0,833 1

GDS4761 6 0,946 0,946 0,946 1

GDS4794 1,000 1,000 1,000 1

GDS4822 3 1,000 1,000 1,000 1

GDS4822 4 1,000 1,000 1,000 1

GDS4896 0 1,000 1,000 1,000 1

GDS4940 1,000 1,000 1,000 1

GDS5016 0 0,833 0,833 0,833 1

GDS5016 1 0,667 0,667 0,667 1

GDS5016 2 0,667 0,667 0,667 1

GDS5016 3 0,833 0,833 0,833 1

GDS5047 1,000 1,000 1,000 1

GDS5086 0 0,600 0,600 0,600 1

GDS5086 1 0,600 0,600 0,600 1

GDS508 6 2 0,600 0,600 0,600 1

GDS508 6 3 0,600 0,600 0,600 1

GDS508 6 4 0,600 0,600 0,600 1

GDS50 91 0,571 0,571 0,571 1

GDS50 92 0,714 0,714 0,714 1

MLL 0 1,000 1,000 1,000 1

arizona3 1 0,S00 0,S00 0,S00 1

arizona3 2 1,000 1,000 1,000 1

arizona3 4 0,S00 0,S00 0,S00 1

arizona3 5 0,S00 0,S00 0,S00 1

arizona3 6 0,S00 0,S00 0,S00 1

arizona3 7 1,000 1,000 1,000 1

arizona4 0 1,000 1,000 1,000 1

arizona4 4 1,000 1,000 1,000 1

arizona4 5 0,S00 0,S00 0,S00 1

arizona4 8 1,000 1,000 1,000 1

arizona4 9 0,S00 0,S00 0,S00 1

arizona6 3 0,733 0,733 0,733 1

arizona7 1 1,000 1,000 1,000 1

arizona8 0 1,000 1,000 1,000 1

arizona8 3 1,000 1,000 1,000 1

arizona8 5 1,000 1,000 1,000 1

broadA12600 1 0,791 0,791 0,791 1

data3 train 1,000 1,000 1,000 1

(95,22277)

data4 train 0,672 0,672 0,672 1

(113,54675)

data5 train 0,76S 0,76S 0,76S 1

(89,54613)

plySRBCT 2 0,S33 0,S33 0,S33 1

CNS(60,7129) 0,697 0,S09 0,763 2

DLBCL 0,704 0,S2S 0,767 2

GCM 10 0,60S 0,725 0,53S 2

GCM 2 0,665 0,7S2 0,7S2 2

GCM 3 0,621 0,S53 0,S05 2

GCM 5 0,57S 0,6S0 0,633 2

GCM 7 0,662 0,667 0,667 2

GCM 8 0,927 0,9S7 0,956 2

GCM 9 0,557 0,S0S 0,633 2

GDS2 68 0 0,956 0,991 0,9S0 2

GDS2 7 71 0,6S5 0,S06 0,694 2

GDS2 998 0 0,791 0,S27 0,613 2

GDS2 998 2 0,S15 0,933 0,926 2

GDS3257 0,951 0,990 0,822 2

GDS3875 G 0,619 0,843 0,715 2

GDS3875 1 0,661 0,933 0,802 2

GDS3966 0,964 0,984 0,936 2

GDS41G9 0,835 0,928 0,926 2

GDS4181 0,687 0,817 0,722 2

GDS4185 0,846 0,962 0,958 2

GDS4318 G 0,698 0,869 0,628 2

GDS4318 1 0,927 0,969 0,794 2

GDS4 33 6 0,884 0,922 0,915 2

GDS4 3 95 0,893 0,984 0,973 2

GDS4431 0,762 0,863 0,703 2

GDS4 516 2 0,810 0,916 0,873 2

GDS4 58 9 G 0,952 0,985 0,954 2

GDS4 7 58 1 0,589 0,833 0,754 2

GDS4 7 58 4 0,784 0,897 0,758 2

GDS4 7 58 5 0,735 0.869 0,683 2

GDS4 7 61 5 0,861 0,951 0,804 2

GDS4 822 G 0,833 1,000 0,800 2

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.