Глубокие генеративные конкурентные нейронные сети для малых органических молекулярных структур тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Путин, Евгений Олегович
- Специальность ВАК РФ05.13.11
- Количество страниц 0
Оглавление диссертации кандидат наук Путин, Евгений Олегович
Содержание
ВВЕДЕНИЕ
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
1.1 Современный процесс разработки лекарственных молекул
1.2 Основные принципы машинного обучения
1.3 Основные архитектуры нейронных сетей
1.4 Генеративные нейронные сети
1.5 Задачи, решаемые в диссертационной работе
Выводы по главе 1
2. АРХИТЕКТУРА REINFORCED ADVERSARIAL NEURAL COMPUTER
2.1 Архитектура RANC
2.2 Экспериментальные исследования архитектуры RANC
Выводы по главе 2
3. АРХИТЕКТУРА ADVERSARIAL THRESHOLD NEURAL COMPUTER
3.1 Архитектура ATNC
3.2 Функция награды Internal Diversity Clustering
3.3 Экспериментальные исследования архитектуры ATNC
Выводы по главе 3
4. АРХИТЕКТУРА REINFORCED SEQ2SEQ ADVERSARIAL A UTOENCODER
4.1 Архитектура RSAAE
4.2 Экспериментальные исследования архитектуры RSAAE
Выводы по главе 4
5. ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ РАБОТЫ
5.1 Внедрение в компании «Инсилико»
5.2 Автоматизированный анализ пространства химических превращений
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
Ресурсы сети интернет
132
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Разработка подходов к виртуальному скринингу антивирусных соединений с учетом гетерогенности информации2023 год, кандидат наук Столбов Леонид Алексеевич
Машинное обучение в виртуальном скрининге на основе структуры биологической мишени: поиск новых ингибиторов танкиразы2022 год, кандидат наук Беришвили Владимир Павлович
Применение методов машинного обучения для разработки новых молекул с антибактериальной активностью2019 год, кандидат наук Веселов Марк Сергеевич
Компьютерное конструирование трехмерной структуры цитохрома Р450 1А2 и поиск его потенциальных лигандов1999 год, кандидат биологических наук Белкина, Наталья Валерьевна
Оценка аффинности комплексов белок-лиганд с применением нейронных сетей2014 год, кандидат наук Ромеро Рейес Илякай Владиславовна
Введение диссертации (часть автореферата) на тему «Глубокие генеративные конкурентные нейронные сети для малых органических молекулярных структур»
ВВЕДЕНИЕ
Актуальность темы. Разработка лекарственных молекул исторически основана на трех важнейших научных дисциплинах: компьютерном моделировании (виртуальный скрининг, ВС), комбинаторном органическом синтезе (КС) и высокопроизводительном биологическом скрининге (ВБС). Применение этих технологий привело к разработке значительного числа новых структурно разнообразных лекарственных молекул, многие из которых были выпущены на мировой фармацевтические рынок.
При помощи различных методов виртуального скрининга, в частности, генетических алгоритмов, еще до стадии непосредственного синтеза прогнозируется ряд важных характеристик малых органических молекулярных структур (в дальнейшем - молекулярных структур), включая наиболее вероятный механизм действия (биологическая мишень, как правило, белок), активность, селективность, фармакокинетический профиль, токсичность, стабильность и синтетическая доступность. В результате структуры уже известных или синтетически доступных молекул профилируются по указанным свойствам, что позволяет специалистам осуществлять их рациональный отбор. Активность отобранных молекул оценивается при помощи методов ВБС в биохимических и клеточных массивах. Структура наиболее активных соединений (молекула-хит) модифицируется с целью усиления активности, селективности, растворимости и снижения возможных побочных эффектов. Итерационно молекула-хит трансформируется в лидирующую молекулу, которая исследуется в серии доклинических испытаний.
Указанные стадии разработки требуют существенных финансовых и временных затрат и не всегда приводят к успеху. С учетом того, что химическое пространство всех возможных органических синтетически доступных лекарственно-подобных молекул включает огромное число структур, обход и оценка такого пространства методами ВС, включая генетические алгоритмы, являются вычислительно трудными задачами. Существенный недостаток методов, основанных на генетических алгоритмах - ручная спецификация эвристик мутации и скрещива-
ния [66, 101, 110, 111, 115, 133, 137], при которой возникает риск их неправильного задания. Кроме того, будучи экспертно-зависимыми методами, перенос генетических алгоритмов на новые задачи потребовал бы привлечения дополнительных экспертных знаний. Также стоит отметить, что многие разрабатываемые молекулы могут подпадать под действие существующих патентов и, тем самым, не будут удовлетворять критериям новизны.
Для устранения недостатков, связанных с использованием генетических алгоритмов, в последнее время начали применяться глубокие нейронные сети для генерации молекулярных соединений, что является областью дальнейших перспективных исследований.
Степень разработанности темы. Применением нейронных сетей в этой области занимались такие ученые, как, например, R. Gómez-BombarelH [31], M.OHvecrona [102], M. Popova [105], A. Gupta [41].
Разрабатываемые модели нейронных сетей можно разделить по типу представления молекулярных структур: строка, бинарный вектор, молекулярный граф и трехмерная электронная карта плотности. В силу того, что работа с графами и трехмерными структурами вычислительно долгий процесс, а бинарный вектор может соответствовать разным молекулам, наиболее эффективным представлением молекулярных структур является строковое представление в формате Simplified Molecular Input Line Entry System (SMILES) [143].
При таком представлении молекулярная структура записывается как последовательность символов атомов и связей между ними, при этом строка взаимнооднозначно соответствует молекуле, которую кодирует. Однако может возникнуть ситуация, в которой строка корректна с точки зрения синтаксиса грамматики SMILES, но не является семантически валидной - не соответствует какой-либо существующей в природе молекуле.
При таком молекулярном представлении задача генерации новых молекулярных структур разбивается на два этапа. На первом - происходит сбор, обработка и приведение в строковый формат тренировочных молекулярных соединений. На втором этапе осуществляется обучение какой-либо модели генеративной
нейронной сети на тренировочных молекулярных структурах. Впоследствии обученную модель можно использовать, чтобы генерировать новые молекулярных структуры.
В литературе существуют различные типы генеративных нейронных сетей, однако одними из наиболее популярных и лучших с точки зрения качества генерируемых объектов рассматриваемого класса являются генеративные конкурентные нейронные сети (generative adversarial network, GAN) [33]. GAN реализуют парадигму конкурентного обучения, которая основывается на игре между двумя игроками - генератором и дискриминатором, каждый из которых является нейронной сетью. Генератор генерирует объекты, его задача состоит в том, чтобы обмануть дискриминатор. Последний, в свою очередь, принимая объекты, решает, являются ли они реальными (из тренировочной выборки) или сгенерированными генератором. Таким образом, генератор и дискриминатор образуют минимаксную игру, в которой теоретически достигается равновесие Нэша и благодаря совместному обучению, генератор начинает порождать все более и более реалистичные объекты.
Целью работы является разработка и экспериментальная оценка набора эффективных архитектур глубоких генеративных конкурентных нейронных сетей и алгоритмов их обучения для генерации малых органических молекулярных структур с заданными свойствами.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Разработать и реализовать архитектуры глубоких конкурентных нейронных сетей для программных систем генерации молекулярных структур с заданными свойствами.
2. Провести вычислительные эксперименты для оценки эффективности предложенных глубоких генеративных конкурентных нейронных сетей для рассматриваемого класса задач.
Положения, выносимые на защиту:
1. Разработана архитектура RANC (Reinforced Adversarial Neural Computer) глубокой конкурентной нейронной сети для программной системы генера-
ции малых органических молекулярных структур с заданными свойствами. Показано, что она позволяет генерировать более качественные молекулярные соединения по сравнению конкурентом - нейронной сетью с архитектурой ORGANIC (Objective Reinforced Generative Adversarial Network for Inverse Chemical Design).
2. Разработана архитектура ATNC (Adversarial Threshold Neural Computer) глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными свойствами на основе архитектуры RANC c добавлением специального блока, который фильтрует недостаточно качественные молекулярные соединения уже на этапе генерации. Показано, что она позволяет генерировать более качественные молекулярные соединения по сравнению с программными системами RANC.
3. Разработана архитектура RSAAE (Reinforced Seq2Seq Adversarial Autoencoder) глубокой конкурентной нейронной сети для программной системы генерации малых органических молекулярных структур с заданными свойствами на основе архитектуры RANC с добавлением специального блока, который обеспечивает повышение процента генерации семантически валидных строк (молекул). Показано, что в экспериментах с предобучением (выполняется на больших выборках) и дальнейшим дообучением (выполняется на небольших выборках) RSAAE эффективнее RANC и ATNC, а в экспериментах только на небольших выборках ATNC эффективнее RANC и ATNC. Научная новизна. Предложены архитектуры нейронных сетей для проектирования программных систем генерации малых органических молекулярных структур с заданными свойствами. Эти архитектуры позволили генерировать более качественные молекулярные соединения по сравнению с программной системой ORGANIC (разработанной в Гарвардском университете), что, в частности, подтверждается тем, что ее авторы стали соавторами диссертанта [109].
Достоверность научных положений, экспериментальных результатов, выводов и практических рекомендаций, полученных в диссертации, обеспечивается
корректным обоснованием постановок задач, формулировкой критериев оценки, а также результатами вычислительных экспериментов.
Методология диссертационного исследования базируется на конкурентном обучении двух нейронных сетей (генератора и дискриминатора), реализуемом в виде поиска равновесия Нэша в минимаксной игре, а также на обучении с подкреплением, реализуемом в виде максимизации функции награды генератора.
Методы, используемые в диссертационном исследовании, связаны с глубоким машинным обучением, теорией вероятности, математической статистикой, дискретной математикой и объектно-ориентированным программированием.
Теоретическая значимость работы состоит в разработке новых эффективных архитектур нейронных сетей для генерации молекулярных соединений, объединяющих парадигмы конкурентного обучения и обучения с подкреплением.
Практическая значимость работы заключается в том, что предлагаемые архитектуры глубоких генеративных конкурентных нейронных сетей позволяют порождать качественные молекулярные соединения с заданными свойствами под конкретный белок-мишень или класс мишеней.
Внедрение результатов работы. Предложенные программные системы на основе глубоких генеративных конкурентных нейронных сетей применяются в компании ООО «Инсилико» (Москва) для генерации новых молекулярных структур, что подтверждается актом о внедрения. Результаты диссертации нашли применение в Университете ИТМО при выполнении работ по теме № 617041 «Автоматизированный анализ пространства химических превращений для предсказательного моделирования каталитических процессов», выполняемых из средств Университета ИТМО, что подтверждается соответствующим актом.
Апробация результатов работы. Основные результаты диссертационной работы докладывались на следующих научных и научно-практических конференциях: XIX Международная конференция по мягким вычислениям и измерениям (SCM'16). 2016, СПбГЭТУ «ЛЭТИ», СПб; International Symposium on Innovations in Intelligent Systems and Applications (INISTA'16). 2016, Синая, Румыния; XX Международная конференция по мягким вычислениям и измерениям (SCM'17).
2017, СПбГЭТУ «ЛЭТИ», СПб; Научная и учебно-методическая конференция Университета ИТМО. 2017, Университет ИТМО, СПб; Научная и учебно-методическая конференция Университета ИТМО. 2018, Университет ИТМО, СПб; XXI Международная конференция по мягким вычислениям и измерениям (SCM'18). 2018, СПбГЭТУ «ЛЭТИ», СПб; The 18th EPIA Conference on Artificial Intelligence (EPIA'17). 2017, Порту, Португалия; The 27th International Conference on Artificial Neural Networks (ICANN'18). 2018, Родос, Греция.
Личный вклад автора. Идеи, формализация, разработка и реализация архитектур, предлагаемых в работе глубоких генеративных конкурентных нейронных сетей, а также алгоритмов их обучения принадлежат лично автору. Проведение вычислительных экспериментов выполнены автором совместно с Арипом Асадулаевым.
В работах, выполненных в соавторстве, Жаворонковым А.А., Шалыто А. А., Алипером А.М. и Aspuru-Guzik A. осуществлена постановка задачи исследования, Иваненковым Я.А., Аладинским В.А., Аладинской А.В., Vanhaelen Q. и Sanchez-Lengeling B. выполнена химическая интерпретация сгенерированных молекулярных структур.
Публикации по теме диссертации. Основные результаты по теме диссертации изложены в четырех публикациях [3, 4, 108, 109], две из которых изданы в журналах из списка ВАК, две - в изданиях, индексируемых в международных базах цитирования Web of Science и Scopus.
Участие в научно-исследовательских работах. Результаты диссертации использовались при выполнении НИР «Автоматизированный анализ пространства химических превращений для предсказательного моделирования каталитических процессов» (2017-2018 гг., тема № 617041, средства Университета ИТМО).
Структура диссертации. Диссертация изложена на 134 страницах и состоит из введения, пяти глав и заключения. Список источников содержит 176 наименований. Работа проиллюстрирована 20 рисунками и 14 таблицами.
ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
Первая глава посвящена обзору предметной области - современному процессу разработки лекарственных молекулярных соединений, вычислительных методов в этом процессе и результатов существующих исследований по генерации малых органических молекулярных соединений. Кроме того, в главе приведены основные понятия и определения глубокого машинного обучения, а также изложены ключевые модели, методы и алгоритмы, необходимые для описания предлагаемых в диссертации архитектур нейронных сетей.
1.1 Современный процесс разработки лекарственных молекул
В данном разделе описывается современный процесс разработки лекарственных молекул, вводятся его основные понятия, а также производится обзор вычислительных методов, используемых в разработке лекарственных молекулярных соединениях.
В современном мире одной из наиболее динамично развивающихся отраслей индустрии является разработка новых лекарственных молекул (драг-дизайн), целью которой является поиск химических соединений, способных оказывать терапевтическое воздействие при лечении определенных заболеваний. В прошлом открытие новых лекарств, как правило, происходило либо случайно, либо в результате выделения действующих веществ из средств традиционной медицины [26], однако в настоящее время разработка лекарств имеет целенаправленный характер [52]. Процесс разработки лекарственной молекулы включает в себя поиск наиболее вероятных молекул - лекарственных кандидатов, их химический синтез и определение физико-химических и биологических свойств, а также проведение комплекса исследований, направленных на доказательство эффективности молекулы как лекарственного средства. В наши дни разработка лекарственной молекулы представляет из себя долгий (в среднем занимающий 5-16 лет) и дорогостоящий (вследствие затрат как на разработку и исследование молекулы, так и на клинические испытания) процесс [97], заключающийся в правильном подборе молекулы, действующей на определенную мишень. Мишенью в драг-дизайне назы-
вается высокомолекулярная биологическая структура, связанная с определенной биологической функцией, нарушение которой приводит к заболеванию [26]. Лекарство - это химическое соединение (как правило, низкомолекулярное, также именуемое лигандом), специфически взаимодействующее с мишенью, что позволяет регулировать одни биохимические процессы, по возможности, не затрагивая при этом другие.
Процедура разработки новой лекарственной молекулы технически заключается в проведении нескольких последовательных стадий [86], которые могут быть классифицированы определенным образом. Наиболее распространенная классификация основывается на разделении всего процесса на три больших этапа по характеру экспериментальной среды, используемой на каждом из них: in vivo («вживую» -непосредственно в биологической системе), in vitro («в стекле» - в среде искусственно созданной, в пробирке) и in silico ^от in silicon, то есть «в кремнии» - компьютерный эксперимент). Появление последнего обусловлено тем, что, если раньше компьютер рассматривался лишь как средство обработки экспериментальных данных, характер которых мог быть чрезвычайно разнообразным, то со временем стала развиваться идея полностью компьютерного эксперимента, в которой компьютер стал рассматриваться как среда проведения эксперимента, т.е. имея на входе определенные исходные параметры, мы можем получить некие результаты моделирования, описывающие поведение исследуемой нами системы. Следует отметить, что этап in silico является многоуровневым и включает в себя задачи по моделированию поведения отдельных молекул, биохимических процессов и даже функционированию отдельных физиологических систем.
В рамках изложенной классификации, как правило, выделяют следующие конкретные шаги: определение мишени, валидация мишени, поиск потенциального соединения-кандидата, оптимизация соединения-кандидата, доклинические и клинические исследования.
Этап определения мишени является определяющим для всех последующих стадий. Лекарственная мишень является биомолекулой, как правило, белком, об-
ладающей определенными сайтами связывания, а ее структура изменяется при взаимодействии с малой молекулой (причем эти изменения чаще всего обратимы), что влечет за собой физиологический ответ клетки, ткани, органа или всего организма, приводящий к терапевтическому эффекту. Кроме того, лекарственная мишень обычно вовлечена в процессы метаболизма или передачи сигналов, специфичных для определенной болезни или определенной стадии заболевания. При выборе лекарственной мишени стоит учитывать, что большинство заболеваний имеют комплексный характер - одному заболеванию чаще всего соответствует более одной мишени, каждая из которых играет свою роль в ходе болезни. Еще одной проблемой при выборе мишени является тот факт, что на одну мишень может действовать множество лекарств, а также каждое лекарство может иметь множество потенциальных мишеней.
Мишени, чьи функции определены лишь гипотетически, не могут служить отправной точкой для дальнейших исследований. Необходима многоступенчатая экспериментальная валидация, в результате которой может быть понята конкретная биологическая функция мишени применительно к проявлениям исследуемой болезни [140]. На начальном этапе валидации мишени проводится исследование интересующей биологической молекулы, и оценка возможности данной молекулы выступать в качестве лекарственной мишени, что делается с привлечением большого количества биологических и физических методов.
После определения и валидации мишени начинается поиск потенциально активных соединений (называемых hit), способных после дальнейшей модификации, оптимизации и тестирования дать кандидат (lead) - соединение, предназначенное для тестирования на животных (доклинические исследования) и на людях (клинические исследования). Отбор этих соединений проводится из стартового набора лигандов, в качестве которого, как правило, выступают заранее подготовленные (как коммерческие, так и находящиеся в свободном доступе) библиотеки химических соединений [104]. Обычно подобные библиотеки содержат от нескольких тысяч до нескольких миллионов соединений, и основная проблема, которая решается с помощью них - это сужение так называемого «химического про-
странства» - области всех химически возможных и синтетически доступных ли-гандов, которых существует гигантское число, что делает фактически невозможным исследование всех доступных соединений. Отбор соединений для библиотек, а также с целью сужения химического пространства, может осуществляться, например, с помощью определенных правил, выявленных на основании эмпирических закономерностей. Одним из простых примеров таких закономерностей является правило Липинского (rule of five, RO5) [80], согласно которому соединение будет подобно лекарству (drug-like), если оно имеет молекулярный вес менее 500, липофильность менее пяти (logP), а также иметь в своей структуре менее пяти доноров и 10 акцепторов водородной связи.
Поиск потенциальных соединений-кандидатов осуществляется с помощью техник высокопроизводительного скрининга (in vitro) или высокопроизводительного докинга (in silico) [77], позволяющими отбирать соединения, которые будут взаимодействовать с мишенью и, вероятнее всего, вызывать нужный физиологический эффект. Высокопроизводительный скрининг (High-throughput screening, HTS) [58] является одним из видов скрининга. Скрининг - это конвейеризованная процедура, проводящаяся, как правило, на роботизированных установках и позволяющая выявить наличие активности по отношению к тестовой (имитирующей биологическую) системе сразу у большого количества химических соединений. В зависимости от числа исследуемых соединений выделяют низкопроизводительный (10-50 тысяч молекул), среднепроизводительный (50-100 тысяч молекул) и высокопроизводительный (100 тысяч молекул и более) скрининг. В процессе скрининга тестовая система помещается в углубления малого объема, расположенные на специальных плашках, после этого в каждое из них автоматически вносится одно из исследуемых соединений с последующим считыванием данных о наличии или отсутствии активности с помощью детектора (в зависимости от технологии могут использоваться различные типы сигналов). Соединения, для которых в ходе теста выявляется активность выше некоторого наперед заданного порогового значения, именуются хитами. Процедура скрининга позволяет сокра-
тить число тестируемых молекул на порядки, а соединения-хиты вовлекаются в дальнейший процесс разработки лекарственного средства.
Следующая стадия - оптимизация отобранных молекул. Она начинается с того момента, как определяются вещества, обладающие наиболее явной биологической активностью, а заканчивается в тот момент, когда выявляется их лучший аналог. Отобранные молекулы химически модифицируются для получения соединений с наиболее подходящими для лекарства свойствами: фармакодинамиче-скими (определяющими биохимические и физиологические эффекты от приема лекарства и действие лекарства в зависимости от дозы), фармакокинетическими (абсорбция, распределение, метаболизм и выведение лекарства из организма), физико-химическими, а также токсическими [60].
На заключительном этапе проводятся сначала доклинические, а затем клинические испытания. На стадии доклинических испытаний потенциальное лекарство проходит ряд исследований на токсичность и канцерогенность (как in vitro, так и in vivo на лабораторных животных), также исследуются пути метаболизма и распада вещества (то есть проводятся фармакокинетические исследования in vivo), исследование дозировки и эксперименты по стабильности соединения в различных фармацевтических формах [20]. Далее (при условии успешного прохождения лекарством первой стадии) проводится стадия клинических испытаний, которая делится на три фазы по количеству человек, вовлеченных в исследование.
Отдельного рассмотрения заслуживает применение вычислительных методов в процессе разработки лекарств в целом. К сожалению, описанная ранее техника высокопроизводительного скрининга является дорогостоящей и крайне ресурсоемкой, что накладывает определенные ограничения на ее использование. В то же время многие фармацевтические компании стараются найти способы избежать скрининга всех соединений из используемой библиотеки, поскольку большинство из них, как правило, не проявляют необходимых свойств. По этой причине как в индустрии, так и в академической сфере все больше внимания уделяется компьютерному дизайну лекарственных молекул [17, 20, 132]. Однако важно отметить, что нынешний уровень развития вычислительных методов способен
лишь сократить время выпуска нового лекарства на рынок и снизить стоимость его создания за счет уменьшения количества химических соединений, исследуемых экспериментально, при этом не предоставляя возможности полностью компьютеризированного процесса разработки. Несмотря на это, техники компьютерного дизайна лекарственных молекулярных соединений позволяют идентифицировать соединения-кандидаты, прогнозировать эффективность и возможные побочные эффекты, а также моделировать биодоступность лекарственных молекулярных структур [64].
Вычислительные методы для дизайна новых лекарственных молекул могут быть классифицированы на две группы: методы, основывающиеся на структуре белка, называемые также прямыми, и на структуре лиганда, называемых также непрямыми [130]. Выбор метода определяется соответственно наличием или отсутствием информации о пространственной структуре мишени, которая может быть получена экспериментально с использованием физических методов исследования или компьютерного прогнозирования трехмерной структуры.
В случаях, когда структура потенциальной мишени неизвестна, а ее моделирование по определенным причинам затруднительно или нежелательно, применяются методы, основывающиеся на структуре лиганда [82, 88]. Эти методы используют уже известную информацию о лигандах, связывающихся с данной мишенью, и их активности. Фармакофорное моделирование, характеристики молекулярного подобия и поиск количественной зависимости «структура - свойство» (Quantitative Structure-Activity Relationship, QSAR) являются распространенными подходами в рамках этих методов [6]. При анализе молекулярного подобия так называемые «молекулярные отпечатки пальцев» («molecular fingerprints») известных лигандов, связывающихся с лекарственной мишенью, используются для поиска молекул со схожими «отпечатками пальцев» с использованием скрининга библиотек соединений [10]. При фармакофорном моделировании [29] в процессе скрининга используются обобщенные представления молекул, называемые фар-макофорными группами [149]. Техника QSAR - вычислительный метод, модели-
рующий зависимость между структурой лигандов и проявляемыми ими биологическими свойствами [135].
Анализ молекулярного подобия [69] основывается на предположении, что структурно подобные соединения склонны проявлять схожие физико-химические свойства, в том числе и при связывании с белковой мишенью [50]. Исходя из этого, проводится дискретный учет структурных фрагментов моделируемого лиганда (например, число ароматических циклов, доноров или акцепторов водородной связи и т.д) и дальнейшее сравнение с аналогичными фрагментами для молекул с известными свойствами. Содержание определенных фрагментов в молекуле удобно представлять в виде битовых строк (нуль - отсутствие, единица - наличие фрагмента), называемых также «молекулярными отпечатками пальцев», что позволяет вводить метрики подобия для пары молекул. Одной из таких метрик является коэффициент Танимото [153], изменяющийся в диапазоне от нуля до единицы, и вычисляющийся как отношение битовых операций «И» и «ИЛИ» для пары битовых строк, представляющих молекулы. Высокая степень сходства предполагает близость свойств сравниваемых молекул и наоборот.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Молекулярный докинг: математические модели, суперкомпьютерная реализация и их применение для разработки лекарств2022 год, кандидат наук Сулимов Алексей Владимирович
Антиконвульсивное действие замещенных соединений 2- аминоэтансульфоновой кислоты в эксперименте2022 год, кандидат наук Шукуров Аслиддин Сайфиддинович
Прогнозирование химических сдвигов ЯМР 13С производных фуллерена С60 с использованием искусственных нейронных сетей2021 год, кандидат наук Кирьянов Илья Игоревич
Разработка метода протеохемометрики для предсказания взаимодействий белков и лигандов на основе их локального сходства2023 год, кандидат наук Карасев Дмитрий Алексеевич
Методы контекстуальной генерации изображений в высоком разрешении в условиях ограниченности вычислительных мощностей и недостатка обучающих данных2023 год, кандидат наук Ефимова Валерия Александровна
Список литературы диссертационного исследования кандидат наук Путин, Евгений Олегович, 2018 год
СПИСОК ЛИТЕРАТУРЫ
[1] Загоруйко Н.Г. Методы распознавания и их применение. — М.: Книга по Требованию, 2012. — 211 с.
[2] Николенко С. И., Тулупьев А. Л. Самообучающиеся системы. — М., — 2009. — 288 с.
[3] Путин Е. О., Шалыто А. А. Нейронная сеть с конкурентным порогом для генерации малых органических молекулярных структур // Информационно-управляющие системы. — 2018. — 4. — С. 52-60. — 0,56 п. л. / 0,50 п. л.
[4] Путин Е.О. Подкрепленный последовательность-к-последовательности конкурентный автоэнкодер для генерации малых органических молекулярных структур // Научно-технический вестник информационных технологий, механики и оптики. — 2018. — Т. 18. — № 6. — С. 1071-1077. — 0,43 п. л. / 0,43 п. л.
[5] Abadi M. et al. Tensorflow: a system for large-scale machine learning // OSDI. — 2016. — Vol. 16. — P. 265-283.
[6] Acharya C. et al. Recent advances in ligand-based drug design: relevance and utility of the conformationally sampled pharmacophore approach // Current computer-aided drug design. — 2011. — Vol. 7, no. 1. — P. 10-22.
[7] Adl A., Zein M., Hassanien A. E. PQSAR: The membrane quantitative structure-activity relationships in cheminformatics //Expert Systems with Applications. -2016. — Vol. 54. — P. 219-227.
[8] Akhtar A. The flaws and human harms of animal experimentation // Cambridge Quarterly of Healthcare Ethics. — 2015. — Vol. 24, no. 4. — P. 407-419.
[9] Arjovsky M., Chintala S., Bottou L. Wasserstein generative adversarial networks // International Conference on Machine Learning. — 2017. — P. 214-223.
[10] Bajorath J., Bajorath J. Chemoinformatics and computational chemical biology. — Humana Press, 2011.
[11] Bellman R. A Markovian decision process // Journal of Mathematics and Mechanics. — 1957. — P. 679-684.
[12] Bengio Y. Deep learning of representations for unsupervised and transfer learning // Proceedings of ICML Workshop on Unsupervised and Transfer Learning. — 2012. — P. 17-36.
[13] Bickerton G. R. et al. Quantifying the chemical beauty of drugs // Nature chemistry. — 2012. — Vol. 4, no. 2. — P. 90.
[14] Bishop C. Pattern recognition and machine learning. — Springer-Verlag New York, 2006. — 738 p.
[15] Butkiewicz M. et al. Application of machine learning approaches on quantitative structure activity relationships // Computational Intelligence in Bioinformatics and Computational Biology, 2009. CIBCB'09. IEEE Symposium on. — IEEE, 2009. — P. 255-262.
[16] Carpenter E. P. et al. Overcoming the challenges of membrane protein crystallography // Current opinion in structural biology. — 2008. — Vol. 18, no. 5. — P. 581-586.
[17] Chao W. R. et al. Computer-aided rational drug design: a novel agent (SR13668) designed to mimic the unique anticancer mechanisms of dietary indole-3-carbinol to block Akt signaling // Journal of medicinal chemistry. — 2007. — Vol. 50, no. 15. — P. 3412-3415.
[18] Chen X. et al. Infogan: Interpretable representation learning by information maximizing generative adversarial nets // Advances in neural information processing systems. — 2016. — P. 2172-2180.
[19] Cherti M., Kégl B., Kazakçi A. De novo drug design with deep generative models: an empirical study // International Conference on Learning Representations. — 2017.
[20] Clark A. J. et al. Prediction of protein-ligand binding poses via a combination of induced fit docking and metadynamics simulations // Journal of chemical theory and computation. — 2016. — Vol. 12, no. 6. — P. 2990-2998.
[21] Dai H. et al. Syntax-Directed Variational Autoencoder for Molecule Generation // International Conference on Machine Learning. — 2018.
[22] Dean P. M. Chemical genomics: a challenge for de novo drug design // Molecular biotechnology. — 2007. — Vol. 37, no. 3. — P. 237-245.
[23] Defferrard M., Bresson X., Vandergheynst P. Convolutional neural networks on graphs with fast localized spectral filtering // Advances in Neural Information Processing Systems. — 2016. — P. 3844-3852.
[24] Devlin J. et al. Fast and robust neural network joint models for statistical machine translation // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — 2014. — Vol. 1. — P. 13701380.
[25] DiMasi J. A., Grabowski H. G., Hansen R. W. Innovation in the pharmaceutical industry: new estimates of R&D costs // Journal of health economics. — 2016. — Vol. 47. — P. 20-33.
[26] Drews J. Drug discovery: a historical perspective // Science. — 2000. — Vol. 287, no. 5460. — P. 1960-1964.
[27] Duvenaud D. K. et al. Convolutional networks on graphs for learning molecular fingerprints // Advances in neural information processing systems. — 2015. — P. 2224-2232.
[28] Erhan D. et al. Why does unsupervised pre-training help deep learning? // Journal of Machine Learning Research. — 2010. — Vol. 11, no. Feb. — P. 625-660.
[29] Ghose A. K., Wendoloski J. J. Pharmacophore modelling: methods, experimental verification and applications // Perspectives in drug discovery and design. — 1998. — Vol. 9. — P. 253-271.
[30] Ghosh S. et al. Structure-based virtual screening of chemical libraries for drug discovery // Current opinion in chemical biology. — 2006. — Vol. 10, no. 3. — P. 194-202.
[31] Gomez-Bombarelli R. et al. Automatic chemical design using a data-driven continuous representation of molecules // ACS central science. — 2018. — Vol. 4, no. 2. — P. 268-276.
[32] Goodfellow I. et al. Deep learning. — Cambridge: MIT press, 2016. — Vol.
[33] Goodfellow I. et al. Generative adversarial nets // Advances in neural information processing systems. — 2014. — P. 2672-2680.
[34] Gramatica P. Principles of QSAR models validation: internal and external // QSAR & combinatorial science. — 2007. — Vol. 26, no. 5. — P. 694-701.
[35] Grant M. A. Protein structure prediction in structure-based ligand design and virtual screening // Combinatorial chemistry & high throughput screening. — 2009. — Vol. 12, no. 10. — P. 940-960.
[36] Graves A. et al. Hybrid computing using a neural network with dynamic external memory //Nature. — 2016. — Vol. 538, no. 7626. — P. 471.
[37] Graves A., Jaitly N. Towards end-to-end speech recognition with recurrent neural networks // International Conference on Machine Learning. — 2014. — P. 17641772.
[38] Greff K. et al. LSTM: A search space odyssey // IEEE transactions on neural networks and learning systems. — 2017. — P. 28, no. 10. — P. 2222-2232.
[39] Griffith R. et al. Combining structure-based drug design and pharmacophores // Journal of Molecular Graphics and Modelling. — 2005. — Vol. 23, no. 5. — P. 439-446.
[40] Guner O. F. (ed.). Pharmacophore perception, development, and use in drug design. — Internat'l University Line, 2000. — Vol. 2.
[41] Gupta A. et al. Generative recurrent networks for de novo drug design // Molecular informatics. — 2018. — Vol. 37, no. 1-2. — P. 1700111.
[42] Halperin I. et al. Principles of docking: An overview of search algorithms and a guide to scoring functions // Proteins: Structure, Function, and Bioinformatics. — 2002. — Vol. 47, no. 4. — P. 409-443.
[43] Hansch C. et al. A quantitative structure-activity relationship and molecular graphics study of carbonic anhydrase inhibitors // Molecular pharmacology. — 1985. — Vol. 27, no. 5. — P. 493-498.
[44] Hansch C., Fujita T. p-a-n Analysis. A method for the correlation of biological activity and chemical structure //Journal of the American Chemical Society. — 1964. — Vol. 86, no. 8. — P. 1616-1626.
[45] Hardin C., Pogorelov T. V., Luthey-Schulten Z. Ab initio protein structure prediction // Current opinion in structural biology. — 2002. — Vol. 12, no. 2. — P. 176-181.
[46] Hartenfeller M. et al. DOGS: reaction-driven de novo design of bioactive compounds // PLoS computational biology. — 2012. — Vol. 8, no. 2. — P. e1002380.
[47] Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. — Springer-Verlag New York, 2009. — 764 p.
[48] Hawkins D. M. The problem of overfitting // Journal of chemical information and computer sciences. — 2004. — Vol. 44, no. 1. — P. 1-12.
[49] He K. et al. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — P. 770778.
[50] Hendrickson J. B. Concepts and Applications of Molecular Similarity // Science. — 1991. — Vol. 252, no. 5009. — P. 1189-1190.
[51] Heusel M. et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium //Advances in Neural Information Processing Systems. — 2017. — P. 6626-6637.
[52] Hillisch A., Hilgenfeld R. (ed.). Modern methods of drug discovery. — Birkhauser, 2012. — Vol. 93.
[53] Hinton G. E., Salakhutdinov R. R. Reducing the dimensionality of data with neural networks // Science. — 2006. — Vol. 313, no. 5786. — P. 504-507.
[54] Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions //International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. — 1998. — Vol. 6, no. 02. — P. 107-116.
[55] Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — P. 1735-1780.
[56] Honma T. Recent advances in de novo design strategy for practical lead identification // Medicinal research reviews. — 2003. — Vol. 23, no. 5. — P. 606-632.
[57] Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural networks. — 1989. — Vol. 2, no. 5. — P. 359-366.
[58] Houston J. G., Banks M. N. High-Throughput Screening for Lead Discovery // Burger's Medicinal Chemistry and Drug Discovery. — 2003. — P. 37-69.
[59] Huang X., Belongie S. J. Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization //ICCV. — 2017. — P. 1510-1519.
[60] Hughes J. P. et al. Principles of early drug discovery // British journal of pharmacology. — 2011. — Vol. 162, no. 6. — P. 1239-1249.
[61] Irwin J. J., Shoichet B. K. ZINC- A free database of commercially available compounds for virtual screening //Journal of chemical information and modeling. -2005. - Vol. 45, no. 1. — P. 177-182.
[62] Ivanenkov Y. A. et al. Small-molecule inhibitors of hepatitis C virus (HCV) non-structural protein 5A (NS5A): a patent review (2010-2015) // Expert opinion on therapeutic patents. — 2017. — Vol. 27, no. 4. — P. 401-414.
[63] Jain A. N., Koile K., Chapman D. Compass: predicting biological activities from molecular surface properties. Performance comparisons on a steroid benchmark // Journal of Medicinal Chemistry. — 1994. — Vol. 37, no. 15. — P. 2315-2327.
[64] Jorgensen W. L. The many roles of computation in drug discovery // Science. — 2004. — Vol. 303, no. 5665. — P. 1813-1818.
[65] Kadurin A. et al. druGAN: an advanced generative adversarial autoencoder model for de novo generation of new molecules with desired molecular properties in sil-ico // Molecular pharmaceutics. — 2017. — Vol. 14, no. 9. — P. 3098-3104.
[66] Kanal I. Y. et al. Efficient computational screening of organic polymer pho-tovoltaics // The journal of physical chemistry letters. — 2013. — Vol. 4, no. 10. — P. 1613-1623.
[67] Kawai K., Nagata N., Takahashi Y. De novo design of drug-like molecules by a fragment-based molecular evolutionary approach // Journal of chemical information and modeling. — 2014. — Vol. 54, no. 1. — P. 49-56.
[68] Ketkar N. Introduction to pytorch // Deep Learning with Python. — Apress, Berkeley, CA, 2017. — P. 195-208.
[69] Klebe G., Abraham U., Mietzner T. Molecular similarity indices in a comparative analysis (CoMSIA) of drug molecules to correlate and predict their biological activity // Journal of medicinal chemistry. — 1994. — Vol. 37, no. 24. — P. 4130-4146.
[70] Kontogiorgis C. A., Hadjipavlou-Litina D. Quantitative Structure-Activity Relationships (QSARs) of Thrombin Inhibitors: Review, Evaluation and Comparative Analysis // Current medicinal chemistry. — 2003. — Vol. 10, no. 7. — P. 525-577.
[71] Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. — 2012. — P. 1097-1105.
[72] Kutchukian P. S., Shakhnovich E. I. De novo design: balancing novelty and confined chemical space //Expert opinion on drug discovery. — 2010. — Vol. 5, no. 8. — P. 789-812.
[73] Le Q. V. et al. On optimization methods for deep learning // Proceedings of the 28th International Conference on International Conference on Machine Learning. — Omnipress, 2011. — P. 265-272.
[74] LeCun Y. et al. Backpropagation applied to handwritten zip code recognition // Neural computation. — 1989. — Vol. 1, no. 4. — P. 541-551.
[75] LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. — 2015. — Vol. 521, no. 7553. — P. 436.
[76] Ledig C. et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network // CVPR. — 2017. — Vol. 2, no. 3. — P. 4.
[77] Lengauer T. et al. Novel technologies for virtual screening // Drug discovery today. — 2004. — Vol. 9, no. 1. — P. 27-34.
[78] Lengauer T., Rarey M. Computational methods for biomolecular docking // Current opinion in structural biology. — 1996. — Vol. 6, no. 3. — P. 402-406.
[79] Li Y. et al. Dualing GANs // Advances in Neural Information Processing Systems. — 2017. — P. 5606-5616.
[80] Lipinski C. A. Lead-and drug-like compounds: the rule-of-five revolution // Drug Discovery Today: Technologies. — 2004. — Vol. 1, no. 4. — P. 337-341.
[81] Liu M. Y., Tuzel O. Coupled generative adversarial networks //Advances in neural information processing systems. — 2016. — P. 469-477.
[82] Loew G. H., Villar H. O., Alkorta I. Strategies for indirect computer-aided drug design // Pharmaceutical research. — 1993. — Vol. 10, no. 4. — P. 475-486.
[83] Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — P. 3431-3440.
[84] Lyne P. D. Structure-based virtual screening: an overview // Drug discovery today. — 2002. — Vol. 7, no. 20. — P. 1047-1055.
[85] Mao X. et al. Least squares generative adversarial networks // Computer Vision (ICCV), 2017 IEEE International Conference on. — IEEE, 2017. — P. 2813-2821.
[86] Marcu L. G., Harriss-Phillips W. M. In silico modelling of treatment-induced tumour cell kill: developments and advances // Computational and Mathematical Methods in Medicine. — 2012. — Vol. 2012.
[87] Masek, B.B. Multistep reaction based de novo drug design: generating synthetically feasible design ideas [Text]/ B.B. Masek, D.S. Baker, R.J. Dorfman, K. DuBrucq, V.C. Francis, S. Nagy, B.L. Richey, F. Soltanshahi // Journal of chemical information and modeling. — 2016. — Vol. 56, Is. 4. — P. 605-620.
[88] Mason J. S., Good A. C., Martin E. J. 3-D pharmacophores in drug discovery // Current pharmaceutical design. — 2001. — Vol. 7, no. 7. — P. 567-597.
[89] Mayr A. et al. Large-scale comparison of machine learning methods for drug target prediction on ChEMBL // Chemical Science. — 2018.
[90] Mei H. et al. Support vector machine applied in QSAR modelling // Chinese Science Bulletin. — 2005. — Vol. 50, no. 20. — P. 2291-2296.
[91] Mendenhall J., Meiler J. Improving quantitative structure-activity relationship models using Artificial Neural Networks trained with dropout // Journal of computer-aided molecular design. — 2016. — Vol. 30, no. 2. — P. 177-189.
[92] Mescheder L., Geiger A., Nowozin S. Which Training Methods for GANs do actually Converge? // International Conference on Machine Learning. — 2018. — P. 3478-3487.
[93] Michalski R. S., Carbonell J. G., Mitchell T. M. Machine learning: An artificial intelligence approach. — Springer Science & Business Media, 2013.
[94] Mikolov T. et al. Extensions of recurrent neural network language model // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. — IEEE, 2011. — P. 5528-5531.
[95] Mikolov T. et al. Recurrent neural network based language model // Eleventh Annual Conference of the International Speech Communication Association. — 2010.
[96] Muegge I. Selection criteria for drug-like compounds // Medicinal research reviews. — 2003. — Vol. 23, no. 3. — P. 302-321.
[97] Murray D. M., Shinket R. Discovery and development of a genomic drug // Curr. Drug Disc. — 2003. — P. 27-33.
[98] Murray J. C., Erwin H. R., Wermter S. Robotic sound-source localisation architecture using cross-correlation and recurrent neural networks //Neural Networks. — 2009. — Vol. 22, no. 2. — P. 173-189.
[99] Nagarajan V., Kolter J. Z. Gradient descent GAN optimization is locally stable //Advances in Neural Information Processing Systems. — 2017. — P. 5585-5595.
[100] Nair V., Hinton G. E. Rectified linear units improve restricted boltzmann machines //Proceedings of the 27th international conference on machine learning (ICML-10). — 2010. — P. 807-814.
[101] O'Boyle N. M., Campbell C. M., Hutchison G. R. Computational design and selection of optimal organic photovoltaic materials // The Journal of Physical Chemistry C. — 2011. — Vol. 115, no. 32. — P. 16200-16210.
[102] Olivecrona M. et al. Molecular de-novo design through deep reinforcement learning // Journal of cheminformatics. — 2017. — Vol. 9, no. 1. — P. 48.
[103] Pegg S. C. H., Haresco J. J., Kuntz I. D. A genetic algorithm for structure-based de novo design // Journal of computer-aided molecular design. — 2001. — Vol. 15, no. 10. — P. 911-933.
[104] Pollastri M. P. Conference Report: Drug discovery in the 21st century // Future medicinal chemistry. — 2011. — Vol. 3, no. 16. — P. 1979-1981.
[105] Popova M., Isayev O., Tropsha A. Deep reinforcement learning for de novo drug design // Science advances. — 2018.
[106] Preuer K. et al. Frechet ChemNet Distance: A metric for generative models for molecules in drug discovery // Journal of chemical information and modeling. -2018. — Vol. 58, no. 9. — P. 1736-1741.
[107] Pu Y. et al. Variational autoencoder for deep learning of images, labels and captions //Advances in neural information processing systems. — 2016. — P. 23522360.
[108] Putin E., AsadulaevA., Vanhaelen Q., Ivanenkov Y., Aladinskaya A. V., Aliper A., Zhavoronkov A. Adversarial Threshold Neural Computer for Molecular De Novo Design // Molecular pharmaceutics. — 2018. — Vol. 15, no. 10. — P. 4386-4397.
— 0,75 n. n. / 0,45 n. n.
[109] Putin E., Asadulaev A., Ivanenkov Y., Aladinskiy V., Sanchez-Lengeling B., Aspuru-Guzik A., Zhavoronkov A. Reinforced Adversarial Neural Computer for De Novo Molecular Design // Journal of chemical information and modeling. — 2018. — Vol. 58, no. 6. — P. 1194-1204. — 0,68 n. n. / 0,40 n. n.
[110] Reymond J. L. et al. Chemical space as a source for new drugs // Med-ChemComm. — 2010. — Vol. 1, no. 1. — P. 30-38.
[111] Reymond J. L. The chemical space project // Accounts of chemical research. — 2015. — Vol. 48, no. 3. — P. 722-730.
[112] Ringner M. What is principal component analysis? // Nature biotechnology.
— 2008. — Vol. 26, no. 3. — P. 303.
[113] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain // Psychological review. — 1958. — Vol. 65, no. 6. — P. 386.
[114] Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors // Nature. — 1986. — Vol. 323, no. 6088. — P. 533.
[115] Rupakheti C. et al. Strategy to discover diverse optimal molecules in the small molecule universe // Journal of chemical information and modeling. — 2015. — Vol. 55, no. 3. — P. 529-537.
[116] Saatci Y., Wilson A. G. Bayesian gan // Advances in neural information processing systems. — 2017. — P. 3622-3631.
[117] Sabour S., Frosst N., Hinton G. E. Dynamic routing between capsules // Advances in Neural Information Processing Systems. — 2017. — P. 3856-3866.
[118] Salimans T. et al. Improved techniques for training gans // Advances in Neural Information Processing Systems. — 2016. — P. 2234-2242.
[119] Sarikaya R., Hinton G. E., Deoras A. Application of deep belief networks for natural language understanding // IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP). — 2014. — Vol. 22, no. 4. — P. 778-784.
[120] Schneider G., Fechner U. Computer-based de novo design of drug-like molecules // Nature Reviews Drug Discovery. — 2005. — Vol. 4, no. 8. — P. 649.
[121] S0nderby C. K. et al. Ladder variational autoencoders // Advances in neural information processing systems. — 2016. — P. 3738-3746.
[122] Srivastava A. et al. Veegan: Reducing mode collapse in gans using implicit variational learning //Advances in Neural Information Processing Systems. — 2017. — P. 3308-3318.
[123] Srivastava N. et al. Dropout: a simple way to prevent neural networks from overfitting // The Journal of Machine Learning Research. — 2014. — Vol. 15, no. 1. — P. 1929-1958.
[124] Sundermeyer M., Schlüter R., Ney H. LSTM neural networks for language modeling // Thirteenth annual conference of the international speech communication association. — 2012.
[125] Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — P. 3104-3112.
[126] Sutton R. S. et al. Policy gradient methods for reinforcement learning with function approximation // Advances in neural information processing systems. — 2000. — P. 1057-1063.
[127] Sutton R. S., Barto A. G. Introduction to reinforcement learning. — Cambridge : MIT press, 1998. — Vol. 135.
[128] Szegedy C. et al. Rethinking the inception architecture for computer vision // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — P. 2818-2826.
[129] Takeda S., Kaneko H., Funatsu K. Chemical-space-based de novo design method to generate drug-like molecules // Journal of chemical information and modeling. — 2016. — Vol. 56, no. 10. — P. 1885-1893.
[130] Taylor R. D., Jewsbury P. J., Essex J. W. A review of protein-small molecule docking methods // Journal of computer-aided molecular design. — 2002. — Vol. 16, no. 3. — P. 151-166.
[131] Tolstikhin I. O. et al. Adagan: Boosting generative models // Advances in Neural Information Processing Systems. — 2017. — P. 5424-5433.
[132] Tran N. et al. Identification of novel compounds against an R294K substitution of influenza A (H7N9) virus using ensemble based drug virtual screening //International journal of medical sciences. — 2015. — Vol. 12, no. 2. — P. 163.
[133] van Deursen R., Reymond J. L. Chemical space travel //ChemMedChem: Chemistry Enabling Drug Discovery. — 2007. — Vol. 2, no. 5. — P. 636-640.
[134] Vapnik V. Principles of risk minimization for learning theory // Advances in neural information processing systems. — 1992. — P. 831-838.
[135] Verma J., Khedkar V. M., Coutinho E. C. 3D-QSAR in drug design-a review // Current topics in medicinal chemistry. — 2010. — Vol. 10, no. 1. — P. 95-115.
[136] Verma R. P., Hansch C. Camptothecins: a SAR/QSAR study // Chemical reviews. — 2008. — Vol. 109, no. 1. — P. 213-235.
[137] Virshup A. M. et al. Stochastic voyages into uncharted chemical space produce a representative library of all possible drug-like compounds // Journal of the American Chemical Society. — 2013. — Vol. 135, no. 19. — P. 7296-7303.
[138] Vyas V. K. et al. Homology modeling a fast tool for drug discovery: current perspectives // Indian journal of pharmaceutical sciences. — 2012. — Vol. 74, no. 1. — P. 1.
[139] Wang R. et al. An extensive test of 14 scoring functions using the PDBbind refined set of 800 protein-ligand complexes // Journal of chemical information and computer sciences. — 2004. — Vol. 44, no. 6. — P. 2114-2125.
[140] Wang S. et al. Tools for target identification and validation // Current opinion in chemical biology. — 2004. — Vol. 8, no. 4. — P. 371-377.
[141] Wang W. et al. Biomolecular simulations: recent developments in force fields, simulations of enzyme catalysis, protein-ligand, protein-protein, and protein-nucleic acid noncovalent interactions // Annual review of biophysics and biomolecular structure. — 2001. — Vol. 30, no. 1. — P. 211-243.
[142] Watkins C. J. C. H., Dayan P. Q-learning // Machine learning. — 1992. — Vol. 8, no. 3-4. — P. 279-292.
[143] Weininger D. SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules // Journal of chemical information and computer sciences. — 1988. — Vol. 28, no. 1. — P. 31-36.
[144] Weis A. et al. Ligand affinities predicted with the MM/PBSA method: dependence on the simulation method and the force field // Journal of medicinal chemistry. — 2006. — Vol. 49, no. 22. — P. 6596-6606.
[145] Werbos P. J. Backpropagation through time: what it does and how to do it // Proceedings of the IEEE. — 1990. — Vol. 78, no. 10. — P. 1550-1560.
[146] Williams R. J. Simple statistical gradient-following algorithms for connec-tionist reinforcement learning // Machine learning. — 1992. — Vol. 8, no. 3-4. — P. 229-256.
[147] Williams R. J., Zipser D. A learning algorithm for continually running fully recurrent neural networks // Neural computation. — 1989. — Vol. 1, no. 2. — P. 270280.
[148] Xiang Z. Advances in homology protein structure modeling // Current Protein and Peptide Science. — 2006. — Vol. 7, no. 3. — P. 217-227.
[149] Yang S. Y. Pharmacophore modeling and applications in drug discovery: challenges and recent advances // Drug discovery today. — 2010. — Vol. 15, no. 11-12. — p. 444-450.
[150] Yildmm M. A. et al. Drug—target network // Nature biotechnology. — 2007. — Vol. 25, no. 10. — P. 1119.
[151] Young T. et al. Recent trends in deep learning based natural language processing // IEEE Computational intelligence magazine. — 2018. — Vol. 13, no. 3. — P. 55-75.
[152] Yu L. et al. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient // AAAI. — 2017. — P. 2852-2858.
[153] Zhang B. et al. Design of chemical space networks using a Tanimoto similarity variant based upon maximum common substructures // Journal of computer-aided molecular design. — 2015. — Vol. 29, no. 10. — P. 937-950.
[154] Zhao X., Shi X., Zhang S. Facial expression recognition via deep learning // IETE technical review. — 2015. — V. 32, no. 5. — P. 347-355.
Ресурсы сети интернет
[155] Benhenda M. ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity? // arXiv. — 2017. — arXiv:1708.08227. — 6 p. — URL: https://arxiv.org/abs/1708.08227 (дата обращение 26.09.2018)
[156] Bjerrum E. J., Threlfall R. Molecular generation with recurrent neural networks (RNNs) // arXiv. — 2017. — arXiv:1705.04612. — 9 p. — URL: https://arxiv.org/abs/1705.04612 (дата обращение 26.09.2018)
[157] Borji A. Pros and Cons of GAN Evaluation Measures // arXiv. — 2018. — arXiv:1802.03446. — 42 p. — URL: https://arxiv.org/abs/1802.03446 (дата обращение 26.09.2018)
[158] Brock A. et al. Neural photo editing with introspective adversarial networks // arXiv. — 2016. — arXiv:1609.07093. — 15 p. — URL: https://arxiv.org/abs/1609.07093 (дата обращение 26.09.2018)
[159] ChemDiv company site — URL: http://www.chemdiv.com/ (дата обращения 01.10.2017)
[160] Cho K. et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation // arXiv. — 2014. — arXiv:1406.1078. — 15 p. — URL: https://arxiv.org/abs/1406.1078 (дата обращение 26.09.2018)
[161] De Cao N., Kipf T. MolGAN: An implicit generative model for small molecular graphs // arXiv. — 2018. — arXiv:1805.11973. — 11 p. — URL: https://arxiv.org/abs/1805.11973 (дата обращение 26.09.2018)
[162] Guimaraes G. L. et al. Objective-reinforced generative adversarial networks (ORGAN) for sequence generation models // arXiv. — 2017. — arXiv:1705.10843. — 7 p. — URL: https://arxiv.org/abs/1705.10843 (дата обращение 26.09.2018)
[163] Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv. — 2015. — arXiv:1502.03167. — 11 p.
— URL: https://arxiv.org/abs/1502.03167 (дата обращение 26.09.2018)
[164] Isola P. et al. Image-to-image translation with conditional adversarial networks // arXiv. — 2017. — arXiv:1611.07004. — 17 p. — URL: https://arxiv.org/abs/1611.07004 (дата обращение 26.09.2018)
[165] Jin W., Barzilay R., Jaakkola T. Junction Tree Variational Autoencoder for Molecular Graph Generation // arXiv. — 2018. — arXiv: 1802.04364. — 17 p. — URL: https://arxiv.org/abs/1802.04364 (дата обращение 26.09.2018)
[166] Kingma D. P., Ba J. Adam: A method for stochastic optimization // arXiv.
— 2014. — arXiv:1412.6980. — 15 p. — URL: https://arxiv.org/abs/1412.6980 (дата обращение 26.09.2018)
[167] Kingma D. P., Welling M. Auto-encoding variational bayes // arXiv. — 2013. — arXiv:1312.6114. — 14 p. — URL: https://arxiv.org/abs/1312.6114 (дата обращение 26.09.2018)
[168] Kusner M. J., Paige B., Hernández-Lobato J. M. Grammar variational autoencoder //arXiv preprint arXiv: 1703.01925. — 2017.
[169] Landrum G. et al. RDKit: Open-source cheminformatics. — 2006. — URL: https://www.rdkit.org/ (дата обращения 01.10.2017)
[170] Makhzani A. et al. Adversarial autoencoders // arXiv. — 2015. — arXiv:1511.05644. — 16 p. — URL: https://arxiv.org/abs/1511.05644 (дата обращение 26.09.2018)
[171] Sajjadi M. S. M. et al. Assessing Generative Models via Precision and Recall // arXiv. — 2018. — arXiv:1806.00035. — 14 p. — URL: https://arxiv.org/abs/1806.00035 (дата обращение 26.09.2018)
[172] Sanchez-Lengeling B. et al. Optimizing distributions over molecular space. An objective-reinforced generative adversarial network for inverse-design chemistry (ORGANIC). // chemXiv. — 2012. — preprint — 18 p. — URL: https://chemrxiv.org/articles/0RGANIC_1_pdf/5309668 (дата обращение 26.09.2018)
[173] Simonovsky M., Komodakis N. GraphVAE: Towards Generation of Small Graphs Using Variational Autoencoders // arXiv. — 2018. — arXiv:1802.03480. — 10 p. — URL: https://arxiv.org/abs/1802.03480 (дата обращение 26.09.2018)
[174] Xu Q. et al. An empirical study on evaluation metrics of generative adversarial networks // arXiv. — 2018. — arXiv:1806.07755. — 14 p. — URL: https://arxiv.org/abs/1806.07755 (дата обращение 26.09.2018)
[175] You J. et al. Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation // arXiv. — 2018. — arXiv:1806.02473. — 11 p. — URL: https://arxiv.org/abs/1806.02473 (дата обращение 26.09.2018)
[176] Zeiler M. D. ADADELTA: an adaptive learning rate method // arXiv. — 2012. — arXiv:1212.5701. — 6 p. — URL: https://arxiv.org/abs/1212.5701 (дата обращение 26.09.2018)
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.