Алгоритмы и программный инструментарий для исследования процессов генной регуляции тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Валеев, Тагир Фаридович
- Специальность ВАК РФ05.13.11
- Количество страниц 163
Оглавление диссертации кандидат физико-математических наук Валеев, Тагир Фаридович
Введение.
Глава 1. Первичный анализ регуляции генов.
1.1. Основные понятия и определения.
1.2. Создание базы знаний о факторах и предсказание сайтов связывания.
1.3. Обработка экспериментальных данных и предсказание регулирующих факторов
Глава 2. Модель регуляторного комплекса.
2.1. Постановка задачи.
2.2. Построение модели.
2.2.1. Конструирование и анализ алгоритма оконного класса моделей.
2.2.2. Конструирование булева класса моделей.
2.3. Целевая функция.
2.4. Поиск оптимального комплекса.
2.4.1. Выбор эффективного алгоритма поиска.
2.4.2. Операторы создания и мутации.
2.4.3. Оператор кроссовера.
2.5. Обобщённый класс моделей: унификация знаний о сайтах и факторах.
2.5.1. Общая структура.
2.5.2. Подкомплекс: семантика и структура.
2.5.3. Вес обобщенного комплекса.
2.5.4. Эффективная программная реализация математической модели обобщенного комплекса.
2.5.5. Операторы создания, мутации и кроссовера в обобщённом классе.
2.6. Обобщённая целевая функция.
2.6.1. Компоненты целевой функции.
2.6.2. Ограничения обобщённой целевой функции.
Глава 3. Взаимодействие с пользователем и оценка качества.
3.1. Вычисление комплекса и вывод результата.
3.2. Методы оценки качества результата.
3.2.1. Мультизапуск: проверка устойчивости поведения генетического алгоритма.
3.2.2. Запуск с кластеризацией.
3.2.3. Запуск с расщеплением выборки: достоверность результата и переобучение
3.3. Значимость компонентов подкомплекса.
Глава 4. Реализация и тестирование.
4.1. Реализация СМА.
4.2. Тестирование СМА.
4.2.1. Тестирование на искусственных данных.
4.2.2. Тестирование на экспериментальных данных.
4.3. Система ExPlain.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК2006 год, кандидат физико-математических наук Черемушкин, Евгений Сергеевич
Анализ регуляторных последовательностей и динамики молекулярно-генетической системы, контролирующей G1/S-переход клеточного цикла эукариот2005 год, кандидат биологических наук Дейнеко, Игорь Владимирович
Регуляторные модули в эукариотах: предсказание, анализ структуры и консервативности2012 год, кандидат физико-математических наук Никулова, Анна Алексеевна
Мультимодельный подход к эффективному картированию сайтов связывания транскрипционных факторов по данным ChIP-seq экспериментов2024 год, кандидат наук Цуканов Антон Витальевич
Компьютерный анализ контекстной организации регуляторных и кодирующих районов генов эукариот на основе олигонуклеотидных мотивов2004 год, кандидат биологических наук Вишневский, Олег Владимирович
Введение диссертации (часть автореферата) на тему «Алгоритмы и программный инструментарий для исследования процессов генной регуляции»
Согласно [1], современный путь создания лекарства в общем случае включает следующие этапы: выбор молекулярной мишени для действия лекарства, нахождение базовой структуры нового лекарства, оптимизация базовой структуры, доклинические испытания, клинические испытания, производство препарата. При этом в течение длительного времени на стадиях экспериментального тестирования подавляющее большинство прототипов лекарств отбрасывались как бесперспективные по ряду причин: низкая активность, высокая канцерогенность, сложность производства и т. д. Приблизительно одно соединение из 100 ООО выходило на фармацевтический рынок. В [2] отмечено, что производство нового лекарства требует 12-15 лет и свыше 800 млн. долларов.
В последнее десятилетие ситуация изменилась. Благодаря внедрению компьютерных технологий и достижениям биоинформатики первые три этапа были рационализированы: поиск новых прототипов происходит более направленно, и значительно больше заведомо бесперспективных соединений отбрасывается на ранних этапах. Хотя, безусловно, компьютерное моделирование не заменит собой клинические испытания, согласно [1] уже сегодня оно позволяет снизить на два порядка количество прототипов, которые необходимо синтезировать и проверить.
Данная работа связана с выбором молекулярной мишени. Лекарство призвано активировать или дезактивировать какой-либо белок в организме человека либо в микроорганизмах. Во многих случаях конечной целью является воздействие на работу генов. К примеру, в результате болезни или плохой наследственности с некоторого гена не производится белок или, напротив, производится чрезмерно много белка. В этих случаях цель лекарства — восстановить нужный уровень активности. Поэтому зачастую мишенями становятся транскрипционные факторы (белки, регулирующие работу генов в организме) либо белки, передающие сигналы факторам. Однако для того, чтобы выбрать оптимальные мишени, необходимо тщательно изучить регуляторные процессы, действующие в клетках, характер их отличий в здоровом и больном организме (либо в здоровых и больных клетках), динамику изменений регуляции во времени и т. д.
Таким образом, сегодня перед исследователем стоит актуальная задача: определить набор активных элементов — факторов, которые регулируют тот или иной процесс в организме, а также характер взаимодействия между ними, отличить нормальную регуляцию от нарушенной и по возможности найти пути воздействия на этот процесс, способы восстановить регуляцию в больном организме. На данный момент биоинформатика ещё далека от того, чтобы дать точные и ясные ответы на такие вопросы в большинстве случаев. Не открыто ещё общих законов, которые достаточно хорошо описывали бы регуляцию генов и при этом работали бы в большинстве ситуаций.
Тем не менее, обнаружено достаточно много частных закономерностей и накоплен огромный экспериментальный материал. Это позволило нам создать комплексный инструмент, который может значительно помочь исследователю в поиске ответов на его вопросы. Хотя разработанные нами программные средства не дают абсолютно точного ответа, умелое комбинирование созданного нами инструментария с экспериментальной работой и творческий подход к решению задачи позволяют решить её в самых различных вариациях. Иногда можно найти регулирующие элементы исключительно экспериментально, не прибегая к компьютерному моделированию, но с помощью последнего это можно сделать быстрее и дешевле. Так, вместо проверки всевозможных факторов разработанное нами программное обеспечение позволяет смоделировать процесс регуляции и получить подмножество факторов, которые действуют в данном эксперименте с наибольшей вероятностью, после чего проверять уже только их.
Хотелось бы также отметить потенциальную важность исследования генной регуляции не только для генетики, но и для изучения новых вычислительных технологий и принципов построения алгоритмов и программ. Рассматривая представление ДНК как блока данных, а транскрипционных факторов — как программы, обрабатывающей эти данные, и изучая механизмы их взаимодействия, можно получить новые эффективные методы построения программ или решения некоторого класса задач. Напомним, что, исследуя устройство и функционирование генетического кода, учёные уже описали семейство эволюционных алгоритмов (включая генетический алгоритм), базирующихся на тех же принципах. Также можно упомянуть, что в 1994 году благодаря работе Эдлмана [3] появился метод решения NP-полных задач с помощью фрагментов ДНК и так называемые биокомпьютеры [4]. Изучение законов генной регуляции, возможно, позволит в будущем развить эту область и увеличить возможности биокомпьютеров1.
Цель работы заключается в разработке и совершенствовании математических и программных методов для анализа работы регуляторной системы при взаимодействии с промоторами генов в общем случае и в отдельных частных экспериментах. Основные задачи в рамках достижения этой цели включают:
• Изучение и формализацию знаний, накопленных в области генной регуляции, описание поведения регуляторной системы в виде алгоритмов.
• Построение параметризованной модели регуляторного комплекса, включающей в себя набор транскрипционных факторов и характер их взаимодействия.
1 Мнение о потенциальной пользе нашей работы для биокомпьютерных исследований высказал Danny van Noort (PhD, ранее старший научный сотрудник кафедры биомолекулярной обработки информации Института Фраунгофера, Германия, ныне профессор Национального Университета Сеула, читает курс лекций по биокомпьютерным вычислениям) на конференции ICNC'05 в Китае. Уже сейчас проводятся эксперименты по использованию генной регуляции в биокомпьютерах.
• Реализацию способа оптимизации (подбора параметров) этой модели для достижения наибольшего соответствия модели экспериментальным данным.
• Разработку программной системы, упрощающей и автоматизирующей обработку экспериментальных данных, связанных с генной регуляцией.
• Создание программного инструментария, который выполняет процесс оптимизации и представляет подробные результаты, а также позволяет гибко управлять видом модели и процессом её оптимизации и оценить качество результата.
Проектирование и реализация методов тестирования программных систем на искусственных и экспериментальных данных для оценки качества полученных результатов.
В результате проведённой работы разработано два программных средства — СМА и ExPlain. СМА [66,68,69,70,75] представляет собой неинтерактивное приложение, основанное на библиотеке GRESA [5] и управляемое множеством параметров командной строки. Большая часть проектирования, разработки и отладки СМА выполнена автором данной работы, но в создании этого продукта принимали участие и другие разработчики. ExPlain [77,80] — это мощная интерактивная система анализа генной регуляции в целом, которая, в частности, является оболочкой для СМА, хотя удобный запуск СМА и визуальное представление результатов этого запуска — лишь малая доля функциональности этой системы. Она сопряжена с различными базами данных, выпускаемыми BIOBASE GmbH, и призвана сделать обработку данных по генной регуляции более эффективной. ExPlain разрабатывается автором этой работы в составе интернациональной группы, в которой около 10 человек.
Существуют некоторые конкурирующие с СМА разработки, такие как TOUCAN [6,7] и TeLIS [10]. В работе [73] мы проводили сравнение их функциональности с СМА, но с тех пор проект СМА ушёл далеко вперёд, хотя некоторые полезные особенности конкурентов до сих пор не имеют аналогов в СМА (например, разбиение весовых матриц на классы с возможностью исключения из регуляторного комплекса матриц из одного класса). С другой стороны, СМА содержит много уникальных особенностей, таких как предсказание композиционных элементов, комплекса, состоящего из нескольких подкомплексов, учёт нескольких сайтов одной матрицы и многое другое.
Система ExPlain на мировом рынке аналогов не имеет. Хотя для большинства отдельных компонентов системы существуют подобные конкурирующие разработки, до сих пор никто не пытался интегрировать их в цельную систему.
Некоторые идеи, методы и алгоритмы, описанные в работе, нашли также применение в программном комплексе CisSearch [71,72,76,78,79,81], представляющем собой интерактивное графическое приложение под Windows, которое облегчает обработку разнообразных экспериментальных данных, связанных с генной регуляцией. Впрочем, мы практически не будем говорить об этом продукте.
Практическая ценность
Разработанные программные средства успешно использовались различными специалистами для обработки данных по генной регуляции включая представителей международных биотехнологических и фармацевтических компаний (например, Serono Group); научных институтов и центров (например, Германского центра изучения рака, DKFZ); компании, занимающейся выпуском биологических баз данных BIOBASE GmbH.
Апробация работы
Результаты работы докладывались на международных научных конференциях, включая 1st Intl. Conf. on Natural Computations (ICNC'05) в г. Чанша, Китай; German Conf. on Bioinformatics (GCB'05) в г. Гамбург, Германия; 3rd Annual RECOMB Satellite Workshop on Regulatory Genomics в г. Сингапур, Сингапур; 3rd Intl. Conf. "Genomics, Proteomics, Bioinformatics and Nanotech-nologies for Medicine" в г. Новосибирск и др. Работа была представлена на рабочем семинаре «Наукоёмкое программное обеспечение» конференции памяти академика А. П. Ершова «Перспективы систем информатики», на различных встречах, семинарах. Система ExPlain демонстрировалась на пленарных докладах международных конференций, на встречах с представителями свыше десятка биотехнологических и фармацевтических компаний.
Структура и объем работы
Диссертационная работа состоит из введения, четырёх.глав, заключения и списка литературы. Объем диссертации — 163 стр. Список литературы содержит 81 наименование. Работа включает 26 рисунков и графиков, полученных в результате расчётов на ЭВМ, в том числе с использованием разработанного программного обеспечения.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Исследование динамики функционирования генных сетей методами математического моделирования2006 год, кандидат биологических наук Ратушный, Александр Владимирович
Логико-вероятностный метод извлечения знаний и его применение в задачах прогнозирования и управления2008 год, кандидат физико-математических наук Демин, Александр Викторович
Метод автоматизированного проектирования ударопрочных автомобильных конструкций2007 год, кандидат технических наук Овчинников, Валерий Александрович
Контроль экспрессии генов в процессе подвижности грамотрицательных бактерий2001 год, кандидат биологических наук Сутурина, Ольга Александровна
Разработка методических подходов к рациональному дизайну полиэпитопных T-клеточных антигенов2013 год, кандидат биологических наук Антонец, Денис Викторович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Валеев, Тагир Фаридович
Основные результаты
• В рамках работы проведены комплексные исследования известных на сегодняшний день механизмов генной регуляции. Многие гипотезы, идеи, теории и экспериментальные наработки, связанные с генной регуляцией, были собраны воедино, структурированы и формализованы в виде алгоритмов.
• Выполнены исследования по установлению соответствия между предложенными моделями и экспериментальными данными. Для оценки степени этого соответствия введена целевая функция на основе различных статистических методов. Предложены и реализованы алгоритмы для поиска оптимального соответствия, методы оценки качества полученных моделей и средства для тестирования алгоритмов поиска.
• Реализована программа СМА, представляющая собой инструмент для гибкого анализа регуляторной модели на основании данных по экспрессии генов в различных экспериментах. Проведённое тестирование показало, что разработанные инструменты работоспособны, а получаемый результат находит экспериментальное подтверждение.
• Реализована программная система ExPlain, упрощающая процесс обработки экспериментальных данных по генной регуляции. Она поддерживает популярные форматы файлов, используемые для хранения результатов экспериментов, связывает их с широко распространенными базами данных биологической информации, используемыми биотехнологическими компаниями, позволяет выполнять различные виды анализа и предоставляет графический человеко-машинный интерфейс.
Заключение
В наше время исследование генной регуляции играет ключевую роль в понимании происходящих в клетке процессов, изучении вирусных и наследственных заболеваний и производстве новых лекарств. Понимание регуля-торной системы и происходящих в ней нарушений позволяет более точно определить белки-мишени в клетке, на которые новые лекарства должны воздействовать. Благодаря этому, прототипы лекарств, сконструированные на начальных стадиях, значительно чаще оказываются удачными, вследствие чего значительно сокращаются трудозатраты, необходимые для доклинических и клинических испытаний.
Знания об отдельных факторах, действующих в тех или иных клетках, может оказаться недостаточно: воздействие лекарством на один из задействованных факторов может вызвать ряд побочных явлений, воздействуя на те же факторы в здоровых тканях. Для учёта всевозможных эффектов необходимо знать не только набор активных факторов, но и характер взаимодействия между ними, причём не только в поражённых, но и в здоровых органах.
Данная работа призвана способствовать получению таких знаний из экспериментального материала. В ней проведён ряд исследований существу-щих знаний о регуляторной системе и разработаны программные системы, позволяющие проанализировать генную регуляцию на основании данных по экспрессии генов.
Использование разработанных программ специалистами-биологами показало, что программы действительно способствуют достижению заявленных целей, причём являются не просто экспериментальной разработкой, а доведены до вида готового продукта, удобного в использовании и выдающего полезные результаты.
На будущее намечено множество направлений деятельности. Многие пожелания были высказаны пользователями, которые успели поработать с
СМА, другие выдвинули разработчики. Практически любой этап работы СМА может быть так или иначе усовершенствован. Опишем некоторые варианты улучшений.
Во-первых, для улучшения результата можно привлечь другие знания, кроме значений экспрессии и библиотеки матриц. К примеру, в подсчёте RS планируется изменение подсчёта вклада сайтов на основании их устойчивости в различных видах (если данный участок промотора одинаков у различных видов, значит, предсказанные на нём сайты более надёжны). Кроме того, можно привлечь информацию об экспериментально известных сайтах, давая приоритет положению окна, которое захватывает такие сайты.
Во-вторых, анализируя экспериментальные данные, необходимо выработать оптимальные наборы параметров (в частности, параметры классов и веса компонентов целевой функции) и сформировать наборы предустановленных параметров для определённых типов задач, встающих перед пользователем. Правильный набор параметров по умолчанию облегчит процесс анализа и быстро даст пользователю некоторое представление о действующем в данном эксперименте регуляторном комплексе, после чего уже станет ясно, в какую сторону модифицировать параметры далее.
В-третьих, необходимо выработать критерии надёжности результата СМА, к примеру, критерий p-value (вероятность того, что данный результат мог получиться на случайном наборе входных данных). Это очень важно, так как иногда результат, выдаваемый СМА, может быть абсолютно ненадёжен по ряду причин: недостаточное число поколений в генетическом алгоритме, ненадёжные значения экспрессий во входных данных ввиду плохо поставленного эксперимента и т. д. Подобный критерий позволит пользователю определить подобные проблемы на раннем этапе анализа и принять меры к их устранению.
Часть пожеланий носит чисто технический характер: добавление к СМА интерактивности (возможность остановить процесс вручную, добавить в популяцию некоторых комплексов, найденных, скажем, в другом эксперименте), вывод некоторой дополнительной информации в процессе и по окончании работы и прочее.
Особенно актуальной является задача распараллеливания генетического алгоритма для ускорения его работы на многопроцессорных системах и возможности запуска на вычислительных кластерах. Существует немало наработок по его распараллеливанию. Одной из популярных является концепция островов, где каждый процессор занимается эволюцией некоторой части популяции независимо, но время от времени некоторые организмы мигрируют между разными процессорами. В конце работы алгоритма популяции со всех процессоров объединяются, и выбирается лучший организм среди них. Рели-зация подобного подхода в СМА позволила бы ускорить нахождение интересующего комплекса на многопроцессорных системах, которые в наши дни можно легко встретить даже в качестве рабочих станций.
Выше перечислены только некоторые идеи дальнейшего развития СМА. В действительности их высказано гораздо больше, не говоря о бесчисленных пожеланиях к улушению системы ExPlain (модульность системы со специфицированным интерфейсом, возможность внедрения плагинов, управляемая скриптами поточная обработка больших объёмов данных и многое другое).
Необходимо отметить вклад автора в данную работу. Разумеется, работа такого уровня, тем более на стыке различных наук, не могла быть выполнена одним человеком, в ней принимали участие различные специалисты. Однако заслуга автора достаточно велика. Ниже перечислены основные моменты:
• Формализована структура булева класс моделей и выполнена большая часть работы по формализации структуры обобщённого класса;
• Выдвинута идея использования функции сходства, сконструирована сама функция; выдвинута и реализована идея её использования для оценки надёжности;
• Оптимизировано вычисление комплекса оконного класса и создан алгоритм оптимального вычисления комплекса обобщённого класса;
• Реализованы оригинальные события в операторе мутации: синтез, распад и рекомбинация композиционных элементов (при тестировании на искусственных данных добавление этих операторов уменьшило на порядок время затрачиваемое на поиск внедрённого комплекса);
• Выдвинута и реализована идея ступенчатого покомпонентного кроссовера, когда кроссовер иерархически более крупных компонентов выполняется через операторы кроссовера для более мелких; предложена идея по использованию функции сходства в кроссовере;
• Проведено исследование критериев нормальности; выбран критерий, обес-печивающий приемлемое качество при высокой скорости вычисления;
• Придуман алгоритм, определяющий RScut и вычисляющий ZE за линейное время;
• Исследована применимость различных вариантов формул нечёткой логики и выбрана наиболее подходящая.
Реализация программного кода СМА выполнена автором на 80-85%. Создана общая структура приложения и разбивка на пакеты, реализованы вспомогательные классы ввода-вывода. Автором полностью реализованы булев и обобщённый класс моделей, оптимизирован и доработан оконный класс, значительно переработана целевая функция, реализованы различные виды запусков и многое другое.
Что касается системы ExPlain, тут разделить вклад разработчиков значительно сложнее: одни и те же фрагменты кода неоднократно переписывались несколькими разработчиками, и уже трудно установить, кто внёс больший вклад. Точно можно сказать, что автор привёл общий интерфейс к текущему виду, ввёл концепцию процессов, проработал часть структуры базы данных, которая касается хранения информации о различных генетических объектах (генах, мРНК, промоторах и т. д.) и связях между ними, проработал разделение на модули. Автором реализовано, переработано, исправлено и отлажено множество отдельных функций, предложены различные идеи. Общий вклад в разработку системы автор оценивает примерно в 25%.
Тестирование на искусственных данных выполнено автором полностью, включая написание генератора искусственных последовательностей. Из трёх экспериментов, описанных в разделе «Тестирование на экспериментальных данных», автором полностью выполнен первый, во втором и третьем автор не участвовал.
Общий объём программного кода СМА, генератора искусственных последовательностей и программы graphout на С++ составляет около 500 Кб (не включая тесты и библиотеку GRESA). Объём программного кода ExPlain на Perl превышает 1 Мб (не включая файлы данных, конфигурационные файлы, двоичные исполняемые модули, графические элементы интерфейса и документацию).
Автором опубликованы 23 печатные работы, из них 16 по теме диссертации.
Список литературы диссертационного исследования кандидат физико-математических наук Валеев, Тагир Фаридович, 2006 год
1. Интегральная платформа «От гена до прототипа лекарства» in silico и in vitro / Иванов А. С., Веселовский А. В., Дубанов А. В., Скворцов В. С., Арчаков А. И. // Российский химический журнал. — 2006. — Том L. — №2. —С. 18-35.
2. Lohse, М. J. The future of pharmacology. Trends Pharmacol // Science. — 1998. —Vol. 19. —P. 198-200.
3. Adleman, L. M. Molecular Computation Of Solutions To Combinatorial Problems//Science. — 1994. — Vol. 266(11). —P. 1021-1024.
4. Amos, M. Theoretical and Experimental DNA Computation / Amos, M. — Springer, 2005. — 173 p.
5. Computational detection of cis-regulatory modules / Aerts S., Van Loo P., Thijs G., Moreau Y., De Moor, B. // Bioinformatics. — 2003. — Vol. 19, Suppl 2. —P. ii5-iil4.
6. TOUCAN: Deciphering the Cis-Regulatory Logic of Coregulated Genes / Aerts, S., Thijs, G., Coessens, В., Staes, M., Moreau Y., De Moor, B. // Nucleic Acids Research. — 2003. — Vol. 31, N 6. — P. 1753-1764.
7. A genetic algorithm for the detection of new cis-regulatoiy modules in sets of coregulated genes / Aerts S., Van Loo P., Moreau Y., De Moor, B. // Bioinformatics. — 2004. — Vol. 20(12). — P. 1974-1976.
8. TOUCAN 2: the all-inclusive open source workbench for regulatory sequence analysis / Aerts S., Van Loo P., Aerts, S., Mayer, H., De Martin, R.,
9. Moreau, Y., De Moor B. // Nucleic Acids Research. — 2005. — Vol 33(Web Server issue). — P. 393-396.
10. Expression-based monitoring of transcription factor activity: The TELiS database / Cole, S., Yan, W., Galic, Z., Arevalo, J., Zack, J. A. // Bioinformatics. — 2005. — Vol. 21(6). — P. 803-810.
11. Transcription factor interactions: selectors of positive or negative regulation from a single DNA element / Diamond, M. I., Miner, J. N., Yoshinaga, S. K., Yamamoto K. R. // Science. — 1990. — Vol. 249. — P. 1266-1272.
12. COMPEL: a database on composite regulatory elements providing combinatorial transcriptional regulation / Kel-Margoulis, О. V., Romashchenko, A. G., Kolchanov, N. A., Wingender, E., Kel, A. E. // Nucleic Acids Research. — 2000. —Vol. 28(1). —P. 311-315.
13. TRANSFAC and its module TRANSCompel: transcriptional gene regulation in eukaryotes / Matys, V., Kel-Margoulis, О. V., Fricke, E. et. al. // Nucleic Acids Research. — 2006. — Vol. 34(Database issue). — P. 108-110.
14. Davidson, E. H. Genomic Regulatory Systems: Development and Evolution / Davidson, E. H. — Academic Press, 2001. — 261 p.
15. Yuh, C.-H. Genomic Cis-Regulatory Logic: Experimental and Computational Analysis of a Sea Urchin Gene / Yuh, C.-H., Bolouri, H., Davidson, E. H. // Science. — 1998. — Vol. 279. — No. 5358. — P. 1896-1902.
16. Single Nucleotide Polymorphisms: Methods and Protocols / Edited by Kwok, P.-Y. — AACC Press, 2002. — 269 p.
17. MATRIX SEARCH 1.0: a computer program that scans DNA sequences for transcriptional elements using a database of weight matrices / Chen, Q. K., Hertz, G. Z., Stormo, G. D. // Bioinformatics. — 1995. — Vol. 11(5). — P. 563-566.
18. Schneider T. Information content of binding sites on nucleotide sequences / Schneider, Т., Stormo, G. D., Gold, L. // Journal of Molecular Biology. — 1986. —Vol. 188. — P. 415-431.
19. Horton P. An assessment of neural network and statistical approaches for prediction of E.coli promoter sites / Horton P., Kanehisa M. // Nucleic Acids Research. — 1992. — Vol. 20. — P. 4331-4338.
20. MATCH: A tool for searching transcription factor binding sites in DNA sequences / Kel, A. E., Gossling, E., Reuter, I., Cheremushkin, E., Kel-Margoulis, О. V., Wingender, E. // Nucleic Acids Research. — 2003. — Vol. 31(13). — P. 3576-3579.
21. Колмогоров A. H. Теория информации и теория алгоритмов / Колмогоров А. Н. — М.: Наука, 1987. — 304 с.
22. TRANSFAC: transcriptional regulation, from patterns to profiles / Matys, V., Fricke, E., Geffers, R. et al. // Nucleic Acids Research. — 2003. — Vol. 31(1). — P. 374-378.
23. Light-generated oligonucleotide arrays for rapid DNA sequence analysis / Pease, A. C., Solas, D., Sullivan, E. J., Cronin, M. Т., Holmes, C. P., Fodor, S. P. // Proc. of the National Academy of Sciences. — 1994. — Vol. 91(11).— P. 5022-5026.
24. Serial analysis of gene expression / Velculescu, V. E., Zhang, L., Vogelstein, В., Kinzler, K. W. // Science. — 1995. — 270(5235). — P. 484-487.
25. Expression monitoring by hybridization to high-density oligonucleotide arrays / Lockhart, D. J., Dong, H., Byrne, M. C., Follettie, M. Т., Gallo, M. V., Chee,
26. M. S., Mittmann, M., Wang, С., Kobayashi, M., Horton, H., Brown, E. L. // Nature Biotechnology. — 1996. —Vol. 14(13). —P. 1675-1680.
27. Naur, P. Revised Report on the Algorithmic Language ALGOL 60 // Communications of the ACM. — 1960. — Vol. 3. — No. 5. — P. 299-314.
28. Marcotty ML The World of Programming Languages / Marcotty M., Ledgard, H. — Berlin: Springer-Verlag, 1986. — С 41-й с. и ниже.
29. Land А. Н. An automatic method of solving discrete programming problems / Land, A. H., Doig, A. G. // Econometrica. — 1960. — Vol. 28. — P. 497-520.
30. Корбут А. А. Дискретное программирование / Корбут А. А., Финкель-штейн Ю. Ю. — М.: Наука, 1969. — 368 с.
31. Алгоритмы: построение и анализ / Кормен Т. X., Лейзерсон Ч. И., Ривест, P. JL, Штайн, К. — Издательство «Вильяме», 2005. — 1296 с.
32. Holland J. Н. Adaptation in Natural and Artificial Systems / Holland J. H. — The University of Michigan Press, 1975. — 211 p.
33. Michalewicz, Z. Genetic Algorithms + Data Structures = Evolution Programs / Michalewicz, Z. — Springer-Verlag, 1996. — 387 p.
34. The Practical Handbook of Genetic Algorithms / Edited by Chambers, L. — Chapman & Hall, 2001. — 535 p.
35. Mitchell, M. An Introduction to Genetic Algorithms / Mitchell, M. — MIT Press, 1999. — 158 p.
36. Zadeh L. A. Fuzzy algorithms // Information and Control. — 1968. — P. 94102.
37. Cignoli R. Algebraic Foundations of Many-Valued Reasoning / Cignoli R., D'Ottaviano, I. M., Mundici, D. — Springer, 1999. — 248 p.
38. Kanji G. K. 100 Statistical Tests. — London, Sage, 1999. — 224 p.
39. Hartigan, J. Clustering algorithms / Hartigan, J. — New York, Wiley, 1975.366 p.
40. Shapiro, S. S. An analysis of variance test for normality (complete samples) / Shapiro, S. S„ Wilk, M. B. // Biometrika. — 1965. — Vol. 52. — P. 591-611.
41. Epps, T. W. A test for normality based on the empirical characteristic function / Epps, T. W., Pulley, L. B. // Biometrika. — 1983. — Vol. 70 — P. 723-726.
42. ГОСТ P ИСО 5479-2002. Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения. — М.: Изд-во стандартов. 2002. — 30 с.
43. Орлов А. И. Прикладная статистика / Орлов А. И. — М.: Издательство «Экзамен», 2004. — 656 с.
44. Большее JI. Н. Таблицы математической статистики / Большев JI. Н., Смирнов Н. В. —М.: Наука, 1983. —416 с.
45. D'Agostino, R. В. Transformation to normality of the null distribution of gi // Biometrika. — 1970. — Vol. 57. — P. 679-681.
46. D'Agostino, R. B. Tests for departures from normality. Empirical results for the distribution of and b2 / D'Agostino, R. В., Pearson, E. // Biometrika.1973. — Vol. 60. — P. 613-622.
47. D'Agostino, R. B. Goodness-of-fit Techniques / D'Agostino, R. В., Stephens, M. A. — New York, 1986. — 576 p.
48. Akaike, H. A New Look at the Statistical Model Identification // I.E.E.E. Transactions on Automatic Control. — 1974. — Vol. AC 19. — P. 716-723.
49. Akaike, H. Canonical Analysis of Time Series and the Use of an Information Criterion // System Identification: Advances and Case Studies. — New York, Academic Press, 1976. — P. 52-107.
50. Hannan, E. J. The Estimation of the Order of an ARMA Process // Annals of Statistics. — 1980. — No. 8. — P. 1071-1081.
51. Hannan, E. J. The Determination of the Order of an Autoregression / Hannan, E. J., Quinn, B. G. // Journal of the Royal Statistical Society. — 1979. — Vol. B—41. — P. 190-195.
52. Schwarz, G. Estimating the Dimension of a Model // Annals of Statistics. — 1978. —No. 6. —P. 461464.
53. Efron, B. Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods // Biometrika. — 1981. — No. 68. — P. 589-599.
54. Колесов Ю. Моделирование систем. Динамические и гибридные системы / Колесов Ю., Сениченков Ю. — БХВ-Петербург, 2006. — 224 с.
55. Biological sequence analysis / Durbin, R., Eddy, S. R., Krogh, A., Mitchson, G. — Cambridge University Press, 1998. — 356 p.
56. TRANSCompel: a database on composite regulatory elements in eukaryotic genes / Kel-Margoulis, O., Kel, A. E., Reuter, I., Deineko, I. V., Wingender, E. // Nucleic Acids Research. — 2002. — Vol. 30. — P. 332-334.
57. Recognition of NFATp/AP-1 composite elements within genes induced upon the activation of immune cells / Kel, A., Kel-Margoulis, O., Babenko, V., Wingender, E. // Journal of Molecular Biology. — 1999. — Vol. 288. — P. 353376.
58. Structure of the DNA-binding domains from NFAT, Fos and Jun bound specifically to DNA / Chen, L., Glover, J. N., Hogan, P. G., Rao, A., Harrison, S. C. // Nature. — 1998. — Vol. 392. — P. 42^18.
59. Identifying combinatorial regulation of transcription factors and binding motifs / Kato, M., Hata, N., Banerjee, N., Futcher, В., Zhang, M. // Genome Biology. — 2004. — Vol. 5(8):R56.
60. Molecular Cell Biology / Lodish, H., Scott, M. P., Matsudaira, P., Darnell, J., Zipursky, L., Kaiser, C., Berk, A., Krieger, M. — Freeman, 2003. — 973 p.
61. Cell Cycle Control / Edited by Hutchison, C., Glover, D. M. — 1995. — 320 p. Публикации по теме диссертации
62. Cheremushkin, E., Konovalova, Т., Valeev, Т., Kel, A.
63. Methods for search of gene regulatory elements binding sites. // Analytical
64. Tools for DNA: Genes and Genomes: Nuts & Bolts. — DNA Press, 2005. — P. 185-214.
65. Cheremushkin, E., Konovalova, Т., Valeev, Т., Shtokalo, D., Taraskina, A.
66. CisSearch: Software Package For Complex Analysis Of Gene Regulatory Sequences. // Proc. of the 3rd Annual RECOMB Satellite Workshop on Regulatory Genomics, Singapore, Jul. 17-18, 2006. — Singapore, 2006. — P. 100— 108.
67. Cheremushkin, E., Konovalova, Т., Valeev, Т., Shtokalo, D., Taraskina, A.
68. Software Package for Complex Analysis of Gene Regulatory. // Proc. of the 3rd International Conference "Genomics, Proteomics, Bioinformatics and Nanotechnologies for Medicine", Novosibirsk, Jul. 12-16, 2006. — P. 97.
69. Валеев Т. Ф. Сравнительный анализ методов поиска регуляторных модулей в последовательностях ДНК, использующих данные микроэррэев. //
70. Методы и инструменты конструирования и оптимизации программ. — Новосибирск, 2005. — С. 21-28.
71. Валеев Т. Ф. Генетический алгоритм как альтернатива для решения некоторых NP-полных задач. // Тез. докл. конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск, 22-24 февраля 2005. —С. 112-113.
72. Черёмушкин Е. С., Коновалова Т. Г., Валеев Т. Ф. Разработка пакета программ по анализу регуляторных областей ДНК. // Тез. докл. конференции-конкурса «Технологии Microsoft в информатике и программировании», Новосибирск, 22-24 февраля 2005. — С. 142-143.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.