Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Деменков, Павел Сергеевич

  • Деменков, Павел Сергеевич
  • кандидат технических науккандидат технических наук
  • 2008, Новосибирск
  • Специальность ВАК РФ05.13.11
  • Количество страниц 146
Деменков, Павел Сергеевич. Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Новосибирск. 2008. 146 с.

Оглавление диссертации кандидат технических наук Деменков, Павел Сергеевич

Введение

1 Методы извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций

1.1 Знания и онтологии.

1.2 Введение в технологию Text-rriiriirig.

1.3 Извлечение знаний из фактографических баз данных

1.4 Классификация документов.

1.5 Распознавание имён в текстах.

1.6 Экстрагирование из текстов информации о взаимоотношениях сущностей.

1.7 Генерирование гипотез.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математическое и программное обеспечение для реконструкции ассоциативных сетей молекулярно-генетических взаимодействий»

4.1.2 Кодирование данных для предсказания изменения термодинамической стабильности.100

4.1.3 Алгоритм модифицированный КРАБ .103

4.2 Алгоритм кластеризации графа .105

4.3 Построение сети взаимосвязи человеческих белков.107

Заключение 111

Литература 114

А Приложения 124

А.1 Пример записи из базы данных KEGG-compound .124

А.2 Пример записей базы данных ChEBI.130

А.З Пример записи из базы данных SwissProt.130

А.4 фрагмент таблицы Gene-info.138

А.5 Пример записи базы данных MINT .138

А.6 Пример описания гена в базе данных TRRD.141

А.7 Пример описания белка в формате GeneNet.143

А.8 Пример описания взаимодействия двух объектов в формате

GeneNet.144

Введение

Объект исследования и актуальность темы. Активное применение современных информационных технологий, средств вычислительной техники и методов прикладной математики в области молекулярно-биологичеких и биомедицинских исследований заложили фундаментальную основу развития такого направления как биоинформатика [15].

Широкомасштабное секвепирование геномов, экспериментальные методы протеомики, геномики и транскриптомики обеспечивают колоссальный рост молекулярно-биологической информации, которую принципиально невозможно осмыслить и переработать без использования специальных программно-информационных средств. Во всем мире интенсивно ведутся исследования в области организации биологических систем и технологий, в частности: высокопроизводительных биочиповых (ДНК-микрочипы, белковые, клеточные и тканевые микрочипы, микрочипы на основе малых молекул); иротеомных и метаболомных экспериментальных технологий, широко используемых в биомедицине, фармакологии, биотехнологии, агробиологии и других областях. При этом следует отметить, что в настоящее время активное развитие экспериментальных методов идентификации молекулярных взаимодействий на самых разных уровнях организации биологических систем значительно опережает развитие биоинформатических средств иоддержки, анализа и интерпретации результатов экспериментов [15]. Всё большую актуальность приобретают вопросы интеграции результатов анализа и интерпретации молекулярно-генетических данных, состоящие в выяснении связи генов, белков и метаболитов с функционированием молекулярно-генетических систем, с молекулярно-биологическими информационными ресурсами при формировании новых знаний в рассматриваемой области. Следует отметить, что знания о молекулярно-генетических взаимодействиях в клетке необходимы для решения широкого круга практически важных задач в области биотехнологии и агробиологии, биомедицины и фармакологии, в частности:

• поиск мишеней для создания лекарственных препаратов;

• оценка потенциальной эффективности и токсичности новых препаратов в доклинических испытаниях;

• идентификация биомаркерных молекул для создания эффективных диагностических систем;

• идентификация важных для продуктивности сельскохозяйственных культур генов;

• выбор генов-кандидатов для генотипирования.

Создание новых и идентификация существующих знаний, их применение на практике для диагностики, предупреждения и лечения различных заболеваний — одна из целей молекулярно-биологических и биомедицинских исследований, а разработка эффективных систем подцержки этих процессов на основе современных информационных технологий и концепции систем управления знаниями — одна из приоритетных задач биоинформатики [15].

На современном этапе из-за высоких темпов роста публикаций и электронных баз данных (БД) в области исследований биологических систем и разработки технологий особую актуальность приобретают вопросы создания адекватного инструментария для систематизации проблемной информации и решения задач идентификации существующих знаний. В частности, в условиях большого потока информации становится все сложнее восстанавливать недостающие связи между молекулярно-генетическими объектами, которые могут приводить к практическому использованию накопленных знаний.

Например, БД данных рефератов научных статей по современным исследованиям в области генетики, молекулярной биологии и биомедицины Pubmed [1] содержит около 15 миллионов публикаций на конец 2006 года и их объем увеличивается в среднем на 500 тысяч статей в год [1]. Созданные в мире тысячи фактографических медико-биологических БД содержат разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объёмы этих БД чрезвычайно велики. Так, БД NCBI Gene [26] содержит 1933023'записей (2006 год), количество которых постоянно увеличивается.

Существуют базы данных содержащие информацию о полиморфизмах, связанных с заболеваниями человека, животных и растений (например, база данных OMIM [48] содержит информацию о 17212 генах, связанных с патологиями человека).

В базе данных Gene Ontology [29] представлено формализованное описание молекулярных функций белков и генов, процессов, в которых они участвуют (130696 биологических процессов и 128548 молекулярных функций для 107701 клеточных компонент).

В базах данных KEGG [28], ЕсоСус [25], MetaCyc [42], GeneNet [30] и др. представлены миллионы фактов о биомедицински и биотехнологиче-ски значимых молекулярио-генетических взаимодействиях, генных сетях, метаболических путях, путях передачи сигналов и др.

Если учесть, что заметная часть информации в БД по данному направлению слабо структурирована и представлена в текстовом виде, то становится ещё более очевидной актуальность соответствующего математического и -программного инструментария.

Создание новых и идентификация существующих знаний как базовые виды деятельности в жизненном цикле знаний рассматриваются в качестве системообразущих объектов в системах управления знаниями (СУЗ). Активные исследования в области создания СУЗ начались с 90-х годов прошлого столетия. Среди авторов публикаций- следует выделить исследовау ния О. Bodenreider, К.М. Wiig, Т.Н. Davenport, L. Prusak, S.B. Martins, H. Takeuchi, J.M. Firestone, I. Nonaka, C.M. Климова, T.A. Гавриловой, А.Ф. Тузовского и В.З. Ямпольского.

Анализ работ этих авторов показывает, что одним из основных подходов к созданию СУЗ и его компонент является семантический подход, который основан на использовании методов и технологий по работе со смыслом, семантикой данных, информации и знаниями, таких как онтологии предметных областей, технологии их построения и сопровождения, семантические метаданные, семантический поиск, системы логического вывода, семантическое профилирование знаний экспертов, семантические порталы и сети и т.п. И все это с соответствующей технологической поддержкой в части языков описания, моделей, программных инструментов и систем.

Существуют различные методы представления накопленных знаний, в число которых входят продукционные модели, семантические сети, фреймы и онтологии. Из перечисленных наиболее часто в биологических системах применяются семантические сети и онтологии [13,49,55,65].

Цель работы: разработка комплекса методов, моделей и алгоритмов для создания информационно-программной системы обеспечения поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований на основе автоматизации процесса реконструкции сетей ассоциативных взаимосвязей между молекулярно-генетическими объектами из научных текстов и фактографических баз данных.

Для достижения поставленной цели исследования были поставлены и решены следующие задачи:

1. Выявление состава и структуры знаний с созданием онтологической модели их представления для исследований в области молекулярно-генетических взаимодействий.

2. Разработка подходов и методов извлечения знаний из текстовых ис точников информации для заданной предметной области.

3. Разработка средств интеграции информации, накопленной в существующих открытых фактографических базах данных.

4. Разработка архитектуры программно-информационной системы для автоматизации реконструкции сетей ассоциативных связей на основе созданной онтологической модели, реализация её в виде программно-информационного комплекса с графическим пользовательским интерфейсом.

5. Апробация технологии применения разработанной программно-информационной системы на примере решения задачи анализа особенностей ассоциативных белковых сетей человека.

Методы исследования. Для решения поставленных задач в работе используются методы системного анализа, теории графов, теории создания систем управления знаниями, объектно-ориентированного проектирования и программирования.

Научная новизна. В диссертационной работе предложен подход к решению задач по обеспечению одного из базовых видов деятельности в жизненном цикле знаний: поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований, который реализован в виде проблемно-ориентированной информационно-программной системы — одной из основных подсистем системы управления знаниями в рассматриваемой области.

Получены следующие основные результаты, обладающие научной новизной:

1. Предложена онтологическая модель для описания молекулярно-генетических объектов, процессов, заболеваний и взаимоотношений между ними.

2. Разработан новый метод извлечения информации о молекулярно-генетических взаимодействиях из текстов рефератов научных статей и общедоступных фактографических баз данных, ориентированных на фармакологию, биотехнологию и биомедицину.

3. На основе предложенных онтологической модели, методов и алгоритмов разработана первая отечественная информационная система Associative Network Discovery (ИС AND), которая по полноте представления типов взаимодействий и извлечённых фактов превосходит аналогичные зарубежные разработки.

4. Разработан метод машинного обучения на основе известного алгоритма КРАБ, адаптированный для предсказания изменения термодинамической стабильности белка при одиночной аминокислотной замене.

5. С использованием созданной ИС и адаптированного метода КРАБ проведён анализ человеческого протеома на предмет влияния аминокислотных замен на термодинамическую стабильность белков.

Научная и практическая ценность. Разработанная на основе предложенных методов, моделей и алгоритмов ИС AND обеспечивает компьютерную поддержку исследований в таких областях современной науки как молекулярная биология, генетика, биотехнологии, биомедицина, фармакология, агробиология и др. Система позволяет проблемным специалистам легко ориентироваться в огромных гетерогенных хранилищах знаний в области биологии и медицины, быстро извлекать необходимую информацию с достаточно высокой точностью и осуществлять своевременный мониторинг вновь появляющихся фактов. Она может быть полезна для студентов, аспирантов и молодых учёных для быстрого погружения в предметную область и ознакомления с новейшими открытиями, связанными с интересующими исследователя биологическими объектами. ИС AND закладывает базу для создания СУЗ в области молекулярно-биологических исследований.

Реализация и внедрение результатов работы. Система AND внедрена в Институте цитологии и генетики СО РАН (г. Новосибирск) с целью получения новых знаний, проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскриптомика, про-теомика, метаболомика и др.

Структура работы. Работа состоит из введения, четырёх глав, заключения, выводов, восьми приложений и списка литературы.

В первой главе содержится обзор литературы по способам представления знаний, методам извлечения знаний о молекулярных взаимодействиях из фактографических баз данных и электронных текстов научных публикаций, а также основные понятия технологии Text-mining и систем поддержки принятия решений. Рассматривается только часть задач, которые решаются в рамках технологии Text-mining.

Глава 2 содержит описание онтологической модели представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями и процессами. В главе описываются методы извлечения информации из доступных фактографических баз данных. А также способы расширения словарей названий молекулярно-генетических объектов, процессов и заболеваний и алгоритмы извлечения фактов взаимодействия между ними из текстов научных статей.

Глава 3 содержит описание архитектуры информационной системы AND. Описаны средства разработки, используемые при создании информационной системы, и графический интерфейс пользователя для взаимодействия с базой данных ANDCell. А также дано описание алгоритмов раскладки ассоциативных сетей в пространстве, реализованные в системе.

Четвёртая глава содержит описание применения разработанной информационной системы AND для анализа человеческого протеома. В главе описаны метод машинного обучения модифицированный КРАБ и алгоритм кластеризации графов. А также проведён анализ кластеров чувствительных к мутациям белков.

В заключении осуждаются и обобщаются основные результаты исследования.

Положения, выносимые на защиту.

1. Онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.

2. Метод извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.

3. Информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из гетерогенных источников информации.

4. Клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели.

5. Алгоритмы раскладки графа ассоциативных сетей на плоскости.

6. Метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ.

Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:

• международная конференция «The Sixth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2008)» (Новосибирск, Россия, 2008 г.);

• международная конференция «З-rd Moscow Conference on Computational Molecular Biology» (Москва, Россия, 2007 г.); международная конференция «The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development» ( Москва, Россия, 2007 г.); международная конференция «8th Meeting German / Russian Virtual Network on Computational Systems Biology» (Билефельд, Германия, 2007 г.); международная конференция «З-rd International Conference: Basic Science for Medicine» (Новосибирск, Россия, 2006 г.); международная конференция «The Fifth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2006)» (Новосибирск, Россия, 2006 г.); российская конференция «VI Всероссийской научно — практической конференции AS'2007 (СИСТЕМЫ АВТОМАТИЗАЦИИ в образовании, науке и производстве)» (Новокузнецк, Россия, 2007 г.).

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Деменков, Павел Сергеевич

Заключение

В ходе выполнения работы были получены следующие результаты:

1. Впервые в России разработана информационная система обеспечивающая экстракцию и интеграцию знаний о молекулярных взаимодействиях из большинства доступных гетерогенных источников информации: научных публикаций, разнородных экспериментальных данных, представленных в фактографических базах данных. Система по многим параметрам (полноте представления типов взаимодействий, количеству извлечённых фактов и др.) превосходит зарубежные аналоги.

2. Разработана онтологическая модель представления знаний о взаимосвязях между молекулярно-генетическими объектами, заболеваниями, процессами и клеточными компонентами.

3. Разработан метод и основные технологии извлечения знаний о молекулярно-генетических взаимодействиях на основе технологии Text-mining.

4. Разработана клиент-серверная архитектура программно-информационной системы AND для автоматизации процессов реконструкции сетей ассоциативных связей на основе созданной онтологической модели. Предложенная архитектура реализована в виде программно-информационного комплекса с платформо-независимым графическим пользовательским интерфейсом для представления ассоциативных сетей молекулярно-генетических взаимодействий.

5. Разработаны алгоритмы раскладки графа ассоциативных сетей на плоскости. Реализация алгоритмов позволяет использовать вычислительные возможности современных многопроцессорных систем и/или выполнять вычисления с использованием графических ускорителей.

6. Разработан метод предсказания изменения термодинамической стабильности белков при одиночных аминокислотных мутациях на основе адаптированного метода КРАБ. Применение созданной ИС и предложенного метода позволило выявить, что белки чувствительные к мутациям, находящиеся в одном кластере, отвечают за схожие процессы жизнедеятельности клетки.

Результаты применения созданной на основе разработанных моделей, методов и алгоритмов ИС AND показали их эффективность, в части обеспечения поддержки процессов поиска новых и идентификации существующих знаний в области молекулярно-биологических исследований. По результатам апробации ИС AND можно сделать вывод о перспективности её применения для:

• реконструкции и анализа сетевых моделей сложных молекулярно-генетических взаимодействий (генные сети), которые, как показывает опыт работы с российскими и зарубежными коллегами, востребованы в области биоинформационных, биотехнологических и биомедицинских исследований;

• проведения прикладных исследований и опытно-конструкторских разработок в таких областях, как системная биология, структурная и функциональная геномика, транскрип-томика, протеомика, метабо-ломика;

• решения прикладных задач в области фармакологии, биомедицины и биотехнологии для поиска новых лекарственных средств и оценки их действия на организм: реконструкция генных и метаболических сетей, описывающих на молекулярно-генетическом уровне функционирование клеток нормального и больного организма, пути проникновения патогена в клетку и взаимодействия с клеткой хозяина, пути и варианты воздействия лекарственных средств;

• построение ассоциативных семантических сетей, связывающих симптомы и наблюдения за пациентом с заболеваниями и методами лечения (в медицине).

Список литературы диссертационного исследования кандидат технических наук Деменков, Павел Сергеевич, 2008 год

1. База данных рефератов научных статей: Entrez-pubmed. http://pubmed.gov.

2. Бухбиндер В. А. Двуединый статус текста // Проблемы текстуальной лингвистики. — 1983.

3. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — СПб.: Питер, 2001.

4. Дэюарратано Д., Райли Г. Экспертные системы: принципы разработки и программирование. — 4-е издание изд. — Издательский дом Вильяме, 2006.

5. Загоруйко Н. Г. Прикладные методы анализа данных и знаний.— Новосибирск: Изд-во Ин-та математики, 1999.

6. Иванов Б. Н. Дискретная математика. Алгоритмы и программы. — Москва: Лаборатория Базовых данных, 2003.

7. Кузнецов И. П. Семантические представления / Под ред. Е. В. Золотое. — М.: Наука, 1986.

8. Прим Р. К. Кратчайшие связывающие сети и некоторые обобщения // Кибернетический сборник. — 1961. — № 2. — С. 95-107.

9. Тузовский А. Ф., Чириков С. В., Ямпольский В. 3. Системы управления знаниями (методы и технологии) / Под ред. В. 3. Ямпольского. — Томск: Издательство НТЛ, 2005. С. 260.

10. Altman R. PharmGKB: Capturing knowledge to catalyze phar-macogenomics research. — Available from Nature Precedings. http://dx.doi.org/10.1038/npre.2006.8.1.

11. Bairoch A., Apweiler R. The swiss-prot protein sequence data bank and its new supplement trernbl // Nucleic Acids Research. — 1996. — Vol. 24, no. 1.- Pp. 21-25.

12. Blaschke C., Valencia A. The frame-based module of the suiseki information extraction system // IEEE Intelligent Systems.— 2002.— Vol. 17, no. 2.- Pp. 14-20.

13. Bodenreider 0. Biomedical ontologies in action: role in knowledge management, data integration and decision support // Yearb Med Inform. — 2008. Pp. 67-79.

14. Brinda К. V., Kannan N. Protein structure: insights from graph theory // Journal of teoretica and computational chemistry. — 2002. — Vol. 1, no. 1.

15. Системная компьютерная биология / Под ред. Н. А. Колчанова, С. С. Гончарова. — Новосибирск: Издательство СО РАН, 2008.

16. Capriotti Е., Fariselli P., Casadio R. A neural-network-based method for predicting protein stability changes upon single point mutations // Bioin-formatics. 2004. - Vol. 20, no. Suppl 1. - Pp. i63-i68.

17. Capriotti E., Fariselli P., Casadio R. I-mutant2.0: predicting stability changes upon mutation from the protein sequence or structure // Nucleic Acids Research. 2005. - Vol. 33. - Pp. W306-W310. - Web Server issue.

18. Chen D., Muller H. M., Sternberg P. W. Automatic document classification of biological literature // BMC Bioinformatics. — 2006.— Vol. 7.— P. 7:370.

19. Cheng J., Randall A., Baldi P. Prediction of protein stability changes for single site mutations using support vector machines // Proteins. — 2006. — Vol. 62, no. 4.- Pp. 1125-1132.

20. Prevost M., Wodak S. J., Tidor В., Karplus M. Contribution of the hydrophobic effect to protein stability: analysis based on simulations of the ile-96-ala mutation in barnsase // Proc. Natl. Acad. Sci.— 1991.— no. 88.— Pp. 10880-10884.

21. Cooper J., Kershenbaum A. Discovery of protein-protein interactions using a combination of linguistic, statistical and graphical information // BMC Bioinformatics. 2005. - Vol. 6, no. 1. - P. 143.

22. Dang L. X., Merz К. M., Kollman P. A. Freeenergy calculations on protein stability: Thr-157 val-157 mutation of t4 lysozyme / / J. Am Chem Soc. — 1989.- Vol. 111. Pp. 8505-8508.

23. DuBois P. MySQL cookbook Second Edition. O'Relly, 2006.

24. Keseler I., Collado-Vides J., Gama-Castro S., Ingraham J., Paley S., Paulsen I. TPeralta-Gil M., Kavp P. D. Ecocyc: A comprehensive database resource for escherichia coli // Nucleic Acids Research. — 2005. — Vol. 33. Pp. D334-D337.

25. Maglott D., Ostell J., Praitt K. D., Tatusova T. Entrez gene: gene-centered information at ncbi // Nucleic Acids Res. — 2005. — Vol. 33, no. Suppl. 1. — Pp. D54-D58. — Database Issue.

26. Frishman D., Argos P. Knowledge-based protein secondary structure assignment 11 Proteins. — 1995. — Vol. 23, no. 4.- Pp. 566-579.

27. Kanehisa M., Goto S., Hattori M., Aoki-Kinoshita K. F., Itoh M., Kawashima S., Katayama TAraki M., Hirakawa M. From genomics to chemical genomics: new developments in kegg // Nucleic Acids Res. — 2006. Vol. 34. - Pp. D354-D357.

28. Ananko E. A., Podkolodny N. L., Stepanenko I. L., Podkolodnaya O. A., Rasskazov D. A., Miginsky D. S., Likhoshvai V., Ratushny A. V., Podkolodnaya N. N., Kolchanov N. A. Genenet in 2005 // Nucleic Acids Res. — 2005. Vol. 33. - Pp. D425-D427.

29. Gilis D., Rooman M. Prediction of stability changes upon single-site mutations using database-derived potentials // Theor Chem Acc. — 1999. — Vol. 101, no. 46-50.

30. Gruber T. R. Torwards principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. 1995. - Vol. 43, no. 5/6. - Pp. 907-928.

31. Guerois R., Nielsen J., Serrano L. Predicting changes in the stability of proteins and protein complexes: a study of more than 1000 mutations // J. Mol. Biol 2002. - Vol. 320, no. 2. - Pp. 369-387.

32. Friedler A., Veprintsev D. В., Hansson L. 0., Fersht A. R. Kinetic instability of p53 core domain mutants: implications for rescue by small molecules // J Biol Chem. 2003. - Vol. 26, no. 278. - Pp. 24108-24112.

33. Lcl (lazarus component library), http://www.lazarus.freepascal.org/.

34. Lehmann M., Wyss M. Engineering proteins for thermostability: the use of sequence alignments versus rational design and directed evolution // Curr Opin Biotechnol — 2001. — August. Vol. 4, no. 12. — Pp. 371-375.

35. Gorshkova /. N., Liu Т., Zannis V. I., Atkinson D. Lipid-free structure and stability of apolipoprotein a-i: probing the central region by mutation // Biochemistry. 2002. - Vol. 33, no. 41. - Pp. 10529-10539.

36. Jenssen Т. K., Laeyreid A., Komorowski J., Hovig E. A literature network of human genes for high-throughput analysis of gene expression // Nat Genet. 2001. - Vol. 28, no. 1. - Pp. 21-28.

37. Mertins K., Heisig P., Vorbeck J. e. Knowledge managment: concepts and best practices (2nd ed.) // Berlin: Springer Verlag. — 2003. — P. 383.

38. Chatr-aryamontri A., Ceol A., Palazzi L. M., Nardelli G., Schneider M. V., Castagnoli L., Cesareni G. MINT: the Molecular INTeraction database 11 Nucl. Acids Res. 2007. - Vol. 35, no. Suppl. 1. - Pp. D572-D574.

39. Griffiths-J ones S., Grocock R. J., van Dongen S., Bateman A., En-right A. J. miRBase: microRNA sequences, targets and gene nomenclature 11 Nucl. Acids Res. 2006. - Vol. 34, no. Suppl. 1. - Pp. D140-D144.

40. Mysql. http://www.mysql.com/.

41. Nakai K., Kidera A., Kanehisa M. Cluster analysis of amino acid indices for prediction of protein structure and function // Prot. Eng. — 1988. — Vol. 2.-Pp. 93-100.

42. Novichkova S., Egorov S., Daraselia N. MedScan, a natural language processing engine for MEDLINE abstracts // Bioinformatics. — 2003. — Vol. 19, no. 13. Pp. 1699-1706.

43. Shankar R. D., Martins S. В., O'Connor M., Parrish D. В., Das A. K. An ontology-based architecture for integration of clinical trials management applications // AM I A Annu Symp Proc. 2007. — no. 11. — Pp. 661-665.

44. Opengl (open graphic library), http://www.opengl.org/.

45. Nikitin A., Egorov S., Daraselia N., Mazo I. Pathway studio the analysis and navigation of molecular networks // Bioinformatics. — 2003. — Vol. 19, no. 16. - Pp. 2155-2157.

46. Pitera J. W., Kollman P. A. Exhaustive mutagenesis in silico: multico-ordinate free energy calculations on proteins and peptides // Proteins. — 2000. Vol. 41. - Pp. 385-397.

47. Hanisch D., Fluck J., Mevissen H. Т., Zimmer R. Playing biology's name game: Identifying protein names in scientific text // Proceedings of the 8th Pacific Symposium on Biocomputing. — 2003. — January. — Pp. 403-414.

48. Capriotti E., Fariselli P., Calabrese R., Casadio R. Predicting protein stability changes from sequences using support vector machines // Bioinfor-matics. 2005. - Vol. 21, no. Suppl 2. - Pp. ii54-ii58.

49. Cho Y. R., Shi L., Ramanathan M., Zhang A. A probabilistic framework to predict protein function from interaction data integrated with semantic knowledge // BMC Bioinformatics. 2008. - Vol. 1, no. 9. - P. 382.

50. Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weis-sig H., Shindyalov I. N., Bourne P. E. The protein data bank // Nucleic Acids Research. 2000. - Vol. 28, no. 1. - Pp. 235-242.

51. Bava K. A., Gromiha M. M., Uedaira H., Kitajima K., Sarai A. Protherm, version 4.0: thermodynamic database for proteins and mutants // Nucleic Acids Res. 2004. - Vol. 32. - P. D120-D121.

52. Zhou G., Zhang J., Su J., Shen D., Tan C. Recognizing names in biomedical texts: a machine learning approach // Bioinformatics.— 2004.— Vol. 20, no. 7.- Pp. 1178-1190.

53. Swanson D. Fish oil, raynaud's syndrome, and undiscovered public knowledge 11 Perspect Biol Med. — 1986. Vol. 30, no. 1. — Pp. 7-18.

54. Tanabe L., Wilbur W. Tagging gene and protein names in biomedical text 11 Bioinformatics. — 2002. — Vol. 18, no. 1.- Pp. 1124-1132.

55. Topham С. M., Srinivasan N., Blundell Т. L. Prediction of the stability of protein mutants based on structural environment-dependent amino acid substitution and propensity tables // Prot. Eng.— 1997.— Vol. 101. — Pp. 46-50.

56. Zawodny J. MySQL Optimization.— O'Reilly, 2002.http://jeremy.zawodny.com/mysql/mysql-optimization.html.

57. Zeoslib open-source tools for your database solutions, http://zeos.firmos.at/.

58. Zheng В., Lu X. Using protein-semantic network metrics to evaluate functional coherence of protein groups // AMIA Annu Symp Proc. — 2007. — no. 11.-P. 1174.

59. Работы автора по теме диссертации

60. Атап E. E., Demenkov P. S., Ivanisenko V. A. Textomics: the instrument for biological knowledge discovery // The fourth Moscow International Congress Biotechnology: State of the Art and Prospects of Development. Vol. 2. - 2007. - P. 391.

61. Demenkov P. S., Атап E. E., Ivanisenko V. A. Prediction of the changes in thermodynamic stability of proteins caused by single amino acid substitutions // Biophysics. 2006. — Vol. 51, no. Suppl. 1. - P. 49.

62. Demenkov P. S., Ivanisenko V. A. Prediction in changes of protein thermodynamic stability upon single mutations // Proceedings of the fifth international conference on bioinformatics of genome regulation and structure. — Vol. 1,- 2006.- Pp. 256-259.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.