Методы и средства реконструкции сетевых моделей сложных биологических систем тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Мигинский, Денис Сергеевич
- Специальность ВАК РФ05.13.11
- Количество страниц 181
Оглавление диссертации кандидат физико-математических наук Мигинский, Денис Сергеевич
Содержание.
Введение.
Глава 1. Обзор предметной области, существующих подходов и программных средств.
1.1. Понятие сетевой модели.
1.2. Проблематика применения методов сетевого моделирования.
1.3. Области применения сетевых моделей.
1.4. Общая схема реконструкции и анализа сетевых моделей сложных систем.
1.5. Понятие и проблематика генных сетей.
1.6. Понятие и проблематика экологических сетей.
1.7. Обзор программных средств реконструкции сетевых моделей.
1.7.1. Общая характеристика существующих программных средств.
1.7.2. Обзор системы Оепе№1.
1.7.3. Анализ методов и средств интеграции биологических данных.
Глава 2. Анализ требований.
2.1. Краткая формулировка основных требований и ограничений.
2.2. Представление данных.
2.2.1. Семантика онтологий и метамодели.
2.2.2. Функциональность метамодели.
2.3. Интеграция внешних информационных ресурсов.
2.4. Представление сетевых моделей.
2.5. Визуальная реконструкция сетевых моделей.
2.6. Расширяемость и адаптивность.
2.7. Контроль доступа к данным.
Глава 3. Архитектура и реализация.
3.1. Анализ способов реализации требований.
3.1.1. Способы реализации метамодели.
3.1.2. Прототипная реализация метамодели.
3.1.3. Прототип подсистемы интеграции данных.
3.1.4. Оптимизация производительности подсистемы интеграции данных.
3.1.5. Выбор технологической базы для визуального редактирования сетевых моделей
3.2. Общая архитектура системы.
3.3. Метамодель.
3.3.1. Структура основной метамодели.
3.3.2. Метамодель для представления сетей.
3.4. Реализация требований.
3.4.1. Методика интеграции данных.
3.4.2. Транзакционные операции и удаленный программный интерфейс.
3.4.3. Контроль доступа к данным.
3.5. Язык запросов.
3.6. Программная реализация.
3.6.1. Подсистема MetaBase.
3.6.2. Подсистема Araneus.
3.6.3. Редактор онтологий.
Глава 4. Практическое использование.
4.1. Объединение баз данных в области молекулярно-генетических систем.
4.1.1. Постановка задачи.
4.1.2. Онтология.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Рекуррентное метамоделирование в системных средах САПР2008 год, доктор технических наук Черткова, Елена Александровна
Инструментарий проектирования информационно-аналитических систем управления на основе онтологических моделей и методов формализованного представления предметной области организации2011 год, кандидат экономических наук Идиатуллин, Александр Рамзильевич
Математическое и программное обеспечение для формализации приоритетов пользователя с целью повышения эффективности использования сетевых сервисов2006 год, кандидат технических наук Вайнерман, Игорь Алексеевич
Исследование и разработка информационного обеспечения САПР виртуальных приборов2010 год, кандидат технических наук Харуби Науфел
Математическое и программное обеспечение структурной и семантической интероперабельности информационных систем на основе метамоделей2008 год, кандидат технических наук Михайлов, Илья Сергеевич
Введение диссертации (часть автореферата) на тему «Методы и средства реконструкции сетевых моделей сложных биологических систем»
Под сетевыми моделями будем понимать ориентированные графы, отражающие структурные и функциональные характеристики моделируемой системы и представляющие их в терминах вершин и дуг графа. Вершины и дуги типизированы и могут характеризоваться определенными признаками, свойствами и величинами различной природы.
На сегодняшний день сетевое моделирование сложных систем различной природы является одним из наиболее эффективных, наглядных и универсальных способов изучения их структурно-функциональной организации. Этот подход успешно применяется во многих областях, таких как проектирование программного обеспечения, схемотехника, планирование и оптимизация бизнес-процессов и т.д.
Сетевое моделирование наиболее эффективно при условии использования средств компьютерной поддержки. В первую очередь это средства визуального моделирования, позволяющие наглядно представлять для пользователя, дополнять и модифицировать модель, а также различные средства анализа и симуляции. Разработка такого программного обеспечения стала возможна только в последние 10-15 лет вследствие развития информационных технологий и соответствующих аппаратных средств. Это в свою очередь явилось стимулом для развития самого подхода и его практических приложений.
Одна из областей применения сетевых моделей — это исследование биологических систем, по своей природе являющихся сложными. Сетевая модель биологической системы позволяет изучать ее в комплексе, учитывая непрямые и неочевидные влияния одних элементов на другие, выявлять значимые функциональные элементы и т.д. Например, применительно к молекулярно-генетическим системам, таким способом может исследоваться функционирование организмов на уровне молекулярных и суб-молекулярных элементов (генов, белков) в различных условиях in silico и без постановки дорогостоящих экспериментов in vitro, планироваться такие эксперименты, изучаться воздействие лекарственных препаратов, проектироваться трансгенные организмы с целевыми свойствами.
Наиболее трудоемкой стадией сетевого анализа биологических систем является реконструкция сетевой модели. Типичные размеры таких моделей для молекулярно-генетических систем — от сотен до десятков тысяч элементов. Трудоемкость обусловлена необходимостью извлечения информации из большого количества публикаций и баз данных, причем в большинстве случаев это ручная работа. Данные разнородны, не полностью структурированы, представлены в различных форматах, имеют различную семантику. Часто в данных встречаются ошибки, пробелы противоречия между различными источниками. Вследствие чего их сбор и обработка требует значительных трудозатрат.
Таким образом, актуальна задача автоматизации процесса реконструкции сетевых моделей с помощью средств компьютерной поддержки. Такая автоматизация избавит исследователя от части рутинной работы и повысит эффективность исследований, в частности, при решении вышеперечисленных задач.
Цель работы
Целью работы является разработка методов и средств компьютерной поддержки, направленных на автоматизацию и повышение эффективности реконструкции сетевых моделей сложных биологических (молекулярно-генетических, экологических) систем.
Молекулярно-генетические системы рассматриваются, как основной объект исследования, на котором отрабатываются все принципы и методы и реконструкции. Далее методика обобщается и переносится на экологические системы.
Для достижения поставленной цели в работе решаются следующие задачи: • анализ проблематики предметной области и потребностей пользователей с целью формулировки требований к программному обеспечению, предназначенному для поддержки реконструкции сетевых моделей;
• разработка методов универсального компьютерного представления и реконструкции сетевых моделей сложных биологических систем, обеспечивающих эффективный ввод, верификацию и хранение такого рода данных, а также настраиваемых на проблематику решаемых прикладных задач;
• разработка методов централизованного структурированного поиска данных об элементах молекулярно-генетических систем во внешних базах данных и других структурированных источниках, основанных на их семантической интеграции;
• разработка архитектуры программного обеспечения, основанного на созданных методах универсального представления биологических данных, их семантической интеграции, а также реконструкции сетевых моделей;
• реализация программного обеспечения, позволяющего осуществлять структурированный централизованный поиск данных по расширяемому набору внешних источников информации с целью повышения эффективности процесса сбора первичных данных для реконструкции сетевых моделей;
• реализация универсального программного обеспечения для визуальной реконструкции сетевых моделей биологических систем, настраиваемого на проблематику различных задач, связанных с моделированием молекулярно-генетических и экологических систем;
• настройка и адаптация разработанных программных средств для решения следующих прикладных задач: о интеграция ряда баз данных по элементам молекулярногенетических систем и их сетевым моделям; о реконструкция сетевых моделей молекулярно-генетических систем; о реконструкция сетевых моделей экосистем на примере иксодовых клещей.
Методы исследования
Для разработки методов представления и реконструкции сетевых моделей, а также проектирования программных средств применяется объектно-ориентированная методология, включая методы объектно-ориентированного анализа предметной области и архитектуры, проектирования и программирования. Для оптимизации производительности операций поиска и интеграции данных применяется реляционная алгебра, методы проектирования баз данных, в частности объектно-реляционного отображения. Также используется методы семантической интеграции структурированных данных (data warehousing) и методы представления онтологий.
Научная новизна
В работе получены следующие новые научные результаты.
1. Разработана и применена методика анализа требований к ПО для задач с нечетко определенной терминологической базой. В предложенной методике в первую очередь рассматриваются требования к представлению данных, включая требования к метамодели, отражающей семантику поддерживаемых онтологий. Далее, функциональные требования формулируются в терминах метамодели. Стандартная методика, напротив, рассматривает в первую очередь функциональные требования, которые выражаются в терминах рассматриваемой предметной области.
2. Разработаны и реализованы в виде программного приложения, методы, обеспечивающие визуальную реконструкцию сетевых моделей биологических систем на основе задаваемой пользователем онтологии. Обеспечивается адаптивность под различные виды биологических систем (молекулярно-генетические и экологические) и строгая типизация вершин. Строгая типизация необходима для дальнейшего применения методов компьютерного анализа к реконструированной сетевой модели, в том числе проблемно-ориентированных, требующих биологической интерпретации входных данных. Наиболее распространенные аналоги (Cytoscape, CellDesigner, GeneNet) либо работают с фиксированной моделью предметной области, либо не обеспечивают необходимого уровня типизации данных.
3. Разработаны методы и основанные на них программные средства, обеспечивающие семантическую интеграцию слабоструктурированных биологических данных. В отличие от существующих аналогов (К2/К1езП, ВютесНа1:ог) используется предварительная интеграция и индексация данных на основе онтологии, что обеспечивает:
• высокую производительность при выполнении запросов, не зависящую от качества канала связи с внешними источниками;
• идентификацию синонимичных объектов из различных источников, противоречий и пробелов в информации, а также возможность контроля релевантности источников.
4. Разработан язык запросов, обеспечивающих поиск данных, представленных в рамках разработанной метамодели. Принципиальным отличием от БС^Ь-подобных языков является поддержка критериев запросов относительно многозначных (неатомарных) свойств.
Практическая значимость
Разработанное программное обеспечение для реконструкции сетевых моделей внедрено:
• Для реконструкции сетевых моделей молекулярно-генетических систем в Институте цитологии и генетики СО РАН (ИЦиГ). Используется в качестве клиентской части ранее эксплуатируемой системы.
• Для реконструкции сетевых моделей экосистем в ИЦиГ и Новосибирском госуниверситете (НГУ). Применяется для решения задач, связанных с построением универсальной базовой онтологии экосистем, а также задач моделирования ряда экосистем.
• Для поиска данных по элементам молекулярно-генетических систем во внешних базах данных в ИЦиГ. Обеспечивается интеграция 7-ми баз.
Структура диссертации
В главе 1 описывается проблематика реконструкции сетевых моделей биологических систем, приводится обзор существующих программных решений, а также рассматривается ряд методов и технологий, необходимых для дальнейшего изложения. Глава 2 посвящена анализу требований к разработанному программному обеспечению. В ней предлагается методика анализа требований, учитывающая специфику данной работы. Далее в соответствии с этой методикой приводятся обоснование и описание основных групп требований (поддержка онтологического описания, манипуляция данными, пользовательский интерфейс для визуальной реконструкции и др.). В главе 3 в соответствии с приведенными требованиями описывается архитектура и основанное на ней программное обеспечение. Обосновывается выбор архитектурных и технических решений, приводятся структура и функциональные особенности метамодели, метод семантической интеграции данных, описание разработанного языка запросов. В последней главе рассматривается практическое использование разработанных методов и программных средств на примерах решения ряда прикладных биологических задач.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Автоматизация проектирования, реализации и сопровождения пользовательского интерфейса на основе онтологического подхода2007 год, доктор технических наук Грибова, Валерия Викторовна
Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет2011 год, кандидат технических наук Краснощеков, Евгений Евгеньевич
Метод и технологии семантической обработки информации для государственного и муниципального управления2011 год, кандидат технических наук Ломов, Павел Андреевич
Нечисловая обработка информации на вычислительной машине нетрадиционной архитектуры потока данных1999 год, кандидат технических наук Провоторова, Анна Олеговна
Разработка методов и средств адаптивного управления процессом обучения в автоматизированном проектировании2009 год, кандидат технических наук Войт, Николай Николаевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Мигинский, Денис Сергеевич
Данные выводы были использованы при формировании окончательного варианта требований к системе- (приведенного в главе 2), а также в последующих прототипах и окончательном варианте реализации системы.
3.1.3.Прототип подсистемы интеграции данных
Прототип подсистемы интеграции был реализован для уточнения требований к метамодели, уточнения методики интеграции данных, а также исследования, производительности. Были учтены „ выводы, сделанные по результатам прототипирования метамодели.
Прототип был разработан на языке Java и СУБД Intersystems Caché [52]. Были реализованы требования к метамодели и интеграции данных, представленные главе 2, включая удаленный программный интерфейс на основе EJB3 [53], обеспечение целостности данных, поддержку транзакционности. Также были разработаны драйверы для- 7-ми баз, проведена тестовая интеграция; измерена производительность запросов.
По результатам реализации прототипа были сделаны следующие выводы:
• Реализованный в прототипе вариант метамодели удовлетворяет всем функциональным требованиям. Ключевыми отличиями по сравнению с Рис. 1.1 являются: (1) отсутствие уровня представления схем — он- не нужен для задачи интеграции данных; (2) представление информации о происхождении хранимых данных вплоть до отдельных значений свойств. Такая метамодель была использована в окончательном варианте реализации, описанном ниже в этой главе.
• СУБД Intersystems Caché не адекватна для решаемой задачи с точки зрения производительности. Было проведено стресс-тестирование, которое показало неудовлетворительность производительности при выполнении запросов, а также, в, первую очередь, интеграции данных. Одной из причин явились существенные ограничения по использованию оптимизационных механизмов в данной СУБД (в частности, некоторые виды индексов, кластеризации объектов 'и т.д.) Исследование этой проблемы, в том числе с привлечением технической поддержки компании Intesystems не позволило добиться желаемого результата.
Таким образом, прототипирование показало необходимость проведения дальнейших исследований для оптимизации производительности. Его результаты описаны в следующем пункте.
3.1.4.0птимизация производительности подсистемы интеграции данных
Наилучшей производительностью при выполнении запросов на сегодняшний день обладают реляционные СУБД. Таким образом, в первую очередь исследовалось применение комбинации реляционной СУБД и технологии объектно-реляционного отображения. Задачей исследования являлось достижения приемлемой производительности при выполнении запросов. Для пользовательских запросов это время порядка нескольких секунды.
Существует два принципиально разных способа отображения модели предметной области на схему базы данных. 1-ый способ заключается в том, что схема базы данных динамически модифицируется при изменении модели предметной области в приложении. Такая схема непосредственно отражает понятия предметной области, при этом каждому из них соответствует одна или несколько таблиц. Сама метамодель никак не представляется- в схеме базы данных. 2-ой способ состоит в том, что схема базы отражает непосредственно структуру метамодели, в то время как модель предметной области наряду с данными о конкретных объектах хранится в виде записей в базе. Сравним эти два способа.
Во 2-ом способе схема базьь данных статична, т.е. содержит фиксированный набор таблиц, который не меняется во время эксплуатации системы. Применительно к используемой в данной работе метамодели схема базы данных будет включать такие таблицы, как «Тип элементов», набор таблиц «Свойство» (для различных типов свойств), «Ограничение» и т.п. Это позволит хранить в базе модель предметной области. Для представления информации о конкретных объектах также понадобятся таблицы «Объект», «Значениесвойства». После разработки такой схемы размер модели предметной области (количество типов элементов, свойств) может быть произвольным, и ограничивается только требованиями производительности системы (или, в отдельных случаях, дискового пространства).
При конструировании запросов с применением такого способа вся необходимая информация о предметной области содержится в базе, что позволяет не хранить ее дополнительные описания в формате OWL или каком-либо другом. Сконструированный запрос на естественном языке для используемой СУБД, например SQL, будет сложнее, чем при использовании первого подхода. Это обусловлено тем, что вместо использования конкретных имен таблиц и их полей приходится вводить дополнительные критерии, их определяющие (в приведенном примере — обращение к таблицам «Типэлементов» и «Свойство»). Кроме того, выборка всегда будет проводиться из общей таблицы объектов, а не из отдельных таблиц, соответствующих искомым понятиям предметной области («Ген», «Белок» и т.д.). Все это отрицательным образом влияет на производительность системы. С другой стороны, свойство статичности схемы базы данных позволяет оптимизировать ее производительность вручную путем создания специализированных индексов, учитывающих специфику типичных запросов, а также используя другие оптимизационные механизмы, предусмотренные конкретными СУБД.
В 1-ом способе метамодель как таковая не представлена в базе данных. Однако программное окружение должно ее учитывать, в частности должен присутствовать программный модуль, ответственный за генерацию и модификацию схемы базы. Модуль должен обладать информацией обо всех правилах (типах данных, ограничениях, отношениях и т.д.) и соответствующим образом отображать их на реляционную схему. Размер схемы при этом может существенно варьироваться в зависимости от размера онтологии.
При построении запросов программное окружение должно иметь полную информацию об онтологии. При этом если принятая метамодель отличается от реляционной (в данном случае, семантика метамодели шире), извлечение этой информации из схемы базы данных затруднено. Для этого требуется взаимно однозначное соответствие между этими двумя метамоделями, однако применительно к объектно-реляционному отображению это требование не выполняется. Таким образом, модель предметной области должна быть представлена отдельно от базы, и программная система должна обеспечивать синхронизацию этого представления и схемы. Запросы должны также строиться на основе этого представления. Сложность запросов (и эффективность их исполнения) определяется двумя основными факторами: (1) эффективностью представления правил метамодели в реляционной схеме; (2) эффективностью сгенерированных индексов и автоматическим использованием других средств оптимизации запросов выбранной СУБД.
Для обоих способов были проведены тесты производительности. Была использована библиотека для объектно-реляционного • отображения Hibernate [55, 56] и СУБД PostgreSQL [57, 58]. Использовались результаты частичной интеграции 3-х баз (EntrezGene, UniProt, KEGG), составляющие приблизительно 5% от объема данных после полной интеграции всех запланированных баз (приблизительно 2*105 объектов, 2 Гб данных в XML-представлении).
Способ, основанный на статической схеме базы, показал лучший результат на выполнении запросов. Это обусловлено в первую очередь ручной настройкой^ индексов. При динамической генерации схемы, базы возможности генерации индексов ограничены. Библиотека Hibernate таких возможностей не предоставляет, в результате автоматически индексируются только внешние ключи. При сохранении объектов в базу оба способа показали сопоставимые по производительности результаты.
Для. дальнейшего применения был выбран способ 2, так как он помимо производительности, близкой к приемлемой, обеспечивает больше возможностей для дальнейшей оптимизации.
Далее разработанный прототип был перенесен с СУБД Intersystems Caché на PostgreSQL с использованием Hibernate для сохранения объектов. Производительность запросов существенно возросла после замены HQL (язык запросов Hibernate) на диалект SQL выбранной СУБД. Были достигнуты следующие результаты производительности: при запросах, обеспечивающих выборку большого количества (>1000) объектов -2-3 мс на объект, при «точных» запросах, выбирающих один объект —100 мс. Это лучше исходного прототипа, основанного на Intersystems Caché, приблизительно в 100 раз, и > реализации на основе HQL — в десять раз. При замене PostreSQL на Oracle были получены сопоставимые результаты по производительности.
По результатам исследования производительности были сделаны следующие выводы:
• Необходимо использовать статическую схему базы данных, являющуюся реляционным представлением метамодели.
• Производительность определяется в первую очередь реализацией объектно-реляционного отображения. Специализированная реализация, ориентированная на конкретную СУБД, дает на порядок лучшие результаты по сравнению с библиотеками общего назначения.
• Найдено решение, обеспечивающее приемлемую производительность системы при выполнении запросов. Это решение было использовано в окончательном варианте реализации системы.
3.1.5.Выбор технологической базы для визуального редактирования сетевых моделей
При разработке редактора сетевых моделей наиболее трудозатратной частью является визуализация сетевых моделей. С точки зрения реализации эта функциональность сводится к использованию интерактивной векторной графики для визуализации достаточно большого количества графических объектов. Это обусловлено, во-первых, сложностью самих сетевых моделей, во-вторых, тем, что для визуализации элемента сетевой модели используется несколько графических векторных примитивов, таким образом, общее число примитивов для отдельных сетей может достигать 104 и более. Были исследованы несколько программных библиотек, предоставляющую такую функциональность.
При реализации GeneNet был использована специализированная библиотека для визуализации векторной графики. Для сетей порядка 1000 элементов перерисовка сети при перемещении элемента занимала до нескольких секунд, что не удовлетворяло требованиям интерактивности. Были предприняты попытки использовать ее для разработки редактора сетевых моделей экосистемы (где оценочной количество элементов на порядок меньше), однако отсутствие документации, неочевидный программный интерфейс и ряд внутренних ошибок привели к необходимости от этой библиотеки отказаться. Ранее пришлось отказаться от повторного использования других компонент GeneNet ввиду жесткой архитекторы и сложности адаптации для реализации предъявленных требований. На основании этого было принято решение о разработке редактора сетевых моделей без использования технологической базы GeneNet.
В качестве основного языка разработки был выбран Java (версии 1.4 на тот момент, далее 1.5 и 1.6). Основные критерии выбора: простота кода (в сравнении с С++) и мультиплатформенность (в сравнении с языками .NET). Сравнительная простота языка уменьшает трудозатраты на разработку и отладку, что существенно в данной работе. Кроссплатформенность не входит в число базовых требований, однако повышает конкурентные характеристики продукта. Известно, например, что существенная часть потенциальных пользователей, в том числе и отечественных, используют ОС на базе Linux и вследствие этого не могут использовать платформу .NET.
В качестве инструментария для Java (помимо Java SDK) была выбрана система Eclipse [59]. Библиотека DRAW2D в составе Eclipse была протестирована на производительность и показала адекватные результаты. При 2000 вершин, представленных одиночными графическими примитивами и средней степени инцидентности 10 (итого 12000 примитивов) перерисовка, вызванная перемещением отдельных вершин, происходила без видимых задержек. Тестирование происходило на ЭВМ, которая по современным меркам является устаревшей для рабочей станции (Intel Р4 на базе 865 чипсета, 1 ГБ ОЗУ).
На основе исследования были приняты следующие решения, существенные для проектирования и реализации:
• использование языка Java;
• использования набора библиотек Eclipse для визуализации.
3.2. Общая архитектура системы
На основе требований, изложенных в главе 2, а также проведенных исследований была разработана архитектура системы [60]. На рисунке Рис. 3.2 У представлена ее общая компонентная модель. Синим цветом отмечены ключевые модули системы, включая программные интерфейсы.
MetaModel< (метамодель) — пакет системы, задающий стандарт семантики представления данных для системы и ее периферийных компонент. Собственной, реализации этот пакет не имеет, т.е. является набором программных интерфейсов, реализуемых в компонентах MetaBase и Araneus. Метамодель также может быть использована периферийными компонентами с помощью соответствующих программных интерфейсов двух вышеперечисленных компонент.
MetaBase является компонентой; предназначенной1 для хранения данных, манипуляции хранимыми данными, а также семантической интеграции внешних информационных ресурсов. Кроме того, она отвечает за разграничение доступа пользователей. Компонента предоставляет только программные интерфейсы, пользовательские интерфейсы, могут быть разработаны в форме1 внешних компонент. Интерфейсы Ь1 и L2 предоставляют функции по манипуляции данными в, рамках метамодели, поиску, а также интеграции данных. Семантически эти интерфейсы практически одинаковы, однако интерфейс L1 может быть использован только локально (т.е. только с того же узла, на котором развернута MetaBase), при этом обеспечивая лучшую производительность. Интерфейс L2 предназначен в первую очередь для взаимодействия с драйверами внешних баз данных, обеспечивающих поддержку процесса интеграции. Интерфейс L2 может быть использован удаленно (за счет того, что реализован на основе технологии Enterprise Java Beans), ввиду чего латентность запросов может быть значительной (за счет латентности сетевого соединения). Интерфейс предназначен для большинства периферийных компонент, таких как пользовательский поисковый интерфейс или компоненты для реконструкции сетевых моделей (по отношению к MetaBase они также рассматриваются как j периферийные).
-Storage
External DataBase Drivers
GeneNet > UniProt
TRRD > KEGG
EntrezGene > DBSNP
GeneBank
External Data Bases
Searching Web-interface
L2
Extension points
External components
GraNET (network analysis)
Tick ecosystem simulation
MGSGenerator (mathematics modelling)
Bacteria evolution simulation
Client Workstations
Рис. 3.2. Общая архитектура системы
Компонента Aranèus является инструментарием для создания средств реконструкции сетевых моделей. Эта компонента реализует метамодель с необходимыми расширениями (см. раздел «Метамодель»), обеспечивает персистентность этой модели в форме XML. Компонента также обеспечивает графической интерфейс пользователя для визуализации и редактирования сетевых моделей, основанный на Eclipse GEF [61] (Graphical Editing Framework, основан в свою очередь на DRAW2D). Компонента не может быть использована как полноценное пользовательское приложение и представляет собой программную библиотеку. Для задач реконструкции сетевых моделей генных и экологических сетей разработаны две сборки (GeneNet Studio, EcoNet Studio), включающие в себя помимо компонент Araneus еще ряд специализированных периферийных компонент, использующих ее точки расширения. Araneus является расширяемым инструментом и предоставляет ряд точек расширения для подключаемых модулей, основанных на технологии Eclipse RGP [59] (Rich Client Platform). В частности, внешние подключаемые модули (plug-ins) могут добавлять новые элементы пользовательского интерфейса или заменять уже существующие. Могут быть подключены различные модули анализа сетевой модели, универсальные или ориентированные на конкретную онтологию. Например, компонента GraNET [62], которая исходно разрабатывалась как самостоятельное приложение, была адаптирована для данной системы. Она включает в себя ряд алгоритмов анализа графов, в частности алгоритм декомпозиции графа на элементарные контуры. Эти алгоритмы не зависят от природы сетевой модели и могут быть потенциально применены к любым моделям. MGSGenerator [63] напротив разрабатывался исключительно для работы с онтологией генных сетей и предназначен для генерации на их основе математических моделей.
Заключение
Созданы программные средства, обеспечивающие компьютерную поддержку процесса реконструкции сетевых моделей сложных биологических систем включая этап сбора и систематизации первичных данных. Программные средства могут настраиваться на предметную область, что позволяет применять их к исследованию различных типов биологических систем. В работе показано применение разработанных средств для решения задач, связанных с молекулярно-генетическими и экологическими системами.
Исследованы современные подходы и программные решения для сетевого моделирования и интеграции данных в биологии и других областях знаний. В результате были разработаны методы представления и манипуляции сетевыми моделями и их элементами, контроля целостности и релевантности, а таюке семантической интеграции первичных данных. При проектировании программного обеспечения был применен адаптированный процесс разработки, учитывающий изменчивость рассматриваемой предметной области.
На защиту выносятся следующие положения:
1. Предложена и применена специализированная методика анализа требований к программному обеспечению для задач с нечетко определенной терминологической базой.
2. Впервые предложены методы универсального компьютерного представления сетевых моделей различных видов сложных биологических систем, основанные на метамодели и онтологическом описании. Методы включают в себя метамодель, правила представления онтологий и сетевых моделей, правила декомпозиции для оперирования сложными сетевыми моделями.
3. Впервые предложены методы семантической компьютерной интеграции слабоструктурированных биологических данных, обеспечивающие верификацию данных и структурированный поиск на основе онтологий.
4. На основе предложенных методов спроектировано и реализовано программное обеспечение для визуальной реконструкции сетевых моделей. В отличие от известных аналогов оно обеспечивает пользовательскую настройку на решаемую задачу путем задания онтологии и графической нотации.
5. На основе предложенных методов спроектировано и реализовано программное обеспечение для семантической интеграции биологических баз данных. Построена общая онтология и проведена интеграция для следующих баз: ОепВапк, КБвв, ёЬ8ЫР, Етгегвепе, ШОРнЛ, ТМШ и ОепеКе!.
6. Предложен и реализован язык запросов, обеспечивающий структурированный поиск по интегрированным данным с учетом заданной онтологии. В отличие от 8С>Ь-подобных языков, предложенный язык оперирует критериями поиска, задаваемыми относительно многозначных свойств.
7. Разработанные методы и программное обеспечение применены для решения следующих биологических задач:
• реконструкция сетевых моделей сложных молекулярно-генетических систем;
• сетевое и имитационное моделирование экосистемы иксодовых клещей (переносчиков клещевого энцефалита).
Список литературы диссертационного исследования кандидат физико-математических наук Мигинский, Денис Сергеевич, 2009 год
1. Unified Modeling Language. Object Management Group, http://www.uml.org/
2. Booch G. Object-Oriented Analysis and Design with Applications (2nd Edition). Addison-Wesley Professional. 1993.
3. Рамбо Дж., Якобсон А., Буч Г. Унифицированный процесс разработки программного обеспечения. СПб.: Питер, 2002.
4. Бек. К. Экстремальное программирование. СПб.: Питер, 2002.
5. Cockburn A. Crystal Clear: A Human-Powered Methodology for Small Teams. Addison-Wesley Professional, 2004.
6. IBM Rational Software Architect. International Business Machines Co., http://www-01.ibm.com/soflware/awdtools/architect/swarchitect/
7. JUDE Products. Change Vision, Inc., http://jude.change-vision.com/jude-web/product/index.html
8. W3C XML Schema. World Wide Web Consortium, http://www.w3 .org/XML/Schema
9. OWL Web Ontology Language Overview. World Wide Web Consortium, http://www.w3 .org/TR/owl-features/
10. Cadence OrCAD Solutions. Cadence Design Systems, Inc., http://www.cadence.com/products/orcad/pages/default.aspx
11. N1 Multisim. http://www.ni.com/multisim/
12. IDS Scheer AG Business Process Excellence: ARIS Platform. IDS Scheer AG, http ://www. ids-scheer. com/en/ ARIS/
13. Microsoft BizTalk Server. Microsoft Co. http://www.microsoft.com/biztalk/en/us/default.aspx
14. MSProject. Microsoft Co., http://www.ms-project.ru/
15. E. A. Ananko, N. L. Podkolodny, I. L. Stepanenko, O. A. Podkolodnaya, D. A. Rasskazov, D. S. Miginsky, V. A. Likhoshvai, A. V. Ratushny, N. N. Podkolodnaya, and N. A. Kolchanov GeneNet in 2005 // Nucleic Acids Research 2005, vol. 33, pp. D425-D427
16. J. Cheng, L. Scharenbroich, P. Baldi, and E. Mjolsness Sigmoid: Towards a Generative, Scalable, Software Infrastructure for Pathway Bioinformatics and Systems Biology //IEEE Intelligent Systems, 2005, vol. 20, no. 3, pp. 68-75
17. Networks /Pajek. http://vlado.fmf.uni-lj.si/pub/networks/pajek/
18. BioUML home page. Institute of Systems Biology, http://www.biouml.org/
19. The Protégé Ontology Editor and Knowledge Acquisition System. Stanford University http://protege.stanford.edu/
20. Resource Description Framework (RDF) / W3C Semantic Web Activity. World Wide Web Consortium, http://www.w3.org/RDF/
21. Shannon P., Markiel A., Ozier O., Baliga N.S., Wang J.T., Ramage D., Amin N., Schwikowski B., Ideker T. Cytoscape: a software environment for integrated models of biomolecular interaction networks //Genome Res. 2003, vol. 13(11), pp. 2498-2504
22. Cytoscape: Analyzing and Visualizing Network Data, http://www.cytoscape.org/
23. Systems Biology Workbench, http://sbw.sourceforge.net/
24. Lloyd C.M., Halstead M.D., Nielsen P.F. CellML: its future, present and past // Prog. Biophys. Mol. Biol., 2004, vol. 85(2-3), pp. 433-450
25. Physiolab Technology. http://www.entelos.com/physiolabModeler.php 28.Oracle 9i Database. Oracle Co,http://www.oracle.com/technology/products/oracle9i/index.html
26. Мигинский Д.С., Лабужский В.В., Лаврентьев-мл. М.М., Морозов A.B., Соколов С.А. Технология семантической интеграции баз данных в системной биологии //Вычислительные технологии. 2008. т. 13, № 6, с. 103-119
27. NCBI Home Page. National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/
28. KEGG: Kyoto Encyclopedia of Genes and Genomes. http://www.genome.ad.jp/kegg
29. Kanehisa M., Goto S., Kawashima Sh., Nakaya A. The KEGG databases at GenomeNet. //Nucleic Acids Research, 2002, vol. 30(1), pp. 42-46, http://nar.oxfordjournals.Org/cgi/content/full/30/l/42
30. UniProt home page, http://www.ebi.uniprot.org/index.shtml
31. Davidson S. В., Crabtree J., Brunk B. P., Schug J., Tannen V., Overton G. C., Stoeckert Jr. C. J., K2/Kleisli and GUS: Experiments in integrated access to genomic data sources //IBM Systems Journal, 2001, vol. 40, no. 2, pp. 502-524
32. Wang K., Tarczy-Hornoch P., Shaker R., Mork P., Brinkley J. BioMediator Data Integration: Beyond Genomics to Neuroscience Data //AMIA Fall 2005 Symposium Proceedings, 2005, pp., 779-783
33. BioMediator Project Home Page, http://www.biomediator.org/
34. Object Data Management Group (ODMG). http://www.odbms.org/odmg/
35. Etzold T., Ulyanov A., Argos P. SRS: information retrieval system for molecular biology data banks //Methods Enzymol. 1996, vol. 266, pp. 114-28
36. SRS. Bio Wisdom Ltd., http://wvvw.biowisdom.com/navigation/srs/srs
37. Cockburn A. Writing Effective Use Cases. Addison-Wesley Professional, 2000
38. Martin R. C. Object Oriented Design Quality Metrics: An analysis of dependencies //ROAD 1995, vol. 2, no. 3http://www.objectmentor.com/resources/articles/oodmetrc.pdf
39. EntrezGene home page. National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene
40. Maglott D., Ostell J., Pruitt K. D., Tatusova T. Entrez Gene: gene-centered information at NCBI //Nucleic Acids Research 2005, vol. 33(Database issue) pp. D54-58, http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=539985
41. Liskov B., Wing J. A Behavioral Notion of Subtyping //ACM Transactions on Programming Languages and Systems 1994, vol. 16(6), pp. 1811-1841
42. CellDesigner. http://www.celldesigner.org/
43. Likhoshvai V., Ratushny A. Generalized Hill function method for modeling molecular processes //Bioinform. Comput. Biol., 2007, vol. 5(2b), pp. 521-531
44. Jastor. http://jastor.sourceforge.net/50.0WL API. http://owlapi.sourceforge.net/51 .Eclipse Modeling Framework Proj ect. Eclipse Foundation, http://www.eclipse.org/modeling/emf/
45. InterSystems Caché. InterSystems Co.,http://www.intersystems.ru/cache/index.html
46. Enterprise JavaBeans Technology. Sun Microsystems, http://java.sun.com/products/ejb/
47. Panda D., Rahman R., Lane D. EJB 3 in Action. Manning Publications, 2007
48. Hibernate: Relational Persistence for Java and .NET https://www.hibernate.org/
49. Bauer C., King G. Java Persistence with Hibernate. Manning Publications, 2006
50. PostgreSQL. http://www.postgresql.org/
51. Worsley J., Drake J. Practical PostgreSQL. O'Reilly Media, Inc. 2002
52. Eclipse Project. Eclipse Foundation, http://www.eclipse.org/proiects/proiectsummary.php?proiectid=::eclipse
53. Miginsky D.S., Suslov V.V., Timonov V.S., Rasskazov D.A., Sournina N.Yu., Podkolodny N.L. Approaches to the Computer Reconstruction of the Biological Networks // Intelligent Data Analysis 2008, vol. 12, no. 5, pp. 463-479
54. Eclipse Graphical Editing Framework (GEF). Eclipse Foundation, http://www.eclipse.org/gefy
55. Казанцев Ф.В., Акбердин И.Р., Безматерных К.Д., Лихошвай В.А. Система автоматизации генерации математических моделей генных сетей //Информационный вестник ВОГиС 2009, т. 13, № 1, с. 163-169
56. Object Constraint Language Specification. Object Management Group, http://www.omg.org/technology/documents/formal/ocl.htm
57. Galperin M.Y., Cochrane G.R. Nucleic Acids Research annual Database Issue and the NAR online Molecular Biology Database Collection in 2009 //Nucleic Acids Research, 2009, vol. 37 (Database issue), pp. Dl-4
58. XSL Transformations (XSLT). World Wide Web Consortium, http://www.w3 .org/TR/xslt
59. JBoss Application Server. JBoss Community, http://www.iboss.org/jbossas/
60. GenBank Overview. National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/Genbank/
61. Wingender E., Chen X., Fricke E., Geffers R., Hehl R., Liebich I., et al. The TRANSFAC system on gene expression regulation //Nucleic Acids Research, 2001, vol. 29(1), pp. 281-283
62. Никитин А.Я., Антонова A.M. Учеты, прогнозирование и регуляция численности таежного клеща в рекреационной зоне г. Иркутска. Иркутский государственный ун-т, Иркутск. — 2005 г.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.