Разработка алгоритмов протеогеномного профилирования микроорганизмов тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат биологических наук Алексеев, Дмитрий Глебович

  • Алексеев, Дмитрий Глебович
  • кандидат биологических науккандидат биологических наук
  • 2012, Москва
  • Специальность ВАК РФ03.01.09
  • Количество страниц 105
Алексеев, Дмитрий Глебович. Разработка алгоритмов протеогеномного профилирования микроорганизмов: дис. кандидат биологических наук: 03.01.09 - Математическая биология, биоинформатика. Москва. 2012. 105 с.

Оглавление диссертации кандидат биологических наук Алексеев, Дмитрий Глебович

Оглавление

ВВЕДЕНИЕ

Цели исследования

Задачи исследования

1. Обзор литературы

1.1 Инструменты бактериальной протеогеномики с точки зрения биоинформатики

1.1.1 Ассемблеры и недостатки аннотации

1.1.2 Алгоритмы идентификации белков по масс-спектрам

1.1.3 Протеогеномные подходы в аннотации бактериальных и архейных геномов и характеризации микроорганизмов

1.1.4 Протеогеномика и минимальная клетка

1.2 Геномы микробов

1.2.1 Микоплазмы

1.2.2 Хеликобактер (разнообразие и организация молекулярной машины)32

1.2.3 Археи (протеогеномная аннотация): что известно и почему это необходимо для науки

1.3 Заключение

2. Методы

2.1 Создание экспериментальной базы данных

2.2 Программные пакеты для протеомного анализа и параметры обработки

то

спектров

2.3 Программы для сравнения геномов и картирования ридов

2.4 Объединение сторонних программ в Автоматизированный программный конвейер

2.5 Разработка пользовательских интерфейсов

2.6 Статистический анализ

2.7 Программирование алгоритмов

2.8 Протеомные эксперименты

2.9 Получение культур клеток

2.10 Геномные эксперименты

2.10.1 Методы сборки

2.10.2 Аннотация

2.11 Источники геномных данных

3. Результаты

3.1 Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования

3.1.1 Разработка принципов обработки экспериментальных данных протеомных экспериментов

3.1.2 Работа с И-концевыми пептидами

3.1.3 Учет неспецифичности трипсина

3.1.4 Использование данных геномных экспериментов

3.1.5 Обнаружение по сттрансляционных модификаций

3.1.6 Алгоритм избавления от избыточности

3.1.7 Протеогеномное сравнение

3.2 Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis

3.2.1 Улучшение аннотации Mycoplasma gallisepticum

3.2.2 Улучшение аннотации Acholeplasma laidlawii

3.2.3 Улучшение аннотации Spiroplasma Melliferum

3.2.4 Улучшение аннотации Desulfurococcus kamchatkensis

3.3 Использование алгоритмов и оценка достоверности идентификаций при работе с изолятами и штаммами, для которых геномы не секвенированы или существует только частичная последовательность

3.3.1 Работа со штаммами для которых геномы не секвенированы

3.3.2 Работа со штаммами, для которых геномы имеют частичную последовательность

3.4 Использование алгоритмов для системного анализа на основе сравнения протеогеномных профилей бактерий

3.4.1 Протеогеномное сравнение Mycoplasma gallisepticum, Acholeplasma laidlawii, Mycoplasma mobile

3.4.2 Протеогеномное сравнение Spiroplasma melliferum и Spiroplasma citri

3.4.3 Протеогеномное сравнение 3 штаммов Helicobacter pylori: J99, A45, 26695

Обсуждение результатов

4.1 Разработанные алгоритмы и их эффективность в протеогеномной аннотации

4.2 Протеогеномное сравнение микоплазм

5

4.3 Протеогеномное сравнение спироплазм

4.4 Протеогеномное сравнение Helicobacter pylori

4.5 Заключение

Выводы

Список литературы

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка алгоритмов протеогеномного профилирования микроорганизмов»

ВВЕДЕНИЕ

Актуальность проблемы. Приближение к точке технологической сингулярности [Kurzweil, 2005], охватившее сегодня все области человеческих знаний, во многом влияет и на исследования в области молекулярной биологии. Взрывообразное накопление данных в областях геномики, транскриптомики, протеомики и метаболомики не дает возможности перейти от редукционного подхода, направленного на отдельные компоненты, к системному, позволяющему охватить весь набор компонентов и их свойств.

Одной из отправных точек в исследовании живой системы является структура генома и его максимально полное описание - аннотация. Технологии, позволяющие получить геномную последовательность, получили повсеместное распространение и появилась возможность исследовать геном любого живого существа и даже отдельной клетки. При таких возможностях точность, полнота и скорость аннотации становится узким местом в исследованиях. Несмотря на большой арсенал развитых вычислительных методов создания геномных аннотаций, они принципиально являются лишь предсказательными.

Протеогеномика как предложенный в 2008 году набор подходов,

основанных на использовании протеомных данных для улучшения геномной

аннотации, позволяет существенно улучшить качество аннотации геномов. С

учетом разнообразия царств Бактерий и Архей использование протеогеномной

аннотации, возможно, является единственным способом получения корректного

представления о связи генотипа и фенотипа. Было показано, что синтез

наблюдений за относительно просто устроенными бактериальными клетками

позволяет не только скорректировать представления о взаимоотношениях генов и

их продуктов, но и получить представления о структуре системы в целом.

Естественно, что появляющиеся в последнее время работы по созданию

синтетической бактериальной клетки могут быть продолжены, только если

7

создаваемая система будет полностью описана и смоделирована. Несмотря на актуальность и с учетом новизны названной области, сегодня не существует единого программного решения, которое бы объединяло все задачи , связанные с совместным использованием геномных и протеогеномных данных.

Цели исследования

Разработать подходы и алгоритмы протеогеномного профилирования бактериальных геномов, воплотить их в виде программного обеспечения и использовать для профилирования Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum, Desulfurococcus kamchatkensis и Helicobacter pylori.

Задачи исследования

Для достижения названной цели были поставлены следующие задачи:

1) Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования.

2) Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis.

3) Использование алгоритмов и оценка достоверности идентификаций при работе с изолятами и штаммами, для которых геномы не секвенированы или существует только частичная последовательность.

4) Использование алгоритмов для системного анализа и улучшения протеогеномной аннотации на основе сравнения протеогеномных профилей бактерий.

Научная новизна

С использованием современных методов и технологий разработаны

оригинальные методики и алгоритмы обработки экспериментальных данных

исследования геномов и протеомов бактерий. Комплекс подходов позволил

впервые объединить в единое аналитическое пространство разрозненные данные

8

частичного секвенирования ДНК и масс-спектрометрического анализа белков и далее, используя разработанный алгоритм протеогеномного сравнения, выявить межвидовые и межштаммовые различия.

Впервые проведено уточнение геномной аннотации для Mycoplasma gallisepticum S6, Acholeplasma laidlawii PG-8A, Spiroplasma melliferum KC-3 и Desulfurococcus kamchatkensis 122 In. По результатам уточнения удалось аннотировать новые белки, подтвердить или реаннотировать сайты начала транскрипции, проверить ряд предсказанных из строения генома явлений на белковом уровне. Ни для самих указанных штаммов, ни для близкородственных штаммов такие исследования ранее не проводились.

Проведенный с использованием разработанной методики анализ ряда бактерий позволил получить уникальные результаты по более точной оценке минимального функционального ядра молликут, исчерпывающему протеому представителя Архей, предположительным механизмам патогенеза спироплазм и возможной особенности проявления вирулентности и способности к трансформации у бактерий вида Helicobacter pylori.

Практическая значимость.

Аппаратно программный комплекс протеогеномного профилирования успешно используется в настоящее время в качестве основной информационной платформы в ряде международных и российских проектов, охватывающих как исследования бактериальной направленности (например, метагеном и метапротеом микробиоты кишечника человека), так и исследования протеомов эукариот.

Предложенная методика протеогеномной аннотации, апробированная на

различных представителях бактериального и архейного царств, может быть

использована для протеогеномной аннотации любого бактериального или

архейного генома. Предложенное использование системы с рядом

дополнительных экспериментальных подходов (обогащение пептидной фракции

9

протеома N-концевыми пептидами) позволит аннотировать большую часть сайтов начала транскрипции экспрессируемых генов.

Система позволяет использовать разноплановые экспериментальные данные (масс-спектрометры и сиквенсы) с учетом их индивидуальных особенностей (точность, масштаб получаемых экспериментальных данных и т.п.). Использование данных полученных при помощи разных видов масс-спектрометров и сиквенаторов достигается за счет применения унифицированных форматов обмена данными.

Апробация работы.

Результаты работы были представлены на следующих российских и международных конференциях: Итоговая научная конференция НИИ ФХМ 2010, Молодежная конференция НИИ ФХМ 2011 , В GRS 2010 Novosibirsk , XXII Симпозиум «Современная химическая физика» 2010 г. Туапсе, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2010г. Москва, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2011г. Новосибирск, Iscb Students council 2011 - Vienna ,HUPO 2011 World Congress - Geneve , MCCMB'l 1 ~ Moscow .

Публикации. Материалы диссертационной работы отражены в 5 публикациях в рецензируемых российских и международных журналах и в 2 сборниках трудов конференций.

Структура и объем диссертации.

Диссертационная работа состоит из 4 глав (Обзор литературы, Материалы и методы, Результаты, Обсуждение), заключения и списка литературы содержащего 147 ссылок. Работа изложена на 105 страницах, содержит 25 рисунков и 5 таблиц.

1. Обзор литературы

1.1 Инструменты бактериальной протеогеномнки с точки зрения биоинформатики

Впервые термин «протеогеномика» был использован в 2008 году в статье Чарльза Ансонга и коллег «Протеогеномика: роли и обязанности протеомики в геномной aHHOTau;HH»[Ansong и др., 2008], авторы впервые обобщили набор подходов, основанных на использовании протеомных данных, и предложили использовать их для улучшения геномной аннотации.

Необходимость применения методов протеогеномики для создания геномной аннотации обоснована тем, что использование методов ab initio предсказания белков по кодирующей последовательности или методов предсказания кодирующих регионов генома по экспериментально найденным РНК, по сути своей, обосновывают высокую вероятность существования белкового продукта, но не являются достаточными свидетельствами его экспрессии. Использование же данных, свидетельствующих о наличии в исследуемых образцах полипептидных цепочек соответствующих исследуемым регионам геномов, напротив, позволяет с уверенностью утверждать о наличии продукта гена.

Кроме того взрывообразно увеличивающийся поток информации о структуре геномов про- и эукариотического происхождения после введения в практику сиквенирования методов второго поколения актуализировал вопрос о коррекции и дополнении этих данных за счет транскриптомных и протеомных подходов.

1.1.1 Ассемблеры и недостатки аннотации

На сегодняшний день количество геномов прокариот, полные последовательности которых хранятся в мировом репозитории геномных данных genbank, превысило 1750 (стоит заметить, что число драфт-версий геномов, собранных не полностью, около 3000, а открытые архивы геномных данных

содержат данные об еще примерно десяти тысячах). При этом экспоненциальный рост количества данных, начавшийся в начале XXI века продолжается (рис. 1.).

время

Рисунок 1. Экспоненциальный рост количеств геномов (зеленый) и родов (синий) со временем. График составлен по статистическим данным СепЬапк.

Основной целью, которую преследует расшифровка большого количества геномов, является определение множества фенотипов исследуемых бактерий. Естественно, что сама геномная последовательность еще не говорит о фенотипе, необходимым шагом к его получению является аннотация генома. Аннотация генома на сегодняшний день включает не только описание расположения генов по геному, но так же и характеризацию множества геномных элементов (сайтов связывания, нетранслируемых областей, регуляторных элементов, некодирующих РНК), однако наличие белковой экспрессии с участков геномов и ее количественная характеризация по прежнему остается основной задачей аннотации.

Белок-кодирующие гены в геномной ДНК идентифицируются с помощью

большого разнообразия вычислительных инструментов - автоматизированных

систем аннотации, который используют ab initio предсказательные методики и

методики основанные на сравнении. TIGR CMR[Peterson и др., 2001],

GenDB[Meyer и др., 2003] and BASys[Domselaar Van и др., 2005], пожалуй,

является самыми часто используемыми программами геномной аннотации. В

типичной геномной ДНК используются алгоритмы, такие как GLIMMER[Delcher и

др., 1999] или CRITICA[Badger, Olsen, 1999] для предсказания возможных белок-

кодирующих областей. Ab initio предсказание генов использует статистические

свойства генов - такие, как GC богатые регионы, использование кодонов или

специальные информационные свойства k-меров. Кроме того, последовательность

ДНК сравнивается с последовательностями в базах данных существующих белков

с использованием алгоритма BLAST[Altschul и др., 1990]. Интеграция результатов

работы обоих типов алгоритмов приводит к выявлению набора предсказанных

белок-кодирующих генов. Для определения функции белковые

последовательности подвергаются серии экспериментов по поиску похожих генов

и анализу сиквенсов. Это включает в себя поиски по БД COG[Tatusov, Koonin,

Lipman, 1997] для нахождения возможных ортологов в других геномах, поиске

относительно баз TIGRFAM[Haft и др., 2001] и PFAM[Punta и др., 2011] для

определения семейств белков, базы PROSITE[Hulo и др., 2004]для анализа

мотивов и использование программ предсказания локализации белка, таких, как

PSORT[Nakai, Horton, 1999]. Кроме того, используются алгоритмы предсказания

сигнальных последовательностей SignalIP[Nielsen и др., 1997], алгоритм

ТМНММ [ S onnhammer, Heijne von, Krogh, 1998] для определения альфа-

спиральных транс-мембранных регионов и PSIPRED[McGuffm, Bryson, Jones,

2000] для предсказания вторичной структуры. Несмотря на большие успехи в

аннотации прокаритоических геномов, аннотация архей программными способами

не достигла такого высокого уровня точности, и разные программные пакеты

13

могут интерпретировать один и тот же геном по разному[Вакке и др., 2009], в первую очередь, это происходит из-за большого разнообразия способов геномной

организации у архей.

При том, что программы предсказания генов de novo показали свою пригодность в аннотации эукариотических геномов, например, в случае генома человека они могут предсказать верно структуры генов только в 50% случаев[Guigo и др., 2006]. В свете этого необходимость проверки предсказания кодирующих генов при аннотации эукариотических геномов очевидна. В сравнении с эукариотами геномы прокариот являются более простой задачей для программ предсказания из-за отсутствия интронов и высокой плотности генов в прокариотическмх геномах. Тем не менее, сложности с определением точных мест начала и окончания гена, аннотацией коротких генов и прочие все еще остаются. В недавнем анализе Нильсена и Крога[А11еп, Pertea, Salzberg, 2004] было показано, что для 143 рассмотренных геномов старт кодоны были неверно определены в 60% случаев, в особенности при аннотации ГЦ-богатых геномов.

Они также показали, что значительная часть геномов была аннотирована избыточно из-за отсутствия возможности различать случайные короткие рамки и короткие белки. В результате возникает цепная реакция ошибок, вызванная тем, что уже находящиеся в базе данных неверные аннотации становятся основой для аннотации на основе гомологии, особенно опасна эта ситуация в связи со взрывным увеличениям количества геномов.

1.1.2 Алгоритмы идентификации белков по масс-спектрам

Экспериментальные подходы масс-спектрометрии в области протеомного анализа позволяют напрямую идентифицировать пептиды экспрессирующихся белков, что в свою очередь дает возможность напрямую подтверждать кодирующие регионы геномных последовательностей.

Соотнесение масс-спектра и аминокислотной последовательности является

задачей алгоритма идентификации. На сегодняшний день существуют

14

высокоэффективные программные пакеты, как с открытым алгоритмом, так и с проприетарным. Выбор аминокислотной последовательности, соответствующей масс-спектру, может осуществляться из ограниченного списка структур (например, всего генома организма) - т.н. «алгоритм поиска по базе данных», либо выбор осуществляется из всех возможных первичных структур (комбинаций аминокислот и их модификаций) - такой алгоритм называется «секвенирование de novo». В любом случае мерой соответствия структуры спектру является числовая оценка, соответствующая вероятности случайного совпадения или некоторому количеству баллов, отражающих полноту соответствия ряда структур спектру и позволяющих выбрать наиболее подходящую для спектра структуру.

Стандартными параметрами при такой оценке становятся точность соответствия пиков теоретического спектра предполагаемой структуры и пиков в экспериментальном масс-спектре, наличие или отсутствие пиков, не предсказанных модельной структурой, относительная интенсивность пиков.

Основной проблемой при идентификации является отсутствие теории, объясняющей фрагментацию полипептидных цепей количественно. Все используемые алгоритмы по сути своей основываются на эмпирически подобранных наборах весовых коэффициентов, учитывающих большой набор данных, использованных для обучения алгоритма.

Несмотря на отсутствие четкой теории, использование стандартных предположений о наиболее вероятных точках разрыва полипептидных цепей позволяет реконструировать ограниченный набор предполагаемых пептидов-кандидатов.

Алгортимы оценки соответствия масс-спектров и пептидных

последовательностей можно разделить на две категории. К первой категории,

эвристической, относятся алгоритмы, соотносящие полученные спектры с

теоретическими спектрами пептидов и рассчитывающие степень соответствия

между ними. Эти поисковые алгоритмы часто используют меру «количество

15

общих пиков» (КОП), которая просто соответствует количеству пиков, присутствующих в обоих спектрах. К числу эвристических относятся SEQUEST, Spectrum Mill, X!Tandem, and Sonar. Вероятностные алгоритмы, относящиеся ко второй категории, воспроизводят в некоторой степени процесс пептидной фрагментации и рассчитывают вероятность того, что указанный пептид дал выбранный спектр случайно.

Одним из наиболее распространенных вероятностных алгоритмов является алгоритм Mascot, использующий базу данных всевозможных белков в образце для сопоставления пептидной последовательности и спектра. Мерой соответствия спектра и последовательности является количество баллов. Кроме того, для каждого варианта поиска алгоритм рассчитывает порог идентичности, основанный на вероятностных распределениях. Количество баллов, превышающее такой порог считается значимым соответствием спектра и пептидной структуры. Порог определяется формулой:

-10*logl0(20*p/n), где (1)

р - допустимая вероятность случайного соответствия пептида масс-спектру,

п - число пептидных кандидатов в данной базе данных для указанного диапазона точности,

Для пептидной структуры с количеством баллов, равным пороговой, величина математического ожидания случайного совпадения (E-value) равняется 0,05. Превышение порогового значения на 10 баллов соответствует уменьшению E-value на порядок. Таким образом, пороговые значения являются характеристикой базы данных поиска и параметров поиска (точность, посттрансляционные изменения и количество белков).

Вопрос выбора алгоритма для поиска множество раз рассматривался в литературе[Вго8сЬ и др., 2008]'[Карр и др., 2005]'[Colinge, Masselot,

2004]'[Nesvizhskii, 2007], и большинство авторов утверждают, что максимальное

16

число идентифицированных пептидов можно получить, используя все алгоритмы одновременно (рис.2), однако в то же время стоит учитывать специфику объекта исследований, методов исследований (точность и тип масс-спектрометра) и объем данных.

.MASCOT' .......—.........----------------------\ Spectrum Mill

/ /\ \

/ ^ \

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Заключение диссертации по теме «Математическая биология, биоинформатика», Алексеев, Дмитрий Глебович

Выводы

1) Эффективные алгоритмы. использующие данные протеомных экспериментов для протеогеномного профилирования, были разработаны.

2) С использованием алгоритмов были улучшены аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и

Desulfurococcus kamchatkensis.

3) Алгоритмы были использованы для протеогеномного профилирования изолятов и штаммов, для которых геномы не секвенированы или существует только частичная последовательность, была разработана методика оценки достоверности такого профилирования.

4) Алгоритмы позволяют произвести системный анализ и улучшить протеогеномную аннотацию на основе сравнения протеогеномных профилей бактерий и получить биологически релевантные выводы.

4.5 Заключение

В ходе выполнения работы нам удалось улучшить практику применения стандартных процедур при белковой идентификации и аннотации. Разработанные методические подходы, воплощенные в виде программных алгоритмов, позволяют работать не только в узком спектре решенных задач, но и использовать их на передовом крае экспериментальной молекулярной биологии, постоянно встречающейся со сложностями, вызванными лавинообразным ростом информации. Проведенный анализ наборов микробов, основанный на синтезе полученной экспериментально информации, позволил получить не только новые гипотезы по механизмам действия отдельных бактерий, но и высказать предположения о всеобъемлющих принципах устройства живых клеток. Кроме того, на основе тех же данных был предложен новый методический подход. Таким образом, в работе было наглядно продемонстрировано свойство эмерджентности, характерное для системных подходов, когда получающийся результат представляет большее чем сумма отдельных компонентов, и удается найти такие знания, которые не были бы доступны без обобщения. Поставленные задачи выполнены в полном объеме.

Список литературы диссертационного исследования кандидат биологических наук Алексеев, Дмитрий Глебович, 2012 год

Список литературы

1. . Peters, W., Heitmann, S. and D'Haese J. Formation and fine structure of peritrophic membranes in the earwig, Forfícula auricularia. // Entomol. Gen. 1979. T. 3. C. 241-254.

2. Altschul S.F. h flp. Basic local alignment search tool. // Journal of molecular biology. 1990. T. 215. №3. C. 403-10.

3. Ammar E.-D. h «p. An attachment tip and pili-like structures in insect- and plant-pathogenic spiroplasmas of the class Mollicutes. // Archives of microbiology. 2004. T. 181. № 2. C. 97105.

4. Arslan D. h ^p. Distant Mimivirus relative with a larger genome highlights the fundamental features of Megaviridae // Proceedings of the National Academy of Sciences. 2011. T. 108. № 42. C. 17486-91.

5. Awa S.H.I.G.E.Y.U.K.I.K.A.K.I.Z. Phytoplasmas: bacteria that manipulate plants and insects // Molecular Plant Pathology. 2008. T. 9. C. 403-423.

6. Baba T. h /ip. Construction of Escherichia coli K-12 in-frame, single-gene knockout mutants: the Keio collection. // Molecular systems biology. 2006. T. 2. C. 2006.0008.

7. Badger J.H., Olsen G.J. CRITICA: coding region identification tool invoking comparative analysis. // Molecular biology and evolution. 1999. T. 16. № 4. C. 512-24.

8. Boutareaud A. n j\p. Disruption of a Gene Predicted To Encode a Solute Binding Protein of an ABC Transporter Reduces Transmission of Spiroplasma citri by the Leafhopper Circulifer haematoceps // Society. 2004. T. 70. № 7. C. 3960-3967.

9. Brosch M. h ap. Comparison of Mascot and XITandem performance for low and high accuracy mass spectrometry and the development of an adjusted Mascot threshold. // Molecular & cellular proteomics : MCP. 2008. T. 7. № 5. C. 962-70.

10. Callister S.J. h /ip. Comparative Bacterial Proteomics: Analysis of the Core Genome Concept // Comparative and General Pharmacology. 2008. № 2.

11. Carle P. h «p. Partial Chromosome Sequence of Spiroplasma citri Reveals Extensive Viral Invasion and Important Gene Decay Partial Chromosome Sequence of Spiroplasma citri Reveals Extensive Viral Invasion and Important Gene Decay f H 2010.

12. Cavalier-Smith T. Nucleomorphs: enslaved algal nuclei. // Current opinion in microbiology. 2002. T. 5. № 6. C. 612-9.

13. Charpentier M., Percheron F. The chitin-degrading enzyme system of a Streptomyces species. // The International journal of biochemistry. 1983. T. 15. № 3. C. 289-92.

14. Chevalier C., Saillard C., Bove J.M. Spiralins of Spiroplasma citri and Spiroplasma melliferum: amino acid sequences and putative organization in the cell membrane. // J. Bacteriol. 1990. T. 172. № 10. C. 6090-6097.

15. Chou H.-H., Holmes M.H. DNA sequence quality trimming and vector removal // Bioinformatics. 2001. T. 17. № 12. C. 1093-1104.

16. Colinge J., Masselot A. Mass spectrometry has married statistics : uncle is functionality , children are selectivity and sensitivity // 2004. T. 3. № 2.

17. Commichau F.M. h pp. A regulatory protein-protein interaction governs glutamate biosynthesis in Bacillus subtilis: the glutamate dehydrogenase RocG moonlights in controlling the transcription factor GltC. // Molecular microbiology. 2007. T. 65. № 3. C. 642-54.

18. Duret S., Andre A., Renaudin J. Specific gene targeting in Spiroplasma citri: improved vectors and production of unmarked mutations using site-specific recombination. // Microbiology (Reading, England). 2005. T. 151. № Pt 8. C. 2793-803.

19. Duret S. n flp. Spiralin Is Not Essential for Helicity, Motility, or Pathogenicity but Is Required for Efficient Transmission of Spiroplasma citri by Its Leafhopper Vector Circulifer haematoceps //Applied and Environmental Microbiology. 2003. T. 69. № 10. C. 6225-6234.

20. Duret S. h Gene disruption through homologous recombination in Spiroplasma citri: an scml-disrupted motility mutant is pathogenic. // Journal of bacteriology. 1999. T. 181. № 24. C. 7449-56.

21. Elias J.E., Gygi S.P. Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry. //Nature methods. 2007. T. 4. № 3. C. 207-14.

22. Ewing B. h zip. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. // Genome research. 1998. T. 8. № 3. C. 175-85.

23. Fang G., Rocha E., Danchin A. How essential are nonessential genes? // Molecular biology and evolution. 2005. T. 22. № 11. C. 2147-56.

24. Fischer W. h «p. Strain-specific genes of Helicobacter pylori: genome evolution driven by a novel type IV secretion system and genomic island transfer. // Nucleic acids research. 2010. T. 38. №18. C. 6089-6101.

25. Fletcher J. n The phytopathogenic mollicute-insect vector interface: a closer look. // Phytopathology. 1998. T. 88. № 12. C. 1351-8.

26. Fraser C.M.M. n jsp. The minimal gene complement of Mycoplasma genitalium. // Science (New York, N.Y.). 1995. T. 270. № 5235. C. 397-403.

27. Gasparich G.E. Spiroplasmas and phytoplasmas: microbes associated with plant hosts. // Biologicals : journal of the International Association of Biological Standardization. 2010. T. 38. №2. C. 193-203.

28. Gupta N. h «p. Comparative proteogenomics: combining mass spectrometry and comparative genomics to analyze multiple genomes. // Genome research. 2008. T. 18. № 7. C. 1133-42.

29. Jungblut P.R. h jsp. Helicobacter pylori proteomics by 2-DE / MS , 1-DE-LC / MS and functional data mining // Heart. 2010. C. 182-193.

30. Kapp E.A. h ap. An evaluation, comparison, and accurate benchmarking of several publicly available MS/MS search algorithms: sensitivity and specificity analysis. // Proteomics. 2005. T. 5. № 13. C. 3475-90.

31. Killiny N. h ffp. Identification of a Spiroplasma citri hydrophilic protein associated with insect transmissibility. // Microbiology (Reading, England). 2006. T. 152. № Pt 4. C. 1221-30.

32. Kobayashi K. h Ap. Essential Bacillus subtilis genes. // Proceedings of the National Academy of Sciences of the United States of America. 2003. T. 100. № 8. C. 4678-83.

33. Krogh A. h AP- Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. // Journal of molecular biology. 2001. T. 305. № 3. C. 56780.

34. Kwon M.O., Wayadande a C., Fletcher J. Spiroplasma citri Movement into the Intestines and Salivary Glands of Its Leafhopper Vector, Circulifer tenellus. // Phytopathology. 1999. T. 89. № 12. C. 1144-51.

35. Lartigue C. h «p. Creating bacterial strains from genomes that have been cloned and engineered in yeast. // Science (New York, N.Y.). 2009. T. 325. № 5948. C. 1693-6.

36. Llopis P.M. h flp. Spatial organization of the flow of genetic information in bacteria // Nature. 2010. T. 466. № 7302. C. 77-81.

37. Lowe T.M., Eddy S.R. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. //Nucleic acids research. 1997. T. 25. № 5. C. 955-64.

38. Marais a, Bove J.M., Renaudin J. Characterization of the recA gene regions of Spiroplasma citri and Spiroplasma melliferum. // Journal of bacteriology. 1996. T. 178. № 23. C. 7003-9.

39. McGuffin L.J., Bryson K., Jones D.T. The PSIPRED protein structure prediction server. // Bioinformatics (Oxford, England). 2000. T. 16. № 4. C. 404-5.

40. Michalski A., Cox J., Mann M. More than 100,000 detectable peptide species elute in single shotgun proteomics runs but the majority is inaccessible to data-dependent LC-MS/MS. // Journal of proteome research. 2011. T. 10. № 4. C. 1785-93.

41. Moskalyk L.A., Oo M.M., Jacobs-Lorena M. Peritrophic matrix proteins of Anopheles gambiae and Aedes aegypti. // Insect molecular biology. 1996. T. 5. № 4. C. 261-8.

42. Myers G.S.A. h pp. Skewed genomic variability in strains of the toxigenic bacterial pathogen, Clostridium perfringens. // Genome research. 2006. T. 16. № 8. C. 1031-40.

43. Nakabachi A. h pp. The 160-kilobase genome of the bacterial endosymbiont Carsonella. // Science (New York, N.Y.). 2006. T. 314. № 5797. C. 267.

44. Nakai K., Horton P. PSORT: a program for detecting sorting signals in proteins and predicting their subcellular localization. // Trends in biochemical sciences. 1999. T. 24. № 1. C. 34-6.

45. Nesvizhskii A.I. Protein identification by tandem mass spectrometry and sequence database searching. // Methods in molecular biology (Clifton, N.J.). 2007. T. 367. C. 87-119.

46. Nocard, Roux. The microbe of pleuropneumonia. 1896. // Reviews of infectious diseases. 2011. T. 12. №2. C. 354-8.

47. Ozbek E. h pp. Infection and replication sites of Spiroplasma kunkelii (Class: Mollicutes) in midgut and Malpighian tubules of the leafhopper Dalbulus maidis. // Journal of invertebrate pathology. 2003. T. 82. № 3. C. 167-75.

48. Peterson S.N.S.N., Fraser C.M.C.M. The complexity of simplicity // Genome Biology. 2001. T. 2. №2. C. 113.

49. Pop M., Kosack D.S., Salzberg S.L. Hierarchical scaffolding with Bambus. // Genome research. 2004. T. 14. № 1. C. 149-59.

50. Razin S., Yogev D., Naot Y. Molecular biology and pathogenicity of mycoplasmas // Microbiology and Molecular Biology Reviews. 1998. T. 62. № 4. C. 1094-156.

51. Rutherford K. h pp. Artemis: sequence visualization and annotation. // Bioinformatics (Oxford, England). 2000. T. 16. № 10. C. 944-5.

52. Sassetti C.M., Boyd D.H., Rubin E.J. Genes required for mycobacterial growth defined by high density mutagenesis. // Molecular microbiology. 2003. T. 48. № 1. C. 77-84.

53. Schrempf H. Recognition and degradation of chitin by streptomycetes. // Antonie van Leeuwenhoek. 2001. T. 79. № 3-4. C. 285-9.

54. Shigenobu S. h ^p. Genome sequence of the endocellular bacterial symbiont of aphids Buchnera sp. APS. //Nature. 2000. T. 407. № 6800. C. 81-6.

55. Sonnhammer E.L., Heijne G. von, Krogh A. A hidden Markov model for predicting transmembrane helices in protein sequences. // Proceedings / ... International Conference on Intelligent Systems for Molecular Biology; ISMB. International Conference on Intelligent Systems for Molecular Biology. 1998. T. 6. C. 175-82.

56. Sutton G.G. h flp. TIGR Assembler: A New Tool for Assembling Large Shotgun Sequencing Projects // 1995. T. 1. № 1.

57. Tusnädy G.E., Simon I. The HMMTOP transmembrane topology prediction server. // Bioinformatics (Oxford, England). 2001. T. 17. № 9. C. 849-50.

58. Wang P., Granados R.R. Molecular structure of the peritrophic membrane (PM): identification of potential PM target sites for insect control. // Archives of insect biochemistry and physiology. 2001. T. 47. № 2. C. 110-8.

59. Ye F., Melcher U., Fletcher J. Molecular characterization of a gene encoding a membrane protein of Spiroplasma citri. // Gene. 1997. T. 189. № 1. C. 95-100.

60. Ye F. h ap. Extensive chromosome aberrations in Spiroplasma citri Strain BR3. // Biochemical genetics. 1996. T. 34. № 7-8. C. 269-86.

61. Yu J., Wayadande A.C., Fletcher J. Spiroplasma citri Surface Protein P89 Implicated in Adhesion to Cells of the Vector Circulifer tenellus. // Phytopathology. 2000. T. 90. № 7. C. 716-22.

62. Zhang R., Lin Y. DEG 5.0, a database of essential genes in both prokaryotes and eukaryotes. //Nucleic acids research. 2009. T. 37. № Database issue. C. D455-8.

63. http://codonw.sourceforge.net.

64. Unipro UGENE: an open-source bioinformatics toolkit; http://ugene.unipro.ru.

65. (http://www.genome.jp/kegg/pathway.html).

66. Glass J.I. h flp. Essential genes of a minimal bacterium // Proc. Natl Acad. Sei. USA. 2006. T. 103. C. 425-430.

67. Koonin E.V., Wolf Y.I. Genomics of bacteria and archaea: the emerging dynamic view of the prokaryotic world. // Nucleic acids research. 2008. T. 36. № 21. C. 6688-719.

68. Hutchison III C. a. Global Transposon Mutagenesis and a Minimal Mycoplasma Genome // Science. 1999. T. 286. № 5447. C. 2165-2169.

69. Jain R., Rivera M.C., Lake J. a. Horizontal gene transfer among genomes: the complexity hypothesis. // Proceedings of the National Academy of Sciences of the United States of America. 1999. T. 96. № 7. C. 3801-6.

70. Pereyre S. h xp. Life on arginine for Mycoplasma hominis: clues from its minimal genome and comparison with other human urogenital mycoplasmas. // PLoS genetics. 2009. T. 5. № 10. C. el 000677.

71. Commichau F.M. h ap. Novel activities of glycolytic enzymes in Bacillus subtihs: interactions with essential proteins involved in mRNA processing. // Molecular & cellular proteomics : MCP. 2009. T. 8. № 6. C. 1350-60.

72. Kühner S. h pp. Proteome organization in a genome-reduced bacterium. // Science (New York, N.Y.). 2009a. T. 326. № 5957. C. 1235-40.

73. Harris J.K. h ap. The Genetic Core of the Universal Ancestor // Genome Research. 2003. № February. C. 407-412.

74. Jaffe J.D. h ,o;p. The complete genome and proteome of Mycoplasma mobile. // Genome research. 2004. T. 14. № 8. C. 1447-61.

75. Gitai Z. The new bacterial cell biology: moving parts and subcellular architecture. // Cell. 2005. T. 120. № 5. C. 577-86.

76. Rasmussen S., Nielsen H.B., Jarmer H. The transcriptionally active regions in the genome of Bacillus subtilis. // Molecular microbiology. 2009. T. 73. № 6. C. 1043-57.

77. Guell M. h AP- Transcriptome complexity in a genome-reduced bacterium. // Science (New York, N.Y.). 2009a. T. 326. № 5957. C. 1268-71.

78. Mushegian A.R., Koonin E.V. A minimal gene set for cellular life derived by comparison of complete bacterial genomes // Proc. Natl Acad. Sci. USA. 1996. T. 93. C. 10268-10273.

79. Sharma C.M. h flp. The primary transcriptome of the major human pathogen Helicobacter pylori. //Nature. 2010. T. 464. № 7286. C. 250-5.

80. Allen J.E., Pertea M., Salzberg S.L. Computational gene prediction using multiple sources of evidence. // Genome research. 2004. T. 14. № 1. C. 142-8.

81. Aim R.A., Trust T.J. Analysis of the genetic diversity of Helicobacter pylori: the tale of two genomes. // Journal of molecular medicine (Berlin, Germany). 1999. T. 77. № 12. C. 834-46.

82. Ansong C. h AP- Proteogenomics: needs and roles to be filled by proteomics in genome annotation // Briefings in functional genomics & proteomics. 2008. T. 7. № 1. C. 50-62.

83. Armengaud J. A perfect genome annotation is within reach with the proteomics and genomics alliance. // Current opinion in microbiology. 2009. T. 12. № 3. C. 292-300.

84. Bakke P. h AP- Evaluation of three automated genome annotations for Halorhabdus utahensis. // PloS one. 2009. T. 4. № 7. C. e6291.

85. Chen W. h AP- Improving de novo sequencing of peptides using a charged tag and C-terminal digestion. // Analytical chemistry. 2007. T. 79. № 4. C. 1583-90.

86. Delcher A.L. h AP- Improved microbial gene identification with GLIMMER. // Nucleic acids research. 1999. T. 27. № 23. C. 4636-41.

87. Delcher A.L. h AP- Fast algorithms for large-scale genome alignment and comparison. // Nucleic acids research. 2002. T. 30. № 11. C. 2478-83.

88. Domselaar G.H. Van h AP- BASys: a web server for automated bacterial genome annotation. //Nucleic acids research. 2005. T. 33. № Web Server issue. C. W455-9.

89. Evans D.J. h AP- Diversity in the variable region of Helicobacter pylori cagA gene involves more than simple repetition of a 102-nucleotide sequence. // Biochemical and Biophysical Research Communications. 1998. T. 245. № 3. C. 780-784.

90. Fisunov G.Y. h AP- Core proteome of the minimal cell: comparative proteomics of three mollicute species. // PloS one. 2011. T. 6. № 7. C. e21964.

91. Gallien S. h AP- Ortho-proteogenomics: multiple proteomes investigation through orthology and a new MS-based protocol. // Genome research. 2009. T. 19. № 1. C. 128-35.

92. Guigo R. h up. EGASP: the human ENCODE Genome Annotation Assessment Project. // Genome biology. 2006. T. 7 Suppl 1. C. S2.1-31.

93. Guell M. h Ap. Transcriptome complexity in a genome-reduced bacterium. // Science (New York, N.Y.). 2009b. T. 326. № 5957. C. 1268-71.

94. Hafit D.H. h AP- TIGRFAMs: a protein family resource for the functional identification of proteins. // Nucleic acids research. 2001. T. 29. № 1. C. 41-3.

95. Hulo N. h «p. Recent improvements to the PROSITE database. // Nucleic acids research. 2004. T. 32. № Database issue. C. D134-7.

96. Ihaka R., Gentleman R. R: A Language for Data Analysis and Graphics // 2007.

97. Kuipers E.J. и др. Quasispecies development of Helicobacter pylori observed in paired isolates obtained years apart from the same host. // The Journal of infectious diseases. 2000. T. 181. № l.C. 273-82.

98. Kurzweil R. The Singularity Is Near: When Humans Transcend Biology. : Viking, 2005.

99. Langmead В. и др. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. // Genome biology. 2009. T. 10. № 3. C. R25.

100. Li H. и др. The Sequence Alignment/Map format and SAMtools. // Bioinformatics (Oxford, England). 2009. T. 25. № 16. C. 2078-9.

101. Marais А. и др. Metabolism and genetics of Helicobacter pylori: the genome era. // Microbiology and molecular biology reviews : MMBR. 1999. T. 63. № 3. C. 642-74.

102. McDonald L., Beynon R.J. Positional proteomics: preparation of amino-terminal peptides as a strategy for proteome simplification and characterization. // Nature protocols. 2006. Т. 1. №4. C. 1790-8.

103. Meyer F. и др. GenDB~an open source genome annotation system for prokaryote genomes. //Nucleic acids research. 2003. T. 31. № 8. C. 2187-95.

104. Momynaliev K.T. и др. Functional Divergence of Helicobacter pylori Related to Early Gastric Cancer research articles // Strain. 2010. C. 254-267.

105. Nielsen H. и др. Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. // Protein engineering. 1997. T. 10. № l.C. 1-6.

106. Peterson J.D. и др. The Comprehensive Microbial Resource. // Nucleic acids research.

2001. T. 29. № l.C. 123-5.

107. Picotti P., Aebersold R., Domon B. The implications of proteolytic background for shotgun proteomics. // Molecular & cellular proteomics : MCP. 2007. T. 6. № 9. C. 1589-98.

108. Punta M. и др. The Pfam protein families database. // Nucleic acids research. 2011. T. 40. № Dl. C. D290-D301.

109. Sanders W.S. и др. The proteogenomic mapping tool. // BMC bioinformatics. 2011. T. 12. № l.C. 115.

110. Tatusov R.L., Koonin E.V., Lipman D.J. A genomic perspective on protein families. // Science (New York, N.Y.). 1997. T. 278. № 5338. C. 631-7.

111 Tully J.G. и др. Pathogenic mycoplasmas: cultivation and vertebrate pathogenicity of a new spiroplasma. // Science (New York, N.Y.). 1977. T. 195. № 4281. C. 892-4.

112. Valentin-Hansen P., Eriksen M., Udesen C. The bacterial Sm-like protein Hfq: a key player in RNA transactions. // Molecular microbiology. 2004. T. 51. № 6. C. 1525-33.

113. Wang G., Humayun M.Z., Taylor D.E. Mutation as an origin of genetic variability in Helicobacter pylori. // Trends in microbiology. 1999. T. 7. № 12. C. 488-93.

114. Spiroplasma citri genome [Электронный ресурс]. URL: http://iant.toulouse.inra.fr/S.citri.

115. Forster A.C., Church G.M. Towards synthesis of a minimal cell. // Molecular systems biology. 2006. T. 2. C. 45.

116. Eisen J. a. A phylogenomic study of the MutS family of proteins. // Nucleic acids research. 1998. T. 26. № 18. C. 4291-300.

117. Koonin E.V., Mushegian A.R., Bork P. Non-orthologous gene displacement. // Trends in genetics : TIG. 1996. T. 12. № 9. C. 334-6.

118. Gevaert K. h ap. Exploring proteomes and analyzing protein processing by mass spectrometric identification of sorted N-terminal peptides. // Nature biotechnology. 2003. T. 21. № 5. C. 566-9.

119. Kühner S. h flp. Proteome organization in a genome-reduced bacterium. // Science (New York, N.Y.). 2009b. T. 326. № 5957. C. 1235-40.

120. Yamazaki S. h np. Proteome Analysis of an Aerobic Hyperthermophilic Crenarchaeon , Aeropyrum pernix K1 * □ // Molecular & Cellular Proteomics. 2006. C. 811-823.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.