Естественный отбор в молекулярной эволюции: геномный подход с использованием метода наибольшей экономии: [ тема диссертации и автореферата по ВАК РФ 03.00.00, кандидат наук Базыкин, Георгий Александрович

  • Базыкин, Георгий Александрович
  • кандидат науккандидат наук
  • 2007, Принстон (США)
  • Специальность ВАК РФ03.00.00
  • Количество страниц 118
Базыкин, Георгий Александрович. Естественный отбор в молекулярной эволюции: геномный подход с использованием метода наибольшей экономии: [: дис. кандидат наук: 03.00.00 - Биологические науки. Принстон (США). 2007. 118 с.

Оглавление диссертации кандидат наук Базыкин, Георгий Александрович

Содержание

Резюме

Благодарности

1. Введение

2. Выявление положительного отбора в сайтах множественных аминокислотных замен на основе простых филогений

Результаты и обсуждение

Методы

Литература

Таблицы и рисунки

Приложение

3. «Пулеметные очереди» аминокислотных замен в больших вирусных филогениях

Введение

Результаты

Обсуждение

Методы

Таблицы и рисунки

Приложение

Литература

4. Параллельная эволюция: различение положительного и отрицательного отбора

Введение

Результаты

Обсуждение

Методы

Таблицы и рисунки

Литература

5. Зависимость неравномерности в кодонном и аминокислотном составах от

режима отбора

Введение

Результаты

Обсуждение

Выводы

Методы

Таблицы и рисунки

Литература

6. Паттерны эволюционной консервативности регуляторных участков

Введение

Результаты и обсуждение

Заключение

Методы

Таблицы и рисунки

Литература

7. Скорость существенных регуляторных изменений в эволюции

Введение

Результаты

Обсуждение

Заключение

Методы

Таблицы и рисунки

Литература

Рекомендованный список диссертаций по специальности «Биологические науки», 03.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Естественный отбор в молекулярной эволюции: геномный подход с использованием метода наибольшей экономии: [»

1. Введение

Виды живых организмов отличаются друг от друга. Более того, особи одного и того же вида отличаются друг от друга. Проблемы возникновения и сохранения различий между видами и в пределах видов являются важнейшими в эволюционной биологии; первая проблема была названа «тайной тайн» Чарльзом Дарвином, вторая - «Великой задачей популяционной генетики» Джоном Гиллеспи. Несмотря на полуторавековые усилия, ни тот, ни другой вопрос не был полностью разрешен. Последняя смена парадигмы была связана с возникновением в конце 1960-х годов нейтральной теории; спор об относительной важности естественного отбора и генетико-автоматических (нейтральных) процессов в создании и поддержании изменчивости и дивергенции не утих до сих пор. Даже приток огромного количества геномных данных пока на выявил окончательного победителя в споре «нейтрализм-селекционизм». Мы не можем приписать происхождение большинства признаков отбору. Более того, у нас нет даже достоверной оценки роли естественного отбора на уровне полных геномов: недавний обзор статей в ведущих журналах выявил диапазон оценок доли аминокисотных замен, связанных с адаптивной эволюцией, от 0% до 94%.

Большая часть этой работы посвящена разработке новых подходов к различению роли положительного (направленного), отрицательного (стабилизирующего) отбора и нейтральных процессов в молекулярной эволюции. Работа затрагивает широкий диапазон эволюционных времен (от нескольких десятилетий для вирусов до миллионов лет для дивергенции классов млекопитающих), молекулярных эволюционирующих систем (аминокислоты белков, синонимичные нуклеотиды кодирующих областей и регуляторные области ДНК) и подходов. Главы диссертации объединяет использование больших объемов геномных данных. Кроме того, фундаментальным объединяющим принципом является использование сравнительного подхода и, особенно, - метода наибольшей экономии.

Биологическую эволюцию редко можно наблюдать непосредственно. Поэтому исследование эволюции неизбежно требует восстановления событий, происходивших в прошлом, по следам, оставленным этими событиями в настоящем. Наблюдая различие в морфологическом или молекулярном признаке между двумя видами, мы делаем вывод, что в некоторый момент времени после дивергенции этих двух видов от их последнего общего предка по крайней мере в одном из этих видов произошло по крайней мере одно изменение данного признака. Сравнительный метод был существенен для нашего понимания эволюции задолго до геномной эры, но стал еще более важным с тех пор, как количество данных, доступных для сравнительного анализа, выросло на многие порядки в результате проектов сиквенирования полных геномов.

Сравнительный метод имеет наибольшую мощность на промежуточных эволюционных расстояниях, достаточных, чтобы между видами произошло достаточнорй количество эволюционных событий. Однако фундаментальным ограничением этого подхода является то, что, сравнивая эволюционно далекие виды, мы можем выявить только «среднее» их эволюционных историй с момента их дивергенции. В действительности же в разные периоды времени виды могли быть подверженными разным селективным режимам. В частности, эпизоды дарвиновской адаптивной эволюции (положительного отбора), изменяющие преобладающий вариант признака, скорее всего, перемежаются с эпизодами стабилизирующего (отрицательного) отбора, сохраняющего новый предпочтительный вариант. Положительный отбор ускоряет эволюцию по сравнению с нейтральным стандартом,

а отрицательный - замедляет ее, осложняя поиск сигнала положительного отбора. Мощность сравнительного подхода, таким образом, ограничена разрешением, с которым мы можем проследить эволюционную судьбу признаков. Количество молекулярных сиквенсов, достаточное для выявления временной изменчивости давления отбора на уровне полных геномов, начало появляться лишь недавно. За редкими исключениями, эти данные до сих пор не были использованы для выявления изменения действия отбора во времени.

Главы 2 и 3 вводят новый подход к анализу естественного отбора, изменяющегося между эволюционными линиями. Он основан на измерении отклонений от независимости в распределении эволюционных изменений во времени. Временнбе кластрирование эволюционных событий невозможно при нейтральной эволюции и свидетельствует об эпизоде адаптивной эволюции путем естественного отбора. Положительный отбор происходит из-за изменения адаптивного ландшафта. При постоянной скорости мутирования нейтральная эволюция идет с более или менее постоянной скоростью; напротив, скорость изменения адаптивного ландшафта не обязана, вообще говоря, быть постоянной. Более того, даже единичное изменение адаптивного ландшафта может приводить к «пулеметной очереди» эволюционных событий, если старый и новый оптимальные варианты отделены друг от друга более чем одним мутационным шагом. Благодаря структуре генетического кода, множественные мутационные шаги могут потребоваться даже при эволюции отдельного кодона. В самом деле, большая доля аминокислотных замен требует двух или трех нуклеотидных замен. Такие аминокислотные замены требуют, таким образом, прохождения двух- или трехмерного адаптивного ландшафта индивидуального кодона; если отбор достаточно эффективен, то каждый адаптивный шаг (т.е. шаг, находящийся под положительным отбором и ведущий вверх на адаптивном ландшафте) будет быстро следовать за предыдущим таким шагом. Контраст между ожидаемой временной равномерностью нейтральных замен и аггрегированностью замен, находящихся под отбором, позволяет нам засечь положительный отбор в периоды временного увеличения скорости эволюции.

В главе 2 я использую последовательности полных геномов для оценки роли отбора в эволюции двух видов грызунов - мыши и крысы. Я описываю ведущую роль отбора в аминокислотах, которые претерпели множественные замены с момента дивергенции этих двух видов от их общего предка. Далее, я описываю отклонение от независимости в заменах, происходящих между разными аминокислотными сайтами в пределах одного белка. Поскольку такой анализ ограничен аминокислотными позициями с множественными заменами между видами, имеющиеся данные не позволили ответить на вопрос об относительной роли положительного отбора в сайтах с разными скоростями эволюции.

В главе 3 я модифицировал этот подход с тем, чтобы сделать его применимым к сложным филогениям, содержащим не две, а сотни последовательностей. Я применил модифицирований метод к анализу филогенетических древ четырех генов ВИЧ-1 и обнаружил, что роль положительного отбора велика в эволюции аминокислотных сайтов, испытывающих в целом низкую скорость эволюции. Медленно эволюционирующие сайты справедливым образом считаются подверженными преимущественно отрицательному отбору; ролью положительного отбора в таких сайтах обычно пренебрегают. Мне удалось показать, что ослабление давления стабилизирующего отбора на такие сайты может быть связано с положительным отбором, а не с нейтральной эволюцией. Хотя природа такого эпизодического положительного отбора в консервативных сайтах неизвестна, не исключено, что знание того, какие сайты испытывают подобный отбор, может

иметь прикладное значение для нашего понимания возможных путей к победе над ВИЧ.

В главе 4 проблема поиска отбора рассматривается с другой точки зрения. Вместо того, чтобы пытаться выявлять отдельные случаи адаптивной эволюции, я на этот раз пытаюсь определить общую силу отбора, действующего на эволюционирующие сайты на уровне всего генома. Многие сайты в многих белках практически не эволюционируют из-за сильных селективных ограничений. Вопрос о роли отбора в эволюции последовательности, в сущности, сводится к описанию распределения селективных коэффициентов, связанных с заменами в остальных сайтах, т.е. в тех, в которых эволюция возможна. Нейтральная теория в строгой форме утверждает, что это распределение сосредоточено в нуле, так что подавляющее большинство осуществляющихся замен на имеют значения для приспособленности. Эту нуль-гипотезу трудно опровергнуть, поскольку мы не знаем, какие сайты могут эволюционировать, а какие - эволюционно ригидны, а общий паттерн замен в попарном сравнении последовательностей может быть неотличимым от возникающего при других распределениях.

Однако сравнение многих видов позволяет нам специально обратиться к эволюции сайтов, способных эволюционировать, и к селективному давлению на замены, принимаемые отбором. Особенно информативной является степень параллельной эволюции между независимо эволюционирующими линиями. Независимая (параллельная) эволюция сходных признаков на морфологическом уровне-удивительное и общепризнанное биологическое явление; возможно, наиболее знаменитый пример - эволюция австралийских сумчатых, которые независимо приобрели большую часть морфологического разнообразия и многие жизненные формы плацентарных млекопитающих. На морфологическом уровне параллельная эволюция является, как правило, признаком адаптации: поскольку пространство морфологических признаков огромно, мы не ожидаем увидеть многократное независимое происхождение одного и того же признака случайных образом. Напротив, пространства признаков для индивидуальных аминокислотных и нукпеотидных сайтов включают соответственно всего 20 и 4 элемента. Поэтому высокую степень параллелизма в молекулярной эволюции можно ожидать, даже если эволюция осуществляется в соответствии с моделью нейтрального случайного блуждания. Объем параллелизма, который мы ожидаем увидеть при нейтральной эволюции, легко вычислить из скорости молекулярной эволюции. Сравнение скорости, с которой происходят параллельные замещения данной аминокислоты, с нейтральным ожиданием может пролить свет на селективный коэффициент, связанный с данной заменой. Я использую полногеномный анализ для выявления тысяч аминокислотных замен, которые произошли параллельно в разных видах млекопитающих, плодовой мушки и дрожжей. Число найденных параллельных замен оказалось не таким большим, какого можно было ожидать, если бы эволюция происходила на нейтральном (плоском) и постоянном адаптивном ландшафте. Таким образом, полученные результаты опровергают нейтральную теорию в ее строгой форме, но совместимы с более слабой «почти нейтральной» теорией.

Глава 5 - единственная глава диссертации, в которой сравнительный метод не является основой анализа. Более того, метод определения отбора на основе различий в кодонных предпочтениях, вдохновивший меня к написанию этой главы, был ранее предложен в качестве единственного способа определения сил, влиявших на молекулярную эволюцию в прошлом, который не опирается на сравнительный подход. Этот метод основан на внутри-геномном (а не меж-геномном) сравнении кодонных предпочтений. Утверждалось, что сайт-специфические предпочтения кодонов могут свидетельствовать о прошлой селективной и эволюционной истории. Конкретно, кодоны аминокислот, которые недавно были зафиксированы

положительным отбором, в среднем имеют больше несинонимичных соседей, чем кодоны, недавно испытывавшие отрицательный отбор. Я проверяю это предположение, прослеживая эволюционную историю индивидуальных кодонных сайтов, а также сравнивая сайт-специфические кодонные предпочтения с другими сайт-специфическими мерами силы отбора. Далее, я выдвигаю гипотезу, что в некоторых селективных режимах, в особенности - испытываемых вирусными эпитопами, аминокислотный состав может быть подвержен воздействию, сходному с тем, которому подвержен кодонный состав. При сильном положительном отборе на постоянно изменяющемся селективном ландшафте аминокислотный состав может быть смещен в сторону более «эволюционируемых», или «волатильных», аминокислот, которые имеют больше несинонимичных соседей и которые, тем самым, скорее могут претерпеть несинонимичную замену. Я показываю, что предпочтения в аминокислотном составе ожидаемым образом скоррелированны с предпочтениями в нуклеотидном составе и с сайт-специфическим давлением отбора. Тема важности структуры генетического кода для результата эволюции, затрагивавшаяся уже в главах 2 и 3, вновь повторяется здесь: мои результаты свидетельствуют о том, что неравномерность аминокислотного состава может возникать из-за структуры генетического кода, а не из-за свойств самих аминокислот.

В главах 2-5 речь идет об эволюции кодирующих последовательностей генов; напротив, главы 6-7 посвящены эволюции регуляторных систем. Уже в 1970-х годах была выдвинута гипотеза, что морфологическая эволюция в основном реализуется через эволюцию регуляции экспрессии генов, а не через изменения кодирующих последовательностей. Ведущая роль регуляторной эволюции могла бы объяснить, почему различия на белковом уровне, отделяющие нас от обезьян, до сих пор не были найдены. Кроме того, это бы разрешило ряд эволюционных загадок, таких как отсутствие корреляции между скоростями молекулярной и морфологической эволюции и парадокс й-значений - сходство размеров геномов у организмов, колоссально различающихся по сложности.

Появляющиеся молекулярные данные вновь и вновь свидетельствуют о важности регуляции экспрессии для эволюции макроскопических признаков. Однако даже само положение регуляторных последовательностей сложно предсказывать, поскольку эти последовательности коротки, расположены в длинных сегментах некодирующей ДНК, вырождены, а их структура, как правило, неизвестна. Еще сложнее оценивать адаптивное значение эволюционных событий, наблюдаемых в регуляторных последовательностях, поскольку регуляторный код практически неизвестен. Систематический анализ эволюции регуляторных последовательностей ограничен сложностями выявления этих последовательностей в сиквенсах.

Существует дуализм между функциональной важностью признака (например нуклеотидного сайта) и его консервативностью. Благодаря этому дуализму, свет на функциональное значение последовательностей может пролить сравнительная геномика. Подход, использующий степень сохранения последовательности между видами для выявления функциональной важности сайтов, получил название «филогенетический футпринтинг», или «филогенетическое затенение». В главе 6 я использую модификацию этого подхода для описания паттернов консервативности в цис-регуляторной области дрожжей на полногеномном уровне. Далее, я анализирую консервативность в окрестности известных регуляторных областей и показываю, что области повышенной консервативности, указывающие на функциональную значимость, продолжаются за пределами регуляторных сайтов.

Однако предположение о существовании прямой связи между консервативностью и функциональной значимостью делает невозможным анализ адаптивной эволюции, т.е. как раз того явления, которое нас, по-видимому,

интересует больше всего. Более того, регуляторные области, эволюционирующие под сильным положительным отбором, могут демонстрировать пониженную консервативность, что затруднит отличение их от нефункциональных последовательностей. Поэтому случаи адаптивной эволюции могут мешать выявлению функции на основе консервативности. Несмотря на индивидуальные наблюдения случаев направленного отбора, относительный вклад отбора и нейтральных процессов в эволюции цис-регуляторных сайтов еще менее понятны, чем в эволюции кодирующих областей.

В главе 7 я анализирую эволюцию последовательностей ТАТА-бокса в промоторах генов дрожжей. На эволюционных временах в цис-регуляторных последовательностях может происходить множество разнообразных событий, включая потерю и приобретение отдельных сайтов связывания, изменение их сродства, а также изменения в некодирующих последовательностях за пределами сайтов связывания, которые могут изменить их положение относительно друг друга. Каждое из этих событий способно изменить транкрипицонный профиль гена. Используя очень консервативный подход с тем, чтобы сосредоточиться только на эволюционных событиях, изменяющих функцию ТАТА-бокса, я установил минимальную скорость функциональных изменений в этих последовательностях между близкородственными видами дрожжей. Хотя я не мог выявить силу отбора, связанную с эволюцией этого признака, было показано, что скорость его эволюции существенна. Систематический полногеномный анализ паттернов потерь, приобретений и консервативности регуляторных последовательностей с целью выявления сил, влияющих на их эволюцию, остается задачей будущего.

2. Выявление положительного отбора в сайтах множественных аминокислотных замен на основе простых филогений

Новые аллели фиксируются в популяциях как благодаря случайному дрейфу почти нейтральных мутаций, так и благодаря положительному отбору на мутации, несущие значительное селективное преимущество (1-3). Несмотря на десятилетия дискуссий, доля фиксаций, обеспечиваемых отбором, остается неясной (4-9). Среди 9 390 генов мы проанализировали 28 196 кодонов, в которых мышь и крыса отличаются друг от друга в двух нуклеотидных сайтах, и 1 982 кодона с тремя отличиями. В тех кодонах, где дивергенция мышь-крыса включала две несинонимичные замены, обе замены происходили в той же линии - либо мыши, либо крысы - в 64% случаев, в то время как независимые замены происходили бы в той же линии с частотой лишь 50%. Три замены происходили в одной линии в 46% кодонов вместо ожидаемых 25%. Далее, сравнение 12 пар прокариотических геномов также демонстрирует сосредоточение множественных несинонимичных замен в одной линии. Этот паттерн не может быть объяснен коррелированными мутациями или эпизодами ослабленного отрицательного отбора. Он свидетельствует о том, что положительный отбор действует во многих сайтах быстрых последовательных аминокислотных замен.

Результаты и обсуждение

Мы выровняли 9 390 троек генов, ортологичных между крысой, мышью и человеком. Среди 2 999 920 кодонов, гомологичных между мышью и крысой в этих генах, 83,30% были идентичными, а 15,70%, 0,94% и 0,07% отличались, соответственно, в одном, двух и трех нуклеотидных сайтах («без-», «одно-», «двух-» и «трехзаменные» кодоны). Среднее эволюционное расстояние между мышью и крысой - 0,22 в синонимичных сайтах (/С8) и 0,02 в несинонимичных сайтах (Кп), в соответствии с предыдущими оценками (10). Мы делаем предположение, что в /-заменном кодоне после дивергенции линий мыши и крысы от их последнего общего предка (последний общий предок мыши и крысы, ОПМК) произошло ровно /замен, поскольку неэкономные эволюционные пути должны быть редкими между двумя столь близкими видами (2).

Кодон ОПМК можно выявить точно, используя гомологичный кодон человека 'Н', если на пути, соединяющем эти кодоны, не было замен. Более того, даже после синонимичных замен Н позволяет выявить аминокислоту, кодировавшуюся кодоном ОПМК. Поскольку К& и К„ между человеком и грызунами соответственно составляют -0,5 и -0,1 (10), мы ожидаем у -60% человеческих кодонов точного совпадения с ОПМК, а у -80% - совпадения на уровне аминокислоты. Действительно, среди беззаменных кодонов Н совпадает с кодоном крысы 'И' и мыши 'М' в 69% случаев и кодирует ту же аминокислоту, с синонимичными заменами или без них, в 90% случаев.

В 71 % однозаменных кодонов Н совпадает либо с М, либо с 13, а в 74% однозаменных кодонов Н кодирует ту же аминокислоту, что и М и/или И. В таких случаях мы делаем предположение, что Н выявляет кодон ОПМК или, по меньшей мере, ту аминокислоту, которую он кодировал. В противном случае ОПМК остается неизвестным. Мы предполагаем, что нуклеотидная (аминокислотная) замена

произошла в линии крысы, если Н совпадает с М (кодирует ту же аминокислоту, что и М), и что она произошла в линии мыши, если Н совпадает с R (кодирует ту же аминокислоту, что и R) (Таблица 1).

Рассмотрим теперь 28 196 двузаменных кодонов (Таблица 2). Среди них крыса и мышь отличаются друг от друга: двумя синонимичными заменами (такие кодоны кодируют аргинин или лейцин, напр. ТТА и CTG) в 1 635 кодонах; одной синонимичной и одной несинонимичной заменой (напр. CCC и CAT) в 14 935 кодонах; ни одной или одной синонимичной заменой, и одной или двумя несинонимичными заменами, в зависимости от их порядка (напр. ACG и AAT), в 4 417 кодонах; двумя несинонимичными или двумя синонимичными заменами, в зависимости от их порядка (напр. AGG и CGT), в 715 кодонах; и двумя несинонимичными кодонами (напр. AAA и AGT) в 6 146 кодонах. Две замены в кодоне могли произойти в линии крысы (паттерн О), в линии мыши (паттерн 2) или каждая в своей линии (паттерн 1). Соответственно, кодон ОПМК совпадал бы с кодоном мыши М (паттерн 0), кодоном крысы R (паттерн 2) или же с одним из двух промежуточных кодонов I, и l2 (паттерн 1; напр., если кодон крысы - AAG, а кодон мыши - CCG, промежуточные кодоны - ACG и CAG; для некоторых пар кодонов мыши и крысы возможен лишь один промежуточный кодон, поскольку второй является стоп-кодоном.). Когда Н совпадает (кодирует ту же аминокислоту), что и М, R, Ii или l2, мы предполагаем, что он выявляет кодон ОПМК или, по меньшей мере, кодировавшуюся им аминокислоту; это произошло соответственно в 57% и 62% случаев. В противном случае ОПМК и паттерн оставались неизвестными.

Если бы две замены были независимыми (что, в частности, означает, что ни один из промежуточных кодонов не является стоп-кодоном) и равновероятными в линии мыши и крысы (Таблица 1), то частоты паттернов 0,1 и 2 (Р0, Р% и Р2) составили бы соответственно 25%, 50% и 25%. Наблюдаемые частоты близки к этим значениям, когда одна или обе замены в кодоне были синонимичными (Таблица 2). Напротив, в случаях, когда обе замены были несинонимичными, наблюдается существенный избыток частот паттернов 0 и 2, т.е. кодонов, в которых обе замены произошли в той же ветви (либо мыши, либо крысы). Этот избыток статистически достоверен как в сравнении с ожидаемым отношением 25:50:25 (тест хи-квадрат, Р<0,001), так и в сравнении с паттерном в кодонах с двумя синонимичными заменами (тест хи-квадрат, Р<0,001). Несинонимичные замены существенно сосредоточены в одной линии, только если обе замены произошли в одном и том же кодонном сайте (Приложение, рис. 1).

Анализ 1 982 трехзаменных кодонов выявляет еще более существенное сосредоточение (Таблица 3). Для каждого такого кодона необходимо рассматривать, в дополнение к R и М, шесть промежуточных кодонов, три из которых отличаются от R одной заменой (J1( J2 и J3), а три - двумя заменами (Ki, К2 и К3). Если кодон ОПМК совпадает с М, с одним из кодонов К, с одним из кодонов J или с R, это означает, что в линии крысы произошло, соответственно, 3, 2,1 или 0 замен (паттерны а, ß, уи 8). Если бы замены происходили независимо, отношение чисел кодонов с каждым из паттернов а, ß, у и 5 равнялось бы 1:3:3:1. Однако мы наблюдаем двукратный избыток паттернов 5 и а, который возрастает с ростом вклада несинонимичных замен в дивергенцию крыса-мышь. Действительно, избыток достоверно выше, когда лишь 0-3 возможных путей между кодонами включают синонимичные замены, чем когда их включают 4-6 путей (тест хи-квадрат, Р<0,001).

Может ли это сосредоточение быть артефактом? Существуют два возможных источника ошибки. Во-первых, в двузаменном кодоне со времени дивергенции мыши и крысы могло произойти больше двух замен. Однако если в действительности произошли три замены, рассмотрение такого кодона в качетстве двухзаменного

способно привести лишь к недооценке сосредоточения. Действительно, мы считаем, что имеет место паттерн 0 (или 2), когда Н совпадает с М (или 13), и присутствие дополнительной замены на эволюционном пути крыса-мышь означает лишь, что целых три (а не две) замены произошли в линии крысы (или мыши). Переоценка сосредоточения возможна лишь при четырех или более заменах в двузаменном кодоне; столь высокая степень неэкономности, по-видимому, очень редко наблюдается у мыши и крысы. Далее, возможна смещенная неверная оценка ОПМК. Мы сравнили результаты для кодонов с ложным избытком (где эволюция на пути ОПМК-человек может привести к завышению наблюдаемых Р0 и Р2) и ложным недостатком (где такая эволюция ведет к занижению Р0 и Р2; см. Приложение). Избыток паттернов 0 и 2 лишь незначительно различается в этих двух противоположных случаях (Таблица 2; тест хи-квадрат, Р>0,1), что означает, что систематическое смещение в оценке ОПМК не влияет на наши результаты.

Напротив, случайные (несмещенные) ошибки в определении ОПМК способны лишь маскировать избыток паттернов 0 и 2. Даже если бы обе замены всегда происходили бы в одной и той же линии (Р1=0), мы бы наблюдали Р1 =1/6, если Н случайно дивергирует от ОПМК в трети случаев (исходя из предположения, что дивергировавший Н с вероятностью 50% совпадает с Ь или 12, а не с М или Я). Действительно, Р^ наименьший в генах с низким Кп (тест хи-квадрат, Р<0,01) и в консервативных областях генов (тест хи-квадрат, Р<0,001; Таблица 2), поскольку неверное определение ОПМК более редко при медленной дивергенции.

Данные по двухзаменным кодонам в 12 парах прокариотических геномов показывают, что избыток паттернов 0 и 2 у несинонимических замен - явление универсальное, и выражен сильнее, когда два генома сестринских видов и аутгруппа близки друг к другу (Таблица 4). Таким образом, сосредоточение несинонимичных замен в одной линии - реальный факт, наблюдение которого только затрудняется неверным определением предкового состояния.

Похожие диссертационные работы по специальности «Биологические науки», 03.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Базыкин, Георгий Александрович, 2007 год

Литература

1. Fisher, R.A. The Genetical Theory of Natural Selection (The Clarendon Press, Oxford,

1930).

2. Williams, G.C. Adaptation and natural selectbn; a critique of some current evolutionary

thought (Princeton University Press, Princeton, 1966).

3. Nielsen, R. Molecular signatures of natural selection. Annu Rev Genet 39,197-218

(2005).

4. Kimura, M. The Neutral Theory of Molecular Evolution (Cambridge Univ. Press,

Cambridge, 1983).

5. Yang, Z., Nielsen, R„ Goldman, N., and Pedersen, A.M. Codon-substitution models for

heterogeneous selection pressure at amino acid sites. Genetics 155,431-49 (2000).

6. Yang, Z. and Nielsen, R. Codon-substitution models for detecting molecular adaptation

at individual sites along specific lineages. Mol Biol Evol 19,908-17 (2002).

7. Travers, S.A., O'Connell, M.J., McCoimack, G.P., and Mclnemey, J.O. Evidence for

heterogeneous selective pressures in the evolution of the env gene in different human immunodeficiency virus type 1 subtypes. J Virol79,1836-41 (2005).

8. Guindon, S., Rodrigo, A.G., Dyer, K.A., and Huelsenbeck, J.P. Modeling the site-specific

variation of selection patterns along lineages. Proc Natl Acad Sei USA 101, 12957-62 (2004).

9. McDonald, J.H. and Kreitman, M. Adaptive protein evolution at the Adh locus in

Drosophila. Nature 351,652-4 (1991).

10. Smith, N.G. and Eyre-Walker, A. Adaptive protein evolution in Drosophila. Nature 415,

1022-4 (2002).

11. Gillespie, J. Molecular evolution over the mutational landscape. Evolution 38,1116-

1129 (1984).

12. Bazykin, G.A., Kondrashov, F.A., Ogurtsov, A.Y., Sunyaev, S„ and Kondrashov, A.S.

Positive selection at sites of multiple amino acid replacements since rat-mouse divergence. Nature 429,558-62 (2004).

13. Yang, Z. Maximum likelihood analysis of adaptive evolution in HIV-1 gp120 env gene.

Рас Symp Biocomput226-37 (2001).

14. Kosakovsky Pond, S.L. and Frost, S.D. Not so different after all: a comparison of

methods for detecting amino acid sites under selection. Mol Biol Evol22,1208-22 (2005).

15. Yang, W., Bielawski, J.P., and Yang, Z. Widespread adaptive evolution in the human

immunodeficiency virus type 1 genome. J Mol Evol 57, 212-21 (2003).

16. Choisy, M., Woelk, C.H., Guegan, J.F., and Robertson, D.L. Comparative study of

adaptive molecular evolution in different human immunodeficiency virus groups and subtypes. J Virol7Q, 1962-70 (2004).

17. Chen, L., Perlina, A., and Lee, C.J. Positive selectbn detection in 40,000 human

immunodeficiency virus (HIV) type 1 sequences automatically identifies drug resistance and positive fitness mutations in HIV protease and reverse transcriptase. J Virol7S, 3722-32 (2004).

18. Golding, G.В. The detection of deleterious selection using ancestors inferred from a

phylogenetic history. Genet Res 49,71-82 (1987).

19. Kwong, P.D. etal. Structure of an HIV gp120 envelope glycoprotein in complex with the

CD4 receptor and a neutralizing human antibody. Nature 393,648-59 (1998).

20. Ritola, K. etal. Multiple V1/V2 env variants are frequently present during primary

infection with human immunodeficiency virus type 1. J Virol78,11208-18 (2004).

21. Edwards, C.T. etal. Population genetic estimation of the loss of genetic diversity during

horizontal transmission of HIV-1. BMC Evoi Biol6,28 (2006).

22. Achaz, G. etal. A robust measure of HIV-1 population turnover within chronically

infected individuals. MolBblEvol21,1902-12 (2004).

23. Korber, B. T., Brander, C., Haynes, В., Koup, R., Moore, J. P., Kuiken, C., Walker, B.

D., and Watkins, D. HIV Immunology and Sequence Databases, Los Alamos National Laboratory, Los Alamos, NM. 2000.

24. Korber, B. etal. Timing the ancestor of the HIV-1 pandemic strains. Science 288,

1789-96 (2000).

25. Stajich, J.E. etal. The Bioperl toolkit: Perl modules for the life sciences. Genome Res

12,1611-8(2002).

26. Miyata, T., Miyazawa, S., and Yasunaga, T. Two types of amino acid substitutions in

protein evolution. J Mol Evol 12,219-36 (1979).

27. Yamaguchi-Kabata, Y. and Gojobori, T. Réévaluation of amino acid variability of the

human immunodeficiency virus type 1 gp120 envelope glycoprotein and prediction of new discontinuous epitopes. J Virol74,4335-50 (2000).

28. Humphrey, W., Dalke, A., and Schulten, K. VMD: visual molecular dynamics. J Mol

Graph 14,33-8, 27-8 (1996).

4. Параллельная эволюция:

различение положительного и отрицательного отбора

Независимо эволюционирующие линии, как правило, накапливают различные изменения, что приводит к их постепенной дивергенции. Однако параллельное накопление идентичных замен также широко распространено, особенно в признаках с малым числом возможных состояний. Мы описываем параллелизм в эволюции кодирующих последовательностей в трех группах видов млекопитающих, дрозофилы и дрожжей по четыре вида в каждой группе. Каждая такая группа содержит два независимых эволюционных пути, I и II. Аминокислотная замена, которая произошла на пути I, также происходила на пути II с вероятностью 50-80% от ожидавшейся при селективной нейтральности. Таким образом, скорость параллельной эволюции на сайт в белках в несколько раз выше, чем средняя скорость эволюции белков, но все же ниже, чем скорость эволюции нейтральных последовательностей. Этот дефицит может вызываться изменениями адаптивного ландшафта, ведущими к возможности замены на пути I, но не на пути II. Однако более вероятным объяснением представляется неизменный слабый отбор, постулируемый «почти нейтральной» моделью эволюции. В таком случае средний коэффициент отбора, связанный с аминокислотным замещением, должен превышать -0,4 в единицах эффективной численности популяции, а доля эффективно нейтральных замен должна быть ниже -30%. В большинстве аминокислотных сайтов, способных эволюционировать, разрешено лишь относительно небольшое число различных аминокислот.

Введение

Несмотря на то, что эволюция имеет преимущественно дивергентный характер, параллельные и конвергентные изменения в независимо эволюционирующих линиях (гомоплазия) также нередки (1). В частности, гомоплазия должна быть широко распространена, когда эволюция рассматривается на уровне последовательностей ДНК или аминокислот, поскольку в каждом сайте возможно лишь 4 или 20 возможных состояний. Когда различия между эволюционирующими последовательностями становятся достаточными, гомоплазийные изменения препятствуют их дальнейшей дивергенции, что ведет к эволюционному насыщению (2) и мешает восстановлению филогении (3). Однако вклад параллельных изменений в независимую эволюцию сходных последовательностей обычно не учитывается.

Данные по параллельным аминокислотным замещениям в белках могут пролить свет на несколько ключевых аспектов их эволюции. В частности, поскольку скорость несинонимичных нуклеотидных замен на сайт Кп, как правило, приблизительно в 10 раз меньше, чем скорость синонимичных нуклеотидных замен на сайт Кз, подавляющее большинство аминокислотных замен должно как правило затрудняться существенным отрицательным отбором (2,4). Однако нейтральная теория утверждает, что большинство аминокислотных замен, происходящих в эволюции, селективно нейтральны и, соответственно, должны накапливаться с той же скоростью, что и синонимичные замены (4, 5), если предположить, что последние также приблизительно селективно нейтральны. Это подразумевает относительно небольшую долю быстро происходящих аминокислотных замещений, которая может быть выявлена с использованием данных по параллельной эволюции белков.

Минимальное число дивергирующих последовательностей, позволяющее изучать параллельную эволюцию - четыре, поскольку филогенетическое древо должно содержать как минимум два неперекрывающихся эволюционных пути - I и II.

В этой работе мы используем последовательности трех четверок близкородственных геномов млекопитающих, плодовой мушки ОговорШЬ и дрожжей вассЬаготусез, и исследуем параллельную эволюцию в этих четверках на уровне всех известных белков, кодируемых геномом. Мы определяем скорость параллельной эволюции на пути II как скорость, с которой аллельные замещения определенного типа накапливались на этом пути, если то же замещение произошло в ортологичном локусе на пути I, и измеряем эту скорость для разных типов аллельных замещений.

Результаты

Анализ выравниваний. Филогенетические древа, использованные в нашем анализе, показаны на рис. 1. Эволюционные пути, соединяющие человека и собаку, D. yakuba и D. еrecta, и S. bayanus и S. mikatae, рассматриваются как "пути I", а пути мышь-крыса, D. melanogaster-D. simulans и S. cerevisiae-S. paradoxus, являющиеся более короткими путями на соответствующих древах, рассматриваются как "пути II". Таким образом, аминокислотные замены на пути I маркируют сайты, способные эволюционировать, а замены в этих сайтах на пути II показывают, как такие сайты эволюционируют.

Данные по скоростям параллельной и совпадающей дивергентной эволюции белков представлены в Таблицах 1-3. В соответствии с предыдущими оценками (68), общая скорость несинонимичных замен составляет приблизительно 10% скорости синонимичных замен. Напротив, средняя скорость параллельных несинонимичных замен Р гораздо выше и составляет -50% (дрожжи), -60% (млекопитающие) или -80% (Drosophila) скорости параллельных синонимичных замен. Если предположить, что адаптивный ландшафт для аминокислотного сайта оставался неизменным в течение эволюции, представленной каждым древом, из этих чисел можно сделать ряд выводов.

Изменчивость среди отдельных сайтов. Предположим, что в локусе (сайте) возможно только два аллеля (аминокислотных варианта). Соответствующий селективный коэффициент s составляет 1-W/W2, где W! и w2 - постоянные приспособленности, сообщаемые двумя аллелями (w, < w2). Очевидно, s находится в диапазоне от 1 (летальность худшего аллеля) до 0 (селективная нейтральность). При заданных параметрах мутагенеза и эффективном размере популяции Ne скорость эволюции в сайте v, т.е. частота переключений между закреплениями двух аллелей, определяется s: v = f(s). Когда s достаточно велико (»Ne"1), сайт обычно занят лучшим аллелем, и отрицательный отбор препятствует закреплению худшего аллеля. Напротив, когда s < Ne , любой из аллелей может быть закреплен в данный момент времени. Если предположить равные скорости прямых и обратных мутаций, то v максимально и равно скорости нейтральной эволюции М при s = 0 и монотонно приближается к 0 с увеличением s ((4, 9); рис. 2).

Опишем все белковые сайты их распределениями s, p(s), и v, q(v). Тогда q(v) = p(f1(v)), где f'1 - функция, связывающая s со скоростью эволюции: s = f1(v). Средняя скорость эволюции во всех сайтах составляет (все интегралы от 0 до 1)

C = ip(s)f(s)ds = Jvq(v)dv (1)

Распределение в в сайтах, в которых имела место параллельная эволюция, т.е. одна и та же замена произошла на обоих коротких путях I и II, определяется не

собственно p(s), a p'(s) = p(s)f(s)/C, поскольку вероятность того, что замена произошла на пути I, пропорциональна скорости эволюции в сайте. Аналогично, распределение v в таких сайтах составляет q'(v) = vq(v)/C. Таким образом, средняя скорость эволюции сайтов, способных эволюционировать, равна

Р = ip(s)f2(s)ds/C = i^q^dv/C (2)

Мы измеряем эту скорость в единицах скорости нейтральной эволюции М, Рм = р/М, измеряя скорость параллельной эволюции. Что говорит нам знание Рм (напр. 0,7) о p(s) или q(v)? Простейший вариант - что q'(v) и, соответственно, «родительское» распределение q(v) сосредоточено в Рм = 0,7, a p(s) сосредоточено в s0 = f 1(0,7) ~1.5/(4Ne) (рис. 3). Конечно, этого не может быть, поскольку разные аминокислотные сайты эволюционируют с сильно различающимися скоростями (4), а также поскольку это было бы несовместимо с наблюдаемыми различиями между Р и С. Тем самым, среднее значение s в сайтах параллельной эволюции S = Jp'(s)sds должно быть выше, чем f 1(Р), поскольку сайты с селективными коэффициентами выше среднего делают меньший вклад в эволюцию, чем сайты с селективными коэффициентами ниже среднего (рис. 2). Предполагая любую определенную форму p(s) (например, что p(s) является гамма-распределением с определенным параметром формы; (10)), мы можем вычислить S, соответствующее наблюдаемому Рм-

Более того, мы можем оценить максимальную долю эффективно нейтральных сайтов (т.е. эволюционирующих практически с нейтральной скоростью 1), совместимую с наблюдаемым Рм. Действительно, вклад сайта с определенной v= v0 в снижение Р равен (P-v0)v0. Этот вклад наибольший, когда d[(P-v)v]/dv = 0, т.е. когда v0 = 0,5Р. Таким образом, доля х нейтрально эволюционирующих сайтов является наибольшей для данного Р, когда существует лишь два класса сайтов -эволюционирующие со скоростью 1 и 0,5Р. Средняя скорость эволюции при таком q(v), [х+(1 —х)Р2/4]/[х+(1 -х)Р/2)], равна Р, когда х= (Р/(2-Р))2. Таким образом, при Рм = 0,9,0,8,0,7,0,6 и 0,5 максимальная возможная доля эффективно нейтральных сайтов составляет соответственно 0,67,0,44,0,30,0,18 и 0,11 (рис. 3). Разумеется, в реальности эта доля должна быть ниже, поскольку p(s) и q(v) не сосредоточены лишь в двух точках.

Обсуждение

Паттерны параллельной эволюции. Наши данные показывают, что скорость параллельной эволюции кодирующих последовательностей повышена: вероятность изменения на пути II выше среднего в сайтах, где та же нуклеотидная замена также произошла на пути I. Это верно даже для синонимичных замен: синонимичная замена на пути II на -20% более вероятна, если та же замена также произошла на пути I (Таблицы 1-3). Что касается синонимичных замен, к наблюдаемым различиям может вести разнородность скоростей мутации и/или силы отбора между сайтами. Оба механизма вполне возможны, поскольку скорость мутирования изменяется между нуклеотидными сайтами (11) и поскольку синонимичные сайты не совсем нейтральны (12) и не являются взаимоисключающими, но мы не пытались оценить их относительную важность. Скорость параллельных синонимичных замен использовалась для оценки скорости селективно нейтральной параллельной несинонимичной эволюции.

Скорость параллельных несинонимичных замен Р повышена гораздо сильнее, чем скорость параллельных синонимичных замен. Действительно, в единицах скорости нейтральной эволюции M средняя скорость всех синонимичных замен составляет лишь -0.1, а Р равна 0.5-0.8 (Таблицы 1-3). Направление этого различия соответствует ожидавшемуся: поскольку скорости несинонимичных замен существенно неоднородны между сайтами (4,13), замещение, наблюдаемое на пути I, должно быть хорошим предсказателем для возможности замены в том же сайте на пути II. Р выше для быстро эволюционирующих белков, или когда замена включает две химически сходные аминокислоты. Скорость совпадающей дивергентной эволюции, такой, что аминокислотная замена АоС произошла на пути II в аминокислотном сайте, в котором на пути I произошла замена АоВ, всегда гораздо ниже скорости параллельной несинонимичной эволюции, но все же выше, чем средняя скорость всех несинонимичных замещений (Таблицы 1-3).

Паттерны параллельной эволюции белков специфическим образом выявляют свойства лишь тех несинонимичных сайтов, которые способны эволюционировать. В самом деле, низкая общая скорость белковой эволюции означает, что -90% всех новых несинонимичных мутаций отвергается отрицательным отбором, но мало что говорит нам о тех сайтах, в которых несинонимичные замены все же происходят. В принципе, если предположить, что отбор постоянен, распределения p'(s) и q'(v), описывающие эволюционирующие сайты, могут быть выведены из p(s), поскольку f(s) известно теоретически (рис. 2). Однако сейчас это невозможно, поскольку имеющиеся данные, описывающие p(s), слишком приблизительны. На самом деле p'(s) зависит только от левого хвоста p(s), приблизительно соответствующего 4Nes <10 (поскольку сайты под более сильным отбором не эволюционируют), и мы знаем, что этот хвост содержит 10-20% распределения (14,15), но не знаем ничего определенного о его форме. Иногда предполагается, что p(s) (10), а также q(v) (16), являются гамма-распределениями, но оба эти предположения не могут быть верными одновременно, и этот вопрос остается неясным.

Отбор в сайтах, способных эволюционировать. Лучший способ осмысления данных, представленных в Таблицах 1-3 - рассмотрение возможных причин относительно небольшого отклонения средней скорости параллельной белковой эволюции Р от скорости нейтральной эволюции М. В самом деле, в соответствие с нейтральной теорией (4, 5), большинство осуществляющихся аминокислотных замен селективно нейтральны, и в таком случае эти скорости должны совпадать. Различие между Р и M может быть связано с изменяющимся или неизменным отбором.

Изменяющийся адаптивный ландшафт. Единственная вообразимая причина, про которой возможно было бы Р > 1 - положительный отбор, вызываемый множественными изменениями адаптивного ландшафта. Лишь в этом случае положительный отбор может вызывать параллельный замены на обоих путях I и II. Действительно, две параллельные замены, вызываемые отбором, вряд ли могут вызываться единственным изменением адаптивного ландшафта в общем предке всех четырех видов (рис. 1), поскольку замещение следовало бы за таким изменением лишь с относительно небольшим запаздыванием (4). Поэтому для параллелизма необходимо по меньшей мере два независимых изменения адаптивного ландшафта - по одному в каждой линии. Хотя быстро флуктуирующий отбор, приводящий к Кп > Ks (17) и к параллельной эволюции ((18) и ссылки в этой работе), многократно наблюдался, сайты под таким отбором довольно редки, по крайней мере в геномах млекопитающих (19).

Поэтому не удивительно, что Р < 1. Это может быть связано как с изменяющимся, так и с неизменным отбором. Если адаптивные ландшафты различаются между путями I и II, то некоторые замещения, разрешенные на пути I, запрещены на пути II. В крайнем случае независимых ландшафтов на двух путях скорость параллельной эволюции не была бы повышена вовсе. В отличие от случая с Р > 1, единственного изменения адаптивного ландшафта в некоторой точке между путями I и II вполне достаточно для объяснения Р < 1.

Разрешенная замена на пути I может быть либо эффективно нейтральной, либо вызываться существенным положительным отбором. Два наблюдения свидетельствуют о маловероятности первого варианта. Временные возможности нейтральной эволюции были описаны моделью ковариона (20), предполагающей, что отбор в аминокислотном сайте включается и выключается в результате аминокислотных замещений в другой точке белка. Поскольку среда, в которой находится аминокислотный сайт, более стабильна в медленноэволюционирующих белках, в таких белках коварион предоставляет наименьшую возможность для нейтральности, ограничивающейся одним путем, и должен приводить к наименьшему снижению Р в таких белках. Однако наблюдается обратное: Р был наименьшим в белках с низкой Кп (Таблицы 1-3). Далее, эволюционное расстояние между путями I и II гораздо выше в филогении млекопитающих, чем в двух других филогениях (рис. 1), что должно приводить к большему числу включений и выключений селективного ограничения между путями и, соответственно, более сильному снижению Р у млекопитающих. Однако Р наименьшая у дрожжей, а не у млекопитающих.

Напротив, самое сильное снижение Р в медленноэволюционирующих белках соответствует гипотезе о том, что положительный отбор играет большую роль в эволюции медленноэволюционирующих сайтов (Глава 3, 21). Тем не менее сложно представить себе, что более 50% всех аминокислотных замен, принятых медленноэволюционирующими белками, были адаптивными, а это предположение необходимо для объяснения Р < 0.5 в таких белках (Таблицы 1-3) через положительный отбор, действующий только на одном из путей. Кроме того, представляется маловероятным, чтобы изменения адаптивного ландшафта способствовали радикальным заменам чаще, чем консервативным, а снижение Р -наибольшее для замен, которые радикально изменяют аминокислоту (Таблицы 1-3). Наконец, самая низкая скорость совпадающей дивергентной эволюции по сравнению с Р в медленноэволюционирующих белках (Таблицы 1-3) означает, что в таких белках наибольшие приспособленности как правило соответствуют одной и той же паре аминокислот вдоль всего филогенетического древа, что, по-видимому, несовместимо с частными изменениями адаптивного ландшафта, если только такие изменения не влияют как правило на то, какие две аминокислоты являются наилучшими.

Неизменный адаптивный ландшафт. Более простое предположение о постоянном отборе, по-видимому, предоставляет более правдоподобное объяснение наблюдаемым паттернам. Р < 1 ожидается всегда, если две аминокислоты, участвующие в замене, находятся под постоянным отбором (рис. 2), и если мутации симметричны (см. (12)). Р = 0,7 соответствует среднему селективному коэффициенту, связанному с принятой заменой, равному 1,5/(41Ме) = 0,375^ или более, и доле строго нейтральных замен, равной -30% или менее. В реальности отбор на принятые замены, скорее всего, еще выше, поскольку мы недооценили скорость нейтральной эволюции, превышающую у млекопитающих скорость синонимичной эволюции в сайтах, не склонных к Срв, приблизительно на 10% (12).

Таким образом, наши данные по параллельной эволюции белков дают основания полагать, что большинство аминокислотных замен происходит в сайтах, которые не являются эффективно нейтральными, но испытывают слабый отбор в соответствии с теорией «почти нейтральной» эволюции (22,23). Наибольшая Р у замен, включающих наиболее химически сходные пары аминокислот (Таблицы 1-3), также соответствует этому объяснению, поскольку такие замены должны быть под более слабым отбором, чем радикальные замены.

Если эволюционирующие линии находятся в мутационно-селекгивно-дрейфовом равновесии, то общие количества слабовредных и слабополезных замен должны быть равными, хотя в каждый конкретный момент времени сайт чаще бывает занят (слегка) лучшим аплелем и, таким образом, испытывает отрицательный отбор. Несмотря на это, в каждый конкретный момент времени доля аминокислотных сайтов, занятая слегка худшим аплелем, должна существенно превышать -10% всех белковых сайтов, способных эволюционировать (рис. 2), и, соответственно, существенно превышать 1% от всех -107 белковых сайтов организма. Отбор с в -10"5, действующий против >105 слабовредных аминокислот, должен вызывать существенный генетический груз (24).

Подмножества разрешенных аминокислот в сайтах. Скорости совпадающей дивергентной эволюции белков приблизительно в 3 раза выше, чем их средние скорости эволюции, но все же существенно ниже, чем скорости параллельной эволюции (Таблицы 1-3). Действительно, скорости замен в аминокислотном сайте, включающих разные пары аминокислот, могут различаться очень сильно и должны анализироваться по отдельности (17). Очевидно, что даже в сайте, способном эволюционировать, разрешена не каждая аминокислота.

Средний селективный коэффициент >1,5/(4Ме), связанный с параллельными заменами, означает, что отношение равновесных частот двух предпочитаемых аминокислот в аминокислотном сайте составляет -4:1 (рис. 2), если предполагать, что две аминокислоты, участвующие в параллельном замещении, обычно имеют наибольшие приспособленности. Поскольку для совпадающей дивергентной эволюции Р -0,3 (Таблицы 1-3), соответствующий средний селективный коэффициент должен быть >2,5/(4Ме), а отношение равновесных частот предпочтительной к непредпочтительной аминокислоты составляет -20:1 (рис. 2). Таким образом, по грубой оценке, типичный аминокислотный сайт, способный эволюционировать, должен быть занят предпочитаемой аминокислотой, второй лучшей аминокислотой и другими возможными аминокислотами с частотами -75%, -15% и -10%.

Разумеется, множества допустимых аминокислот очень сильно различаются между сайтами. Скорость совпадающей дивергенции на пути II выше в тех аминокислотных сайтах, где дивергенция на пути I включает пару химически несходных аминокислот. Таким образом, если в аминокислотном сайте допустимы две несходные аминокислоты, остальные аминокислоты также разрешены с большей вероятностью. Известно, что число допустимых аминокислот сильно варьирует между аминокислотными сайтами (25,26) и что в разных сайтах допустимы разные подмножества аминокислот (27, 28). Для дальнейшего исследования этих подмножеств можно использовать данные по параллельной эволюции на многих независимых путях.

Методы

Ортологи человека, собаки, мыши и крысы, а также четырех генов васФаготусез, были установлены методом двустороннего лучшего белкового

совпадения BLAST (29,30) с использованием системы извлечения Entrez (31) аннотированных белковых кодирующих последовательностей из завершенных геномов дрожжей и млекопитающих, доступных в NCBI (32). Выравнивания аминокислотных последовательностей для каждой четверки были осуществлены с помощью ClustalW (33) и обратно транскрибированы для получения выравниваний последовательностей ДНК.

Для выравнивания полногеномных сборок D. melanogaster, D. simulans, D. yakuba и D. erecta мы использовали алгоритм полногеномного множественного выравнивания, имплементированный в VISTA Genome Pipeline (Brudno et al., готовится к печати). Этот алгоритм состоит из двух основных модулей - попарное выравнивание сестринских таксонов и прогрессивное множественное выравнивание. Первый модуль использует глокальный (гибридный глобально-локальный) подход, основанный на повторной имплементации исходного алгоритма построения цепей Shuffle-LAGAN (S-LAGAN) (34,35) в сочетании со стадией последующей обработки SuperMap. Алгоритм построения цепей S-LAGAN принимает в качестве ввода набор локальных выравниваний между двумя последовательностями и возвращает их подмножество с наибольшими очками для определенных критериев промежутков. Для того, чтобы позволить нашему выравниванию включать дупликации в обоих геномах, алгоритм SuperMap берет два вывода S-LAGAN для каждой последовательности в базе данных. Затем мы классифицируем все локальные выравнивания как принадлежащие обеим цепям, т.е. ортологичные (лучшие двусторонние совпадения), или присутствующие лишь в одной цепи, т.е. дупликации. После выравнивания двух пар сестринских таксонов (melanogaster/simulans и yakuba/erecta) мы использовали прогрессивное обобщение попарного алгоритма SuperMap для выравнивания двух геномов друг с другом и получили четырехстороннее выравнивание. Наш алгоритм основан на нахождении соответствия в графе, имеющего наибольший вес, где веса определяются геномами аутгруппы, для упорядочения отдельных блоков выравниваний в вероятной последовательности у предков melanogaster/simulans и yakuba/erecta. Затем мы выравниваем получившиеся последовательности, упорядоченные по предкам, друг с другом с помощью LAGAN (36). Для того, чтобы ограничиться в анализе однозначными ортологами «один к одному», все случаи, в которых открытая рамка считывания в одном виде выравнивалась более чем с одной открытой рамкой считывания в другом виде, исключались из анализа. Поскольку существенная доля кодирующих областей Drosophila имела продолжительные сегменты, состоящие из неоднозначно расшифрованных нуклеотидов, и внутренние стоп-кодоны, мы предполагали, что такие сегменты могли иметь неверную длину из-за ошибок секвенирования. Поэтому мы изменяли длины сегментов, состоящих из неоднозначно расшифрованных нуклеотидов, если это позволяло нам уменьшить число внутренних стоп-кодонов в кодирующих областях.

Kg и Кп оценивались с использованием попарных нуклеотидных выравниваний, взятых из четырехвидовых выравниваний для каждой пары видов, с использованием программы codeml из пакета PAML (37). Для удаления ошибочных и неортологичных выравниваний генов те выравнивания, в которых попарные Ks и/или Кп между любой парой видов превышали заданное заранее значение, исключались из анализа. Пограничные значения выбирались вручную для исключения выпадающих выравниваний. Значения Ks и Кп, полученные PAML и усредненные по всем оставшимся генам, использовались в качестве межвидовых расстояний при создании филогенетических древ, показанных на рис. 1, методом объединения соседей. Гены разделялись натри равновеликие группы (с низкой, промежуточной и высокой Кп) в соответствии со значением Кп между видами пути II. Общее число проанализированных четверок ортологичных видов составило 11 105 для

млекопитающих, 3 735 для Drosophila и 3 040 для дрожжей. Все выравнивания и скрипты Perl, использованные для анализа, предоставляются по требованию.

Для исключения ошибочных областей выравниваний, которые могут возникать из-за ошибок сборки или аннотации геномов, мы анализировали только те кодоны, которые были фланкированы выравниваниями без промежутков из десяти или более кодонов с каждой стороны. Во избежание эффекта гипермутабильности динуклеотида CpG у млекопитающих мы включали в анализ геномов млекопитающих только сайты, не склонные к CpG, т.е. те, которым не предшествовал С и за которыми не следовал G.

Синонимичная дивергенция оценивалась на основе выравниваний четырехкратно вырожденных сайтов, фланкированных с каждой стороны нуклеотидом, сохраненным между всеми четырьмя видами. Мы определяли синонимичную дивергенцию между двумя видами для неупорядоченной пары нуклеотидов (А, В) как отношение числа сайтов, в которых один вид несет А, а другой - В, к общему числу сайтов, в которых оба вида несут А, оба вида несут В или же один вид несет А, а другой - В.

Несинонимичная дивергенция оценивалась только на основе невырожденных нуклеотидных сайтов, т.е. тех сайтов в первой и второй нуклеотидной позиции кодона, в которых все четыре нуклеотида соответствуют разным аминокислотам. При анализе дивергенции в нуклеотидном сайте аминокислотные сайты с дивергенцией более чем в одном нуклеотидном сайте данного аминокислотного сайта между любыми двумя из четырех видов исключались из анализа. При анализе дивергенции в различных нуклеотидных сайтах между путями I и II (т.е. когда виды дивергировали на пути I в первом нуклеотидном сайте, а на пути II - во втором нуклеотидном сайте аминокислотного сайта или наоборот) мы требовали, чтобы лишь один нуклеотид различался между аминокислотными сайтами у каждых двух видов. Несинонимическая дивергенция для пары нуклеотидов (А, В) определялась аналогично синонимичной дивергенции.

Химическое расстояния между двумя аминокислотами полагалось равным соответствующему члену матрицы Мияты (38). Ранг расстояния однонуклеотидной несинонимической замены между кодонами ci и сг принимал значения (1,1,5, 2,2,5, 3) и рассчитывался как среднее двух значений: 1) ранга аминокислотного расстояния d(cu с2) среди всех расстояний d(cu сп), где сп - все кодоны (исключая стоп-кодоны), которые можно получить заменой одного нуклеотида из кодона <?,; 2) ранг аминокислотного расстояния d(cb сг) среди всех расстояний d(cm, с2), где ст - все кодоны (исключая стоп-кодоны), которые можно получить заменой одного нуклеотида из кодона сг.

Таблицы и рисунки

Таблица 1. Дивергенция между мышью и крысой в сайтах дивергенции между человеком и собакой

Синонимическая Общая1 Парал-лельная2

Несинонимическая

Общая

Совпадающая

Параллельная"

Дивергентная

В одном сайте В разных сайтах

Пары нуклеотидов

АС 0,028 0,047 0,0028(10,1%) 0,024(122,51,4%) 0,013(280,27,0%)

AG 0,089 0,109 0,0102(11,5%) 0,069(1570,62,9%) 0,040(448,36,2%)

AT 0,021 0,024 0,0017(8,4%) 0,028(80,117,4%) 0,008(118,32,6%)

CG 0,029 0,036 0,0033(11,5%) 0,021 (156,57,3%) 0,014(302,38,1%)

СТ 0,076 0,090 0,0060 (7,9%) 0,051 (492,56,5%) 0,027 (239,30,3%)

GT 0,027 0,040 0,0019(7,0%) 0,023(69,56,6%) 0,010(175,25,7%)

Среднее 0,045 0,058 0,0043(9,6%) 0,036(2489,62,1%) 0,019(1562,32,2%)

0,010(306,21,1%) 0,037 (923, 33,9%) 0,006 (148, 23,5%) 0,011 (332,29,5%) 0,020 (685, 22,6%) 0,006 (168,15,8%) 0,015 (2562,26,0%)

Гены

Низкая Кп 0,043 0,059

Средняя Кп 0,046 0,058

Высокая Кп 0,047 0,057

Химическое расстояние между аминокислотами7

1 0,045 0,058

1,5 или 2 0,045 0,058

2,5 или 3 0,045 0,058

0,0019 (4,3%) 0,0045 (9,9%) 0,0086 (18,5%)

0,0043 (9,6%) 0,0043 (9,6%) 0,0043 (9,6%)

0,028 (315, 47,1%) 0,036(895,61,7%) 0,038 (1279, 67,6%)

0,038 (516, 65,0%) 0,033 (1537, 57,8%) 0,031 (436, 53,7%)

0,012(145,21,1%) 0,017 (526, 29,6%) 0,021 (891,37,6%)

0,012 (344, 20,1%) 0,025 (834, 42,5%) 0,023 (384, 40,4%)

0,009 (195, 14,8%) 0,013(785,21,8%) 0,019 (1582, 32,7%)

0,016 (662, 27,3%) 0,014 (1268,24,7%) 0,018(632,31,0%)

Дивергенция мышь-крыса во всех 4-кратно синонимических нуклеотидных сайтах.

2Дивергенция мышь-крыса лишь в тех 4-кратно синонимических нуклеотидных сайтах, в которых человек и собака также

претерпели дивергенцию по той же неупорядоченной паре нуклеотидов.

3Дивергенция мышь-крыса во всех невырожденных несинонимических сайтах. В скобках приведена степень этой дивергенции в сравнении с общей синонимической дивергенцией мышь-крыса.

дивергенция мышь-крыса в тех невырожденных несинонимических сайтах, в которых человек и собака также претерпели дивергенцию по той же неупорядоченной паре нуклеотидов и аминокислот. В скобках приведено число сайтов такой дивергенции мышь-крыса и степень этой дивергенции в сравнении с параллельной синонимической дивергенцией мышь-крыса. 5Дивергенция мышь-крыса в невырожденных несинонимических сайтах, принадлежащих тем аминокислотным сайтам, в которых человек и собака также претерпели несинонимическую дивергенцию, либо в том же, либо в другом нуклеотидном сайте, но по другой неупорядоченной паре нуклеотидов и аминокислот. В скобках приведено число сайтов такой дивергенции мышь-крыса и степень этой дивергенции в сравнении с параллельной синонимической дивергенцией мышь-крыса.

6Гены были подразделены на три равновеликих группы в соответствии с их скоростями несинонимичной эволюции на пути между мышью и крысой.

7Ранг расстояния по Мияте между аминокислотами человека и собаки среди расстояний между всеми парами аминокислот, которые могут получиться заменой в том же нуклеотидном сайте.

Таблица 2. Дивергенция между Р. melanogaster и Р. simulans в сайтах дивергенции между Р. yakuba и Р. erecta.1

Синонимическая Общая Параллельная

Несинонимическая

Общая

Совпадающая

Параллельная

В одном сайте

Дивергентная

В разных сайтах

Пары нуклеотидов

АС 0,028 0,040

АЭ 0,055 0,070

АТ 0,035 0,047

Св 0,022 0,031

СТ 0,060 0,068

ЭТ 0,027 0,036

Среднее 0,038 0,049

Гены

Низкая Кп 0,035 0,048

Средняя Кп 0,038 0,048

Высокая Кп 0,041 0,051

Химическое расстояние между аминокислотами

1 0,038 0,049

1,5 или 2 0,038 0,049

2,5 или 3 0,038 0,049

0,0025 0,0056 0,0024 0,0033 0,0037 0,0020 0,0033

(9,2%) (10,3%) (6,7%) (15,0%) (6,2%) (7,6%) (8,6%)

'Эта таблица аналогична таблице 1.

0,0008 (2,3%) 0,0029 (7,4%) 0,0072 (17,5%)

0,0033 (8,6%) 0,0033 (8,6%) 0,0033 (8,6%)

0,034 0,053 0,041 0,036 0,045 0,032 0,040

(110, 86,5%) (431,75,3%) (119, 86,4%) (113, 114,9%) (152, 65,8%) (58,88,1%) (983, 82,2%)

0,026 (97, 53,8%) 0,037 (319, 77,1%) 0,046 (567, 90,9%)

0,048 (349, 98,2%) 0,037(461,75,7%) 0,032 (173, 65,4%)

0,011 0,023 0,014 0,011 0,020 0,010 0,015

(99,28,7%) (141,32,7%) (93, 28,9%) (88, 35,0%) (103, 29,6%) (83,27,9%) (607, 30,5%)

0,006(41,13,6%) 0,012 (175, 25,4%) 0,019 (391, 37,5%)

0,008 (143, 16,7%) 0,016 (300, 32,0%) 0,019(164,39,3%)

0,009 (119, 23,7%) 0,020 (207, 28,8%) 0,007 (74,15,3%) 0,010(91,31,2%) 0,010 (98,15,3%) 0,010 (67, 27,2%) 0,011 (656, 22,8%)

0,004 (33, 7,9%) 0,009 (182, 18,5%) 0,015(441,29,1%)

0,010(160, 19,8%) 0,011 (338, 21,8%) 0,015 (158, 30,6%)

Таблица 3. Дивергенция между S. cerevisiae и S. paradoxus в сайтах дивергенции между S. mikatae и S. bayanus.1

Синонимическая

Несинонимическая

Общая

Параллельная

Общая

Совпадающая

Параллельная

Дивергентная

В одном сайте В разных сайтах

Пары нуклеотидов

АС 0,055 0,061 0,0037 (6,8%) 0,035 (132, 57,2%) 0,018 (217, 29,6%) 0,012 (223, 20,0%)

AG 0,198 0,218 0,0189 (9,5%) 0,110 (1941,50,5%) 0,070 (459,31,9%) 0,054 (851,24,6%)

AT 0,044 0,064 0,0029 (6,6%) 0,038 (116,59,2%) 0,015 (158, 24,0%) 0,006 (107, 9,2%)

CG 0,061 0,074 0,0053 (8,6%) 0,039 (117, 52,7%) 0,021 (214, 28,3%) 0,014 (129,18,6%)

СТ 0,169 0,208 0,0090 (5,3%) 0,095 (476, 45,7%) 0,044 (249,21,1%) 0,025 (310,11,9%)

GT 0,044 0,062 0,0025 (5,6%) 0,047 (76,76,1%) 0,012 (143,19,4%) 0,007 (64,11,1%)

Среднее 0,095 0,115 0,0070 (7,4%) 0,061 (2858, 53,0%) 0,030 (1440, 26,2%) 0,020 (1684,17,1%)

О) <о

Гены

Низкая Кп 0,085 0,110

Средняя Кп 0,101 0,117

Высокая Кп 0,103 0,117

Химическое расстояние между аминокислотами

1 0,095 0,115

1,5 или 2 0,095 0,115

2,5 или 3 0,095 0,115

'Эта таблица аналогична таблице 1.

0,0029 (3,4%) 0,0070 (6,9%) 0,0128 (12,5%)

0,0070 (7,4%) 0,0070 (7,4%) 0,0070 (7,4%)

0,049 (403, 45,0%) 0,062 (976, 52,6%) 0,064 (1479, 54,3%)

0,060 (969, 52,7%) 0,061 (1482,53,0%) 0,053 (407, 46,7%)

0,015 (135,13,7%) 0,027 (435, 23,0%) 0,038 (870, 32,1%)

0,016 (308, 13,7%) 0,032 (729, 27,9%) 0,040 (403, 34,6%)

0,011 (161,10,1%) 0,018 (527, 15,2%) 0,024 (996, 20,3%)

0,019 (434,16,2%) 0,018 (892,15,4%) 0,032 (358, 28,0%)

.Собака

0.039 0.285

0.041 0.380

Человек

0.027 0.170

■ Мышь

0.015 0.097

0.015 0.121

0.020 0.117

—■Крыса

™ О. егес1а

0.015

0.107

0.014 0.124

■О. уакиЬа

г Б. Ьзуапив

0.063 0.764

■ О. тв!аподаз(ег 0.008 0.074

0.009 0.061

■О. э/ти/аля

0.012 0.145

.Э. т1ка1ае

0.037 0.361

сегечмае

0.023 0.257

0.023 0.117

шт Б рагас1охи5

Рис. 1. Филогенетические древа, использованные в нашем анализе и изображенные с соблюдением масштаба. Для каждого ребра показаны средняя дивергенция на сайт в несинонимических (красным) и синонимических (синим) сайтах. Зелеными отрезками обозначены пути I, используемые для определения сайтов, способных эволюционировать; малиновыми линиями - пути II, используемые для измерения скоростей эволюции в этих сайтах.

0.8

. V = I (Э)

Частота аллеля

0.8 Ш

н

0 -1

СО

0.6 X

1

Е

со

0.4 3

Ш ф

0.2 а аз

10

4Ы Б

Рис. 2. Скорость эволюции V в единицах скорости нейтральной эволюции М и частота худшего аллеля как функции 4Ыез (9).

0.8

0.6

V5-Q.

0.4

0.2

1.5

2.5

4N S

e

Рис. 3. Распределения селективных коэффициентов p(s), соответствующее минимальному среднему селективному коэффициенту (синяя линия) и максимальной доли селективно нейтральных сайтов (красные линии), в предположении, что средняя скорость параллельной эволюции Р составляет 0,7 скорости нейтральной эволюции. Вертикальными линиями обозначены дельта-функции.

Литература

1. Futuyma, D.J. Evolution (Sinauer Associates, Sunderland, 2005).

2. Li, W.H. Molecular evolution (Sinauer Associates, Sunderland, 1997).

3. Delsuc, F., Brinkmann, H., and Philippe, H. Phylogenomics and the reconstruction of the

tree of life. Nat Rev Genet6,361-75 (2005).

4. Kimura, M. The neutral theory of molecular evolution (Cambridge University Press,

Cambridge, 1983).

5. Kimura, M. Evolutionary rate at the molecular level. Nature 217,624-6 (1968).

6. Gibbs, R.A. etal. Genome sequence of the Brown Norway rat yields insights into

mammalian evolution. Nature 428,493-521 (2004).

7. Kellis, M., Patterson, N.. Endrizzi, M., Birren, В., and Lander, E.S. Sequencing and

comparison of yeast species to identify genes and regulatory elements. Nature 423, 241-54 (2003).

8. Bergman, C.M. etal. Assessing the impact of comparative genomic sequence data on

the functional annotation of the Drosophila genome. Genome Biol3, RESEARCH0086 (2002).

9. Bulmer, M.The selection-mutation-drift theory of synonymous codon usage. Genetics

129,897-907(1991).

10. Kimura, M. Model of effectively neutral mutations in which selective constraint is

incorporated. Proc Natl Acad Sci USA76,3440-3444 (1979).

11. Hwang, D.G. and Green, P. Bayesian Markov chain Monte Carlo sequence analysis

reveals varying neutral substitution patterns in mammalian evolution. Proc Natl Acad SciUS A101,13994-4001 (2004).

12. Kondrashov, F.A., Ogurtsov, A.Y., and Kondrashov, A.S. Selection in favor of

nucleotides G and С diversifies evolution rates and levels of polymorphism at mammalian synonymous sites. J TheorBiol240,616-26 (2006).

13. Grishin, N.V., Wolf, Y.I., and Koonin, E.V. From complete genomes to measures of

substitution rate variability within and between proteins. Genome Res 10,9911000 (2000).

14. Yampolsky, L.Y., Kondrashov, F.A., and Kondrashov, A.S. Distribution of the strength

of selection against amino acid replacements in human proteins. Hum Mol Genet 14,3191-201 (2005).

15. Eyre-Walker, A., Woolfit, M., and Phelps, T. The distribution of fitness effects of new

deleterious amino acid mutations in humans. Genetics 173,891-900 (2006).

16. Ota, T. and Nei, M. Estimation of the number of amino acid substitutions per site when

the substitution rate varies among sites. J Mol Evol38,642-643 (1994).

17. Chen, L., Perlina, A., and Lee, C.J. Positive selection detection in 40,000 human

immunodeficiency virus (HIV) type 1 sequences automatically identifies drug resistance and positive fitness mutations in HIV protease and reverse transcriptase. J Virol78,3722-32 (2004).

18. Zhang, J. Parallel adaptive origins of digestive RNases in Asian and African leaf

monkeys. NatGenetZZ, 819-23 (2006).

19. Subramanian, S. and Kumar, S. Higher intensity of purifying selection on >90% of the

human genes revealed by the intrinsic replacement mutation rates. Mol Biol Evol 23, 2283-7 (2006).

20. Fitch, W.M. and Markowitz, E. An improved method for determining codon variability in

a gene and its application to the rate of fixation of mutations in evolution. Biochem Genet A, 579-93 (1970).

21. Bazykin, G.A., Dushoff, J., Levin, S.A., and Kondrashov, A.S. Bursts of

nonsynonymous substitutions in HIV-1 evolution reveal instances of positive selection at conservative protein sites. Proc Natl Acad Sci USA 103,19396-401 (2006).

22. Ohta,T. Slightly deleterious mutant substitutions in evolution. Nature 246, 96-8 (1973).

23. Ohta, T. The nearly neutral theory of molecular evolution. Annu Rev Ecol Syst 23,263-

286 (1992).

24. Kondrashov, A.S. Contamination of the genome by very slightly deleterious mutations:

why have we not died 100 times over? J Theor Biol 175,583-94 (1995).

25. Sjolander, K. etal. Dirichlet mixtures: a method for improved detection of weak but

significant protein sequence homology. ComputAppIBiosci 12,327-45 (1996).

26. Lartillot, N. and Philippe, H. A Bayesian mixture model for across-site heterogeneities

in the amino-acid replacement process. Mol Biol Evol21,1095-109 (2004).

27. Shenkin, P.S., Erman, B., and Mastrandrea, L.D. Information-theoretical entropy as a

measure of sequence variability. Proteins 11,297-313 (1991).

28. Pei, J. and Grishin, N.V. AL2CO: calculation of positbnal conservation in a protein

sequence alignment. Bioinformatics 17,700-12 (2001).

29. Altschul, S.F. etal. Gapped BLAST and PSI-BLAST: a new generation of protein

database search programs. Nucleic Acids Res 25,3389-402 (1997).

30. Tatusov, R.L., Koonin, E.V., and Lipman, D.J. A genomic perspective on protein

families. Science 278 ,631-7 (1997).

31. Wheeler, D.L. etal. Database resources of the National Center for Bbtechnology

Information: update. Nucleic Acids Res 32, D35-40 (2004).

32. Benson, D.A., Karsch-Mizrachi, I., Lipman, D.J., Ostell, J., and Wheeler, D.L.

GenBank. Nucleic Acids Res 34, D16-20 (2006).

33. Thompson, J.D., Higgins, D.G., and Gibson, T.J. CLUSTAL W: improving the sensitivity

of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 22,4673-80 (1994).

34. Brudno, M. etal. Glocal alignment: finding rearrangements during alignment.

Bioinformatics 19 Suppl 1, ¡54-62 (2003).

35. Sundararajan, M., Brudno, M., Small, K., Sidow, A. & Batzoglow, S. Chaining

algorithms for alignment of draft sequence. Proceedings of the fourth Workshop on Algorithms in Bbinformatfcs (WABI2004).

36. Brudno, M. etal. LAGAN and Multi-LAGAN: efficient tools for large-scale multiple

alignment of genome DNA. Genome Res 13,721-31 (2003).

37. Yang, Z. PAML: a program package for phylogenetic analysis by maximum likelihood.

Comput Appl Biosci 13,555-6 (1997).

38. Miyata, T., Miyazawa, S., and Yasunaga, T. Two types of amino acid substitutions in protein evolution. J Mol Evol 12,219-36 (1979).

5. Зависимость неравномерности в кодонном и аминокислотном составах от режима отбора

В соответствии с нейтральной теорией молекулярной эволюции, некоторая доля изменений аминокислотной последовательности закрепляется в эволюции благодаря нейтральным процессам (мутациям и дрейфу), а не естественному отбору. Горячие споры об относительной роли отбора и нейтральных процессов в эволюции не затихают уже несколько десятилетий. Одно из предсказаний нейтральной теории заключается в том, что аминокислотный состав может быть чувствительным к факторам, не связанным напрямую со свойствами кодируемого белка, такими как нуклеотидный состав генома, относительные обилия тРНК или структура генетического кода. Мы предсказали, что смещения (неравномерности) в использовании различных аминокислот, как и кодонов, чувствительны к режиму, в котором отбор действует на данный ген и аминокислотную позицию. Эта связь опосредована свойствами генетического кода. Мы вводим понятие аминокислотной волатильности (эволюционируемости) и предсказываем, что в генах/позициях, находящихся под сильным положительным отбором, аминокислотный состав смещен в сторону более высокой аминокислотной волатильности. Мы разработали несколько тестов кодонной и аминокислотной волатильности с использованием последовательностей геномов гриппа А и ВИЧ-1. Нам не удалось зафиксировать ожидаемое снижение кодонной волатильности в результате синонимичных замен, следующих за несинонимичной заменой. Сайт-специфическая интенсивность действия отбора (измеренная через аминокислотное разнообразие), а также кодонная волатильность, слабо, но достоверно коррелированны с сайт-специфической аминокислотной волатильностью в генах ВИЧ-1 и гриппа А, про которые известно, что они находятся под действием направленного отбора, связанного с взаимодействием с иммунной системой хозяина. Напротив, для других генов, про которые известно, что они находятся под действием стабилизирующего отбора, подобной корреляции обнаружено не было. На уровне отдельных генов наблюдается корреляция между аминокислотной волатильностью и р-значением кодонной волатильности у М. tuberculosis. Наши результаты дают основания полагать, что аминокислотный состав может быть подвержен действию отбора, опосредованному структурой генетического кода.

Введение

Ранее было выдвинуто предположение (1-3), что кодонный состав кодирующей последовательности ДНК данного гена при данном кодонном составе всего генома зависит от режима отбора, действующего на кодируемый белок. В частности, при отрицательном отборе можно ожидать смещения кодонного состава в сторону менее «волатильных» кодонов, т.е. кодонов, имеющих меньшую долю несинонимических соседей. Это связано с тем, что в таких кодонах замена одного нуклеотида с относительно большей вероятностью будет синонимичной и сохранит кодируемую аминокислоту. Напротив, при положительном отборе последняя замена в данном сайте с большей вероятностью изменила аминокислоту, и соответственно можно ожидать смещения кодонного состава в сторону большей кодонной волатильности.

Этот подход рассматривает результаты действия отбора на распределение синонимичных вариантов при заданных аминокислотном составе гена и кодонном составе генома. Однако из нейтральной теории молекулярной эволюции (4-6) следует, что то, какие именно аминокислоты находятся в некоторых положениях в белке, не определяется строго структурой белка или биологической функцией, и что по крайней мере в некоторых аминокислотных позициях несколько разных аминокислот могут использоваться без существенных различий в приспособленности. В результате на аминокислотный состав белков могут влиять факторы, отличные от оптимальности структуры или функции белка, такие как нукпеотидный состав генома (7;8).

Представим себе такой режим отбора, что данная аминокислота в белке испытывает сильный положительный отбор на быстро изменяющемся адаптивном ландшафте, что приводит к быстрой смене аминокислот в данном сайте. Предположим далее, что этот сайт обладает по крайней мере некоторой гибкостью в том, какая именно аминокислота представлена в нем в каждый данный момент времени, если общая скорость смены аминокислот остается высокой. Такой режим, вероятно, возможен в хорошо описанных случаях действия постоянного положительного отбора, например в сайтах-эпитопах гриппа и ВИЧ (9), в белке биндина сперматозоидов животных (10) и в сайтах распознавания антигена комплекса гистосовместимости млекопитающих (11). В таких случаях можно ожидать смещения кодонного состава в сторону повышенной волатильности (3), поскольку последняя точечная мутация, создавшая наблюдаемый кодон, с большей вероятностью была несинонимической, т.е. изменила аминокислоту (1). Однако подобное смещение может затрагивать не только кодоны в пределах одной аминокислоты, но и сам аминокислотный состав. Для иллюстрации представим себе крайний случай аминокислотного сайта, в котором полностью отсутствуют биохимические предпочтения аминокислоты и положительный отбор всегда предпочитает любую новую аминокислоту текущему варианту. При равновесии в таком сайте с большей вероятностью встретится триптофан (W), чем аргинин (R), а метионин (М) - чем лейцин (L). Это связано с тем, что и триптофан, и метионин каждый кодируется лишь единственным кодоном. Поэтому последняя мутация, приведшая к ним, была определенно несинонимической и, следовательно, с большей вероятностью была под положительным отбором, чем мутация, приведшая к любому кодону лейцина или аргинина, каждый из которых кодируется шестью кодонами. Если отбор на изменение аминокислоты сопоставим по силе с предпочтением любой определенной аминокислоты, смещения аминокислотного состава могут различаться между сайтами, находящимися под положительным и под отрицательным отбором. Вообще, можно ожидать различий в смещениях, когда отбор, ведущий к смене аминокислот, сильнее, чем различия в приспособленности между двумя аминокислотами, допустимыми в данном сайте.

Кодонная волатильность определяется для каждого кодона как доля однонуклеотидных мутаций, изменяющих кодируемую аминокислоту (2;3). Мы определяем аминокислотную волатильность как среднее кодонных волатильностей каждого из кодонов, кодирующих данную аминокислоту. Мы ожидаем, что в генах (позициях) под сильным положительным отбором аминокислотный состав будет смещен в сторону большей аминокислотной волатильности по сравнению с геномом (геном) в целом. Мы проверим эту гипотезу с использованием двух генов гриппа А и четырех генов ВИЧ-1, а также полногеномного выравнивания двух линий Mycoplasma tuberculosis.

Результаты

Смещение кодонного состава

Сперва мы осуществили прямой тест эффекта кодонной волатильности на состав последовательности с использованием филогенетических данных. Если отбор через волатильность влияет на кодонный состав, мы можем ожидать увидеть «релаксацию» волатильности последующими синонимичными заменами после несинонимичной замены. В частности, можно ожидать, что непосредственно после несинонимичной замены аминокислота в среднем кодируется кодоном с наибольшей волатильностью, а последующие синонимичные замены снижают кодонную волатильность, релаксируя ее к равновесному состоянию (1). Мы проверили это предсказание гипотезы волатильности, использовав филогенетические древа генов ВИЧ-1 и выводя из них положения отдельных замен. Нам не удалось обнаружить эффекта синонимичной эволюции после последней несинонимичной замены на кодонную волатильность (рис. 1). У трех из четырех аминокислот, кодоны которых различаются по волатильности (Leu, Ser и Gly), мы не обнаружили достоверных различий в кодонной волатильности немедленно после несинонимической замены и после последующих синонимических замен (дисперсионный тест Краскала-Уоллиса, р>0,06). У оставшейся аминокислоты (Arg) кодонная волатильность была сниженной после синонимических замен (различия были на пороге достоверности: дисперсионный тест Краскала-Уоллиса, р=0,031).

Далее мы проверяли, является ли сайт-специфическая кодонная волатильность хорошей мерой сайт-специфического отбора, р-значение кодонной волатильности в позиции хрх-это мера кодонной волатильности в данном кодонном сайте, по сравнению со средней кодонной волатильностью той же аминокислоты по гену. Поскольку при расчете рхучитывается аминокислотный состав, эта мера ортогональна сайт-специфической кодонной волатильности рх(см. Методы). рхбыло слабо положительно скоррелировано с аминокислотным разнообразием Dxв гене гемагглютинина (НА) гриппа Айв генах env и nef ВИЧ-1, но не в гене нейраминидазы (NA) гриппа А и не в генах gag и pol ВИЧ-1 (Таблицы 2 и 3).

Смещение аминокислотного состава

Существуют лишь четыре аминокислоты, совместно кодируемые 22 кодонами, имеющие разные кодонные волатильности у разных кодонов; у остальных шестнадцати аминокислот волатильности разных кодонов не различаются. Вообще, компонента кодонной волатильности, не связанная с аминокислотным составом, весьма однородна (12). Напротив, аминокислоты очень разнородны по своей аминокислотной волатильности (Таблица 1). Поскольку кодоны с более вырожденными нуклеотидными позициями по определению являются менее волатильными, аминокислотная волатильность тесно связана с числом кодонов, кодирующих соответствующую аминокислоту: средние волатильности аминокислот, кодируемых двумя и четырьмя кодонами, составляют соответственно 0,879 и 0,665.

Аминокислотная волатильность была положительно скоррелирована с рх, а также с Dx, в НА гриппа А (Таблица 2) и в env и ле/ВИЧ-1 (Таблица 3). Кроме того, она была слабо скоррелирована с Dx в pol ВИЧ-1.

В ортологичных генах Mycobacterium tuberculosis средняя аминокислотная волатильность гена была слабо скоррелирована с ген-специфическими р-значениями кодонной волатильности (тест Спирмана, R=0.044, р = 0.016), которые, в свою очередь, являются свидетельствами отбора, как было показано ранее (2). Мы

не обнаружили корреляции между средней аминокислотной волатильностью гена и значениями с(ч (р>0.7).

Обсуждение

Способность кодонной волатильности к определению давления отбора в геноме подвергалась сомнению (12-21). Наиболее сильный теоретический аргумент против волатильности - это то, что отбор против волатильных кодонов должен быть слишком слабым для обнаружения (1;14). Сила отбора на снижение волатильности имеет порядок скорости мутирования. С другой стороны, для создания обнаружимого влияния на кодонный состав она должна иметь порядок обратного эффективного размера популяции или больший. Наша способность обнаружить влияние такого отбора на аминокислотный, а не кодонный, состав еще ниже, если присутствует отбор на саму кодируемую аминокислоту.

Однако две причины позволяют нам предположить, что такое влияние возможно в РНК-вирусах. Во-первых, РНК-вирусы имеют большие скорости мутирования (порядка 10'5; (22;23)), что делает их хорошими кандидатами на такого рода неравномерность: отрицательный отбор порядка 10"5 может иметь заметный эффект в больших популяциях. Во-вторых, известно, что области связывания антител генов избегания иммунной системы этих вирусов испытывают сильное давление положительного отбора (24-26). Несинонимичные замены, вызываемые даже слабым положительным отбором, могут уводить кодонный и, возможно, аминокислотный состав от равновесия, а времена релаксации велики, поскольку они имеют порядок обратной скорости мутирования (1).

Смещение кодонного состава. Доступность сотен последовательностей ВИЧ-1 дала нам возможность осуществить прямой тест кодонной волатильности посредством филогенетической реконструкции. Действительно, высоты филогенетических древ у четырех генов, для которых имеется больше всего данных (Таблица 1 Главы 3), достаточны, чтобы проследить дальнейшую синонимическую эволюцию аминокислот, возникших в сайте посредством несинонимической замены. В рамках гипотезы кодонной волатильности мы ожидаем, что средняя аминокислотная замена будет вести к повышенной кодонной волатильности у аминокислоты, в которую она приводит, а дальнейшие синонимические замены будут релаксировать кодонную волатильность обратно к состоянию равновесия (1).

Однако у трех из четырех генов ВИЧ-1 мы не обнаружили корреляции между кодонной волатильностью и числом синонимических замен после последней несинонимической замены. Возможны несколько не взаимоисключающих причин, по которым этот тест гипотезы волатильности мог дать отрицательный результат. Отсутствие корреляции может быть связано со слабостью эффекта и недостаточностью размера нашей выборки. Далее, отрицательный отбор на аминокислоту, получаемую в результате несинонимической замены, может вести к сниженной волатильности кодона сразу же после несинонимической замены. Наконец, эффект отбора на кодонную волатильность может перекрываться какой-либо другой формой неравномерности использования кодонов, связанной со свойствами отбора или мутационного процесса. При возможном мутационном сценарии нуклеотидная замена, исходно не являющаяся синонимичной, может стать синонимичной после несинонимичной замены в другом нуклеотиде того же кодона. Если она облегчается мутационным неравновесием, то кодонный состав может сместиться в направлении мутационного смещения, что, возможно, перекроет любой эффект кодонной волатильности. При возможном сценарии, осуществляемом отбором, кодонное предпочтение в новой аминокислоте, полученной после несинонимической замены, может отличаться от кодонного предпочтения в

аминокислоте, кодировавшейся ранее, например из-за различий в относительных обилиях разных тРНК для разных кодонов. Это различие вызовет отбор на следующую синонимичную замену в направлении предпочитаемого кодона в новой кодируемой аминокислоте (27).

В отличие от филогенетического теста, корреляция между сайт-специфической кодонной волатильностью и аминокислотным разнообразием, несмотря на свою слабость, поддерживает возможность использования кодонной волатильности в качестве индикатора направления естественного отбора (3). В самом деле, аминокислотное разнообразие в сайте является хорошим критерием средней сайт-специфической силы положительного отбора у вирусов, для которых имеются обширные данные по последовательностям (Глава 3). Корреляция наблюдается в тех генах, на которые известно действие положительного отбора (НА у гриппа A, envu nef у ВИЧ-1), но не в тех, в которых преобладает действие отрицательного отбора (NA у гриппа А, gag и poly ВИЧ-1), что подкрепляет гипотезу о большей чувствительности кодонной волатильности к положительному отбору, чем к отрицательному (1).

Смещение аминокислотного состава. В геномах вирусов аминокислотная волатильность скоррелирована, хотя и очень слабо, с аминокислотным разнообразием в тех же генах, находящихся под положительным отбором, что и р-значение кодонной волатильности. В тех же генах она скоррелирована с самим р-значением кодонной волатильности. Далее, средняя аминокислотная волатильность для каждого гена скоррелирована с ген-специфической кодонной волатильностью в геномах М. tuberculosis. Эти результаты дают основания полагать, что на аминокислотный состав может влиять отбор, различающий аминокислоты на основе их положения в таблице генетического кода и числа кодонов, а не свойств. Слабость наблюдаемых корреляций, а также тот факт, что они в основном наблюдаются в генах, испытывающих сильный положительный отбор, делает маловероятной возможность использования аминокислотного состава для измерения положительного отбора, что исходно предлагалось для кодонной волатильности ((2;3); см., однако, (28)). Тем не менее, наши результаты дают основания полагать, что аминокислотный состав может определяться самими различиями селективных режимов, опосредованно через структуру генетического кода.

В отличие от кодонной волатильности, у нас нет априорных оснований ожидать пониженной аминокислотной волатильности при отрицательном (стабилизирующем) отборе. Это связано с тем, что в подавляющем большинстве реально существующих белков аминокислотный состав определяется скорее биологическими требованиями, накладываемыми свойствами белка, чем самим режимом отбора. Сайты под стабилизирующим отбором - это, скорее всего, те сайты, в которых аминокислоты особенно существенны для функционирования белка, и их состав зависит не от типа отбора, а от структуры и биологической функции белка. Поэтому отсутствие корреляции в вирусных белках под отрицательным отбором не является неожиданностью.

Выводы

Наши результаты дают основания полагать, что на аминокислотный состав может влиять отбор, различающий аминокислоты не на основании их свойств, а на основании их положения в таблице генетического кода и числа кодонов. Насколько нам известно, это первое описанное свидетельство в пользу того, что аминокислотный состав может определяться структурой генетического кода через различия между режимами отбора.

Методы

Выравнивания. Выравнивания 343, 218,193 и 674 последовательностей полной длины генов env, gag, pol и ле/ВИЧ-1 были получены в соответствии с описанием в Главе 3. 837 последовательностей полной длины гена гемагглютинина (НА) и 138 последовательностей полной длины гена нейраминидазы (NA) подтипа H3N2 гриппа А были сгружены с Базы данных последовательностей гриппа (29) и выровнены аналогичным образом. Выравнивания 3041 ортологичных генов из двух линий М. tuberculosis (CDC1551 и H37Rv) были получены в соответствии с описанием в (2).

Аминокислотное разнообразие и скорости эволюции. Для оценки сайт-специфического аминокислотного разнообразия использовался показатель аминокислотного разнообразия Dx, сходный с разнообразием Симпсона (30):

А, =1-1/4

где р-,х-доля последовательностей, содержащих аминокислоту / в положении х выравнивания. Ген-специфические скорости несинонимической эволюции (значения dN и cyds) рассчитывались для каждого выравнивания двух ортологичных генов М. tuberculosis с использованием PAML (31).

Кодонный состав. «Исходная» кодонная волатильность v(c) определялась для каждого из 61 кодона, кодирующих аминокислоты, как доля однозаменных «соседей» (т.е. кодонов, получаемых заменой одного нукпеотида в данном кодоне), которые кодируют другую аминокислоту; стоп-кодоны не включались при подсчете числа соседей. Для каждой кодонной позиции х мы использовали следующую процедуру рандомизации для оценки сайт-специфического р-значения кодонной волатильности рхна основании множественного выравнивания. Сперва мы создавали список Lx всех кодонов, встреченных в х по меньшей мере в одной последовательности выравнивания. Каждый кодон включался в /.хлишь один раз во избежание перепредставления кодонов, идентичных по происхождению. Мы определяли сайт-специфиечкую кодонную волатильность vx как среднюю волатильность кодонов в Lx. Мы определяли ген-специфическое использование кодонов U как объединение всех списков ¿*для каждой позиции х:

U = [LX]

x<N

где N- общая длина выравнивания в кодонах, а квадратные скобки обозначают объединение множеств с сохранением повторяющихся элементов. Таким образом, каждый кодон был представлен в U от 0 до N раз в зависимости от числа позиций в гене, в которых этот кодон встречался хотя бы однажды. Наконец, в каждом из 10 ООО рандомизационных испытаний Монте-Карло мы создавали комбинированный вариант кодонного сайта х (колонки выравнивания) с прежним аминокислотным составом, но с кодонным составом, полученным из U, и сравнивали vxc кодонной волатильностью v'xтакой рекомбинированной версии кодонного сайтах. Тогда сайт-специфическое р-значение кодонной волатильности рх рассчитывалось как доля испытаний Монте-Карло с у^у'*(считапось, что «ничьи» делают равный вклад в обе категории).

Аминокислотный состав. Для каждой из 20 аминокислот определялась аминокислотная волатильность ¡и(а) как средняя волатильность всех ее кодонов

" a codons

где суммирование происходит по Sa всех кодонов с, кодирующих аминокислоту а. Сайт-специфическая аминокислотная волатильность определялась как средняя аминокислотная волатильность всех аминокислот в позиции выравнивания.

Филогенетические реконструкции. Для реконструкции филогенетических древ четырех генов ВИЧ-1 и состояний всех кодонных сайтов на всех внутренних узлах древа мы использовали метод наибольшей экономии, как описано в Главе 3. Для каждого узла и кодонной позиции, кроме корневого узла, мы выводили все предковые ветви (т.е. ветви между текущим узлом и корнем древа), в которых происходили синонимические и несинонимические замены. Для этих ветвей мы подсчитывали число синонимичных замен, произошедших на ветвях, являющихся потомковыми для ветви с последней несинонимической заменой, или для корня древа, если предковых несинонимических замен не было. Если на одной ветви происходили как синонимические, так и несинонимические замены (о чем мы могли сделать вывод из различий между ближайшими предковым и потом ковым узлами более чем в одном кодоне), эта синонимическая замена не рассматривалась.

Таблицы и рисунки

Таблица 1. Аминокислотная волатильность 20 стандартных аминокислот

Аминокислота Вырожденность Аминокислотная волатильность

A (Ala) 4 0,667

С (Cys) 2 0,875

D (Asp) 2 0,889

Е (Glu) 2 0,875

F (Phe) 2 0,889

G (Gly) 4 0,656

H (His) 2 0,889

I (He) 3 0,778

К (Lys) 2 0,875

L (Leu) 6 0,651

M (Met) 1 1,000

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.