
* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки
БИОИНфОРМАТИКА ный состав? Задача решается множество раз в день, и поэтому нужен оптимальный алгоритм с минимальным временем выравнивания. В современной Б. выделяют также ряд направлений: создание и поддержка баз данных (БД) регуляторных последовательностей и белков; БД по регуляции генной экспрессии; БД по генным сетям; компьютерный анализ и моделирование метаболических путей; компьютерные методы анализа и распознавания в геноме регуляторных последовательностей; методы анализа и предсказания активности функциональных сайтов в нуклеотидных последовательностях геномов; компьютерные технологии для изучения генной регуляции; предсказания структуры генов; моделирование транскрипционного и трансляционного контроля генной экспрессии; широкомасштабный геномный анализ и функциональное аннотирование нуклеотидных последовательностей; поиск объективных методов аннотирования и выявления различных сигналов в нуклеотидных последовательностях; эволюция регуляторных последовательностей в геномах; характеристики белковой структуры, связанные с регуляцией; экспериментальные исследования механизмов генной экспрессии и развитие интерфейса, связывающего экспериментальные данные с компьютерным анализом геномов. Первые работы по компьютерному анализу последовательностей биополимеров появились еще в 1960–1970-х гг., однако формирование вычислительной биологии как самостоятельной области началось в 1980-х гг. после развития методов массового секвенирования ДНК. С точки зрения биолога-экспериментатора можно выделить пять направлений вычислительной биологии: непосредственная поддержка эксперимента (физическое картирование), создание контигов (см.), организация и поддержание банков данных, анализ структуры и функции ДНК и белков, эволюционные и филогенетические исследования, а также собственно статистический анализ нуклеотидных последовательностей. Границы между этими направлениями в значительной мере условны: резуль- 131 таты распознавания белоккодирующих областей используются в экспериментах по идентификации генов, одним из основных методов предсказания функции белков является поиск сходных белков в БД, а для осуществления детального предсказания клеточной роли белка необходимо привлекать информацию филогенетических исследований. В 1982 г. возникли GenBank и EMBL – основные банки нуклеотидных последовательностей. Вскоре после этого были созданы программы быстрого поиска по банку – FASTA и BLAST. Позднее были разработаны методы анализа далеких сходств и выделения функциональных паттернов в белках. Оказалось, что даже при отсутствии близких гомологов, можно достаточно уверенно предсказывать функции белков. Эти методы с успехом применялись при анализе вирусных геномов, а затем и позиционно клонированных генов человека. Алгоритмы анализа функциональных сигналов в ДНК (промоторов, операторов, сайтов связывания рибосом) менее надежны, однако и они в ряде случаев были успешно применены, напр. при анализе пуринового регулона Escherichia coli. Идет активная работа над созданием алгоритмов предсказания вторичной структуры РНК. Алгоритмические аспекты этой проблемы были разрешены достаточно быстро, однако оказалось, что точность экспериментально определенных физических параметров не позволяет осуществлять надежные предсказания. В то же время сравнительный подход, позволяющий построить общую структуру для группы родственных или выполняющих одну и ту же функцию РНК, дает существенно более точные результаты. Другим важным достижением, связанным с рибосомальными РНК, стало построение эволюционного древа прокариот и вытекающей из него естественной классификации бактерий, используемой в банках нуклеотидных последовательностей, в частности GenBank. Статистическая информация (в виде предсказания GenScan), последовательности гомологичных белков и последовательности EST являются исходным материалом