Профессия — биоинформатик. Научная электронная библиотека Методы биоинформатики

Вводная лекция по биоинформатике

План урока:

    Что такое биоиформатика?

    Цели и задачи биоинформатики.

    Объекты исследования.

    Этапы развития биоинформатики.

    Типы базы данных.

    Разделы биоинформатики.

    Список литературы.

1. Что такое биоинформатика?

Биоинформатика (bioinformatics) - быстро развивающаяся отрасль информатики (теории информации), занимающаяся теоретическими вопросами хранения и передачи информации в биологических системах.

Эта наука возникла в 1976-1978 годах, окончательно оформилась в 1980 году со специальным выпуском журнала «Nucleic Acid Research» (NAR).

2. Цели и задачи биоинформатики

Целью биоинформатики является, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.

    Разработка алгоритмов для анализа биологических данных большого объема:

    • Алгоритм поиска генов в геноме;

    Анализ и интерпретация различных типов биологических данных таких, как нуклеотидные и аминокислотные последовательности, домены белков, структура белков и т.д.:

    • Изучение структуры активного центра белка;

    Разработка программного обеспечения для управления и быстрого доступа к биологическим данным:

    • Создание банка данных аминокислотных последовательностей.

Таким образом, основными задачами биоинформатики являются: распознавание белок-кодирующих участков в первичной структуре биополимеров, сравнительный анализ первичных структур биополимеров, расшифровка пространственной структуры биополимеров и их комплексов, пространственное сворачивание белков, моделирование структуры и динамики биомакромолекул, а также создание и сопровождение специализированных баз данных.

3. Основные направления биоинформатики

в зависимости от исследуемых объектов

1) Биоинформатика последовательностей;

2) Структурная биоинформатика;

3) Компьютерная геномика.

С другой стороны биоинформатику можно условно разделить на несколько направлений в зависимости от типа решаемых задач:

    Применение известных методов анализа для получения новых биологических знаний;

    Разработка новых методов анализа биологических данных;

    Разработка новых баз данных.

Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

4. Этапы развития биоинформатики

В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована т-РНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование.

Рис. 1. Клонирование животных.

В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике - алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т.д.

5. Типы базы данных

Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают.

Первый тип – архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся:

    GeneBank & EMBL – здесь хранятся первичные последовательности;

    PDB – пространственные структуры белков,

и многое другое.

В качестве курьеза могу привести пример: в архивной базе данных указано, что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.

Второй тип – курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации – что записано в этих последовательностях, какие есть экпериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию. К базам данных такого типа относятся:

    Swiss- Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков;

    KEGG – информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2);

    FlyBase – информация о Drosophila;

    COG – информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов.

Третий тип – производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

    SCOP – База данных структурной классификации белков (описывается структура белков);

    PFAM – База данных по семействам белков;

    GO (Gene Ontology) – Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по-разному, и чтобы разным генам не давали одинаковые названия);

    ProDom – белковые домены;

    AsMamDB – альтернативный сплайсинг у млекопитающих.

Таким образом, существует три типа базы данных: архивные базы данных, курируемые и производные базы данных.

Понятие биоинформатики

Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время это почти исключительно задачи молекулярной биологии. Причина этого в том, что за последние 20-25 лет накоплен поистине колоссальный экспериментальный материал именно о строении и функционировании биологических молекул (белков и нуклеиновых кислот), в качестве примера достаточно привести геном человека. Этот материал требует развитых компьютерных методов для своего анализа. Поэтому биоинформатика в большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.

Есть несколько основных направлений этого раздела науки, в зависимости от

исследуемых объектов:

  • * Биоинформатика последовательностей.
  • * Структурная биоинформатика.
  • * Компьютерная геномика

Основные направления биоинформатики в зависимости от исследуемых объектов

Биоинформатика последовательностей

Биоинформатика последовательностей

Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

Этот раздел биоинформатики занимается анализом нуклеотидных и белковых последовательностей. В настоящее время разработаны эффективные экспериментальные методы определения нуклеотидных последовательностей. Определение нуклеотидных последовательностей стало рутинной хорошо автоматизированной процедурой. В результате рутинной хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Так, в базе данных EMBL на 15.02.2007 г. хранится 87000 493 документов с описанием нуклеотидных последовательностей, содержащих в целом 157545686001 символов (нуклеотидов), что соответствует примерно библиотеке в 105 толстых томов с убористым шрифтом. Найти нужный ген в EMBL, это все равно, что найти цитату в такой библиотеке. Без помощи компьютера сделать это, мягко говоря, очень трудно. А число данных экспоненциально растет.

Представим себе геном небольшой бактерии - это непрерывная строка длиной в 1-10миллионов символов символов, и далеко не вся ДНК кодирует белки. Первый тип биоинформатической задачи - это задачи поиска в нуклеотидных последовательностях особых участков, участков, кодирующих белки, участков, кодирующих РНК (например, тРНК), участков связывания с регуляторными белками и др. И это не всегда простые задачи, например, гены эукариотических организмов состоят из чередующихся "осмысленных" и "бессмысленных" фрагментов (экзонов и интронов), и расстояние между "осмысленными" фрагментами может достигать тысяч нуклеотидов.

Пусть ген найден. Что он кодирует? Зачем он нужен?

Если речь идет об участке ДНК, кодирующем белок, то с помощью весьма простой операции - трансляции с использованием известного генетического кода можно получить. аминокислотные (белковые) последовательности. Из известных на сегодня 4 273 512 белков около 94% последовательностей - это именно такие гипотетические трансляты, и больше о них ничего не известно. Скорость поступления информации с автоматических секвенаторов превышает скорость нашего понимания ее смысла! Но биологические объекты - это объекты, возникшие в процессе эволюции. Сравнительно-эволюционный подход - один из мощнейших подходов в биологии. Например, функция белка из одного организма хорошо экспериментально изучена, в другом организме нашли белок с похожей аминокислотной последовательностью. Можно предположить, что второй (неизвестный) белок выполняет ту же или схожую функцию. И здесь сразу возникает несколько вопросов. Во-первых, что значит похожая последовательность? Как сравнивать последовательности? При какой степени сходства последовательностей можно предполагать, что белки выполняют сходные функции? Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ - уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний. Можно привести много примеров того, как сравнительно-эволюционный подход в сочетании с биоинформатическими методами порождает новое биологическое знание.

Генетические тексты - тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белком- регулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию вероятности и математическую статистику. Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

  • * Выравнивание и определение сходства двух последовательностей
  • * Построение множественных выравниваний
  • * Распознавание генов
  • * Предсказание сайтов связывания регуляторных белков
  • * Предсказание вторичной структуры РНК

Создание новых экспериментальных технологий ставит перед биоинформатикой целый ряд новых задач. Например, развитие масс-спектрометрии позволяет (пока в принципе) в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений и механизмов также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции, за которую в 2006 году дали Нобелевскую премию по физиологии. Это открытие породило целый вал биоинформатических работ, посвященных поиску участков связывания микроРНК и новых микроРНК. Многие находки были затем подтверждены экспериментально.

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

Геннадий Захаров:

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub .

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео .

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

— масштабный двухдневный фестиваль с несколькими параллельными программами, организованный соцсетью «ВКонтакте». Тут есть музыкальная программа с популярными музыкантами, площадки, посвященные видеоиграм, спортивные точки, еда, маркет и многое другое. Одна из секций — лекторий, один из участников которого — российский биоинформатик, доктор биологических наук и популяризатор науки Михаил Гельфанд. Buro 24/7 поговорил с ученым о том, что такое биоинформатика, какие важные открытия она дала миру, можно ли заниматься этой наукой в глуши и почему Нобелевская премия по биологии не имеет смысла.

— Давайте начнем с того, что такое биоинформатика? Почему био? Почему информатика?

— Биоинформатика — это способ заниматься биологией в компьютере. Сначала люди занимались биологией, просто наблюдая за живыми существами. Потом начали ставить опыты. Условно говоря, если отрезать мыши голову, она сразу умрет. А если отрезать голову лягушке, она будет еще некоторое время прыгать. И из этого контраста можно сделать какие-то выводы об устройстве живых существ. Я тут немного утрирую, конечно, но вы поняли идею.

Потом началась биология в пробирке. Это изучение не организма в целом, а каких-то его конкретных клеток, отдельных генов, отдельных белков. Потом оказалось, что в одной из основных областей, развившихся в рамках этого подхода — молекулярной биологии — появились методы, которые порождают очень много данных. Сначала этими данными были последовательности ДНК, потом — данные о работе генов, потом — о взаимодействиях белков и ДНК, потом — о пространственной упаковке ДНК, и еще много чего. И с таким массивом можно работать как с целым, анализировать —очевидно, анализировать с помощью компьютера, потому что анализировать эти данные «руками» просто не получится, их слишком много.

Любые большие данные порождают много технических задач: как их правильно хранить, как быстро передавать. Но первостепенная задача — сделать из всех этих данных какую-то адекватную и интересную биологию. Вот этим биоинформатика и занимается. Она берет данные, полученные в ходе экспериментов и пытается на их основе понять, как устроены клетки.

Есть три основных стиля занятий биоинформатикой. Можно задавать совсем базовые вопросы. Например, что именно делает такой-то белок. Или наоборот: какой белок выполняет такую-то функцию в клетке. Это уже более сложный вопрос, потому что нужно, условно говоря, иметь список всех белков и выбрать из них нужный. Но, в конечном счете, это все равно классические вопросы молекулярной биологии. Просто если владеть арсеналом компьютерных методов, то чаще всего можно сделать довольно разумное предположение. Потом экспериментатор идет и проверяет это предположение. В этом смысле, биоинформатика — это просто инструмент, повышающий эффективность молекулярной биологии.

Есть еще другая разновидность биоинформатики, она появилась в последние 10 лет. Это так называемая системная биология. В рамках системной биологии ученые пытаются описать не работу отдельного белка, а организма в целом. Например, как меняется работа генов при развитии эмбриона. Или — что изменилось в работе генов при появлении злокачественной опухоли. Это другой стиль работы, потому что молекулярная биология всегда была наукой редукционистской, занимающейся достаточно частными наблюдениями. И ее за это ругали — говорили, что можно изучать шестеренки по отдельности, но никогда не понять, как работают часы. А в системной биологии люди как раз смотрят «на часы в целом» и пытаются описать работу всего механизма.

Есть еще третий стиль, третий вариант биоинформатики — это молекулярная эволюция. В таких исследованиях мы сравниваем между собой данные, полученные при изучении разных существ. Пытаемся понять, как происходила эволюция генов и геномов, как действует отбор, почему из-за этого разные звери действительно разные. Можно сказать, что это работа с проблематикой эволюционной биологии методами молекулярной биологии.

— Дают ли по биоинформатике Нобелевские премии?

— Это очень интересный вопрос. Пока не давали, и мой прогноз — в ближайшее время не дадут.

Я вообще думаю, что Нобелевская премия по биологии сейчас не имеет никакого значения, потому что современная биология — наука очень коллективная. Обычно бывает так, что кто-то сделал первичное наблюдение, кто-то его развил, а потом кто-то еще развил или, скажем, сделал на это основе что-то полезное. И, если посмотреть, то последние Нобелевские премии по биологии всегда сопровождаются ворчанием научного сообщества — мол, премию дали не тем людям, которые реально сделали это открытие, нужно было дать другим. В результате, все это сильно теряет смысл. Вокруг каждой премии есть еще с десяток людей, которым тоже можно было ее дать.

В биоинформатике эта ситуация доведена до крайности. Во-первых, мы работаем с чужими данными. Во-вторых, такие работы всегда в соавторстве, и обычно с очень большим количеством соавторов. Никто конкретный не молодец больше, чем многие другие. Но при этом как коллективное целое биоинформатика — безумно полезная наука.

— Тогда расскажите, какие важнейшие открытия сделаны в рамках биоинформатики?

— Например, у нас очень сильно поменялись представления о систематике живых существ. Классическая систематика, основанная на внешних признаках, на анатомии и физиологии, во многих случаях просто не работала — например, для бактерий. С появлением молекулярной биологии мы построили систематику на существенно более последовательных принципах.

Вот пример из области небольших, но забавных открытий такого рода. Все знают, что кит — млекопитающее. Но он совершенно по внешним признакам не похож на других млекопитающих. Есть два вида биологической непохожести ни на кого. Утконосы не похожи ни на кого, потому что они — совершенно отдельная ветвь эволюции. А киты не похожи ни на кого, потому что они живут в очень специфических условиях и у них физиология полностью перестроилась под среду. И это случилось относительно недавно. Но тогда на суше должны быть существа, родственные китам. Кто же это?

И вот с помощью биоинформатики удалось выяснить, что киты — это ближайшие родственники бегемотов. Причем бегемоты ближе к китам, чем к коровам, антилопам, свиньям и всем остальным, кто с ними формально находится в одном отряде парнокопытных. Киты оказались просто очень сильно изменившимися бегемотами.

В итоге оказалось, что все вообще не так. Грибы — родственники животных, а не растений. Водорослей, как выяснилось, очень много принципиально разных видов, и некоторые ближе к растениям, а некоторые одинаково далеки от них и от животных. И, главное, — многоклеточность возникала несколько раз независимо. Это тоже полностью переворачивает школьные представления о биологии.

Еще одно открытие биоинформатики — альтернативный сплайсинг. Выяснилось, что один ген может кодировать несколько белков, в которых некоторые части одинаковые, а некоторые — совсем разные. Это и называется «альтернативный сплайсинг». Довольно долго думали, что это экзотика, которая встречается довольно редко. А потом выяснилось, что чуть ли не каждый ген у человека может кодировать несколько белков, и альтернативный сплайсинг — не редкая вещь, а повсеместная.

Без биоинформатики такое открытие сделать было бы просто невозможно, потому что утверждение делается о генах в целом, а не об отдельном гене. Это и есть системная биология.

— Насколько биоинформатика дорогое занятие? Можно ли ей заниматься в глухой деревне?

— Ну, по крайней мере биоинформатикой можно заниматься, и вполне успешно, в России — а это достаточно глухое место по нынешним временам. Главное для биоинформатики — хороший интернет, потому что очень много данных приходится скачивать. Дальше все зависит от того, чем конкретно вы занимаетесь. Часто нужен хороший мощный компьютер.

Но есть задачи, которые можно сделать просто на ноутбуке — правда, вы при этом все равно почти всегда используете какой-то мощный компьютер, просто он стоит не у вас — вы используете программы, кем-то написанные, и работающие на его сервере. И ноутбуки, и интернет теперь есть в глухих деревнях, так что это не проблема.

Другое дело, что любой наукой очень тяжело заниматься обособленно. Ее всегда нужно с кем-то обсуждать. Очень трудно придумать интересную задачу, если вы ни с кем не разговариваете. Но если вы уже чему-то научились, то, наверное, можете уехать к себе на дачу и заниматься там этим.

В этом плане биоинформатикой заниматься, конечно, намного проще, чем экспериментальной биологией. Вот сейчас был чемпионат мира по футболу, и в Россию запретили ввозить радиоактивные вещества. А радиоактивная метка — это ключевой компонент многих экспериментов в лабораторной биологии. В результате, огромное количество молекулярной на два месяца просто выключились. В биоинформатике что-то подобное было во время недавних блокировок «Телеграма» — сайты лежали, работать было невозможно.

— На сам деле, мне просто очень повезло. В свое время, когда я закончил мехмат, биоинформатика только возникла. И она оказалось той наукой, где, с одной стороны, было полезно мое математическое образование, а с другой стороны — это все-таки настоящая биология. И, до какой-то степени, лингвистика: ведь геном — это «буквы» и «слова». А меня всегда биология и лингвистика очень интересовали.

К тому же биоинформатику тогда не нужно было учить, ее нужно было делать. Было такое замечательное время, когда можно было просто придумать себе задачу, сесть и решить ее. Скорее всего, ты оказывался первым, кто ей занялся. В этом отношении мне тоже крупно повезло. Сейчас уже не так.

Билеты на VK Fest можно купить

Поделитесь с друзьями или сохраните для себя:

Загрузка...