Назад

Ретросинтетический анализ с помощью программного обеспечения

Download the article
Скачать PDF
Денис Бабков
В 1990-х годах лучшим химикам мира потребовались месяцы, чтобы разработать ретросинтез паклитаксела. В 2016 году Schematic (ныне Synthia) сделала это всего за 7 секунд. Узнайте, как программное обеспечение для ретросинтеза ускоряет химический синтез.

Введение

Каждый исследовательский проект, связанный с химией, должен ответить на два основных вопроса: "Что производить?" и "Как производить?". Первый из них принципиально сложен, и мы никогда не знаем, достаточно ли хорош наш ответ, пока не оценим полученный нами продукт. По сути, мы не уверены, что ответ вообще существует. Все, что мы можем сделать, - это повторить цикл "проектирование – изготовление – тестирование" в надежде придумать что-то подходящее для нашей цели.

Ответить на второй вопрос гораздо проще. Как только мы наметили желаемую структуру, вся мощь органического синтеза в наших руках. Путь к желаемому может быть простым и отработанным, но что, если мы отважимся справиться с таким чудом?

Паклитаксел - противоопухолевый препарат, найденный в коре тихоокеанского тиса

Тут на помощь и приходит ретросинтез. В отличие от синтеза, ретросинтетический анализ направлен на разложение сложных молекул на более простые компоненты, чтобы обнаружить наиболее эффективные пути получения продукта. Этот вид анализа приобретает все большее значение в связи с ростом потребности в быстром и эффективном создании лекарств. Можно не сомневаться, что для занятий этим искусством требуются обширные знания, опыт, творческий подход и удача. К счастью, развитие программного обеспечения, предназначенного для облегчения ретросинтетического анализа, сделало его проще, чем когда-либо прежде.

В 1990-х годах лучшим химикам мира требовались месяцы, чтобы разработать ретросинтез паклитаксела. В 2016 году программа Chematica сделала это всего за 7 секунд.

Программное обеспечение, предназначенное для помощи в ретросинтезе, опирается на алгоритмы, генерирующие синтетические пути. Такой подход является невероятно мощным, поскольку позволяет пользователям исследовать химическое пространство быстрее, чем позволяют человеческие возможности. Обычно алгоритмы перебирают возможные пути синтеза и оценивают их на втором этапе, чтобы определить оптимальные. Звучит очень похоже на игру в шахматы, верно? Учитывая, что компьютеры уже обыгрывают людей в шахматы и го, можно предположить, что и в ретросинтезе они преуспеют, не так ли? И да, и нет. Давайте разберемся в этом.

Навигация по известному химическому пространству

Исторически первый и самый простой подход заключается в том, чтобы разорвать некоторые связи между атомами в целевой молекуле и поискать в литературе, какие превращения могут связать эти части вместе. Одна "маленькая" сложность заключается в том, что объем литературы для поиска огромен, и с каждым синтетическим шагом, который мы прослеживаем от сложной целевой молекулы до коммерчески доступного исходного сырья, количество возможных вариантов растет в геометрической прогрессии. Если для получения целевого соединения требуется 5 шагов, то среднее число синтетических маршрутов, которые необходимо проанализировать, составляет около 1016, или 10 квадриллионов.

Ранние программные решения этой проблемы работали как химические калькуляторы, способные обрабатывать большие объемы информации. Для этого требуется обширная база данных реакций с химически-подходящей структурой данных, сложные алгоритмы и значительная вычислительная мощность.

Популярными проприетарными сервисами являются SciFinder от Американского химического общества и Reaxsys Synthesis Planner (Elsevier). Эти платформы сочетают ретросинтетический анализ с удобным интерфейсом и легким доступом к ряду химических баз данных. Они также предлагают автоматизированный инструмент патентного поиска необходимой информации.

Программное обеспечение Synthia (бывшая Chematica) компании Merck является одним из самых передовых решений такого рода. Оно объединяет автоматический поиск путей на основе правил реакций, составленных вручную, и интеллектуальную функцию подсчета баллов, позволяющую химикам устанавливать критерии для определения оптимальной стратегии.

Среди проектов с открытым кодом заслуживает упоминания ASKCOS, изначально разработанный MIT в рамках инициативы DARPA "Make-It". Интересным решением с открытым исходным кодом для синтетической биологии и поиска метаболических путей является RetroPath 2.0.

Подходы, основанные на знаниях, хорошо работают с относительно простыми структурами, требующими небольшого количества синтетических шагов для реализации. Достаточно хорошие для ускорения рутинной работы, они не справляются с нетривиальными молекулами. Машинный запрос к базе данных химических реакций выполняется быстро, но ему недостает изобретательности, хитрости и экспертности, которые могут быть предложены химиками, сведущими в своей области. И самое главное, этот тип поиска по определению не способен предложить какую-либо новую синтетическую стратегию, то есть лишен творческого начала.

Расширение химической реальности

Смена парадигмы произошла, когда базы данных реакций были преобразованы в графы реакций и переданы нейронным сетям. Поиск связей стал более эффективным с вычислительной точки зрения, а ИИ лучше подходит для нечетких оценок в отличие от заранее заданных алгоритмов. И это очень важно, учитывая множество факторов, влияющих на жизнеспособность предлагаемой стратегии (стоимость исходных материалов, выход реакции, надежность реагентов, трудоемкость и так далее).

Недавно был представлен инструмент с открытым исходным кодом для ретросинтетического планирования - AiZynthFinder, построенный с использованием RDKit и TensorFlow. Он использует алгоритм древовидного поиска Монте-Карло для разделения целевых молекул на коммерчески доступные прекурсоры на основе библиотеки известных шаблонов реакций.

Наконец, после того как компьютерное планирование синтеза с использованием опубликованных методов достигло зрелости, возникла следующая большая проблема. Как вы уже могли догадались, это открытие новых условий, типов и механизмов реакций, ранее не известных и не описанных в литературе. Иными словами, качественный переход от ретросинтетической поисковой системы к по-настоящему интеллектуальному химическому ИИ.

Первые шаги в этом направлении включали выбор или интерполяцию подходящих условий реакции с использованием статистических методов и методов машинного обучения. Это двухэтапный процесс, в котором первоначальный выбор условий зависит от ограниченного набора предопределённых правил. Поэтому он также страдает от вышеуказанных ограничений.

Наиболее продвинутой современной технологией здесь является алгоритм seq2seq. Изначально разработанный для машинного перевода естественных языков, он использует многоуровневую глубокую память Long Short-Term Memory для преобразования входных молекул в виде SMILES-строки в абстрактный вектор, а затем декодирует его обратно в выходной SMILES-продукт. Таким образом, он буквально переводит реагенты в продукты, автоматически расшифровывая правила химической грамматики. И это потрясающе! Успешность предсказания реакций может достигать 80%. Однако случаются и ошибки - как и любая другая генеративная модель (привет, ChatGPT!), она может выдавать неверные SMILES или невыполнимые реакции.

Способ привнести сюда химический здравый смысл и верифицируемость - открыть новую химию с помощью расчетов квантовой механики, одной из самых строгих, точных и научно обоснованных дисциплин, с помощью которых мы постигаем природу. Успешные попытки такого рода относятся к 1980-м годам, когда было показано, что программа IGOR предсказывает неожиданные и новые химические превращения, но с тех пор они не получили систематического развития (за исключением ограниченных попыток интегрировать модуль квантовой химии в Chematica и QCaRA-метода группы Маэды). Учитывая огромный прогресс в вычислительных мощностях и математическом аппарате, похоже, настало время объединить квантовую химию с ретросинтезом.

Заключение

Человек долгое время был единственной творческой силой в поиске решений чрезвычайно сложных проблем ретросинтеза. Когда объем литературы вырос до размеров, превосходящих человеческие возможности его обработки, появились компьютерные алгоритмы, помогающие определять пути реакций. Развитие программного обеспечения для ретросинтетического анализа сделало его более простым и доступным, чем когда-либо. Мы наблюдаем эволюцию вычислительных подходов: от ручного составления правил реакций к их автоматическому извлечению, и от алгоритмических рабочих процессов к машинному обучению. Существует множество компьютерных инструментов для ретросинтеза, но золотого стандарта пока нет.

Несмотря на создание обширных баз данных реакций и сложных алгоритмов обучения, программное обеспечение для ретросинтеза все еще находится в стадии становления. Используя аналогию с языком, можно сказать, что оно научилось читать и писать, но овладение навыками писателя – это задача будущего. Региоселективность, энантиоселективность, защитные группы и оптимальная общая стратегия остаются особенно сложными вопросами для современных платформ. Многие исследователи полагают, что будущие усилия должны интегрировать экспертные знания с химически-ориентированным искусственным интеллектом, чтобы взять лучшее из обоих миров.

Автоматизированные синтетические лаборатории будущего, вероятно, будут оснащены программными решениями, облегчающими разработку и оценку синтетических стратегий. Представьте себе систему, которая может анализировать и классифицировать тысячи потенциальных синтетических маршрутов, распознавать те из них, которые могут быть осуществлены с помощью автоматизированных процессов, оценивать наличие необходимого сырья и запускать процедуру синтеза на роботизированной платформе. С помощью правильного программного решения мы сможем быстрее и эффективнее решать химические задачи, способствуя более эффективному открытию лекарств и других критически важных для нас соединений.