Использование машинного обучения для борьбы с устойчивостью к антибиотикам

Микробиология 19 августа 2019 г., 3:09
Использование машинного обучения для борьбы с устойчивостью к антибиотикам

Исследователи используют искусственный интеллект для выявления известных и новых генов устойчивости.

Если вам не повезло оказаться в больнице с лекарственно - устойчивой бактериальной инфекцией, врачам необходимо выяснить, какое антимикробный препарат с наибольшей вероятностью может убить ваш конкретный патоген. С ростом устойчивости к антибиотикам и, по прогнозам, к 2050 году ежегодно будет убивать 10 миллионов человек, это не всегда будет легким выбором.

Это помогло бы клиническим специалистам иметь возможность добывать геном ваших супербактерий для последовательностей ДНК, которые указывают на восприимчивость или устойчивость к антибиотикам.

В качестве шага к этой цели, биоинформатики используют искусственный интеллект для выявления наиболее важных последовательностей.

Они добиваются прогресса благодаря базам данных, заполненным тысячами геномов от различных штаммов патогенных бактерий, а также соответствующим данным о том, были ли эти штаммы восприимчивы или устойчивы к десяткам антибиотиков.

  • Некоторые исследователи обучают алгоритмам машинного обучения идентифицировать известные гены лекарственной устойчивости у новых штаммов патогена.
  • Другие используют ИИ для поиска совершенно новых генов устойчивости, пытаясь лучше понять, как бактерии борются с лекарственными препаратами.
  • А некоторые переходят в метагеномы, стремясь понять профиль устойчивости таких сред, как сточные воды.

"Тем не менее, проблемы остаются и после того, как ИИ сможет прописать ваши антибиотики", - говорит Джеймс Дэвис (James Davis), вычислительный биолог из Аргоннской национальной лаборатории. "С одной стороны, быстрое секвенирование по месту оказания помощи остается дорогим и менее точным, чем более медленные обычные методы. С другой стороны, базы данных часто ориентированы на резистентные штаммы, потому что в больницах упорядочены наиболее сложные случаи, но включение геномов из штаммов, чувствительных к антибиотикам, поможет алгоритмам работать лучше", - говорит он.

Здесь описано три недавних исследования, применяющих машинное обучение к проблеме устойчивости к антибиотикам.

Лекарства и дозы

Какие препараты лучше всего помогают при лечении инфекции? Некоторые ученые полагаются на известные гены и белки устойчивости к противомикробным препаратам, чтобы сопоставить штаммы бактерий с лекарственными средствами, которые могут их убить.

Дэвис говорит, что ИИ может добиться большего успеха, анализируя целые геномы на предмет известных и потенциально неизвестных генов, связанных с лекарственной устойчивостью или восприимчивостью.

  • Он и его команда разработали подход машинного обучения для выявления ключевых различий между резистентными и восприимчивыми штаммами и, таким образом, для прогнозирования профиля лекарственной реакции новых штаммов.
  • Алгоритм также может помочь ученым определить новые гены устойчивости.

Исследователи недавно проверили свой подход к сальмонелле, - основной причине пищевых отравлений. Хотя инфекция обычно не является серьезной, резистентность к антибиотикам может сделать людей еще больнее.


ИНТЕЛЛЕКТУАЛЬНЫЙ ДИЗАЙН: Ученые используют ИИ для изучения последовательностей ДНК бактерий, которые заражают

людей и загрязняют окружающую среду, чтобы идентифицировать известные и новые гены устойчивости к лекарствам.

  • Ученые использовали 5 278 геномов сальмонеллы из Национальной системы мониторинга устойчивости к противомикробным препаратам Управления по контролю за качеством пищевых продуктов и медикаментов США (US Food and Drug Administration’s National Antimicrobial Resistance Monitoring System), а также так называемые минимальные ингибирующие концентрации или MIC для 15 антибиотиков, то есть минимальное количество, необходимое для блокирования роста каждого штамма в лаборатории.
  • Все бактерии были выделены из сырого мяса и птицы для продажи или от убоя скота на пищу.

В этой работе использовали программу под названием «K-mer Counter» (KMC), чтобы разделить каждый из этих геномов на перекрывающиеся 10 - мерные нуклеотиды.

  • Например, если гипотетическая последовательность началась с AAAAAGGGGGTTTTTCCCCC, первыми 10 - членами были бы AAAAAGGGGG, AAAAGGGGGT, AAAGGGGGTT и т. д., начиная каждый раз дальше по одному основанию.
  • Затем компьютер подсчитал, сколько раз данный 10 - мер появлялся в каждом геноме: количество AAAAAGGGGG, AAAAGGGGGT, AAAGGGGGTT и так далее.

Это были функции, заложенные в алгоритм машинного обучения, наряду с данными MIC, для обучения ИИ самостоятельному прогнозированию.

Машинное обучение

  • Команда применила алгоритм машинного обучения, называемый экстремальным повышением градиента (XGBoost). Используя эти 10-значные числа, компьютер создает "деревья" решений для прогнозирования правильных MIC.
  • Каждая точка принятия решения использует один из 10 - мерных элементов, чтобы помочь ему классифицировать данный геном как резистентный или восприимчивый к различным лекарствам.
  • Затем алгоритм назначает разные уровни важности каждому 10 - мерному элементу и многократно формирует деревья в итерациях, называемых "бустами", пока не получит наименьшую ошибку, которую он может получить для своих предсказаний MIC, по сравнению с истинными MIC.
  • Исследователи запускали алгоритм 10 раз, каждый раз оставляя различную десятую часть своего набора данных; также они обучают компьютер другим 90 процентам данных, а затем используют оставшиеся десять процентов, чтобы проверить их точность.

Когда дан совершенно новый геном, программа предсказывает, к каким препаратам штамм будет устойчивым или восприимчивым, наряду с соответствующей дозой. При тестировании 10 процентов оставшихся данных, алгоритм был на 95 процентов точным.

Повторно выполняя свои тесты с 15 - мерами для каждого генома патогена и рассматривая каждый антибиотик в отдельности, исследователи идентифицировали фрагменты ДНК, связанные с резистентностью или восприимчивостью к каждому препарату.

Сравнивая эти 15 - меры с последовательностью сальмонеллы, исследователи начали выяснять, какие гены были наиболее важны в этих предсказаниях. Фактически, многие из генов, выбранных алгоритмом, соответствовали известным генам устойчивости к лекарственным препаратам, что указывало на правильность алгоритма.

  • Но не все указывали на хорошо понятые гены устойчивости, предполагая, что ИИ может обнаруживать генетические особенности, пока неизвестные ученым, которые также связаны с устойчивостью. "Там есть неизвестные данные, которые стоит изучить", - говорит Дэвис.

Преимущества

Алгоритм машинного обучения не зависит от списка известных генов устойчивости или даже генов, кодирующих белки, что позволяет ему идентифицировать новые генетические факторы, потенциально участвующие в устойчивости по всему геному.

Недостатки

Аппарат идентифицирует 10 - и 15 - мерные показатели, связанные с реакциями на лекарственные средства, но не сразу ясно, какие гены имеют отношение, или, например, какая отдельная последовательность способствует устойчивости или восприимчивости.

Дэвис добавляет, что обычно можно сделать вывод об этой информации, когда он сравнивает 10 - или 15 - мерные последовательности с бактериальными данными.

Генная разведка

Исследователи, изучающие резистентность к микробам, обычно концентрируются на генных продуктах, которые непосредственно взаимодействуют с данным лекарственным средством. Но другие виды генов - например, гены, которые влияют на проницаемость бактериальной клеточной стенки или то, как клетка откачивает токсины и отходы - также могут влиять на восприимчивость к противомикробным препаратам.

Эрол Каввас, аспирант биоинженерии в Калифорнийском университете в Сан-Диего, охотился за новыми генами устойчивости в геноме Mycobacterium tuberculosis. Эта бактерия ежегодно поражает около 10 миллионов человек во всем мире, и более 500 000 из этих инфекций устойчивы к обычно назначаемым антибиотикам. "У лекарственной устойчивости при туберкулезе много сложностей", - говорит Каввас.


Бактерия Clostridium difficile

Специалисты использовали 1595 геномов M. tuberculosis из базы данных Центра интеграции ресурсов Pathosystems (PATRIC), а также были ли в каждом геноме штаммы, устойчивые к воздействию или восприимчивые к 13 различным антибиотикам.

  • Во-первых, исследователи определили пангеном - полный список всех возможных кодирующих белок генов - из всех штаммов M. tuberculosis в их наборе данных.
  • Основываясь на этом списке, они идентифицировали все возможные аллели, которые потенциально могут присутствовать в данном геноме туберкулеза.
  • Затем они отметили, обладает ли геном каждого отдельного штамма каждым аллелем или нет.

Вместе с данными об устойчивости эти аллельные списки «да» или «нет» создали многомерную матрицу.

Машинное обучение

Каввас применил подход, называемый машиной опорных векторов, или SVM.

Алгоритм предназначен для группировки похожих данных и проведения границ между группами.

  • Например, для простой двумерной входной матрицы с двумя типами переменных она может рисовать линии между группами.
  • Для многомерной матрицы, созданной Каввас, она рисует многомерный делитель, называемый гиперплоскостью, между устойчивыми и восприимчивыми деформациями.

Чтобы определить наиболее важные гены устойчивости, Каввас также применил технику, называемую L1-нормой. Проще говоря, он велел компьютеру использовать небольшое количество генов, чтобы нарисовать границу.

  • Алгоритм предоставляет список генетических мутаций, связанных с устойчивостью к каждому препарату, ранжированных по степени важности.
  • Всего Каввас идентифицировал 33 известных гена устойчивости к лекарствам; эта информация может помочь врачам выбрать правильный препарат для пациента с туберкулезом.
  • Он также обнаружил 24 новых гена устойчивости, многие из которых участвуют в метаболизме и процессах клеточной стенки. Он надеется, что экспериментальные биологи изучат его результаты и выяснят, как эти гены помогают нейтрализовать антибиотики.

Преимущества

Многие модели смещены с использованием стандартного эталонного генома, который может представлять или не представлять наиболее распространенные штаммы в кровообращении; вместо этого, используя пангеном, команда избежала этой предвзятости.

Недостатки

До сих пор Каввас включал только варианты в белковые кодирующие гены, поэтому он мог пропустить соответствующие небелковые кодирующие элементы, такие как гены для регуляторных РНК, в других частях генома.

Получить Мета - копать глубже

Микробы улавливают новые гены устойчивости к лекарственным препаратам у других бактерий, обменивая их, как торговые карточки.

Встреча по обмену происходит в местах, где микробы смешиваются, например, в сточных водах больниц или ферм с высоким уровнем использования антибиотиков. Даже после очистки воды остаются следы ДНК, связанной с резистентностью.


Чтобы оценить риск в пробах воды, исследователи часто собирают метагеномы, то есть всю ДНК в микробном сообществе, а затем ищут известные индивидуальные гены устойчивости к антибиотикам, которые гомологичны (похожи) последовательностям в их пробе.

Но для проведения этих сравнений необходимо определить порог сходства, скажем, 50 - 90 процентов, который считается достаточно близким, чтобы назвать фрагмент ДНК "геном устойчивости".

"Исследователи часто устанавливают высокие жесткие пороги, что приводит к высокой вероятности ложных негативов", - говорит Ликин Чжан (Liqing Zhang), биоинформатик из Virginia Tech. То есть многие истинные гены сопротивления игнорируются.

Чжан и его коллеги разработали новый инструмент для оценки генов устойчивости в пробах окружающей среды.

Называемый DeepARG (для генов устойчивости к антибиотикам), он сравнивает ДНК окружающей среды со всеми известными генами устойчивости, по одному за раз, вместо одного, наиболее гомологичного гена.

Это удобно, потому что оно фокусируется на сравнении широких категорий генов устойчивости и того, что у них общего, поэтому алгоритм может идентифицировать новые гены, которые имеют эти общие черты.

Во-первых, исследователи создали базу данных известных генов устойчивости и того, какие из 30 различных лекарств, на которые они влияют, собраны из трех источников:

- Комплексная база данных устойчивости к антибиотикам (CARD),

- База данных генов устойчивости к антибиотикам (ARDB),

- Универсальный протеиновый ресурс (UNIPROT). Они называют базу данных DeepARG-DB.

Затем они использовали 70 процентов из 10 602 генов из UNIPROT для обучения алгоритму машинного обучения. Чтобы получить исходные данные, они попросили компьютер сравнить последовательность каждого гена от UNIPROT в отдельности с известными генами устойчивости из двух других баз данных. Результатом стал список тысяч показателей сходства для каждого гена UNIPROT.

Машинное обучение

Группа Чжана использовала модель глубокого обучения - эти типы алгоритмов вдохновлены тем, как человеческий мозг работает, и они назначают различные веса входным данным, чтобы получить наиболее точный результат.

  • Во время обучения компьютер выяснил, как взвесить эти оценки сходства, чтобы сделать лучшие прогнозы категории устойчивости к антибиотикам для каждого гена UNIPROT.

Ученые построили две разные модели для разных видов последовательностей ДНК. DeepARG-SS работает для коротких чтений, из 100 пар оснований или схоже с тем, как данные, которые обычно получают из метагеномных последовательностей. DeepARG-LS работает с более длинными считываниями генов.

При тестировании с оставшимися 30 процентами последовательностей UNIPROT, на которых он не обучался, алгоритм Чжана генерирует вероятность того, что каждая последовательность отражает ген устойчивости к каждой из 30 категорий антибиотиков. Он смог идентифицировать гены устойчивости к антибиотикам с низким уровнем как ложных отрицательных, так и ложных положительных результатов.

Прогнозы DeepARG хорошо согласуются с другими отчетами. Исследователи сравнили свои результаты с недавно опубликованным списком 76 новых генов устойчивости к антибиотикам. "Конечно же, мы предсказали 65 из них", - говорит Чжан.

Ее сотрудники теперь могут применять DeepARG для оценки сточных вод и других проб окружающей среды.

  • Например, они могут проверить, как очистка сточных вод изменяет профиль генов устойчивости.

Преимущества

DeepARG не требует строгих ограничений для определения генов, связанных с лекарственной резистентностью, поэтому он дает меньше ложных отрицательных результатов, чем стандартные сравнения.

Недостатки

База данных рассматривает только гены как связанные с устойчивостью или нет; ему не хватает разрешения для идентификации однонуклеотидных полиморфизмов, связанных с резистентностью, или мутаций, которые косвенно влияют на пути резистентности.


Несмотря на сложности и ограничения, каждый из этих способов дает новый виток в исследованиях по созданию нового спектра лекарств и более интенсивному лечению заболеваний в будущем.



Станьте первым!



pangenes.ru © 2019
Яндекс.Метрика