Microbiologia: La resistència als agents antimicrobians (AMR) constitueix una amenaça de salut en forma d’infeccions intractables. En general, aquesta resistència és mitjançada per gens, de manera que la seqüenciació genòmica es pot fer servir en la detecció. Les dades de vigilància genòmica de patògens bacterians generen una quantitat ingent de dades de manera que hom confia en aplicacions d’aprenentatge mecànic (ML) per predir i identificar els determinants de la resistència. Yanying Lu, Nicole E. Wheeler i Lars Barquist, però, hi veuen un problema en aquesta aproximació. Malgrat el que ens pugui semblar, les poblacions bacterianes tenen una estructuració elevada, de manera que qualsevol programa de vigilància hauria de fer un esforç per seleccionar-hi mostres representatives. Ara bé, els mostreigs microbiològics tenen un biaix lògic a favor de mostres clíniques, de manera que la vigilància genòmica es fa preferencialment sobre isolats relacionats amb malalties humanes. La ML requereix una independència entre les mostres que aquest biaix fa impossible. En un article a PLos Biology Yu, Wheeler i Barquist posen de relleu l’efecte de confusió derivat de l’estructura mostral que es produeix en una anàlisi de 24.000 seqüències genòmiques completes de cinc tipus de patògens bacterians amb diferents fenotips AMR. La ML en aquest cas confon resistència i filogènia, la qual cosa n’afecta els models predictius resultants. Per a resoldre-ho no n’hi ha prou amb un augment de la mida mostral d’entrenament. Yu et al. analitzen 6740 models per entendre l'efecte derivat d’espècie i de fàrmac antimicrobià. Això mostra la importància d’una perspectiva d’una sola salut en la vigilància genòmica de microorganismes patògens per tal de bastir mètodes representatius de l’estructura poblacional de tots els contextos ecològics on es troben aquests microorganismes.

Electromicrografia de bacils d’Escherichia coli obtinguda per Peter Highton en el 1968
L’aprenentatge mecànic en el seguiment de la resistència a agents antimicrobians
Aquest article ha tingut com a editor acadèmic Tobias Bollenbach (Universitat zu Koln). L’article fou tramès a PLoS Biology el 7 de febrer, i després d’un procés de revisió fou acceptat el 13 de novembre, i publicat el 16 de desembre.
Aquesta recerca ha rebut finançament del Ministeri bavarès de Ciència i Arts i un ajut del NSERC canadenc.
La resistència a fàrmacs antimicrobians (AMR) és al darrera cada any de 4,95 milions de morts, i la perspectiva és que aquesta xifra augmenti. Si l’amenaça creix, es pot arribar a posar en entredit la indicació de teràpies mèdiques avançades que impliquen cirurgia i/o immunosupressió, ja que el risc associat a patògens resistents pot sobrepassar els beneficis d’aquestes teràpies.
Les tècniques microbiològiques clàssiques, com els antibiogrames, han estat complementades en les darreres dècades amb tècniques de seqüenciació que investiguen els gens responsables de les resistències. Aquestes tècniques permeten fer una monitorització de l’aparició i difusió d’AMR. Ara bé, les tècniques de seqüenciació generen un volum tan ingent de dades que calen sistemes automatitzats que transformin les seqüències nucleotídiques en prediccions de perfils de resistències i en identificacions de nous mecanismes de resistència.
L’aprenentatge mecànic (ML), en el marc de l’anomenada intel·ligència artificial, pot fer front a aquestes tasques? Els mètodes clàssics de ML assumeixen que les dades d’entrenament són de distribució independent i idèntica. Ara bé, les mostres de vigilància de patògens rarament poden reflectir l’estructura subjacent de les poblacions bacterianes. En un context epidèmic, els clons bacterians més aptes es difonen més ràpidament. Entre els factors d’aquesta aptitud hi poden haver determinants d’AMR, de forma que pot emergir una associació entre fenotip i marcadors filogenètics no directament involucrats en l’AMR. A més, les mostres analitzades en aquestes campanyes de vigilància presenten tota una sèrie de biaixos: mostres clíniques en detriment de mostres ambientals; mostres de pacients greus en detriment de mostres de la població general; mostres de països rics en detriment de mostres de països subdesenvolupats; etc.
La biologia comparativa i evolutiva ha tractat la qüestió de la dependència filogenètica de gens i trets des de fa més de mig segle. Hom ha desenvolupat eines estatístiques per corregir-ne els efectes. Per exemple, en estudis d’associació genòmica (GWAS) en microorganismes es poden aplicar models d’efecte mixt de correcció de biaixos mostrals.
L’impacte del biaix mostral en la predicció per aprenentatge mecànic de resistències a antimicrobians
Yu et al. han aplegat entre 3204 i 7188 genomes de cadascuna de tres espècies de bacteris gram-negatius i dues espècies de bacteris gram-positius, representatives dels patògens prioritaris de l’OMS:
- Escherichia coli, responsable d’infeccions dels tractes gastrointestinal i urinari.
- Klebsiella pneumoniae, responsable d’infeccions oportunistes.
- Salmonella enterica, responsable d’infeccions gastrointestinals.
- Staphylococcus aureus, membre de la microbiota cutània i responsable d’infeccions oportunistes.
- Streptococcus pneumoniae, principal responsable de la pneumònia nosocomial.
Aquesta base de dades inclou fenotips de resistència per a 27 antibiòtics.
Yu et al. exclouen les combinacions antibiòtic-microorganisme amb menys de 1000 genomes. També són excloses les soques resistents o susceptibles que abasten més del 80% de les dades. Així tenen un nombre mitjà de genomes de 2700, amb un 44% de soques resistents.
Per a cada espècie construeixen un alineament genòmic amb posicions Roary. Amb SNP (polimorfismes mononucleotídics) identifiquen les posicions variables en l’alineament.
Com model representatiu ML, Yu et al. seleccionaren LightGBM, que consisteix en un mètode d’arbre de decisió estimulat per gradient.
Amb IQ-Tree identifiquen clades discrets per a cadascuna de les cinc espècies bacterianes. Coincideixen amb els tipus de seqüència establerts en la literatura. Amb l’estructura de clade poden simular biaixos en els casos d’entrenament patològic, en quatre escenaris:
- escenari a: exclusió d’isolats resistents en les dades d’entrenament del clade de prova.
- escenari b: exclusió d’isolats susceptibles.
- escenari c: exclusió de soques susceptibles d’un altre clade.
- escenari d: exclusió de soques resistents d’un altre clade.
L’exclusió de soques resistents, com era previsible, condueix a una manca de precisió, i a una insuficiència en detecció d’AMR. L’exclusió de soques susceptibles condueix al biaix contrari. Yu et al. consideren que els models de ML prenen marcadors de llinatge com a indicadors d’AMR.
L’ampliació de les dades d’entrenament a tots els clades no resol el biaix d’excloure de la mostra isolats resistents o susceptibles, però sí que l’atenua.
La predictivitat de la resistència antimicrobiana varia segons l’antibiòtic i l’espècie.
Quan l’entrenament es fa amb dades d’espècies gramnegatives, la capacitat de predicció dels models és inferior que quan es fa amb espècies grampositives. Yu et al. ho atribueixen a la membrana exterior de les cèl·lules bacterianes gramnegatives.
De manera semblant, la predicció de resistències a la fluoroquinolona varia segons l’espècie.
En el cas de la resistència a la ciprofloxacina, la capacitat de predicció és influïda per la diversitat de gens que hi ha al darrere. El gen parC és responsable de la resistència a la ciprofloxacina de la majoria de clades resistents d’E. coli i S. aureus. El gen gyrA només apareix com a responsable de la resistència a la ciprofloxacina en un sol clade de S. aureus. En altres clades de E. coli i S. entèrica la resistència a la ciprofloxacina és mitjançada pel gen kdgR (un regulador transcripcional), mobB (gen de mobilització), qorA (quinona-oxidoreductasa) o gens codificadors de proteïnes hipotètiques sense funció definida.
Una de les dificultats per a ML és que l’AMR és mitjançada per un gran nombre de variants gèniques, de manera que són rars els predictors forts. En aquest context és fàcil prendre com a indicadors genuïns d’AMR marcadors associats a llinatges que no hi tenen res a veure.
Hem de llençar la tovallola?
Un sistema ML d’AMR té dues aplicacions potencials:
- predicció de resistència d’una soca que ha estat detectada.
- identificació de variants genètiques que causen resistència.
Quan totes les soques d’un mateix llinatge microbià comparteixen resistència a un antibiòtic, la confusió de marcadors de llinatge amb resistència per part d’un ML pot no afectar la seva capacitat de predicció en un context de vigilància microbiana. Ara bé, aquest no sempre és el cas, i quan ho és, la confusió dificulta la identificació de la base molecular de la resistència.
Algoritmes de ML amb capacitat de percebre les relacions de llinatge tindrien una major capacitat per tractar amb l’estructura jeràrquica de les poblacions bacterianes. També hi pot ajudar la incorporació de senyals evolutives com la conservació filogenètica de seqüències. Yu et al. pensen de tota manera que un sistema de vigilància ha d’incorporar mostres clíniques i ambientals representatives. Això passa per incorporar-hi els països de renda mitjana i baixa. També cal que els sistemes de vigilància tinguin una continuïtat en el temps, més enllà dels moments de brots epidèmics.
Lligams:
- Biased sampling driven by bacterial population structure confounds machine learning prediction of antimicrobial resistance. Yanying Yu, Nicole E. Wheeler, Lars Barquist. PLOS Biology (2025).
- BarquistLab/AMR_prediction, on podem consultar el codi utilitzat.
Cap comentari:
Publica un comentari a l'entrada