Wu Enhui, Qiao Liang*
Departament de Química, Universitat de Fudan, Xangai 200433, Xina
Els microorganismes estan estretament relacionats amb les malalties humanes i la salut. Com entendre la composició de les comunitats microbianes i les seves funcions és un tema important que cal estudiar amb urgència. En els darrers anys, la metaproteòmica s'ha convertit en un mitjà tècnic important per estudiar la composició i la funció dels microorganismes. No obstant això, a causa de la complexitat i l'alta heterogeneïtat de les mostres de la comunitat microbiana, el processament de mostres, l'adquisició de dades d'espectrometria de masses i l'anàlisi de dades s'han convertit en els tres grans reptes als quals s'enfronta actualment la metaproteòmica. En l'anàlisi de metaproteòmica, sovint és necessari optimitzar el pretractament de diferents tipus de mostres i adoptar diferents esquemes de separació, enriquiment, extracció i lisi microbiana. De manera similar al proteoma d'una sola espècie, els modes d'adquisició de dades d'espectrometria de masses en metaproteòmica inclouen el mode d'adquisició dependent de dades (DDA) i el mode d'adquisició independent de dades (DIA). El mode d'adquisició de dades DIA pot recollir completament la informació del pèptid de la mostra i té un gran potencial de desenvolupament. Tanmateix, a causa de la complexitat de les mostres de metaproteoma, la seva anàlisi de dades DIA s'ha convertit en un problema important que dificulta la cobertura profunda de la metaproteòmica. Pel que fa a l'anàlisi de dades, el pas més important és la construcció d'una base de dades de seqüències de proteïnes. La mida i la integritat de la base de dades no només tenen un gran impacte en el nombre d'identificacions, sinó que també afecten l'anàlisi a nivell d'espècie i funcional. Actualment, l'estàndard d'or per a la construcció d'una base de dades de metaproteoma és una base de dades de seqüències de proteïnes basada en el metagenoma. Al mateix temps, també s'ha demostrat que el mètode de filtratge de bases de dades públiques basat en la cerca iterativa té un fort valor pràctic. Des de la perspectiva d'estratègies específiques d'anàlisi de dades, els mètodes d'anàlisi de dades DIA centrats en pèptids han ocupat un corrent principal absolut. Amb el desenvolupament de l'aprenentatge profund i la intel·ligència artificial, promourà en gran mesura la precisió, la cobertura i la velocitat d'anàlisi de l'anàlisi de dades macroproteòmiques. Pel que fa a l'anàlisi bioinformàtica aigües avall, en els darrers anys s'han desenvolupat una sèrie d'eines d'anotació que poden realitzar anotacions d'espècies a nivell de proteïnes, pèptids i gens per obtenir la composició de comunitats microbianes. En comparació amb altres mètodes òmics, l'anàlisi funcional de les comunitats microbianes és una característica única de la macroproteòmica. La macroproteòmica s'ha convertit en una part important de l'anàlisi multiòmica de les comunitats microbianes i encara té un gran potencial de desenvolupament en termes de profunditat de cobertura, sensibilitat de detecció i exhaustivitat de l'anàlisi de dades.
01Pretractament de la mostra
Actualment, la tecnologia metaproteòmica s'ha utilitzat àmpliament en la investigació del microbioma humà, el sòl, els aliments, l'oceà, els fangs actius i altres camps. En comparació amb l'anàlisi del proteoma d'una sola espècie, el pretractament de la mostra del metaproteoma de mostres complexes s'enfronta a més reptes. La composició microbiana de les mostres reals és complexa, el rang dinàmic d'abundància és gran, l'estructura de la paret cel·lular dels diferents tipus de microorganismes és molt diferent i les mostres sovint contenen una gran quantitat de proteïnes hoste i altres impureses. Per tant, en l'anàlisi del metaproteoma, sovint és necessari optimitzar diferents tipus de mostres i adoptar diferents esquemes de separació, enriquiment, extracció i lisi microbiana.
L'extracció de metaproteomes microbians de diferents mostres té certes similituds així com algunes diferències, però actualment manca un procés de preprocessament unificat per a diferents tipus de mostres de metaproteomes.
02 Adquisició de dades d'espectrometria de masses
En l'anàlisi del proteoma d'escopeta, la barreja de pèptids després del pretractament es separa primer a la columna cromatogràfica i després entra a l'espectròmetre de masses per a l'adquisició de dades després de la ionització. De manera similar a l'anàlisi del proteoma d'una sola espècie, els modes d'adquisició de dades d'espectrometria de masses en l'anàlisi de macroproteoma inclouen el mode DDA i el mode DIA.
Amb la contínua iteració i actualització dels instruments d'espectrometria de masses, s'apliquen instruments d'espectrometria de masses amb major sensibilitat i resolució al metaproteoma, i la profunditat de cobertura de l'anàlisi del metaproteoma també es millora contínuament. Durant molt de temps, una sèrie d'instruments d'espectrometria de masses d'alta resolució dirigits per Orbitrap s'han utilitzat àmpliament en el metaproteoma.
La taula 1 del text original mostra alguns estudis representatius sobre metaproteòmica des del 2011 fins a l'actualitat pel que fa al tipus de mostra, estratègia d'anàlisi, instrument d'espectrometria de masses, mètode d'adquisició, programari d'anàlisi i nombre d'identificacions.
03 Anàlisi de dades d'espectrometria de masses
3.1 Estratègia d'anàlisi de dades DDA
3.1.1 Cerca en bases de dades
3.1.2de nouestratègia de seqüenciació
3.2 Estratègia d'anàlisi de dades DIA
04Classificació d'espècies i anotació funcional
La composició de comunitats microbianes a diferents nivells taxonòmics és una de les àrees de recerca clau en la investigació del microbioma. En els darrers anys, s'han desenvolupat una sèrie d'eines d'anotació per anotar espècies a nivell de proteïnes, pèptids i nivell de gens per obtenir la composició de comunitats microbianes.
L'essència de l'anotació funcional és comparar la seqüència de proteïnes objectiu amb la base de dades de seqüències de proteïnes funcionals. Utilitzant bases de dades de funcions gèniques com GO, COG, KEGG, eggNOG, etc., es poden realitzar diferents anàlisis d'anotacions funcionals sobre proteïnes identificades pels macroproteomes. Les eines d'anotació inclouen Blast2GO, DAVID, KOBAS, etc.
05 Resum i perspectives
Els microorganismes tenen un paper important en la salut humana i les malalties. En els últims anys, la metaproteòmica s'ha convertit en un mitjà tècnic important per estudiar la funció de les comunitats microbianes. El procés analític de la metaproteòmica és similar al de la proteòmica d'una sola espècie, però a causa de la complexitat de l'objecte d'investigació de la metaproteòmica, cal adoptar estratègies de recerca específiques en cada pas d'anàlisi, des del pretractament de la mostra, l'adquisició de dades fins a l'anàlisi de dades. En l'actualitat, gràcies a la millora dels mètodes de pretractament, la innovació contínua de la tecnologia d'espectrometria de masses i el ràpid desenvolupament de la bioinformàtica, la metaproteòmica ha avançat molt en la profunditat d'identificació i l'abast d'aplicació.
En el procés de pretractament de mostres de macroproteoma, primer s'ha de considerar la naturalesa de la mostra. Com separar els microorganismes de les cèl·lules i proteïnes ambientals és un dels reptes clau als quals s'enfronten els macroproteomes, i l'equilibri entre l'eficiència de la separació i la pèrdua microbiana és un problema urgent a resoldre. En segon lloc, l'extracció de proteïnes dels microorganismes ha de tenir en compte les diferències provocades per l'heterogeneïtat estructural dels diferents bacteris. Les mostres de macroproteoma del rang de traça també requereixen mètodes de pretractament específics.
Pel que fa als instruments d'espectrometria de masses, els instruments d'espectrometria de masses convencionals han experimentat una transició d'espectròmetres de masses basats en analitzadors de masses Orbitrap com LTQ-Orbitrap i Q Exactive a espectròmetres de masses basats en analitzadors de masses de temps de vol acoblats amb mobilitat iònica com timsTOF Pro. . La sèrie d'instruments timsTOF amb informació de dimensió de mobilitat iònica té una alta precisió de detecció, un límit de detecció baix i una bona repetibilitat. A poc a poc s'han convertit en instruments importants en diversos camps de recerca que requereixen detecció per espectrometria de masses, com el proteoma, el metaproteoma i el metaboloma d'una sola espècie. Val la pena assenyalar que durant molt de temps, el rang dinàmic dels instruments d'espectrometria de masses ha limitat la profunditat de cobertura de proteïnes de la investigació del metaproteoma. En el futur, els instruments d'espectrometria de masses amb un rang dinàmic més gran poden millorar la sensibilitat i la precisió de la identificació de proteïnes en metaproteomes.
Per a l'adquisició de dades d'espectrometria de masses, tot i que el mode d'adquisició de dades DIA s'ha adoptat àmpliament en el proteoma d'una sola espècie, la majoria de les anàlisis de macroproteoma actuals encara utilitzen el mode d'adquisició de dades DDA. El mode d'adquisició de dades DIA pot obtenir completament la informació de fragments d'ions de la mostra i, en comparació amb el mode d'adquisició de dades DDA, té el potencial d'obtenir completament la informació del pèptid de la mostra de macroproteoma. Tanmateix, a causa de l'alta complexitat de les dades DIA, l'anàlisi de les dades del macroproteoma DIA encara s'enfronta a grans dificultats. S'espera que el desenvolupament de la intel·ligència artificial i l'aprenentatge profund millori la precisió i la integritat de l'anàlisi de dades de DIA.
En l'anàlisi de dades de la metaproteòmica, un dels passos clau és la construcció de la base de dades de seqüències de proteïnes. Per a àrees de recerca populars com la flora intestinal, es poden utilitzar bases de dades microbianes intestinals com IGC i HMP, i s'han aconseguit bons resultats d'identificació. Per a la majoria d'altres anàlisis de metaproteòmica, l'estratègia de construcció de bases de dades més eficaç segueix sent establir una base de dades de seqüències de proteïnes específiques de mostra basada en dades de seqüenciació metagenòmica. Per a mostres de comunitats microbianes amb gran complexitat i gran rang dinàmic, és necessari augmentar la profunditat de seqüenciació per augmentar la identificació d'espècies de baixa abundància, millorant així la cobertura de la base de dades de seqüències de proteïnes. Quan falten dades de seqüenciació, es pot utilitzar un mètode de cerca iterativa per optimitzar la base de dades pública. Tanmateix, la cerca iterativa pot afectar el control de qualitat de l'FDR, de manera que els resultats de la cerca s'han de revisar acuradament. A més, encara val la pena explorar l'aplicabilitat dels models tradicionals de control de qualitat FDR en l'anàlisi de metaproteòmica. Pel que fa a l'estratègia de cerca, l'estratègia de biblioteca espectral híbrida pot millorar la profunditat de cobertura de la metaproteòmica DIA. En els darrers anys, la biblioteca espectral prevista generada a partir de l'aprenentatge profund ha mostrat un rendiment superior en proteòmica DIA. Tanmateix, les bases de dades de metaproteomes sovint contenen milions d'entrades de proteïnes, la qual cosa dóna lloc a una gran escala de biblioteques espectrals predites, consumeix molts recursos informàtics i dóna lloc a un gran espai de cerca. A més, la similitud entre les seqüències de proteïnes dels metaproteomes varia molt, cosa que dificulta assegurar la precisió del model de predicció de la biblioteca espectral, de manera que les biblioteques espectrals predites no s'han utilitzat àmpliament en metaproteòmica. A més, cal desenvolupar noves estratègies d'anotació de classificació i inferència de proteïnes per aplicar-les a l'anàlisi metaproteòmica de proteïnes molt similars a la seqüència.
En resum, com a tecnologia emergent de recerca del microbioma, la tecnologia metaproteòmica ha aconseguit resultats de recerca significatius i també té un gran potencial de desenvolupament.
Hora de publicació: 30-agost-2024