Un nuevo algoritmo agrupa los millones de espectros de masas de péptidos en la base de datos pública de PRIDE Archive, lo que facilita la detección de millones de espectros no identificados consistentemente en diferentes conjuntos de datos. Publicado en Métodos de la naturaleza , la nueva herramienta es un paso importante hacia la explotación completa de los datos producidos en experimentos de proteómica de descubrimiento.
En promedio, casi tres cuartas partes de los espectros medidos en los experimentos de proteómica de descubrimiento permanecen sin identificar, independientemente de la calidad del experimento, ya que no pueden ser interpretados por los motores de búsqueda estándar basados en secuencias. Existen enfoques alternativos para mejorar la tasa de identificación, peroestán plagadas de desventajas, incluidos resultados ambiguos. En el estudio de hoy, los investigadores que trabajan en el repositorio público de datos de proteómica del Archivo PRIDE presentan una solución de 'agrupación de espectro' a gran escala que aprovecha el creciente número de conjuntos de datos de espectrometría de masas MS para estudiar sistemáticamentemillones de espectros no identificados.
"Los experimentos de EM producen enormes cantidades de datos, pero identificar secuencias significativas que podrían asignarse a funciones biológicas específicas puede ser problemático", dice Johannes Griss, anteriormente en EMBL-EBI en el Reino Unido y ahora en la Universidad Médica de Viena, Austria..
"La proteómica de descubrimiento es una tecnología madura y es fundamental que podamos explotar los datos de manera eficiente".
Uno de los desafíos con estas tecnologías es que una gran proporción de los datos generados no se pueden interpretar, ya que corresponden a péptidos que aún no se han observado y no están disponibles en bases de datos. Dichos espectros podrían corresponder a variantes de péptidos derivadasdesde variación genérica individual, o hasta péptidos que contienen modificaciones postraduccionales, que son esenciales para las funciones biológicas de las proteínas.
"Lo que tenemos ahora es un algoritmo que nos muestra patrones, o grupos de espectros, que siempre hemos pasado por alto, y nos ayuda a descubrir cuáles son lo suficientemente buenos para seguir", agrega Johannes. "Es una herramienta valiosa quenos ayuda a desentrañar lo que sucede en la proteómica, para que podamos comprender mejor los procesos biológicos básicos ".
El equipo utilizó el enfoque para reconocer 9 millones de espectros constantemente no identificados, lo que puede hacer que las modificaciones postraduccionales y los péptidos que contienen variantes de secuencia sean más detectables. Identificaron tres conjuntos distintos de espectros: los que se han identificado incorrectamente, los que no son decalidad lo suficientemente alta para identificar correctamente, y aquellos que realmente no están identificados. También combinaron su nuevo enfoque con otros métodos para identificar aproximadamente el 20% de los espectros originalmente no identificados en el archivo público.
"La proteómica de descubrimiento es una tecnología madura, y es crucial que podamos explotar los datos de manera eficiente, pero crear un subconjunto sensible de espectros para comenzar un análisis en profundidad de espectros no identificados ha sido un gran desafío", dice Juan AntonioVizcaíno, quien dirige el equipo de proteómica en EMBL-EBI. "Desarrollamos un enfoque computacional comparativamente liviano que hace que sea mucho más fácil detectar secuencias que se han identificado incorrectamente, o que se han observado consistentemente pero no identificadas. Estas colecciones listas para usar de comúnmentelos espectros no identificados son un recurso para la comunidad, por lo que todos podemos unir nuestros esfuerzos para encontrar soluciones duraderas para la investigación proteómica ".
El nuevo algoritmo se utilizará para mejorar el control de calidad en el archivo PRIDE. Los resultados completos de la agrupación del espectro están disponibles a través del recurso PRIDE Cluster, que tiene como objetivo simplificar la investigación adicional de los espectros no identificados.
Fuente de la historia :
Materiales proporcionado por Laboratorio Europeo de Biología Molecular - Instituto Europeo de Bioinformática . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :