A pesar del progreso constante en la detección y el tratamiento en las últimas décadas, el cáncer sigue siendo la segunda causa principal de muerte en los Estados Unidos, acortando la vida de aproximadamente 500,000 personas cada año.
Para comprender mejor y combatir esta enfermedad, los investigadores médicos confían en los programas de registro de cáncer, una red nacional de organizaciones que recopilan sistemáticamente información demográfica y clínica relacionada con el diagnóstico, el tratamiento y el historial de incidencia de cáncer en los Estados Unidos.El esfuerzo, coordinado por el Instituto Nacional del Cáncer NCI y los Centros para el Control y la Prevención de Enfermedades, permite a los investigadores y clínicos monitorear los casos de cáncer a nivel nacional, estatal y local.
Gran parte de estos datos se obtienen de informes clínicos electrónicos basados en texto que deben seleccionarse manualmente, un proceso que requiere mucho tiempo, antes de que pueda usarse en la investigación. Por ejemplo, informes de patología del cáncer, documentos de texto que describen cáncertejido en detalle, debe ser leído y anotado individualmente por expertos antes de formar parte de un registro de cáncer. Con la producción de millones de informes nuevos cada año, la carga de información continúa creciendo.
"El modelo manual no es escalable", dijo Georgia Tourassi, directora del Instituto de Ciencias de Datos de Salud del Laboratorio Nacional Oak Ridge ORNL del Departamento de Energía de los Estados Unidos DOE. "Necesitamos desarrollar nuevas herramientas que puedan automatizar elproceso de extracción de información y verdaderamente modernizar la vigilancia del cáncer en los Estados Unidos ".
Desde 2014, Tourassi ha dirigido un equipo centrado en la creación de software que puede identificar rápidamente información valiosa en los informes de cáncer, una capacidad que no solo ahorraría tiempo y horas de trabajo, sino que también podría revelar caminos pasados por alto en la investigación del cáncer.software de procesamiento de lenguaje, el progreso más reciente del equipo ha surgido a través del aprendizaje profundo, una técnica de aprendizaje automático que emplea algoritmos, big data y la potencia informática de las GPU para emular el aprendizaje y la inteligencia humana.
Utilizando la supercomputadora Titan en el Centro de Computación de Liderazgo de Oak Ridge, un Centro de Usuarios de la Oficina de Ciencia del DOE ubicado en ORNL, el equipo de Tourassi aplicó el aprendizaje profundo para extraer información útil de los informes de patología del cáncer, un elemento fundamental de la vigilancia del cáncer. Trabajar con conjuntos de datos modestos, el equipo obtuvo hallazgos preliminares que demuestran el potencial del aprendizaje profundo para la vigilancia del cáncer.
El continuo desarrollo y maduración de herramientas de datos automatizadas, entre los objetivos descritos en la iniciativa Cancer Moonshot de la Casa Blanca, brindaría a los investigadores médicos y a los encargados de formular políticas una visión sin precedentes de la población de cáncer de EE. UU. A un nivel de detalle típicamente obtenido solo para pacientes de ensayos clínicos, históricamente menos del 5 por ciento de la población total de cáncer.
"Hoy estamos tomando decisiones sobre la efectividad del tratamiento basado en un porcentaje muy pequeño de pacientes con cáncer, que pueden no ser representativos de toda la población de pacientes", dijo Tourassi. "Nuestro trabajo muestra el potencial del aprendizaje profundo para crear recursos quepuede capturar la efectividad de los tratamientos contra el cáncer y los procedimientos de diagnóstico y brindar a la comunidad del cáncer una mejor comprensión de cómo se desempeñan en la vida real ".
Belleza de la caja negra
Crear software que pueda comprender no solo el significado de las palabras, sino también las relaciones contextuales entre ellas no es una tarea simple. Los humanos desarrollan estas habilidades a través de años de interacción y capacitación de ida y vuelta. Para tareas específicas, el aprendizaje profundo comprime este procesoen cuestión de horas.
Por lo general, esta construcción de contexto se logra mediante el entrenamiento de una red neuronal, una red de cálculos ponderados diseñados para producir conjeturas informadas sobre cómo llevar a cabo correctamente las tareas, como identificar una imagen o procesar un comando verbal.Una red neuronal, llamada entradas y retroalimentación selecta, le da al software una base para tomar decisiones basadas en nuevos datos. Este proceso algorítmico de toma de decisiones es en gran medida opaco para el programador, una dinámica similar a una maestra con poco conocimiento directo de sus alumnos.percepción de una lección.
"Con el aprendizaje profundo, simplemente arroja el documento y dice: 'Averígualo'", dijo Tourassi. "Es más como una caja negra, pero esa es la belleza. No imponemos nuestras propias restricciones".
Las GPU, como las de Titán, pueden acelerar este proceso de entrenamiento ejecutando rápidamente muchos cálculos de aprendizaje profundo simultáneamente. En dos estudios recientes, el equipo de Tourassi usó aceleradores para ajustar múltiples algoritmos, comparando resultados con métodos más tradicionales. Usando un conjunto de datos compuestode 1,976 informes de patología proporcionados por el Programa de Vigilancia, Epidemiología y Resultados Finales SEER del NCI, el equipo de Tourassi entrenó un algoritmo de aprendizaje profundo para llevar a cabo dos tareas de extracción de información diferentes pero estrechamente relacionadas. En la primera tarea, el algoritmo escaneó cada informe paraidentificar la ubicación primaria del cáncer. En la segunda tarea, el algoritmo identificó la lateralidad del sitio del cáncer, o en qué lado del cuerpo se localizó el cáncer.
Al configurar una red neuronal diseñada para explotar la información relacionada compartida por las dos tareas, una disposición conocida como aprendizaje multitarea, el equipo descubrió que el algoritmo funcionó sustancialmente mejor que los métodos de la competencia.
"Intuitivamente, esto tiene sentido porque llevar a cabo el objetivo más difícil es donde aprender el contexto de las tareas relacionadas se vuelve beneficioso", dijo Tourassi. "Los humanos pueden hacer este tipo de aprendizaje porque entendemos las relaciones contextuales entre las palabras. Esto es lo que nosotrosestamos tratando de implementar con aprendizaje profundo "
Otro estudio llevado a cabo por el equipo de Tourassi utilizó 946 informes SEER sobre cáncer de mama y pulmón para abordar un desafío aún más complejo: utilizar el aprendizaje profundo para relacionar el origen del cáncer con un código topológico correspondiente, una clasificación que es aún más específica que la primaria de un cáncersitio o lateralidad, con 12 posibles respuestas.
El equipo abordó este problema construyendo una red neuronal convolucional, un enfoque de aprendizaje profundo tradicionalmente utilizado para el reconocimiento de imágenes y alimentando el idioma desde una variedad de fuentes. Las entradas de texto variaron desde general por ejemplo, resultados de búsqueda de Google hasta dominio-específico p. ej., literatura médica a altamente especializado p. ej., informes de patología del cáncer. El algoritmo luego tomó estas entradas y creó un modelo matemático que dibujó conexiones entre palabras, incluidas las palabras compartidas entre textos no relacionados.
Al comparar este enfoque con clasificadores más tradicionales, como un modelo de espacio vectorial, el equipo observó una mejora incremental en el rendimiento a medida que la red absorbía más texto específico sobre el cáncer. Estos resultados preliminares ayudarán a guiar al equipo de Tourassi a medida que amplían los algoritmos de aprendizaje profundopara abordar conjuntos de datos más grandes y avanzar hacia una menor supervisión, lo que significa que los algoritmos tomarán decisiones informadas con menos intervención humana.
En 2016, el equipo de Tourassi se enteró de que su proyecto de vigilancia del cáncer se desarrollará como parte del Proyecto de Computación Exascale del DOE, una iniciativa para desarrollar un ecosistema informático que pueda soportar una supercomputadora Exascale, una máquina que puede ejecutar mil millones de billones de cálculos por segundo.el equipo ha logrado un progreso considerable en el aprovechamiento del aprendizaje profundo para la investigación del cáncer, los mayores avances aún están por llegar.
"Centrándose solo en el texto clínico, el valor sería tremendo", dijo Tourassi.
Fuente de la historia :
Materiales proporcionado por DOE / Laboratorio Nacional de Oak Ridge . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :