En un principio científico, los neuroingenieros de Columbia han creado un sistema que traduce el pensamiento en un discurso inteligible y reconocible. Al monitorear la actividad cerebral de alguien, la tecnología puede reconstruir las palabras que una persona escucha con una claridad sin precedentes. Este avance, que aprovecha el poder del hablaLos sintetizadores y la inteligencia artificial podrían conducir a nuevas formas para que las computadoras se comuniquen directamente con el cerebro. También sienta las bases para ayudar a las personas que no pueden hablar, como aquellas que viven con esclerosis lateral amiotrófica ELA o que se recuperan de un accidente cerebrovascular, para recuperar sucapacidad de comunicarse con el mundo exterior.
Estos hallazgos se publicaron hoy en Informes científicos .
"Nuestras voces nos ayudan a conectarnos con nuestros amigos, familiares y el mundo que nos rodea, por eso es tan devastador perder el poder de la voz debido a una lesión o enfermedad", dijo Nima Mesgarani, PhD, autora principal del artículo y unainvestigador principal del Instituto Mortimer B. Zuckerman Mind Brain Behavior de la Universidad de Columbia. "Con el estudio de hoy, tenemos una manera potencial de restaurar ese poder. Hemos demostrado que, con la tecnología adecuada, los pensamientos de estas personas podrían ser decodificados y entendidos por cualquier personaoyente."
Décadas de investigación han demostrado que cuando las personas hablan, o incluso imaginan hablar, aparecen patrones reveladores de actividad en su cerebro. También surgen patrones distintos pero reconocibles de señales cuando escuchamos a alguien hablar, o imaginamos escuchar., tratando de grabar y decodificar estos patrones, ver un futuro en el que los pensamientos no necesitan permanecer ocultos dentro del cerebro, sino que podrían traducirse en un discurso verbal a voluntad.
Pero lograr esta hazaña ha resultado desafiante. Los primeros esfuerzos para decodificar las señales cerebrales del Dr. Mesgarani y otros se centraron en modelos informáticos simples que analizaron espectrogramas, que son representaciones visuales de frecuencias de sonido.
Pero debido a que este enfoque no ha logrado producir algo parecido a un discurso inteligible, el equipo del Dr. Mesgarani recurrió a un vocoder, un algoritmo informático que puede sintetizar el habla después de ser entrenado en grabaciones de personas que hablan.
"Esta es la misma tecnología utilizada por Amazon Echo y Apple Siri para dar respuestas verbales a nuestras preguntas", dijo el Dr. Mesgarani, quien también es profesor asociado de ingeniería eléctrica en la Escuela de Ingeniería y Ciencias Aplicadas de la Fundación Fu de Columbia.
Para enseñarle al vocoder a interpretar la actividad cerebral, el Dr. Mesgarani se asoció con Ashesh Dinesh Mehta, MD, PhD, neurocirujano del Instituto de Neurociencia Socios de Northwell Health Physician y coautor del artículo de hoy. El Dr. Mehta trata a pacientes con epilepsia,algunos de los cuales deben someterse a cirugías regulares.
"Trabajando con el Dr. Mehta, le pedimos a los pacientes con epilepsia que ya se sometían a cirugía cerebral que escucharan las oraciones pronunciadas por diferentes personas, mientras medíamos patrones de actividad cerebral", dijo el Dr. Mesgarani. "Estos patrones neuronales entrenaron al vocoder".
A continuación, los investigadores pidieron a esos mismos pacientes que escucharan a los oradores recitando dígitos entre 0 y 9, mientras grababan señales cerebrales que luego podrían pasar por el vocoder. El sonido producido por el vocoder en respuesta a esas señales fue analizado y limpiadopor redes neuronales, un tipo de inteligencia artificial que imita la estructura de las neuronas en el cerebro biológico.
El resultado final fue una voz de sonido robótico que recitaba una secuencia de números. Para probar la precisión de la grabación, el Dr. Mesgarani y su equipo le encargaron a las personas que escucharan la grabación e informaran lo que escucharon.
"Descubrimos que las personas podían entender y repetir los sonidos aproximadamente el 75% del tiempo, lo cual está muy por encima y más allá de cualquier intento anterior", dijo el Dr. Mesgarani. La mejora en la inteligibilidad fue especialmente evidente al comparar las nuevas grabaciones con lasintentos anteriores basados en espectrogramas: "El codificador de voz sensible y las poderosas redes neuronales representaban los sonidos que los pacientes habían escuchado originalmente con sorprendente precisión".
El Dr. Mesgarani y su equipo planean probar las palabras y oraciones más complicadas a continuación, y quieren realizar las mismas pruebas en las señales cerebrales emitidas cuando una persona habla o imagina hablar. En última instancia, esperan que su sistema pueda ser parte de un implante, similar a los que usan algunos pacientes con epilepsia, que traduce los pensamientos del usuario directamente en palabras.
"En este escenario, si el usuario piensa 'Necesito un vaso de agua', nuestro sistema podría tomar las señales cerebrales generadas por ese pensamiento y convertirlas en un discurso verbal sintetizado", dijo el Dr. Mesgarani. "Esto seríaserá un cambio de juego. Daría a cualquiera que haya perdido la capacidad de hablar, ya sea por lesión o enfermedad, la oportunidad renovada de conectarse con el mundo que los rodea ".
Fuente de la historia :
Materiales proporcionado por El Instituto Zuckerman de la Universidad de Columbia . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :