Los investigadores del MIT han desarrollado una interfaz de computadora que puede transcribir palabras que el usuario verbaliza internamente pero que en realidad no habla en voz alta.
El sistema consta de un dispositivo portátil y un sistema informático asociado. Los electrodos en el dispositivo captan señales neuromusculares en la mandíbula y la cara que se activan por verbalizaciones internas, que dicen palabras "en la cabeza", pero que no se pueden detectarojo humano. Las señales se envían a un sistema de aprendizaje automático que ha sido entrenado para correlacionar señales particulares con palabras particulares.
El dispositivo también incluye un par de auriculares de conducción ósea, que transmiten vibraciones a través de los huesos de la cara hacia el oído interno. Debido a que no obstruyen el canal auditivo, los auriculares permiten que el sistema transmita información al usuario sininterrumpir la conversación o interferir con la experiencia auditiva del usuario.
El dispositivo es, por lo tanto, parte de un sistema completo de computación silenciosa que le permite al usuario posar y recibir respuestas a problemas informáticos difíciles de forma indetectable. En uno de los experimentos de los investigadores, por ejemplo, los sujetos usaron el sistema para informar silenciosamente los movimientos de los oponentesun juego de ajedrez y recibir las respuestas recomendadas por computadora tan silenciosamente.
"La motivación para esto fue construir un dispositivo IA - un dispositivo de aumento de inteligencia", dice Arnav Kapur, un estudiante graduado en el MIT Media Lab, que dirigió el desarrollo del nuevo sistema. "Nuestra idea era: podríatenemos una plataforma informática que es más interna, que fusiona humanos y máquinas de alguna manera y que se siente como una extensión interna de nuestra propia cognición ".
"Básicamente no podemos vivir sin nuestros teléfonos celulares, nuestros dispositivos digitales", dice Pattie Maes, profesora de artes y ciencias de los medios y asesora de tesis de Kapur. "Pero en este momento, el uso de esos dispositivos es muy perjudicial. SiQuiero buscar algo que sea relevante para una conversación que estoy teniendo, tengo que encontrar mi teléfono y escribir el código de acceso y abrir una aplicación y escribir alguna palabra clave de búsqueda, y todo esto requiere que cambie completamente la atención de miel entorno y las personas con las que estoy usando el teléfono en sí. Por lo tanto, mis alumnos y yo hemos estado experimentando durante mucho tiempo con nuevos factores de forma y nuevos tipos de experiencia que les permiten a las personas beneficiarse de todos los maravillosos conocimientos y servicios.que nos dan estos dispositivos, pero que lo hagan de una manera que les permita permanecer en el presente "
Los investigadores describen su dispositivo en un documento que presentaron en la conferencia ACM Intelligent User Interface de la Association for Computing Machinery. Kapur es el primer autor del artículo, Maes es el autor principal, y se les une Shreyas Kapur, estudiante de pregradoen ingeniería eléctrica e informática.
Señales sutiles
La idea de que las verbalizaciones internas tienen correlatos físicos ha existido desde el siglo XIX, y se investigó seriamente en la década de 1950. Uno de los objetivos del movimiento de lectura rápida de la década de 1960 era eliminar la verbalización interna o "subvocalización"."como se sabe.
Pero la subvocalización como una interfaz de computadora está en gran parte inexplorada. El primer paso de los investigadores fue determinar qué ubicaciones en la cara son las fuentes de las señales neuromusculares más confiables. Así que realizaron experimentos en los que se les pidió a los mismos sujetos que subvocalizaran las mismasserie de palabras cuatro veces, con una serie de 16 electrodos en diferentes ubicaciones faciales cada vez.
Los investigadores escribieron un código para analizar los datos resultantes y descubrieron que las señales de siete ubicaciones particulares de electrodos podían distinguir constantemente las palabras subvocalizadas. En el documento de la conferencia, los investigadores informan un prototipo de una interfaz portátil de habla silenciosa, que envuelve elparte posterior del cuello como un auricular de teléfono y tiene apéndices curvos en forma de tentáculo que tocan la cara en siete lugares a cada lado de la boca y a lo largo de las mandíbulas.
Pero en los experimentos actuales, los investigadores están obteniendo resultados comparables usando solo cuatro electrodos a lo largo de una mandíbula, lo que debería conducir a un dispositivo portátil menos molesto.
Una vez que seleccionaron las ubicaciones de los electrodos, los investigadores comenzaron a recopilar datos sobre algunas tareas computacionales con vocabularios limitados, unas 20 palabras cada una. Una era aritmética, en la que el usuario subvocalizaba problemas de suma o multiplicación grandes; otra era el ajedrezaplicación, en la que el usuario informaría movimientos utilizando el sistema de numeración de ajedrez estándar.
Luego, para cada aplicación, usaron una red neuronal para encontrar correlaciones entre señales neuromusculares particulares y palabras particulares. Como la mayoría de las redes neuronales, la que usaron los investigadores está organizada en capas de nodos de procesamiento simples, cada uno de los cuales está conectado a variosnodos en las capas superiores e inferiores. Los datos se introducen en la capa inferior, cuyos nodos lo procesan y los pasan a la siguiente capa, cuyos nodos lo procesan y los pasan a la siguiente capa, y así sucesivamente. La salida de la capa finallos rendimientos son el resultado de alguna tarea de clasificación.
La configuración básica del sistema de los investigadores incluye una red neuronal entrenada para identificar palabras subvocalizadas a partir de señales neuromusculares, pero se puede personalizar para un usuario en particular a través de un proceso que reentrena solo las dos últimas capas.
asuntos prácticos
Utilizando el prototipo de interfaz portátil, los investigadores realizaron un estudio de usabilidad en el que 10 sujetos dedicaron aproximadamente 15 minutos a cada uno para personalizar la aplicación aritmética a su propia neurofisiología, luego pasaron otros 90 minutos usándola para ejecutar cálculos. En ese estudio, el sistema teníauna precisión de transcripción promedio de alrededor del 92 por ciento.
Pero, dice Kapur, el rendimiento del sistema debería mejorar con más datos de entrenamiento, que podrían recopilarse durante su uso normal. Aunque no ha reducido los números, estima que el sistema mejor entrenado que usa para las demostraciones tiene una precisióntasa más alta que la reportada en el estudio de usabilidad.
En el trabajo en curso, los investigadores están recolectando una gran cantidad de datos sobre conversaciones más elaboradas, con la esperanza de crear aplicaciones con vocabularios mucho más expansivos. "Estamos en el medio de la recolección de datos, y los resultados se ven bien", dijo Kapurdice "Creo que lograremos una conversación completa algún día"
"Creo que están subestimando un poco lo que creo que es un potencial real para el trabajo", dice Thad Starner, profesor de la Facultad de Informática de Georgia Tech. "Como, por ejemplo, controlar los aviones en el asfalto en HartsfieldAeropuerto aquí en Atlanta. Tiene un chorro de ruido a su alrededor, está usando estas grandes cosas de protección auditiva, ¿no sería genial comunicarse con la voz en un entorno en el que normalmente no sería capaz?Puede imaginar todas estas situaciones en las que tiene un entorno de mucho ruido, como la cubierta de vuelo de un portaaviones, o incluso lugares con mucha maquinaria, como una planta de energía o una imprenta. Este es un sistema que tendría sentido, especialmente porque a menudo en este tipo de situaciones la gente ya usa equipo de protección. Por ejemplo, si eres un piloto de combate o si eres bombero, ya estás usando estas máscaras ".
"La otra cosa donde esto es extremadamente útil son las operaciones especiales", agrega Starner. "Hay muchos lugares donde no es un ambiente ruidoso sino un ambiente silencioso. Muchas veces, las personas de operaciones especiales tienen gestos con las manos, perono siempre se pueden ver. ¿No sería genial tener un discurso silencioso para la comunicación entre estas personas? La última es la gente con discapacidades donde no pueden vocalizar normalmente. Por ejemplo, Roger Ebert no teníacapacidad de hablar más porque perdió la mandíbula debido al cáncer. ¿Podría hacer este tipo de discurso silencioso y luego tener un sintetizador que pronuncie las palabras? "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :