El blanco de las bromas hace tan solo 10 años, el reconocimiento automático de voz ahora está a punto de convertirse en el principal medio de interacción de las personas con sus principales dispositivos informáticos.
En anticipación de la era de la electrónica controlada por voz, los investigadores del MIT han construido un chip de baja potencia especializado para el reconocimiento automático de voz. Mientras que un teléfono celular con software de reconocimiento de voz puede requerir aproximadamente 1 vatio de potencia, el nuevo chip requiere entre 0.2y 10 milivatios, dependiendo de la cantidad de palabras que tenga que reconocer.
En una aplicación del mundo real, eso probablemente se traduzca en un ahorro de energía del 90 al 99 por ciento, lo que podría hacer que el control por voz sea práctico para dispositivos electrónicos relativamente simples. Eso incluye dispositivos con restricción de energía que tienen que recolectar energía de sus entornos o irsemeses entre las cargas de la batería. Dichos dispositivos forman la columna vertebral tecnológica de lo que se llama el "Internet de las cosas", o IoT, que se refiere a la idea de que los vehículos, electrodomésticos, estructuras de ingeniería civil, equipos de fabricación e incluso el ganado pronto tendrán sensores queinforme la información directamente a los servidores en red, ayudando con el mantenimiento y la coordinación de tareas.
"La entrada de voz se convertirá en una interfaz natural para muchas aplicaciones portátiles y dispositivos inteligentes", dice Anantha Chandrakasan, profesora de Ingeniería Eléctrica y Ciencias de la Computación de Vannevar Bush en el MIT, cuyo grupo desarrolló el nuevo chip ". La miniaturización de estos dispositivos serárequieren una interfaz diferente a la táctil o al teclado. Será fundamental integrar la funcionalidad de voz localmente para ahorrar el consumo de energía del sistema en comparación con la realización de esta operación en la nube ".
"No creo que realmente hayamos desarrollado esta tecnología para una aplicación en particular", agrega Michael Price, quien dirigió el diseño del chip como estudiante graduado del MIT en ingeniería eléctrica y ciencias de la computación y ahora trabaja para el fabricante de chips Analog Devices."Hemos tratado de establecer la infraestructura para proporcionar mejores compensaciones a un diseñador de sistemas de lo que hubieran tenido con la tecnología anterior, ya fuera aceleración de software o hardware".
Price, Chandrakasan y Jim Glass, científico investigador principal del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, describieron el nuevo chip en un documento que Price presentó la semana pasada en la Conferencia Internacional de Circuitos de Estado Sólido.
El durmiente se despierta
Hoy, los reconocedores de voz con mejor rendimiento son, como muchos otros sistemas de inteligencia artificial de última generación, basados en redes neuronales, redes virtuales de procesadores de información simples modelados aproximadamente en el cerebro humano. Gran parte de los nuevos chipslos circuitos se preocupan por implementar redes de reconocimiento de voz de la manera más eficiente posible.
Pero incluso el sistema de reconocimiento de voz con mayor eficiencia energética agotaría rápidamente la batería de un dispositivo si funcionara sin interrupción. Por lo tanto, el chip también incluye un circuito más simple de "detección de actividad de voz" que monitorea el ruido ambiental para determinar si podría ser voz.la respuesta es sí, el chip activa el circuito de reconocimiento de voz más grande y complejo.
De hecho, para fines experimentales, el chip de los investigadores tenía tres circuitos diferentes de detección de actividad de voz, con diferentes grados de complejidad y, en consecuencia, diferentes demandas de potencia. El circuito que es más eficiente en función de la energía depende del contexto, pero en las pruebas que simulanEn una amplia gama de condiciones, el más complejo de los tres circuitos condujo al mayor ahorro de energía para el sistema en su conjunto. Aunque consumió casi tres veces más energía que el circuito más simple, generó muchos menos falsos positivos; el más simplelos circuitos a menudo masticaban sus ahorros de energía activando espuriosamente el resto del chip.
Una red neuronal típica consta de miles de "nodos" de procesamiento capaces de realizar cálculos simples pero densamente conectados entre sí. En el tipo de red comúnmente utilizada para el reconocimiento de voz, los nodos están dispuestos en capas. Los datos de voz se introducen en elcapa inferior de la red, cuyos nodos procesan y pasan a los nodos de la siguiente capa, cuyos nodos procesan y pasan a la siguiente capa, y así sucesivamente. La salida de la capa superior indica la probabilidad de que los datos de voz representen unsonido particular del habla.
Una red de reconocimiento de voz es demasiado grande para caber en la memoria interna de un chip, lo cual es un problema porque dejar de usar el chip para obtener datos requiere mucha más energía que recuperarlo de las tiendas locales. Por lo tanto, el diseño de los investigadores del MIT se concentra en minimizarla cantidad de datos que el chip tiene que recuperar de la memoria fuera del chip.
gestión de ancho de banda
Un nodo en el medio de una red neuronal podría recibir datos de una docena de otros nodos y transmitir datos a otra docena. Cada una de esas dos docenas de conexiones tiene un "peso" asociado, un número que indica cuán prominentemente deben enviarse los datos a través de élfactor en los cálculos del nodo receptor. El primer paso para minimizar el ancho de banda de memoria del nuevo chip es comprimir los pesos asociados con cada nodo. Los datos se descomprimen solo después de que se incorporan al chip.
El chip también explota el hecho de que, con el reconocimiento de voz, la ola de datos debe pasar a través de la red. La señal de audio entrante se divide en incrementos de 10 milisegundos, cada uno de los cuales debe evaluarse por separado. Los investigadores del MITel chip trae un solo nodo de la red neuronal a la vez, pero pasa los datos de 32 incrementos consecutivos de 10 milisegundos a través de él.
Si un nodo tiene una docena de salidas, entonces los 32 pases dan como resultado 384 valores de salida, que el chip almacena localmente. Cada uno de ellos debe estar acoplado con otros 11 valores cuando se alimenta a la siguiente capa de nodos, y así sucesivamente.el chip termina requiriendo un circuito de memoria interno considerable para sus cálculos intermedios, pero solo obtiene un nodo comprimido de la memoria fuera del chip a la vez, manteniendo bajos sus requisitos de energía.
La investigación fue financiada a través del Proyecto Qmulus, una empresa conjunta entre MIT y Quanta Computer, y el chip fue prototipado a través del Programa de Transporte de la Universidad de Taiwan Semiconductor Manufacturing Company.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :