Durante los últimos 40 años, la tecnología de seguimiento ocular, que puede determinar en qué parte de una escena visual la gente dirige su mirada, se ha utilizado ampliamente en experimentos psicológicos e investigación de mercado, pero se requiere un hardware costoso que lo ha impedidoencontrar aplicaciones de consumo.
Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y la Universidad de Georgia esperan cambiar eso, con un software que pueda convertir cualquier teléfono inteligente en un dispositivo de seguimiento ocular. Describen su nuevo sistema en un documento que presentarán el 28 de junioen la conferencia Computer Vision y Pattern Recognition.
Además de hacer que las aplicaciones existentes de tecnología de seguimiento ocular sean más accesibles, el sistema podría habilitar nuevas interfaces de computadora o ayudar a detectar signos de enfermedad neurológica incipiente o enfermedad mental.
"El campo está atascado en este bucle de huevo y gallina", dice Aditya Khosla, una estudiante graduada del MIT en ingeniería eléctrica y ciencias de la computación y coautora principal del artículo. "Dado que pocas personas tienen dispositivos externos, no hay un gran incentivo para desarrollar aplicaciones para ellos. Como no hay aplicaciones, no hay ningún incentivo para que las personas compren los dispositivos. Pensamos que deberíamos romper este círculo e intentar hacer un rastreador ocular que funcione en un solo dispositivo móvil, utilizandosolo tu cámara frontal "
Khosla y sus colegas - coprimer autor Kyle Krafka de la Universidad de Georgia, profesores de ingeniería eléctrica y ciencias de la computación del MIT Wojciech Matusik y Antonio Torralba, y otros tres construyeron su rastreador ocular utilizando el aprendizaje automático, una técnica enqué computadoras aprenden a realizar tareas buscando patrones en grandes conjuntos de ejemplos de capacitación.
Fuerza en números
La ventaja de Khosla y sus colegas sobre la investigación previa era la cantidad de datos con los que tenían que trabajar. Actualmente, dice Khosla, su conjunto de entrenamiento incluye ejemplos de patrones de mirada de 1,500 usuarios de dispositivos móviles. Anteriormente, los conjuntos de datos más grandes utilizados paraentrenar a los sistemas experimentales de seguimiento ocular había llegado a unos 50 usuarios.
Para reunir conjuntos de datos, "la mayoría de los otros grupos tienden a llamar a las personas al laboratorio", dice Khosla. "Es realmente difícil ampliar eso. Llamar a 50 personas en sí mismo ya es un proceso bastante tedioso. Pero nos dimos cuenta de que podíamos hacerloesto a través del crowdsourcing "
En el documento, los investigadores informan una ronda inicial de experimentos, utilizando datos de capacitación extraídos de 800 usuarios de dispositivos móviles. Sobre esa base, pudieron reducir el margen de error del sistema a 1,5 centímetros, una mejora doble en comparación con la anteriorsistemas experimentales.
Sin embargo, desde que se envió el documento, han adquirido datos sobre otras 700 personas, y los datos de capacitación adicionales han reducido el margen de error a aproximadamente un centímetro.
Para tener una idea de cómo los conjuntos de entrenamiento más grandes podrían mejorar el rendimiento, los investigadores entrenaron y reentrenaron su sistema usando subconjuntos de datos de diferentes tamaños. Esos experimentos sugieren que alrededor de 10,000 ejemplos de entrenamiento deberían ser suficientes para reducir el margen de error a unmedio centímetro, que Khosla estima será lo suficientemente bueno como para que el sistema sea comercialmente viable.
Para recopilar sus ejemplos de capacitación, los investigadores desarrollaron una aplicación simple para dispositivos que usan el sistema operativo iOS de Apple. La aplicación muestra un pequeño punto en algún lugar de la pantalla del dispositivo, atrayendo la atención del usuario, luego lo reemplaza brevemente con una "R"o una "L" que indica al usuario que toque el lado derecho o izquierdo de la pantalla. La ejecución correcta del toque asegura que el usuario haya cambiado su mirada hacia la ubicación deseada. Durante este proceso, la cámara del dispositivo captura continuamenteimágenes de la cara del usuario.
Los investigadores reclutaron usuarios de aplicaciones a través del sitio de crowdsourcing Mechanical Turk de Amazon y les pagaron una pequeña tarifa por cada toque ejecutado con éxito. El conjunto de datos contiene, en promedio, 1.600 imágenes para cada usuario.
apretando la red
El sistema de aprendizaje automático de los investigadores era una red neuronal, que es una abstracción de software, pero puede considerarse como una enorme red de procesadores de información muy simples dispuestos en capas discretas. La capacitación modifica la configuración de los procesadores individuales para que los datoselemento - en este caso, una imagen fija de un usuario de dispositivo móvil - alimentada a la capa inferior será procesada por las capas posteriores. La salida de la capa superior será la solución a un problema computacional - en este caso, una estimación de la dirección de la mirada del usuario.
Sin embargo, las redes neuronales son grandes, por lo que los investigadores del MIT y Georgia utilizaron una técnica llamada "conocimiento oscuro" para reducir la suya. El conocimiento oscuro implica tomar los resultados de una red completamente entrenada, que generalmente son soluciones aproximadas, y usarlas tambiéncomo las soluciones reales para entrenar una red mucho más pequeña. La técnica redujo el tamaño de la red de investigadores en aproximadamente un 80 por ciento, lo que le permite funcionar de manera mucho más eficiente en un teléfono inteligente. Con la red reducida, el rastreador ocular puede operar a aproximadamente 15fotogramas por segundo, que es lo suficientemente rápido como para grabar incluso breves miradas.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :