Es un hecho natural que una sola conversación se pueda interpretar de maneras muy diferentes. Para las personas con ansiedad o afecciones como la de Asperger, esto puede hacer que las situaciones sociales sean extremadamente estresantes. Pero, ¿y si hubiera una forma más objetiva de medir y comprendernuestras interacciones?
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT CSAIL y el Instituto de Ingeniería Médica y Ciencia IMES dicen que se han acercado a una posible solución: un sistema artificialmente inteligente y portátil que puede predecir si una conversación es feliz, triste o neutral basado en los patrones de habla y los signos vitales de una persona.
"Imagine que, al final de una conversación, pudiera rebobinarla y ver los momentos en que las personas a su alrededor se sentían más ansiosas", dice la estudiante graduada Tuka Alhanai, quien fue coautora de un artículo relacionado con el candidato a doctorado Mohammad Ghassemique presentarán en la conferencia de la Asociación para el Avance de la Inteligencia Artificial AAAI, por sus siglas en inglés de la próxima semana en San Francisco. "Nuestro trabajo es un paso en esta dirección, lo que sugiere que quizás no estemos tan lejos de un mundo donde las personas puedan tener una IAentrenador social justo en su bolsillo "
Cuando un participante cuenta una historia, el sistema puede analizar audio, transcripciones de texto y señales fisiológicas para determinar el tono general de la historia con una precisión del 83 por ciento. Utilizando técnicas de aprendizaje profundo, el sistema también puede proporcionar una "puntuación de sentimiento"para intervalos específicos de cinco segundos dentro de una conversación.
"Hasta donde sabemos, este es el primer experimento que recopila datos físicos y del habla de una manera pasiva pero robusta, incluso mientras los sujetos tienen interacciones naturales y no estructuradas", dice Ghassemi. "Nuestros resultados muestran que es posiblepara clasificar el tono emocional de las conversaciones en tiempo real "
Los investigadores dicen que el rendimiento del sistema mejoraría aún más si varias personas en una conversación lo usaran en sus relojes inteligentes, creando más datos para ser analizados por sus algoritmos. El equipo está dispuesto a señalar que desarrollaron el sistema con privacidadMuy en mente: el algoritmo se ejecuta localmente en el dispositivo de un usuario como una forma de proteger la información personal Alhanai dice que una versión para el consumidor obviamente necesitaría protocolos claros para obtener el consentimiento de las personas involucradas en las conversaciones.
Cómo funciona
Muchos estudios de detección de emociones muestran a los participantes videos "felices" y "tristes", o les piden que actúen artificialmente estados emotivos específicos. Pero en un esfuerzo por provocar emociones más orgánicas, el equipo pidió a los sujetos que contaran algo feliz o tristehistoria de su propia elección.
Los sujetos usaban un Samsung Simband, un dispositivo de investigación que captura formas de onda fisiológicas de alta resolución para medir características tales como movimiento, frecuencia cardíaca, presión arterial, flujo sanguíneo y temperatura de la piel. El sistema también capturó datos de audio y transcripciones de texto para analizar eltono, tono, energía y vocabulario del hablante.
"El uso del equipo de dispositivos del mercado de consumo para recopilar datos fisiológicos y del habla muestra cuán cerca estamos de tener tales herramientas en los dispositivos cotidianos", dice Björn Schuller, profesor y presidente de Sistemas Complejos e Inteligentes de la Universidad de Passau en Alemania, que no participó en la investigación: "La tecnología pronto podría sentirse mucho más inteligente emocionalmente, o incluso 'emocional' en sí misma"
Después de capturar 31 conversaciones diferentes de varios minutos cada una, el equipo entrenó dos algoritmos en los datos: uno clasificó la naturaleza general de una conversación como feliz o triste, mientras que el segundo clasificó cada bloque de cinco segundos de cada conversación como positivo,negativo o neutral
Alhanai señala que, en las redes neuronales tradicionales, todas las características sobre los datos se proporcionan al algoritmo en la base de la red. Por el contrario, su equipo descubrió que podían mejorar el rendimiento organizando diferentes características en las diversas capas de la red.
"El sistema capta cómo, por ejemplo, el sentimiento en la transcripción del texto fue más abstracto que los datos brutos del acelerómetro", dice Alhanai. "Es bastante notable que una máquina pueda aproximarse a cómo los humanos percibimos estas interacciones, sin un significado significativoaportes de nosotros como investigadores "
Resultados
De hecho, los hallazgos del algoritmo se alinean bien con lo que los humanos podríamos esperar observar. Por ejemplo, las pausas largas y los tonos vocales monótonos se asociaron con historias más tristes, mientras que los patrones de habla más enérgicos y variados se asociaron con los más felices. En términos del cuerpoel lenguaje, las historias más tristes también se asociaron fuertemente con el aumento de la inquietud y la actividad cardiovascular, así como ciertas posturas como poner las manos en la cara.
En promedio, el modelo podría clasificar el estado de ánimo de cada intervalo de cinco segundos con una precisión de aproximadamente un 18 por ciento por encima de la posibilidad y un 7.5 por ciento mejor que los enfoques existentes.
El algoritmo aún no es lo suficientemente confiable como para ser implementado para el coaching social, pero Alhanai dice que están trabajando activamente para lograr ese objetivo. Para el trabajo futuro, el equipo planea recopilar datos a una escala mucho mayor, potencialmente utilizando dispositivos comerciales como elApple Watch que les permitiría implementar más fácilmente el sistema en el mundo.
"Nuestro siguiente paso es mejorar la granularidad emocional del algoritmo para que sea más preciso al llamar momentos aburridos, tensos y excitados, en lugar de simplemente etiquetar las interacciones como 'positivas' o 'negativas'", dice Alhanai.La tecnología que puede tomar el pulso de las emociones humanas tiene el potencial de mejorar dramáticamente la forma en que nos comunicamos entre nosotros ".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts, CSAIL . Original escrito por Adam Conner-Simons. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :