Una nueva investigación de la Universidad de Waterloo ha encontrado una manera de mejorar las capacidades de comprensión de consultas de voz de las plataformas de entretenimiento en el hogar.
La investigación, en colaboración con la Universidad de Maryland y el Laboratorio de Investigación de IA Aplicada de Comcast, utiliza la tecnología de inteligencia artificial IA para lograr las interacciones más naturales basadas en el habla con los televisores hasta la fecha.
"Hoy, nos hemos acostumbrado a hablar con agentes inteligentes que hacen nuestras órdenes, desde Siri en un teléfono móvil hasta Alexa en casa. ¿Por qué no deberíamos poder hacer lo mismo con los televisores?", Preguntó Jimmy Lin,profesor de la Universidad de Waterloo y catedrático David R. Cheriton en la Facultad de Informática David R. Cheriton.
"Xfinity X1 de Comcast tiene como objetivo hacer exactamente eso: la plataforma viene con un 'control remoto de voz' que acepta consultas habladas. Su deseo es su orden: dígale a su televisor que cambie de canal, pregúntele sobre películas gratis para niños yincluso sobre el pronóstico del tiempo "
Al abordar el complejo problema de comprender las consultas de voz, los investigadores tuvieron la idea de aprovechar la última tecnología de IA, una técnica conocida como redes neuronales recurrentes jerárquicas, para modelar mejor el contexto y mejorar la precisión del sistema.
En enero de 2018, el nuevo modelo de red neuronal de los investigadores se implementó en producción para responder las consultas de usuarios reales en vivo. A diferencia del sistema anterior, que estaba confundido por aproximadamente el ocho por ciento de las consultas, el nuevo modelo maneja la mayoría de las complicacionesconsultas de manera adecuada, mejorando en gran medida la experiencia del usuario.
"Si un espectador pide 'Chicago Fire', que se refiere tanto a una serie dramática como a un equipo de fútbol, el sistema puede descifrar lo que realmente quiere", dijo Lin. "Lo especial de este enfoque es que tomamosventaja del contexto, como los programas vistos anteriormente y los canales favoritos, para personalizar los resultados, lo que aumenta la precisión ".
Los investigadores han comenzado a trabajar en el desarrollo de un modelo aún más rico. La intuición es que al analizar las consultas desde múltiples perspectivas, el sistema puede comprender mejor lo que dice el espectador.
El documento, Aprendizaje de tareas múltiples con redes neuronales para la plataforma de entretenimiento de comprensión de consultas de voz, se presentó en la 24ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos celebrada recientemente en el Reino Unido. La investigación fue realizada por Jinfeng Rao, unDoctor graduado de la Universidad de Maryland, su asesor Lin y mentor Ferhan Ture, investigador del Laboratorio de Investigación de IA Aplicada de Comcast.
Fuente de la historia :
Materiales proporcionado por Universidad de Waterloo . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :