El procesamiento del lenguaje natural PNL ha avanzado mucho recientemente, pero ¿cuánto entiende la IA de lo que lee? Menos de lo que pensábamos, según investigadores del Departamento de Ciencias de la Computación de la USC. En un artículo reciente, el profesor asistente Xiang Ren yLa estudiante de doctorado Yuchen Lin descubrió que, a pesar de los avances, la IA todavía no tiene el sentido común necesario para generar oraciones plausibles.
"Los modelos actuales de generación de texto de máquina pueden escribir un artículo que puede ser convincente para muchos humanos, pero básicamente están imitando lo que han visto en la fase de entrenamiento", dijo Lin. "Nuestro objetivo en este documento es estudiar elproblema de si los modelos actuales de generación de texto de última generación pueden escribir oraciones para describir escenarios naturales en nuestra vida cotidiana ".
Comprensión de escenarios en la vida diaria
Específicamente, Ren y Lin probaron la capacidad de razonamiento de los modelos y demostraron que existe una gran brecha entre los modelos actuales de generación de texto y el desempeño humano. Dado un conjunto de sustantivos y verbos comunes, los modelos informáticos de PNL de última generación fueronencargados de crear oraciones creíbles que describan un escenario cotidiano. Si bien los modelos generaban oraciones gramaticalmente correctas, a menudo eran lógicamente incoherentes.
Por ejemplo, aquí hay una oración de ejemplo generada por un modelo de última generación que usa las palabras "perro, frisbee, lanzar, atrapar" :
"Dos perros se lanzan frisbees".
La prueba se basa en el supuesto de que las ideas coherentes en este caso: "una persona lanza un frisbee y un perro lo atrapa" no se pueden generar sin una conciencia más profunda de los conceptos de sentido común. En otras palabras,El sentido común es más que la comprensión correcta del lenguaje, significa que no es necesario explicar todo en una conversación. Este es un desafío fundamental en el objetivo de desarrollar una IA generalizable, pero más allá de la academia, es relevante para los consumidores,también.
Sin una comprensión del idioma, los chatbots y los asistentes de voz basados en estos modelos de lenguaje natural de última generación son vulnerables a fallas. También es crucial para que los robots estén más presentes en los entornos humanos. Después de todo, si ustedPídele leche caliente a un robot, esperas que sepa que quieres una taza de milla, no toda la caja.
"También demostramos que si un modelo de generación funciona mejor en nuestra prueba, también puede beneficiar a otras aplicaciones que necesitan un razonamiento de sentido común, como el aprendizaje robótico", dijo Lin. "Los robots necesitan comprender los escenarios naturales de nuestra vida diaria antes derealizar acciones razonables para interactuar con las personas ".
Junto a Lin y Ren en el artículo están Wangchunshu Zhou, Ming Shen, Pei Zhou de la USC; Chandra Bhagavatula del Instituto Allen de Inteligencia Artificial; y Yejin Choi del Instituto Allen de Inteligencia Artificial y la Escuela de Ciencias de la Computación Paul G. Allen &Ingeniería, Universidad de Washington.
La prueba del sentido común
El razonamiento de sentido común, o la capacidad de hacer inferencias utilizando conocimientos básicos sobre el mundo, como el hecho de que los perros no pueden arrojarse frisbees entre sí, ha resistido los esfuerzos de los investigadores de IA durante décadas. Estado de la técnicaLos modelos de aprendizaje profundo ahora pueden alcanzar alrededor del 90% de precisión, por lo que parecería que la PNL se ha acercado a su objetivo.
Pero Ren, un experto en procesamiento del lenguaje natural y Lin, su alumno, necesitaban más convencimiento sobre la precisión de esta estadística. En su artículo, publicado en la conferencia Findings of Empirical Methods in Natural Language Processing EMNLP el 16 de noviembre,cuestionar la efectividad del punto de referencia y, por lo tanto, el nivel de progreso que el campo realmente ha logrado.
"Los seres humanos adquieren la capacidad de componer oraciones al aprender a comprender y usar conceptos comunes que reconocen en su entorno", dijo Lin.
"La adquisición de esta capacidad se considera un hito importante en el desarrollo humano. Pero queríamos probar si las máquinas realmente pueden adquirir esa capacidad de razonamiento generativo de sentido común".
Para evaluar diferentes modelos de máquinas, la pareja desarrolló una tarea de generación de texto restringida llamada CommonGen, que se puede utilizar como punto de referencia para probar el sentido común generativo de las máquinas. Los investigadores presentaron un conjunto de datos que consta de 35,141 conceptos asociados con 77,449 oraciones.descubrió que el modelo de mejor rendimiento solo logró una tasa de precisión del 31,6% frente al 63,5% para los humanos.
"Nos sorprendió que los modelos no pudieran recordar el simple conocimiento de sentido común de que 'un humano lanzando un frisbee' debería ser mucho más razonable que un perro haciéndolo", dijo Lin. "Encontramos que incluso el modelo más fuerte, llamado T5,después de entrenar con un gran conjunto de datos, aún puede cometer errores tontos ".
Parece, dijeron los investigadores, que las pruebas anteriores no han desafiado suficientemente a los modelos en sus habilidades de sentido común, sino que imitan lo que han visto en la fase de entrenamiento.
"Los estudios anteriores se han centrado principalmente en el sentido común discriminativo", dijo Ren. "Ellos prueban máquinas con preguntas de opción múltiple, donde el espacio de búsqueda para la máquina es pequeño, generalmente cuatro o cinco candidatos".
Por ejemplo, un entorno típico para las pruebas discriminatorias de sentido común es una tarea de respuesta a preguntas de opción múltiple, por ejemplo: "¿Dónde usan los adultos barras de pegamento?" A: aula B: oficina C: cajón del escritorio.
La respuesta aquí, por supuesto, es "B: oficina". Incluso las computadoras pueden resolver esto sin muchos problemas. Por el contrario, un entorno generativo es más abierto, como la tarea CommonGen, donde se le pide a un modelo quegenerar una oración natural a partir de conceptos dados.
Ren explica: "Con un entrenamiento extensivo de modelos, es muy fácil tener un buen desempeño en esas tareas. A diferencia de las tareas de razonamiento discriminativo de sentido común, nuestra prueba propuesta se enfoca en el aspecto generativo del sentido común de la máquina".
Ren y Lin esperan que el conjunto de datos sirva como un nuevo punto de referencia para beneficiar la investigación futura sobre la introducción del sentido común en la generación del lenguaje natural. De hecho, incluso tienen una tabla de clasificación que muestra los puntajes logrados por los diversos modelos populares para ayudar a otros investigadores a determinar suviabilidad para proyectos futuros.
"Los robots deben comprender los escenarios naturales de nuestra vida diaria antes de realizar acciones razonables para interactuar con las personas", dijo Lin.
"Al introducir el sentido común y otros conocimientos específicos de dominio a las máquinas, creo que un día podremos ver agentes de IA como Samantha en la película Her que generan respuestas naturales e interactúan con nuestras vidas".
Fuente de la historia :
Materiales proporcionado por Universidad del Sur de California . Original escrito por Caitlin Dawson. Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :