El trabajo de un escritor científico, incluido este, incluye leer artículos de revistas llenos de terminología técnica especializada y descubrir cómo explicar sus contenidos en un lenguaje que los lectores sin antecedentes científicos puedan entender.
Ahora, un equipo de científicos en el MIT y en otros lugares ha desarrollado una red neuronal, una forma de inteligencia artificial IA, que puede hacer lo mismo, al menos de manera limitada: puede leer artículos científicos y generarresumen en inglés simple en una o dos oraciones.
Incluso en esta forma limitada, dicha red neuronal podría ser útil para ayudar a los editores, escritores y científicos a escanear una gran cantidad de documentos para tener una idea preliminar de lo que tratan. Pero el enfoque que desarrolló el equipo también podría encontraraplicaciones en una variedad de otras áreas además del procesamiento del lenguaje, incluida la traducción automática y el reconocimiento de voz.
El trabajo se describe en la revista Transacciones de la Asociación de Lingüística Computacional en un artículo de Rumen Dangovski y Li Jing, ambos estudiantes de posgrado del MIT; Marin Soljačić, profesor de física en el MIT; Preslav Nakov, científico sénior en el Instituto de Investigación de Computación de Qatar, HBKU; y Mićo Tatalović, un ex CaballeroBecario de periodismo científico en el MIT y ex editor en nuevo científico revista
De IA para física al lenguaje natural
El trabajo surgió como resultado de un proyecto no relacionado, que involucró el desarrollo de nuevos enfoques de inteligencia artificial basados en redes neuronales, dirigidos a abordar ciertos problemas espinosos en física. Sin embargo, los investigadores pronto se dieron cuenta de que el mismo enfoque podría usarse para abordarotros problemas computacionales difíciles, incluido el procesamiento del lenguaje natural, en formas que podrían superar los sistemas de redes neuronales existentes
"Hemos estado haciendo varios tipos de trabajo en IA durante algunos años", dice Soljačić. "Utilizamos la IA para ayudar con nuestra investigación, básicamente para mejorar la física. Y a medida que nos familiarizamos más con la IA,nos daríamos cuenta de que de vez en cuando hay una oportunidad para agregar al campo de la IA debido a algo que sabemos de la física: una cierta construcción matemática o una cierta ley en física. Notamos que bueno, si usamos eso, en realidad podría ayudar con este o aquel algoritmo de IA en particular "
Este enfoque podría ser útil en una variedad de tipos específicos de tareas, dice, pero no en todos. "No podemos decir que esto sea útil para toda la IA, pero hay casos en los que podemos usar una visión desde la física paramejorar en un algoritmo de IA dado "
Las redes neuronales en general son un intento de imitar la forma en que los humanos aprenden ciertas cosas nuevas: la computadora examina muchos ejemplos diferentes y "aprende" cuáles son los patrones subyacentes clave. Tales sistemas se usan ampliamente para el reconocimiento de patrones, como aprender a identificarobjetos representados en fotos.
Pero las redes neuronales en general tienen dificultades para correlacionar la información de una larga cadena de datos, como se requiere para interpretar un trabajo de investigación. Se han utilizado varios trucos para mejorar esta capacidad, incluidas las técnicas conocidas como memoria a corto plazo LSTMy unidades recurrentes cerradas GRU, pero estos aún están muy por debajo de lo que se necesita para el procesamiento real del lenguaje natural, dicen los investigadores.
El equipo ideó un sistema alternativo que, en lugar de basarse en la multiplicación de matrices, como la mayoría de las redes neuronales convencionales, se basa en vectores que giran en un espacio multidimensional. El concepto clave es algo que ellos llaman una unidad rotacional dememoria RUM.
Esencialmente, el sistema representa cada palabra en el texto por un vector en un espacio multidimensional, una línea de cierta longitud que apunta en una dirección particular. Cada palabra posterior balancea este vector en alguna dirección, representada en un espacio teórico que finalmente puedetienen miles de dimensiones. Al final del proceso, el vector o conjunto final de vectores se traduce de nuevo a su cadena de palabras correspondiente.
"RUM ayuda a las redes neuronales a hacer dos cosas muy bien", dice Nakov. "Les ayuda a recordar mejor y les permite recordar información con mayor precisión".
Después de desarrollar el sistema RUM para ayudar con ciertos problemas físicos difíciles como el comportamiento de la luz en materiales complejos de ingeniería, "nos dimos cuenta de que uno de los lugares donde pensamos que este enfoque podría ser útil sería el procesamiento del lenguaje natural", dice Soljačić,Recordando una conversación con Tatalović, quien señaló que esa herramienta sería útil para su trabajo como editor tratando de decidir sobre qué artículos escribir. Tatalović estaba explorando la IA en el periodismo científico como su proyecto de beca Knight.
"Y así que probamos algunas tareas de procesamiento del lenguaje natural", dice Soljačić. "Una que probamos fue resumir artículos, y parece estar funcionando bastante bien".
La prueba está en la lectura
Como ejemplo, alimentaron el mismo trabajo de investigación a través de una red neuronal convencional basada en LSTM y a través de su sistema basado en RUM. Los resúmenes resultantes fueron dramáticamente diferentes.
El sistema LSTM produjo este resumen altamente repetitivo y bastante técnico: "Baylisascariasis", mata ratones, ha puesto en peligro el allegheny woodrat y ha causado enfermedades como ceguera o consecuencias graves. Esta infección, denominada "baylisascariasis", mata ratones, ha puesto en peligro el allegheny woodrat y ha causado enfermedades como ceguera o consecuencias graves.Esta infección, llamada "baylisascariasis", mata ratones, ha puesto en peligro el allegheny woodrat.
Basado en el mismo documento, el sistema RUM produjo un resumen mucho más legible, y uno que no incluía la repetición innecesaria de frases: Los mapaches urbanos pueden infectar a las personas más de lo que se suponía anteriormente. El 7 por ciento de las personas encuestadas dieron positivo por anticuerpos contra los gusanos redondos del mapache. Más del 90 por ciento de los mapaches en Santa Bárbara son anfitriones de este parásito.
El sistema basado en RUM ya se ha ampliado para que pueda "leer" documentos completos de investigación, no solo los resúmenes, para producir un resumen de sus contenidos. Los investigadores incluso han intentado usar el sistema en su propio trabajo de investigación que describeestos hallazgos: el documento que esta noticia intenta resumir.
Aquí está el resumen de la nueva red neuronal: Los investigadores han desarrollado un nuevo proceso de representación en la unidad rotacional de RUM, una memoria recurrente que puede usarse para resolver un amplio espectro de la revolución neuronal en el procesamiento del lenguaje natural.
Puede que no sea una prosa elegante, pero al menos golpea los puntos clave de información.
Çağlar Gülçehre, científico investigador de la compañía británica de inteligencia artificial Deepmind Technologies, que no participó en este trabajo, dice que esta investigación aborda un problema importante en las redes neuronales, que tiene que ver con relacionar piezas de información que están ampliamente separadas en el tiempo oespacio ". Este problema ha sido un problema fundamental en la IA debido a la necesidad de razonar sobre retrasos prolongados en las tareas de predicción de secuencias", dice. "Aunque no creo que este documento resuelva completamente este problema, muestraresultados prometedores en las tareas de dependencia a largo plazo, como la respuesta a preguntas, el resumen de texto y el recuerdo asociativo "
Gülçehre agrega: "Dado que los experimentos realizados y el modelo propuesto en este documento se publican como código abierto en Github, como resultado, muchos investigadores estarán interesados en probarlo en sus propias tareas ... Para ser más específico, potencialmente el enfoquepropuesto en este documento puede tener un impacto muy alto en los campos del procesamiento del lenguaje natural y el aprendizaje por refuerzo, donde las dependencias a largo plazo son muy cruciales ".
La investigación recibió el apoyo de la Oficina de Investigación del Ejército, la Fundación Nacional de Ciencias, la Alianza MIT-SenseTime sobre Inteligencia Artificial y la Corporación de Investigación de Semiconductores. El equipo también contó con la ayuda del sitio web Science Daily, cuyos artículos se utilizaron para capacitar a algunosde los modelos de IA en esta investigación.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por David L. Chandler. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :